2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model 文章核心内容与创新点总结主要内容本文提出一种名为推理时干预(ITI)的技术,旨在提升大型语言模型(LLMs)的真实性。该技术通过在推理过程中,沿有限注意力头的特定方向调整模型激活值,缩小模型“已知”(中间层蕴含的真实信息)与“输出”(表面生成的可能虚假内容)之间的差距。实验表明,ITI在TruthfulQA基准测试中显著提升模型表现,如将Alpaca的真实性从32.5%提升至65.1%;同时存在真实性与帮助性的权衡,可通过调整干预强度平衡。ITI具有侵入性小、计算成本低、数据效率高的特点,仅需数百个样本即可定位真实方向,无需大规模标注或微调。创新点提出推理时激活调整机制:无需修改模型权重,仅在推理阶段对特定注意力头的激活值进行定向偏移,实现真实性提升。发现注意力头的真实性特异性:识别出与真实性高度相关的稀疏注意力头子集,干预针对性强,减少对模型其他功能的影响。实现低数据高效优化:相比RLHF等需海量标注的方法,ITI仅需少量样本即可定位真实方向,降低应用成本。揭示模型内部真实表征:证实LLMs可能蕴含对真实世界的潜在认知,即使表面生成虚假内容,为后续模型可解释性研究提供依据。译文(Markdown格式)