2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

发布时间：2026/5/21 22:28:23

2025_NIPS_Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

文章核心内容与创新点总结主要内容本文提出一种名为推理时干预（ITI）的技术，旨在提升大型语言模型（LLMs）的真实性。该技术通过在推理过程中，沿有限注意力头的特定方向调整模型激活值，缩小模型“已知”（中间层蕴含的真实信息）与“输出”（表面生成的可能虚假内容）之间的差距。实验表明，ITI在TruthfulQA基准测试中显著提升模型表现，如将Alpaca的真实性从32.5%提升至65.1%；同时存在真实性与帮助性的权衡，可通过调整干预强度平衡。ITI具有侵入性小、计算成本低、数据效率高的特点，仅需数百个样本即可定位真实方向，无需大规模标注或微调。创新点提出推理时激活调整机制：无需修改模型权重，仅在推理阶段对特定注意力头的激活值进行定向偏移，实现真实性提升。发现注意力头的真实性特异性：识别出与真实性高度相关的稀疏注意力头子集，干预针对性强，减少对模型其他功能的影响。实现低数据高效优化：相比RLHF等需海量标注的方法，ITI仅需少量样本即可定位真实方向，降低应用成本。揭示模型内部真实表征：证实LLMs可能蕴含对真实世界的潜在认知，即使表面生成虚假内容，为后续模型可解释性研究提供依据。译文（Markdown格式）