摘要大型视觉语言模型LVLMs已展现出卓越的多模态理解与推理能力却仍存在严重的目标幻觉问题。现有研究大多将这一缺陷归因于模型中视觉编码器与大语言模型LLMs的规模不匹配所引发的语言先验偏差。具体而言当前的大型视觉语言模型均基于大语言模型构建这类模型往往过度依赖文本提示词和大语言模型的内部知识生成与视觉线索不符的描述内容。然而通过对幻觉生成机制的深入探究我们通过实证研究发现了一个此前被忽视的现象大型视觉语言模型产生幻觉时不仅会忽略视觉信息还会忽略文本模态我们将这种行为定义为模态偏差。这一现象表明大型视觉语言模型难以同时关注视觉和文本两种模态进而对用户给出的指令形成碎片化的理解。基于该发现我们提出一种简洁且无需额外训练的方法以缓解模型的目标幻觉问题。具体而言我们对文本令牌和视觉令牌的注意力权重进行干预与调整平衡跨模态的兼容性从而让模型更好地贴合用户意图。此外我们采用对比解码策略降低大型视觉语言模型对自身参数化知识的过度依赖与注意力调控手段形成协同效应进一步提升效果。大量实验验证了模态偏差在大型视觉语言模型中广泛存在。值得注意的是我们提出的方法能在多个开源大型视觉语言模型和基准任务上有效缓解幻觉问题充分证明了该方法的通用性与有效性。引言近年来大型视觉语言模型LVLMs白等人2023a刘等人2023朱等人2023陈等人2023在多模态推理和人机交互方面展现出前所未有的能力与极强的通用性受到学术界和工业界的广泛关注。这类模型能够处理文本 - 图像交错的输入在自动驾驶崔等人2024田等人2024、医疗健康李等人2024a徐等人2024等众多领域具备巨大的发展潜力。尽管现有大型视觉语言模型已取得亮眼的性能表现却仍存在严重的目标幻觉问题李等人2023罗尔巴赫等人2018吴等人2024。具体而言模型对于用户提供的图像中目标的存在性及属性往往存在较大的判断不确定性会生成与实际不符的幻觉式描述这一问题严重阻碍了其在实际场景中的落地应用。现有研究已深入探究了大型视觉语言模型中目标幻觉的产生机制且大多将其归因于细粒度表征不足陈等人2024c、2024a赵等人2022安等人2024和语言先验偏差刘、郑、陈2024陈等人2024b江等人2024。大型视觉语言模型的经典网络架构主要由视觉编码器和大语言模型LLMs构成二者分别负责处理图像和文本信息。现有跨模态对齐技术往往无法有效捕捉细粒度的语义关联导致模型对目标属性的准确表征与推理能力存在局限。此外大语言模型的参数量远大于视觉编码器例如 Vicuna蒋等人2023的参数量是 CLIP拉德福德等人2021的十倍以上。这种规模差异使得模型过度依赖语言知识而非视觉输入最终生成与对应图像信息不一致的内容。但这些研究均将视觉信息的缺陷视为目标幻觉的主要成因忽视了文本输入在决定模型生成结果质量中所起的关键作用。同时研究人员也投入了大量精力研发缓解大型视觉语言模型幻觉问题的策略这些策略主要通过在训练、推理和后处理三个不同阶段进行干预实现。其中最直接的方法是在后处理阶段开展干预周等人2023庄等人2024对模型生成的幻觉结果直接进行事后修正训练阶段的干预方法李等人2024b贡贾尔、尹、巴斯2024则会融入额外的高质量人工标注数据对模型进行重新训练或微调以提升其指令遵循能力当前主流的研究范式聚焦于推理阶段的干预刘等人2024c赵等人2024陈等人2024c庄等人2023通过采用多样化的解码策略、对语言偏差进行惩罚从而有效缓解幻觉问题。然而这些方法均会产生显著的增量成本包括需要额外的标注数据、增加推理时间以及重新训练或集成外部工具和模型带来的计算开销。本文旨在探究如何在不产生显著额外成本的前提下有效缓解大型视觉语言模型的目标幻觉问题。本研究基于一项实证发现大型视觉语言模型在生成与目标相关的幻觉描述时会呈现出两种截然不同的注意力模式。第一种模式下模型在令牌生成过程中主要关注视觉表征第二种模式则表现出对文本信息的偏向性。与以往强调语言先验偏差的研究王等人2024冷等人2024刘等人2024b不同本文证明大型视觉语言模型也会出现对文本信息的注意力不足问题而这同样是幻觉产生的诱因之一。值得注意的是研究中发现了一个有趣的现象我们将其定义为大型视觉语言模型中的模态偏差如图 1 所示模型生成不存在的目标幻觉时会主要关注视觉输入而忽略文本信息反之在针对目标存在性生成错误回答时则会过度依赖文本表征而无视视觉线索。这一发现与直观预期相符当用户询问某一目标是否存在时模型应优先关注文本输入中对该目标的具体描述细节同理当模型生成图像描述时则应更偏向于用户提供的视觉信息。我们将由这两种不同注意力模式引发的目标幻觉分别定义为生成式幻觉和判别式幻觉。具体而言生成式幻觉指模型生成与图像实际内容不符的目标描述判别式幻觉则指模型在回答特定目标是否存在的查询时生成与实际场景相悖的二值化答案是 / 否。模型产生生成式幻觉时会过度侧重视觉表征而产生判别式幻觉时则会更依赖文本信息。只有当模型能够同时有效关注文本和视觉表征时才能生成符合指令的准确回答避免幻觉的产生。受上述分析启发缓解目标幻觉问题的一个直观策略是让大型视觉语言模型在令牌生成过程中实现文本与视觉信息的注意力分配均衡从而消除单模态偏向性。为此本文提出了TVAI—— 一种无需训练、通过文本与视觉注意力干预Textual and Visual Attention Intervention减少目标幻觉的方法。该方法聚焦于大型视觉语言模型解码层的自注意力机制在推理阶段对分配给指令令牌的注意力权重进行调控。具体来说为缓解生成式幻觉我们在令牌生成前沿原始方向增强文本令牌的注意力权重同理通过重新校准图像令牌的注意力权重可使模型大幅减少判别式幻觉的产生。通过对注意力矩阵进行干预模型能够获得更均衡的隐藏状态进而有效降低目标幻觉的发生概率。从更宏观的角度来看该方法为未来研发通用型智能助手迈出了重要一步TVAI 提升了大型视觉语言模型对细粒度视觉和文本信息的综合融合能力使其摆脱表面化、碎片化的表征方式。与现有研究不同本文提出的方法不会产生显著的额外计算成本此外我们还突破了将目标幻觉仅归因于语言先验偏差的传统认知从全新视角对该问题进行了解读。由于 TVAI 仅在推理阶段对注意力权重进行干预因此可通用适配所有大型视觉语言模型的各类解码策略。本文在四款主流的大型视觉语言模型上开展了大量实验实验结果验证了所提方法在缓解幻觉问题上的优异性能。研究分别采用 CHAIR 和 POPE 基准数据集评估模型在长序列生成和视觉问答VQA任务中的准确率并借助 MMBench 基准数据集评估模型的综合能力以此全面验证 TVAI 的抗幻觉效果。综上本文的主要贡献可总结如下发现了大型视觉语言模型产生幻觉时的两种截然不同的注意力模式 —— 以图像为中心和以文本为中心揭示了模态偏差是引发目标幻觉的主要诱因提出了一种无需训练的幻觉缓解方法通过在推理阶段调控注意力权重确保模型的生成结果更贴合用户的指令要求大量实验验证TVAI 能够在不增加数据需求、不产生显著计算开销的前提下有效缓解大型视觉语言模型的幻觉问题方法预备知识大语言视觉模型LVLMs通常由三个核心组件组成视觉编码器visual encoder、投影器projector和语言解码器language decoder。在推理过程中视觉编码器将用户提供的图像编码为图像 Token随后通过投影器映射到文本表示空间。这些图像 Token 与文本 Token 拼接后送入语言解码器以生成相应的回复。目前最尖端的语言解码器主要由个 Transformer 块组成其中多头自注意力机制multi-head self-attention在生成准确遵循用户指令的回复中起着至关重要的作用。我们定义每个 Block 包含 $n_H$ 个注意力头第 $l$ 层中第 $h$ 个头的自注意力操作可以公式化如下在第 $l$ 层 Transformer 块中每个注意力头 $h$ 都有其对应的查询矩阵 $Q_{l,h}$、键矩阵 $K_{l,h}$ 和值矩阵 $V_{l,h}$其维度均为其中 $n$ 代表输入序列长度$d_k$ 表示隐藏状态的维度。注意力矩阵由 $Q$ 和 $K$ 的乘积计算得出其中每一行代表一个 Token 在信息整合过程中相对于所有其他 Token 的注意力权重。$V_{l,h}$ 的每一行封装了嵌入在 Token 中的表示而注意力矩阵 $A_{l,h}$ 与 $V_{l,h}$ 的乘积则计算出每个独立 Token 对所有 Token 的加权和 $O_{l,h}$。换句话说在 LVLMs 的推理阶段每个生成的 Token 都是基于对用户提供的文本 Token、图像 Token以及历史生成 Token应用注意力权重后导出的特征融合。在多头注意力机制中所有头的输出被拼接并使用权重矩阵进行线性投影以产生最终结果。经过多次自注意力迭代后得出最终隐藏状态。在生成第 k 个 Token 时最终隐藏状态通过全连接层映射到词表空间产生条件概率分布其中 v 表示词表大小表示在第 k步生成的 Token。生成型幻觉与判别型幻觉 (Generative and Discriminative Hallucinations)在生成第 k个 Token 时输入文本、图像和历史生成信息被输入语言解码器。为了实证研究与“生成型”及“判别型”幻觉相关的两种不同注意力模式我们引入了两个指标文本注意力占比TAR和视觉注意力占比VAR。这些指标量化了在 Token 生成期间分配给指令中文本和图像 Token 的注意力定义如下TAR 和 VAR 分别量化了新生成的第k个 Token 对输入文本和图像 Token 的累计注意力。在图 1 中我们提供了两个示例来展示不同的注意力模式以视觉为中心和以文本为中心。为了更全面地验证这一现象在 LVLMs 中的普遍性我们使用两个广泛认可的开源模型LLaVA-1.5 和 Qwen-VL-Chat在 COCO 数据集上进行了实验。实验结果表明LVLMs 中存在两种截然不同的注意力模式一种主要关注视觉表示另一种主要关注文本信息。这反映了模型倾向于独立处理不同模态而非以整合的方式进行处理。这一现象符合直觉预期即 LVLMs 应该对文本和视觉指令分配均衡且具备模态感知的注意力而忽视任何一种模态都可能导致语义不一致和幻觉的发生。文本与视觉注意力干预 (Textual and Visual Attention Intervention)受上述经验性分析结果的启发一个直观的想法是在推理阶段调整TAR文本注意力占比和VAR视觉注意力占比从而减轻模型在生成 Token 时过度偏向单一模态的倾向。因此我们的目标是确定用于操纵注意力权重的可靠方向和最佳激励位置。Jiang 等人2024通过增加同层内所有注意力头的平均绝对值来增强视觉注意力分数从而改善了不同注意力头对同一图像区域的对齐。Chen 等人2024a对图像区域应用高斯模糊以推导出激活偏移向量随后训练一个额外的分类器来确定哪些注意力头需要激活干预。相比之下我们认为 LVLMs 的视觉编码器和语言解码器已经在海量数据集上进行了预训练分别赋予了它们对图像和文本输入的强大理解能力。因此通过沿原始注意力方向直接增强图像和文本 Token 的注意力权重可以引导模型给出更可靠的回复。这种通过直接操纵文本和视觉注意力来减轻单模态偏见的方法可以表示如下其中分别控制 TAR 和 VAR 激励的步长。需要注意的是我们在Softmax 操作之前对注意力权重进行干预。此外当注意力分布是非冗余non-redundant时增强文本和图像 Token 的注意力权重无法达到预期效果因为大部分注意力已经主要集中在用户指令上。相反在存在冗余注意力的情况下LVLMs 中会出现明显的注意力汇聚Attention Sink模式。在浅层网络中这种现象通常不存在因为模型优先编码语义丰富的信息。然而在深层网络中随着隐藏状态逐渐趋于稳定注意力汇聚模式随之出现这标志着注意力冗余的发生。因此我们的注意力操纵专门应用于注意力汇聚现象出现之后从而有效增强生成过程中文本和视觉 Token 的影响力。以 Qwen-VL-Chat 为例图 4 显示了每个解码器层中 TAR 和 VAR 的平均值。文本与视觉注意力干预的最佳激励位置是由生成型幻觉与判别型幻觉之间注意力模式的分歧点决定的。对比解码 (Contrastive Decoding)图 2 展示了我们提出的TVAI 框架的概览。如图所示当应用文本与视觉注意力干预TVAI时正确 Token 的条件概率会增加因为 LVLMs 在生成过程中能更有效地受到用户指令的引导。然而由于在海量数据上进行了预训练LVLMs 仍然表现出对其内部参数化知识的过度依赖这可能导致幻觉。为了解决这个问题我们提出了一种对比解码策略在推理过程中强化 TVAI 的效果减少模型对错误常识先验的依赖并进一步增强其缓解幻觉的能力。最终 LVLMs 在每个生成步的条件概率如下式所示其中控制对比解码的强度表示采用 TVAI 后从修改后的注意力图生成的 Token 概率则对应于原始注意力权重导出的原始输出。实验实验设置模型为验证本文方法的有效性和泛化能力采用4种主流开源大型视觉语言模型LVLMs分别为 LLaVA-1.5Liu 等人2024a、通义千问视觉对话模型Qwen-VL-ChatBai 等人2023a、MiniGPT-4Zhu 等人2023以及 ShikraChen 等人2023。基线方法基线模型选用原始大型视觉语言模型同时引入3种当前最优的幻觉抑制方法OPERAHuang 等人2024、VCDLeng 等人2024和 PAILiu、Zheng 与 Chen2024。具体实现细节参见补充材料。评测数据集与指标本文选取两套专门用于幻觉评测的经典数据集 **CHAIR**Rohrbach 等人2018和 **POPE**Li 等人2023作为基准客观、全面地验证所提方法的效果。 CHAIR 用于评估图像描述任务中的目标幻觉问题。该指标统计生成描述中出现、但真实标注中不存在的目标占比。如公式10、11所示CHAIR 包含两个子指标分别用于评估实例级和句子级幻觉。 此外本文采用 **MMBench**Liu 等人2024d评估模型的综合能力兼顾幻觉抑制效果与模型整体性能的全面验证。 CHAIR 指标数值越小说明基于图像描述的目标幻觉抑制效果越好。POPE 则评估大型视觉语言模型的目标判别能力采用准确率和 F1 值作为评价指标参照 Liu、Zheng 与 Chen2024。对于 MMBench分别采用总体平均准确率、宏平均精确率、召回率和 F1 值评测其中文子集与英文子集。实验结果长文本生成任务该任务要求大型视觉语言模型对输入图像生成完整、准确的描述。本文在 LLaVA-1.5、MiniGPT-4、Shikra 三款主流开源模型上验证所提 TVAI 方法。实验结果如表1所示TVAI 在所有模型中均取得最优性能。 结合 CHAIR 指标可以看出嵌入 TVAI 的模型其实例级和句子级目标幻觉均大幅降低。表1同时列出 TVAI 在不同参数设置下的多种组合方案。对比结果表明TVAI 既能实现当前最优的幻觉抑制效果又可以保留甚至小幅提升原始模型的综合能力。由此证明该干预框架能够有效提升大型视觉语言模型生成内容的真实性且鲁棒性良好。视觉问答任务 该任务考验模型对图像的理解能力以及针对视觉内容作答的能力。沿用图像描述任务的评测体系在 LLaVA-1.5、MiniGPT-4、Shikra 三款模型上对比现有最优方法与 TVAI 方法结果如表2所示。由表可见TVAI 在视觉问答VQA任务中表现始终领先。实验基于 POPE 基准量化模型效果采用准确率和 F1 值衡量模型判断图像中目标是否存在的能力。POPE 包含三种测试场景随机场景、热门场景、对抗场景。其中对抗场景难度最高——样本包含与视觉场景强相关、但实际不存在的目标容易诱导模型依赖固有知识作答、而非依托图像真实内容。表2仅列出对抗场景下的实验数据。结果显示搭载 TVAI 的模型性能显著优于原始模型及其他主流幻觉抑制方法。综合能力评测 除验证 TVAI 的幻觉抑制效果外基于 MMBench 基准测试该方法是否影响模型的基础能力。如表3所示TVAI 能够完好保留原始模型的固有能力部分场景下还实现性能提升。原因在于 TVAI 引导模型同时关注用户指令中的多模态信息强化模型感知能力。实验说明大型视觉语言模型中的模态偏置会严重削弱模型的感知效果。消融实验如表1所示简化版模型与完整 TVAI 模型存在稳定性能差距。TVAI 同时调控文本注意力与视觉注意力体现了多模态干预的互补性与协同性。模型输出依赖视觉信息与文本指令的双重约束单一模态增强反而会加剧模态偏置。 为量化该规律在 LLaVA-1.5 的长文本生成任务中调节文本/视觉注意力干预权重表4左固定视觉权重 β增大文本权重 α幻觉抑制效果逐步提升但当 α1 时幻觉最少、F1 值却出现失衡存在过度校正风险。因此主实验中LLaVA-1.5 设定参数 α0.93、β0.5。受模型结构、训练方式、视觉词数量差异如 LLaVA-1.5 含576个视觉词MiniGPT-4 仅32个影响其他模型最优超参数详见补充材料。 此外针对 TVAI 中的对比解码模块开展实验。该模块在推理阶段强化注意力调控。在图像描述任务中基于 LLaVA-1.5 和 MiniGPT-4调节对比解码参数 γ表4中、右。结果验证模块有效性γ 越大幻觉抑制效果越好。但 TVAI 属于无训练推理优化方法不微调基础模型γ 过大会偏离模型原生生成逻辑破坏精确率与召回率平衡降低输出可信度。因此合理选取 γ是保证 TVAI 稳定、有效的关键。 ## 泛化性分析 图1基于 LLaVA-1.5 展示大型视觉语言模型的模态偏置现象。为验证泛化能力图4分析 Qwen-VL-Chat 中生成类、判别类幻觉词的注意力分布发现该模型同样存在严重模态偏置。图3对比幻觉词与非幻觉词的注意力分布非幻觉词的文本注意力与视觉注意力分布更均衡模态偏置更低。基于普遍存在的模态偏置问题TVAI 能够广泛提升各类大型视觉语言模型的输出可靠性。结论本文探究了大型视觉语言模型幻觉产生的底层机理明确核心诱因——**模态偏置**即模型过度依赖单一视觉或文本模态是现有模型的共性问题。针对该问题提出无需训练、简单高效的幻觉抑制方法 TVAI。该方法引导模型对齐用户指令提升生成内容真实度减少无效幻觉信息。实验证明TVAI 可有效优化大型视觉语言模型的多模态推理能力具备良好的实际应用价值。评价感觉吃了一个巧克力味的这么好的发现做法就乘了个缩放系数maybe实验很强后续我会泡一下baseline。
【论文阅读】Modality Bias in LVLMs:Analyzing and Mitigating Object Hallucination via Attention Lens
摘要大型视觉语言模型LVLMs已展现出卓越的多模态理解与推理能力却仍存在严重的目标幻觉问题。现有研究大多将这一缺陷归因于模型中视觉编码器与大语言模型LLMs的规模不匹配所引发的语言先验偏差。具体而言当前的大型视觉语言模型均基于大语言模型构建这类模型往往过度依赖文本提示词和大语言模型的内部知识生成与视觉线索不符的描述内容。然而通过对幻觉生成机制的深入探究我们通过实证研究发现了一个此前被忽视的现象大型视觉语言模型产生幻觉时不仅会忽略视觉信息还会忽略文本模态我们将这种行为定义为模态偏差。这一现象表明大型视觉语言模型难以同时关注视觉和文本两种模态进而对用户给出的指令形成碎片化的理解。基于该发现我们提出一种简洁且无需额外训练的方法以缓解模型的目标幻觉问题。具体而言我们对文本令牌和视觉令牌的注意力权重进行干预与调整平衡跨模态的兼容性从而让模型更好地贴合用户意图。此外我们采用对比解码策略降低大型视觉语言模型对自身参数化知识的过度依赖与注意力调控手段形成协同效应进一步提升效果。大量实验验证了模态偏差在大型视觉语言模型中广泛存在。值得注意的是我们提出的方法能在多个开源大型视觉语言模型和基准任务上有效缓解幻觉问题充分证明了该方法的通用性与有效性。引言近年来大型视觉语言模型LVLMs白等人2023a刘等人2023朱等人2023陈等人2023在多模态推理和人机交互方面展现出前所未有的能力与极强的通用性受到学术界和工业界的广泛关注。这类模型能够处理文本 - 图像交错的输入在自动驾驶崔等人2024田等人2024、医疗健康李等人2024a徐等人2024等众多领域具备巨大的发展潜力。尽管现有大型视觉语言模型已取得亮眼的性能表现却仍存在严重的目标幻觉问题李等人2023罗尔巴赫等人2018吴等人2024。具体而言模型对于用户提供的图像中目标的存在性及属性往往存在较大的判断不确定性会生成与实际不符的幻觉式描述这一问题严重阻碍了其在实际场景中的落地应用。现有研究已深入探究了大型视觉语言模型中目标幻觉的产生机制且大多将其归因于细粒度表征不足陈等人2024c、2024a赵等人2022安等人2024和语言先验偏差刘、郑、陈2024陈等人2024b江等人2024。大型视觉语言模型的经典网络架构主要由视觉编码器和大语言模型LLMs构成二者分别负责处理图像和文本信息。现有跨模态对齐技术往往无法有效捕捉细粒度的语义关联导致模型对目标属性的准确表征与推理能力存在局限。此外大语言模型的参数量远大于视觉编码器例如 Vicuna蒋等人2023的参数量是 CLIP拉德福德等人2021的十倍以上。这种规模差异使得模型过度依赖语言知识而非视觉输入最终生成与对应图像信息不一致的内容。但这些研究均将视觉信息的缺陷视为目标幻觉的主要成因忽视了文本输入在决定模型生成结果质量中所起的关键作用。同时研究人员也投入了大量精力研发缓解大型视觉语言模型幻觉问题的策略这些策略主要通过在训练、推理和后处理三个不同阶段进行干预实现。其中最直接的方法是在后处理阶段开展干预周等人2023庄等人2024对模型生成的幻觉结果直接进行事后修正训练阶段的干预方法李等人2024b贡贾尔、尹、巴斯2024则会融入额外的高质量人工标注数据对模型进行重新训练或微调以提升其指令遵循能力当前主流的研究范式聚焦于推理阶段的干预刘等人2024c赵等人2024陈等人2024c庄等人2023通过采用多样化的解码策略、对语言偏差进行惩罚从而有效缓解幻觉问题。然而这些方法均会产生显著的增量成本包括需要额外的标注数据、增加推理时间以及重新训练或集成外部工具和模型带来的计算开销。本文旨在探究如何在不产生显著额外成本的前提下有效缓解大型视觉语言模型的目标幻觉问题。本研究基于一项实证发现大型视觉语言模型在生成与目标相关的幻觉描述时会呈现出两种截然不同的注意力模式。第一种模式下模型在令牌生成过程中主要关注视觉表征第二种模式则表现出对文本信息的偏向性。与以往强调语言先验偏差的研究王等人2024冷等人2024刘等人2024b不同本文证明大型视觉语言模型也会出现对文本信息的注意力不足问题而这同样是幻觉产生的诱因之一。值得注意的是研究中发现了一个有趣的现象我们将其定义为大型视觉语言模型中的模态偏差如图 1 所示模型生成不存在的目标幻觉时会主要关注视觉输入而忽略文本信息反之在针对目标存在性生成错误回答时则会过度依赖文本表征而无视视觉线索。这一发现与直观预期相符当用户询问某一目标是否存在时模型应优先关注文本输入中对该目标的具体描述细节同理当模型生成图像描述时则应更偏向于用户提供的视觉信息。我们将由这两种不同注意力模式引发的目标幻觉分别定义为生成式幻觉和判别式幻觉。具体而言生成式幻觉指模型生成与图像实际内容不符的目标描述判别式幻觉则指模型在回答特定目标是否存在的查询时生成与实际场景相悖的二值化答案是 / 否。模型产生生成式幻觉时会过度侧重视觉表征而产生判别式幻觉时则会更依赖文本信息。只有当模型能够同时有效关注文本和视觉表征时才能生成符合指令的准确回答避免幻觉的产生。受上述分析启发缓解目标幻觉问题的一个直观策略是让大型视觉语言模型在令牌生成过程中实现文本与视觉信息的注意力分配均衡从而消除单模态偏向性。为此本文提出了TVAI—— 一种无需训练、通过文本与视觉注意力干预Textual and Visual Attention Intervention减少目标幻觉的方法。该方法聚焦于大型视觉语言模型解码层的自注意力机制在推理阶段对分配给指令令牌的注意力权重进行调控。具体来说为缓解生成式幻觉我们在令牌生成前沿原始方向增强文本令牌的注意力权重同理通过重新校准图像令牌的注意力权重可使模型大幅减少判别式幻觉的产生。通过对注意力矩阵进行干预模型能够获得更均衡的隐藏状态进而有效降低目标幻觉的发生概率。从更宏观的角度来看该方法为未来研发通用型智能助手迈出了重要一步TVAI 提升了大型视觉语言模型对细粒度视觉和文本信息的综合融合能力使其摆脱表面化、碎片化的表征方式。与现有研究不同本文提出的方法不会产生显著的额外计算成本此外我们还突破了将目标幻觉仅归因于语言先验偏差的传统认知从全新视角对该问题进行了解读。由于 TVAI 仅在推理阶段对注意力权重进行干预因此可通用适配所有大型视觉语言模型的各类解码策略。本文在四款主流的大型视觉语言模型上开展了大量实验实验结果验证了所提方法在缓解幻觉问题上的优异性能。研究分别采用 CHAIR 和 POPE 基准数据集评估模型在长序列生成和视觉问答VQA任务中的准确率并借助 MMBench 基准数据集评估模型的综合能力以此全面验证 TVAI 的抗幻觉效果。综上本文的主要贡献可总结如下发现了大型视觉语言模型产生幻觉时的两种截然不同的注意力模式 —— 以图像为中心和以文本为中心揭示了模态偏差是引发目标幻觉的主要诱因提出了一种无需训练的幻觉缓解方法通过在推理阶段调控注意力权重确保模型的生成结果更贴合用户的指令要求大量实验验证TVAI 能够在不增加数据需求、不产生显著计算开销的前提下有效缓解大型视觉语言模型的幻觉问题方法预备知识大语言视觉模型LVLMs通常由三个核心组件组成视觉编码器visual encoder、投影器projector和语言解码器language decoder。在推理过程中视觉编码器将用户提供的图像编码为图像 Token随后通过投影器映射到文本表示空间。这些图像 Token 与文本 Token 拼接后送入语言解码器以生成相应的回复。目前最尖端的语言解码器主要由个 Transformer 块组成其中多头自注意力机制multi-head self-attention在生成准确遵循用户指令的回复中起着至关重要的作用。我们定义每个 Block 包含 $n_H$ 个注意力头第 $l$ 层中第 $h$ 个头的自注意力操作可以公式化如下在第 $l$ 层 Transformer 块中每个注意力头 $h$ 都有其对应的查询矩阵 $Q_{l,h}$、键矩阵 $K_{l,h}$ 和值矩阵 $V_{l,h}$其维度均为其中 $n$ 代表输入序列长度$d_k$ 表示隐藏状态的维度。注意力矩阵由 $Q$ 和 $K$ 的乘积计算得出其中每一行代表一个 Token 在信息整合过程中相对于所有其他 Token 的注意力权重。$V_{l,h}$ 的每一行封装了嵌入在 Token 中的表示而注意力矩阵 $A_{l,h}$ 与 $V_{l,h}$ 的乘积则计算出每个独立 Token 对所有 Token 的加权和 $O_{l,h}$。换句话说在 LVLMs 的推理阶段每个生成的 Token 都是基于对用户提供的文本 Token、图像 Token以及历史生成 Token应用注意力权重后导出的特征融合。在多头注意力机制中所有头的输出被拼接并使用权重矩阵进行线性投影以产生最终结果。经过多次自注意力迭代后得出最终隐藏状态。在生成第 k 个 Token 时最终隐藏状态通过全连接层映射到词表空间产生条件概率分布其中 v 表示词表大小表示在第 k步生成的 Token。生成型幻觉与判别型幻觉 (Generative and Discriminative Hallucinations)在生成第 k个 Token 时输入文本、图像和历史生成信息被输入语言解码器。为了实证研究与“生成型”及“判别型”幻觉相关的两种不同注意力模式我们引入了两个指标文本注意力占比TAR和视觉注意力占比VAR。这些指标量化了在 Token 生成期间分配给指令中文本和图像 Token 的注意力定义如下TAR 和 VAR 分别量化了新生成的第k个 Token 对输入文本和图像 Token 的累计注意力。在图 1 中我们提供了两个示例来展示不同的注意力模式以视觉为中心和以文本为中心。为了更全面地验证这一现象在 LVLMs 中的普遍性我们使用两个广泛认可的开源模型LLaVA-1.5 和 Qwen-VL-Chat在 COCO 数据集上进行了实验。实验结果表明LVLMs 中存在两种截然不同的注意力模式一种主要关注视觉表示另一种主要关注文本信息。这反映了模型倾向于独立处理不同模态而非以整合的方式进行处理。这一现象符合直觉预期即 LVLMs 应该对文本和视觉指令分配均衡且具备模态感知的注意力而忽视任何一种模态都可能导致语义不一致和幻觉的发生。文本与视觉注意力干预 (Textual and Visual Attention Intervention)受上述经验性分析结果的启发一个直观的想法是在推理阶段调整TAR文本注意力占比和VAR视觉注意力占比从而减轻模型在生成 Token 时过度偏向单一模态的倾向。因此我们的目标是确定用于操纵注意力权重的可靠方向和最佳激励位置。Jiang 等人2024通过增加同层内所有注意力头的平均绝对值来增强视觉注意力分数从而改善了不同注意力头对同一图像区域的对齐。Chen 等人2024a对图像区域应用高斯模糊以推导出激活偏移向量随后训练一个额外的分类器来确定哪些注意力头需要激活干预。相比之下我们认为 LVLMs 的视觉编码器和语言解码器已经在海量数据集上进行了预训练分别赋予了它们对图像和文本输入的强大理解能力。因此通过沿原始注意力方向直接增强图像和文本 Token 的注意力权重可以引导模型给出更可靠的回复。这种通过直接操纵文本和视觉注意力来减轻单模态偏见的方法可以表示如下其中分别控制 TAR 和 VAR 激励的步长。需要注意的是我们在Softmax 操作之前对注意力权重进行干预。此外当注意力分布是非冗余non-redundant时增强文本和图像 Token 的注意力权重无法达到预期效果因为大部分注意力已经主要集中在用户指令上。相反在存在冗余注意力的情况下LVLMs 中会出现明显的注意力汇聚Attention Sink模式。在浅层网络中这种现象通常不存在因为模型优先编码语义丰富的信息。然而在深层网络中随着隐藏状态逐渐趋于稳定注意力汇聚模式随之出现这标志着注意力冗余的发生。因此我们的注意力操纵专门应用于注意力汇聚现象出现之后从而有效增强生成过程中文本和视觉 Token 的影响力。以 Qwen-VL-Chat 为例图 4 显示了每个解码器层中 TAR 和 VAR 的平均值。文本与视觉注意力干预的最佳激励位置是由生成型幻觉与判别型幻觉之间注意力模式的分歧点决定的。对比解码 (Contrastive Decoding)图 2 展示了我们提出的TVAI 框架的概览。如图所示当应用文本与视觉注意力干预TVAI时正确 Token 的条件概率会增加因为 LVLMs 在生成过程中能更有效地受到用户指令的引导。然而由于在海量数据上进行了预训练LVLMs 仍然表现出对其内部参数化知识的过度依赖这可能导致幻觉。为了解决这个问题我们提出了一种对比解码策略在推理过程中强化 TVAI 的效果减少模型对错误常识先验的依赖并进一步增强其缓解幻觉的能力。最终 LVLMs 在每个生成步的条件概率如下式所示其中控制对比解码的强度表示采用 TVAI 后从修改后的注意力图生成的 Token 概率则对应于原始注意力权重导出的原始输出。实验实验设置模型为验证本文方法的有效性和泛化能力采用4种主流开源大型视觉语言模型LVLMs分别为 LLaVA-1.5Liu 等人2024a、通义千问视觉对话模型Qwen-VL-ChatBai 等人2023a、MiniGPT-4Zhu 等人2023以及 ShikraChen 等人2023。基线方法基线模型选用原始大型视觉语言模型同时引入3种当前最优的幻觉抑制方法OPERAHuang 等人2024、VCDLeng 等人2024和 PAILiu、Zheng 与 Chen2024。具体实现细节参见补充材料。评测数据集与指标本文选取两套专门用于幻觉评测的经典数据集 **CHAIR**Rohrbach 等人2018和 **POPE**Li 等人2023作为基准客观、全面地验证所提方法的效果。 CHAIR 用于评估图像描述任务中的目标幻觉问题。该指标统计生成描述中出现、但真实标注中不存在的目标占比。如公式10、11所示CHAIR 包含两个子指标分别用于评估实例级和句子级幻觉。 此外本文采用 **MMBench**Liu 等人2024d评估模型的综合能力兼顾幻觉抑制效果与模型整体性能的全面验证。 CHAIR 指标数值越小说明基于图像描述的目标幻觉抑制效果越好。POPE 则评估大型视觉语言模型的目标判别能力采用准确率和 F1 值作为评价指标参照 Liu、Zheng 与 Chen2024。对于 MMBench分别采用总体平均准确率、宏平均精确率、召回率和 F1 值评测其中文子集与英文子集。实验结果长文本生成任务该任务要求大型视觉语言模型对输入图像生成完整、准确的描述。本文在 LLaVA-1.5、MiniGPT-4、Shikra 三款主流开源模型上验证所提 TVAI 方法。实验结果如表1所示TVAI 在所有模型中均取得最优性能。 结合 CHAIR 指标可以看出嵌入 TVAI 的模型其实例级和句子级目标幻觉均大幅降低。表1同时列出 TVAI 在不同参数设置下的多种组合方案。对比结果表明TVAI 既能实现当前最优的幻觉抑制效果又可以保留甚至小幅提升原始模型的综合能力。由此证明该干预框架能够有效提升大型视觉语言模型生成内容的真实性且鲁棒性良好。视觉问答任务 该任务考验模型对图像的理解能力以及针对视觉内容作答的能力。沿用图像描述任务的评测体系在 LLaVA-1.5、MiniGPT-4、Shikra 三款模型上对比现有最优方法与 TVAI 方法结果如表2所示。由表可见TVAI 在视觉问答VQA任务中表现始终领先。实验基于 POPE 基准量化模型效果采用准确率和 F1 值衡量模型判断图像中目标是否存在的能力。POPE 包含三种测试场景随机场景、热门场景、对抗场景。其中对抗场景难度最高——样本包含与视觉场景强相关、但实际不存在的目标容易诱导模型依赖固有知识作答、而非依托图像真实内容。表2仅列出对抗场景下的实验数据。结果显示搭载 TVAI 的模型性能显著优于原始模型及其他主流幻觉抑制方法。综合能力评测 除验证 TVAI 的幻觉抑制效果外基于 MMBench 基准测试该方法是否影响模型的基础能力。如表3所示TVAI 能够完好保留原始模型的固有能力部分场景下还实现性能提升。原因在于 TVAI 引导模型同时关注用户指令中的多模态信息强化模型感知能力。实验说明大型视觉语言模型中的模态偏置会严重削弱模型的感知效果。消融实验如表1所示简化版模型与完整 TVAI 模型存在稳定性能差距。TVAI 同时调控文本注意力与视觉注意力体现了多模态干预的互补性与协同性。模型输出依赖视觉信息与文本指令的双重约束单一模态增强反而会加剧模态偏置。 为量化该规律在 LLaVA-1.5 的长文本生成任务中调节文本/视觉注意力干预权重表4左固定视觉权重 β增大文本权重 α幻觉抑制效果逐步提升但当 α1 时幻觉最少、F1 值却出现失衡存在过度校正风险。因此主实验中LLaVA-1.5 设定参数 α0.93、β0.5。受模型结构、训练方式、视觉词数量差异如 LLaVA-1.5 含576个视觉词MiniGPT-4 仅32个影响其他模型最优超参数详见补充材料。 此外针对 TVAI 中的对比解码模块开展实验。该模块在推理阶段强化注意力调控。在图像描述任务中基于 LLaVA-1.5 和 MiniGPT-4调节对比解码参数 γ表4中、右。结果验证模块有效性γ 越大幻觉抑制效果越好。但 TVAI 属于无训练推理优化方法不微调基础模型γ 过大会偏离模型原生生成逻辑破坏精确率与召回率平衡降低输出可信度。因此合理选取 γ是保证 TVAI 稳定、有效的关键。 ## 泛化性分析 图1基于 LLaVA-1.5 展示大型视觉语言模型的模态偏置现象。为验证泛化能力图4分析 Qwen-VL-Chat 中生成类、判别类幻觉词的注意力分布发现该模型同样存在严重模态偏置。图3对比幻觉词与非幻觉词的注意力分布非幻觉词的文本注意力与视觉注意力分布更均衡模态偏置更低。基于普遍存在的模态偏置问题TVAI 能够广泛提升各类大型视觉语言模型的输出可靠性。结论本文探究了大型视觉语言模型幻觉产生的底层机理明确核心诱因——**模态偏置**即模型过度依赖单一视觉或文本模态是现有模型的共性问题。针对该问题提出无需训练、简单高效的幻觉抑制方法 TVAI。该方法引导模型对齐用户指令提升生成内容真实度减少无效幻觉信息。实验证明TVAI 可有效优化大型视觉语言模型的多模态推理能力具备良好的实际应用价值。评价感觉吃了一个巧克力味的这么好的发现做法就乘了个缩放系数maybe实验很强后续我会泡一下baseline。