腾讯:归纳演绎多模态上下文学习

腾讯:归纳演绎多模态上下文学习 标题Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning来源arXiv, 2605.02378v1️文章简介研究问题如何解决视觉语言模型在多模态上下文学习中存在的归纳正确性差距及视觉表征障碍主要贡献论文提出了 MMInduction 框架通过结构化归纳演绎推理和视觉优化模块显著提升了模型在复杂推理任务中的表现。重点思路设计归纳演绎思维链模板引导模型依次执行案例分析、规则提取和演绎推理并引入噪声判别机制过滤无关样本。采用监督微调结合可验证奖励的强化学习策略利用细粒度奖励函数监督模型正确识别有用案例并规范引用过程。提出基于相似度的视觉令牌剪枝模块通过计算局部语义多样性压缩冗余视觉补丁保留关键语义信息。引入动态视觉注意力机制在多层融合早期对视觉令牌进行重加权平衡模型对不同参考图像的关注分布。分析总结实验表明现有模型在逻辑推理任务中存在严重的归纳正确性差距常凭错误逻辑猜对答案而非真正掌握规则。视觉令牌冗余导致文本证据被淹没且模型注意力过度集中于首张图像阻碍了跨案例的规则提取能力。移除视觉剪枝或注意力重平衡模块会导致性能显著下降证明清晰的视觉基础是高层推理的必要前提。该方法在视觉感知、逻辑推理等多个基准测试中均优于现有基线有效逆转了增加示例数量导致性能下降的现象。个人观点论文揭示了多模态上下文学习失败的根源并非单纯的注意力机制问题而是缺乏真正的归纳推理能力。