ICML 2026|武汉大学 悉尼大学: 多模态模型越练越会想?它可能只是越练越会“猜”

ICML 2026|武汉大学  悉尼大学: 多模态模型越练越会想?它可能只是越练越会“猜” 多模态模型做题时最容易骗过人的不是答错而是答案对了理由却是编的。比如医学影像问答里模型最后选对了“肺部不健康”但中间推理却说“肺野清晰、没有异常”。如果只看最终选项样本会被当成好数据如果把推理链读完就会发现它根本没有认真看图只是靠语言经验撞上了答案。VISTA 要处理的正是多模态自训练里的盲区。现在很多多模态推理模型会用自我改进训练模型自己生成推理过程答案对的留下来再拿来训练自己。听起来很聪明但风险也藏在这里。答案正确不代表推理可靠推理流畅也不代表视觉证据充分。一旦把“猜对但没看图”的样本喂回模型模型可能不是越练越会推理而是越练越会用语言先验绕开图像。Motivation核心问题是多模态模型做自我改进时不能只用最终答案当作训练数据的质量标准。自我改进的基本流程很简单。模型先对每个问题生成多条 reasoning trace再用标准答案筛掉错误结果最后把正确样本拿去做 SFT 或偏好学习。相比人工标注推理链方式便宜、可扩展也很适合长 CoT 训练。但多模态任务多了一层麻烦。模型不只是要会推理还要把推理建立在视觉信息上。医学图像、几何图形、图表问答如果模型没看清图后面说得再像样都不可靠。作者指出自我改进在 MLLM 上会遇到两个坑。一个是数据不均衡简单题很容易采到大量正确推理难题却很难采到正确解。训练集越滚越大里面反而大多是模型已经会做的题。另一个是语言先验偏置模型靠题干、常识和数据偏见猜中答案推理链却和图像对不上。前者让模型反复练简单题后者让模型学习假推理。现象剖析答对也会错作者先观察自生成样本而不是直接堆新算法。结果很清楚难题里的正确样本明显不足。在 Geometry3K 这种更难的任务里超过 40% 的 query 没有采到任何正确解。相反SLAKE 这类相对容易的任务能产生很多正确解。筛完数据后训练样本天然偏向简单题。模型看似在自我提升其实是在反复强化已有能力。另一个现象更隐蔽答案正确的样本里仍然有不少视觉幻觉。模型会描述图里不存在的内容或者推理过程和最终答案互相打架。用最终答案筛数据时样本不会被剔除因为结果是对的。作者进一步看模型 attention发现视觉 token 虽然在上下文里占比很大但很多层里拿到的注意力很少模型反而更关注系统提示和问题文本。也就是说模型不是没有图像输入而是推理时经常被语言信息牵着走。多模态推理失败很多时候不是不会想而是没看准就开始想。核心解读先回收再筛选VISTA 的思路很顺先从失败样本里回收可用部分再从成功样本里筛掉不看图的部分。Prefix Resampling 用来解决难题样本不足。很多错误推理并不是从头错到尾前半段可能是对的只是在某个关键 token 之后开始偏离。过去的自训练方法会把整条错误轨迹丢掉VISTA 选择把前面正确的 prefix 保留下来从出错位置附近重新采样后续推理。可以把它想成学生解题。前面公式列对了后面某一步算错了真正应该做的是从出错处继续改而不是把整张草稿纸扔掉。Prefix Resampling 就是在模型自己的失败轨迹里找到“还值得保留的草稿”。VAS也就是 Vision-aware Attention Score用来判断正确样本是否真的看图。它不需要额外训练一个评判模型而是直接用 MLLM 内部 attention看推理 token 在生成时分给视觉 token 的比例。视觉关注越低越可能是靠语言先验猜出来的推理。最终VISTA 会保留两类更有价值的数据难题里重新采样出的正确解以及视觉关注更充分的正确解。这样得到的训练集不只是答案正确还更均衡、更 grounded。图表深度解读图1答案正确也可能视觉幻觉画面描述图1展示了一个医学图像问答例子。问题是判断肺部是否健康两条模型自生成推理都给出了正确答案但其中一条推理说“肺部清晰、没有异常”明显和图像里的病理特征不一致另一条推理则能指出图像中的异常区域。深度解读把多模态自训练的核心漏洞讲得很直观答案对不代表推理链真的可靠。如果只用最终答案筛选训练数据那些“猜对了但没看图”的推理也会被当成好样本继续训练。VISTA 后面设计 VAS就是为了识别这类表面正确、视觉上不 grounded 的样本。图2自我改进的两个偏差画面描述图2分三部分一部分展示每个 query 能采到多少正确解一部分展示不同难度样本在训练数据中的比例另一部分展示模型在不同层里对 system prompt、visual tokens 和 instruction tokens 的注意力分配。深度解读自我改进训练的问题不是单点失误而是数据机制本身有偏。简单题容易产生大量正确样本难题却很难采到正确解同时模型在推理时对视觉 token 的关注并不充分反而更依赖文本提示。也就是说模型一边在反复训练自己已经会的题一边又可能把“语言猜测”当成推理能力。图3VISTA 框架画面描述图3展示了 VISTA 的整体流程。前半部分是 Prefix Resampling从错误推理中找到还可用的正确前缀再重新采样后续推理后半部分是 Vision-aware Attention Score用模型内部 attention 衡量推理过程是否关注视觉信息并过滤掉低 VAS 的样本。深度解读对应 VISTA 的两步核心设计。Prefix Resampling 解决“难题样本太少”的问题VAS 解决“正确答案里混入视觉幻觉”的问题。它的重点不是简单增加样本数量而是重新定义哪些自生成推理值得继续训练不仅要答对还要尽量来自困难样本并且推理过程要真的依赖图像证据。实验结果说明了什么实验结果表明提升主要来自训练数据质量而不是简单增加采样数量。在 Qwen2.5-VL-3B 上VISTA-SFT 在 SLAKE、VQA-Rad、Geometry3K 上带来 13.66% 的平均提升在 Qwen2.5-VL-7B 上也有 6.67% 增益。相比 STaR、ReSTEM、RFT、R3VVISTA 的优势尤其体现在更难的 Geometry3K 上说明 Prefix Resampling 确实缓解了困难样本不足。模型和任务扩展后结果仍然稳定。Qwen3-VL、InternVL3-2B、InternVL3-8B 都能从 VISTA 受益ScienceQA、ChartQA 上也保持领先。它不是针对某个模型或数据集的小技巧而是适配多种 MLLM 自训练场景的数据治理方法。VAS 的实验也很有说服力。用低 VAS 样本训练模型性能会明显下降在 IllusionBench 上更容易出现幻觉用高 VAS 样本训练则能改善视觉 grounding。OOD 测试同样支持这一点基线方法迭代后常常泛化变差而 VISTA 在 PathVQA、MathVista、MMMU、BLINK、MathVerse 等测试上更稳。为什么值得关注VISTA 提醒我们多模态 reasoning 的后训练不能只追求“更多 CoT”。数据越多不一定越好如果数据里充满简单题和假推理模型反而会被带偏。对纯文本任务来说最终答案常常是一个足够强的筛选信号。多模态任务不一样。模型可能不看图也能猜中答案尤其在医学、几何、图表这些任务里语言先验经常会制造一种“看起来合理”的错觉。VISTA 给出的启发很实用自训练样本至少要同时满足三个条件——答案正确、难度结构合理、推理过程依赖视觉证据。未来 MLLM 的自我改进不能只问“答对了吗”还要问“是看图答对的吗”。总结一下VISTA 不是让模型单纯多生成几条推理链而是在修正自我改进训练里的数据选择逻辑。它把错误样本里可用的前缀回收回来让困难问题有更多训练机会再用视觉注意力筛掉“猜对但没看图”的推理减少语言先验带来的幻觉。多模态模型真正需要学的不是把答案说对而是把视觉证据、推理过程和最终结论对齐。如果继续只用答案正确来筛 CoT多模态模型可能会越来越会编理由。VISTA 的价值就在于提醒我们模型学会思考之前先得学会看。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】