中山大学等机构揭示多模态推理模型的视觉理解盲区-尧图企业网站定制

这项由中山大学、苏黎世联邦理工学院与华为技术有限公司联合完成的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.09266已被接受为ICML 2026第三届AI for Math研讨会的参赛挑战赛题目。你有没有遇到过这样的情形把一道题目大声读给朋友听他能答对但换成把题目写在纸上让他自己看同一道题他却答错了内容完全一样只是表达方式变了答题表现却大相径庭。这件事放在人身上已经够奇怪了放在被誉为下一代智能体的AI大模型身上同样的问题更加严重甚至成了这类系统能否真正理解物理世界的核心考验。研究团队注意到当前的主流AI视觉推理模型也就是那些既能看图又能读文字并回答问题的模型学术上叫多模态大语言模型英文缩写为MLLM在各类榜单上的成绩越来越亮眼但有一个根本问题始终没有被严肃检验过当题目的核心信息从文字转移到图像时这些模型是否还能保持同样的推理能力简单说它们是真看懂了还是靠文字猜对了答案为了回答这个问题研究团队设计了一套名为SEEPHYS PRO的评测基准专门检验AI模型在信息逐步从文字迁移到图像过程中的推理稳定性。与此同时他们还构建了用于强化学习训练的物理题目数据集并发现了一个令人意外的现象即便把训练时所有的图片全部遮黑模型依然能在有图的测试集上提升成绩——这意味着很多时候所谓的视觉推理进步其实可能只是模型学会了利用文字模板和统计规律蒙题而不是真正学会了看图。---一、同一道物理题换个皮肤就难倒AI物理题是这项研究选择的主战场原因相当充分。在物理题中图像往往不只是装饰而是题目本身的核心组成部分。一张电路图描述的是元件之间的连接关系一张受力分析图标注的是力的方向和大小一张光路图画出的是光线的传播路径。这些信息如果全用文字来描述虽然也能做到但一旦迁移进图像模型就必须真的看懂才能解题而不是靠猜词或者背模板。研究团队把这套评测体系的核心理念概括为同一道物理题不同的表达方式。每一道种子题目都会被改造成四个版本它们描述的是完全相同的物理系统使用完全相同的物理量答案和解题路径也完全相同唯一不同的是信息如何分配在文字和图像之间。第一个版本称为L1是纯文字版所有的结构关系、变量和数值都用语言描述没有任何图像。第二个版本L2叫做结构入图物理系统的结构比如电路的连接方式、滑轮的布置方式被画进图里但具体的数值标注仍然保留在文字中。第三个版本L3叫做变量入图不仅结构画进图里变量和数值标注也直接写在图上文字部分只保留问题本身。第四个版本L4则是完全视觉化连题目文字都被转成手写体嵌入图像整道题就是一张包含手写文字、公式和图表的综合图片。这四个版本像是同一套乐谱的四种不同演奏形式钢琴独奏、弦乐四重奏、管弦乐编配、现场手写总谱。核心旋律没有变但演奏的介质越来越依赖视觉解读能力。如果一个音乐家真的懂这首曲子理论上无论哪种版本都能演奏。但如果他只是背下了钢琴键的顺序换一种介质就会立刻手足无措。研究团队从教材、题库、奥林匹克物理竞赛、大学入学考试和博士资格考试中收集了超过5000页的原始题目经过10位工程背景的标注人员7位本科生和3位博士生的筛选、改写和手工绘图最终形成了包含1000道种子题目、4000个对齐版本的评测集。覆盖力学、电磁学、光学、热力学、波动声学和近代物理六大领域细分到38个二级领域和104个三级领域答题形式包括数值计算、选择题、方程和表达式四种类型。---二、模型的真实表现越视觉化越不稳评测结果让人警醒。研究团队测试了10个闭源的前沿模型包括GPT-5.4、GPT-5、Gemini-3.1-Pro、Claude-4.7-Opus等知名系统和5个开源模型并邀请了100名中国高中生作为人类参照。从整体均值来看所有模型在纯文字的L1版本上平均正确率约为49.2%而在完全视觉化的L4版本上这个数字跌至35.8%平均损失了约13.4个百分点。这不是小数字——相当于每当题目从读给你听变成让你自己看图大约有八分之一的题目会从答对变成答错。更值得关注的是这种退步在顶尖模型身上同样存在。GPT-5.4在L1上正确率高达67.4%到了L4却跌至53.0%损失14.4个百分点。Claude-4.7-Opus在L1表现最好达到74.0%但L4仅剩46.5%下滑了27.5个百分点是所有被测模型中跌幅最大的。表现最稳定的是Gemini-3.1-ProL1到L4的总损失仅4.5个百分点但它的L4成绩66.5%依然低于其L1成绩71.0%。与之形成对比的是那100名高中生他们在四个版本上的成绩分别是54.0%、58.5%、59.5%和56.0%不仅没有随着视觉化程度提高而下降反而在L2和L3时略有提升。换句话说真正懂物理的人看图反而更有帮助而AI模型看图却成了负担。研究团队把四个阶段的成绩差异分别命名为三类转移代价。从L1到L2的代价叫做结构转移代价平均值约为3.0个百分点反映的是把物理系统的拓扑结构画进图里之后模型的损失。从L2到L3的代价叫做变量接地代价平均值约为7.4个百分点反映的是把数值标注也放进图里后额外增加的损失。从L3到L4的代价叫做完全渲染代价平均约2.9个百分点反映的是把文字本身也手写进图里之后的进一步损失。三个代价加在一起就是总损失。这个分解告诉我们一件很具体的事AI模型最大的弱点不是认不出图而是看不懂图里写的数字对应的是哪个物理量。就像你面前摆着一张电路图图里已经标出了各个电阻的阻值但你不知道哪个数字对应哪个元件——这种看见了但没连上的失误才是最核心的瓶颈。研究团队还计算了另一个指标叫做四向一致性也就是同一道题在四个版本上全部答对的概率。这个指标更能说明问题Claude-4.7-Opus在L1上正确率高达74%但四个版本全对的比例只有33.5%GPT-5.4的L1正确率是67.4%四向一致性只有32.6%。这说明大量的答对其实是靠版本特性答对换一个版本就不行了而不是真正稳定地掌握了这道题背后的物理知识。为了进一步确认这不是因为题目本来就难研究团队还做了一个条件测试只统计那些在L1上已经答对的题目看它们在后续版本中还能保持多高的正确率。结果同样令人叹气——GPT-5.4在L1答对的题目中到L4只剩64.8%还是对的Claude-4.7-Opus只剩57.4%。也就是说即使是那些模型已经懂了的题目一旦信息转移进图像仍有三到四成的概率出错。---三、强化学习真的能让AI学会看图吗发现了这种推理脆弱性之后研究团队进一步追问如果专门用含有图像的物理题来训练模型能不能修复这个问题为了回答这个问题他们构建了两套训练数据集分别叫做PhysRL-38K约38000道物理题和PhysRL-8K其中约8000道经过筛选的视觉必要题目即必须看图才能解题。这两套数据集来源与SEEPHYS PRO相同但题目本身与评测集完全不重叠确保没有数据泄漏的问题。他们还从一个叫ViRL39K的数学视觉推理数据集中筛出约22000道视觉必要题用于数学领域的对比实验。训练方式采用的是当下主流的强化学习方法——用最终答案是否正确作为奖励信号让模型通过大量练题自我调整。直觉上这听起来很合理就像让一个学生反复练习看图解题正确就给分错误就扣分应该能让他越来越擅长看图吧然而实验结果出现了一个大大的问号。研究团队在训练过程中持续用SEEPHYS PRO的四个版本来监测模型的表现变化。他们发现经过正常强化学习训练之后模型在四个版本上的成绩确实都提高了——L1从9.9%升到18.3%L4从6.4%升到10.8%。但问题是L1和L4之间的差距不仅没有缩小反而从训练前的3.5个百分点扩大到了训练后的7.5个百分点。换句话说文字版和视觉版之间的鸿沟变得更宽了而不是更窄。这意味着模型的进步是四个版本都涨潮——因为物理推理能力整体提升了所以每个版本都更容易答对但视觉推理这个专项短板并没有被针对性地修复。就像一个学生通过大量刷题提升了整体数学能力加减乘除都更熟练了但他读图的问题从来没有被专门练过所以文字题和图形题之间的差距依然存在。---四、最令人意外的发现遮住所有图片模型也能进步如果说上面的发现让人困惑那接下来这个实验结果简直堪称匪夷所思。研究团队设计了一个叫做盲训练的对照实验在训练时把所有训练数据的图片全部替换成纯黑色图像也就是说模型在训练过程中看不到任何有效图像每一道视觉必要的题目都因为图被遮黑而变成了一道无法正确解答的题目。然后他们用这种瞎眼状态训练完模型再拿没有遮黑的正常测试集来评估。按照直觉这应该是一个完全无效的训练既然训练时没有任何有用的视觉信息模型的视觉推理能力理应没有提升在正常测试集上的表现应该基本没有变化甚至可能变差。然而结果出人意料。经过盲训练之后模型在L1上的成绩从9.9%提升到了20.9%甚至比正常训练18.3%还高。L4从6.4%升到了13.0%同样高于正常训练的10.8%。更令人迷惑的是这种盲训练带来的进步不只发生在SEEPHYS PRO上在其他的物理和数学评测集上同样观察到了类似现象——在数学评测集MathVerse和MMK12上盲训练的效果甚至与正常训练相当在某些设置下还略微超过正常训练。这个发现的含义非常深刻如果把所有图片都遮黑的训练都能带来视觉推理评测成绩的提升那这种提升到底是真正的学会了看图还是别的什么原因---五、盲训练为什么有效答案藏在文字和题目模板里为了搞清楚盲训练增益的来源研究团队设计了一系列控制实验像剥洋葱一样逐层剥开这个现象。第一个实验是逐步删除训练数据中的文字。他们发现随着删掉的文字比例增加盲训练的效果也同步下降。当文字被删掉25%时盲训练在数学评测集上的峰值增益约为26.6个百分点当文字被删掉100%时增益跌至接近零。物理评测集上的规律相同。这说明盲训练的增益根本上依赖的是文字信息而不是图像信息。第二个实验是删除特定类别的文字比如只删背景描述、只删已知条件、只删公式、只删数值、只删选项、只删问题语句。在数学题中选项文字是一个明显的捷径来源删掉选项之后盲训练效果明显下降。但在物理题中没有哪一类文字单独被删后能让盲训练效果消失说明这里的捷径是分散在整道题的语言模式和题目风格中的不是某一个特定成分单独贡献的。第三个实验是改变遮黑的比例从10%到90%不等。如果盲训练的增益来自全黑图像这种特殊的人工信号那增益应该随着遮黑比例的增加而单调增加。但实际上不同遮黑比例下的峰值增益并没有呈现出这种单调趋势说明问题不是出在全黑图像这个特殊形式上。第四个实验是在模型已经充分学会了答题格式之后格式正确率超过90%继续观察是否还有实质性的准确率提升。结果显示即使在格式训练饱和之后盲训练仍能带来显著的准确率增益排除了只是学会了格式这种解释。把这些线索整合起来答案浮现了盲训练之所以有效是因为训练数据中的文字本身就包含了大量可以利用的信息——题目的语言风格、常见的物理公式模板、答案的数值范围、选项的分布特点这些非视觉线索在大量的强化学习训练中被模型捕捉到帮助它在测试集上答对了更多题目。但这些进步与真正理解了图像毫无关系。就像一个考生反复刷了大量真题熟悉了出题人的风格和套路即使蒙眼也能猜对一些答案但这不等于他学会了这门科目。---六、错误到底出在哪里来自真实案例的细节解剖研究团队还对多个前沿模型在四个版本上的错误类型进行了人工标注和分类分析提炼出了几种典型的失误模式。在纯文字的L1版本中模型的错误主要集中在物理建模失误和推理错误两类——比如把一个双绳约束问题错误地简化成单绳问题把两个方程的联立求解简化成一个单方程或者在判断平衡条件时做出了错误的对称性假设。这类错误的本质是物理理解不到位与图像无关。随着版本从L2推进到L3图像相关的错误开始显著增加模型开始出现结构图误读把图中某个元件的连接关系看错、数值误读把标注在图上的数字读成了不同的值比如把3.0×10?? C读成3.0×10?? C以及几何关系误识别把一个60度角误判为30度角导致后续所有计算全部出错。在L4版本中还增加了手写文字误读这一类模型对手写公式和手写数字的识别经常出错比如把手写的150 rad/s误读成某个其他数值进而导致解题路径整体错误。有一个案例特别能说明问题。一道关于变压器电路的题目图中标注了电压的表达式。在L3版本中两个不同的模型都把图中标注的电压值读错了数量级——一个读成了200√2 V另一个读成了20√2 V。基于这个错误的读数它们各自推导出了频率为50 Hz这个结论巧合的是这个结论本身是正确的因为频率由角频率决定与幅值无关所以它们选择了正确的选项B但支撑这个选项的推理过程中数值是错的。这种正确答案错误推理的情况在视觉版本中更为常见也更加隐蔽。---七、这些发现对AI研究意味着什么从整体上看这项研究传递了几个相互关联的信号。当前的多模态AI模型在信息表达方式改变但物理内容不变的条件下表现并不稳定而且这种不稳定性在最顶尖的模型身上同样存在只是程度不同。最核心的瓶颈不是看不到图也不是不认识图里的结构而是看见了数值但不知道它对应的是哪个物理实体——也就是视觉变量与物理概念之间的绑定能力。单纯用最终答案的正确率来评价多模态AI会高估它们真正的视觉推理能力。一个在视觉题上成绩不错的模型很可能只是擅长利用文字线索和题目风格猜测答案而不是真正看懂了图。用强化学习提升多模态AI时即便训练数据是视觉必要的题目最终奖励信号答对还是答错也没办法区分用视觉信息答对和靠文字线索猜对之间的差异。这是当前主流强化学习范式的一个根本性盲点它鼓励任何能提升正确率的策略无论那个策略是否真的依赖了视觉信息。研究团队提出未来的多模态推理研究应该同时关注两个维度一是在测试时检验模型对信息表达方式变化的鲁棒性就像SEEPHYS PRO做的那样二是在训练时加入诊断手段来检验进步是否真的来自有效的视觉证据。他们提到了几个可能的改进方向比如设计如果把图片替换成错误内容模型应该答错的反事实测试或者引入过程级别的奖励信号不只看最终答案对不对还看每一步推理是否确实用到了图中的信息。说到底这项研究做的事情有点像是给AI模型做了一场换装测试同一道题换了件衣服看它还认不认识。结果发现很多我们以为已经学会看图的AI其实只是学会了看见图的存在然后继续靠文字答题。这个发现本身并不是终点而更像是一张地图标出了当前AI视觉推理能力的真实边界在哪里。对于任何关心AI技术是否真正可靠的人来说这张地图值得认真看看。有兴趣深入了解的读者可以通过论文编号arXiv:2605.09266查阅完整论文也可以访问研究团队在GitHubAI4Phys/SeePhy-Pro和CodaBench平台上开放的评测基准和代码。---QAQ1SEEPHYS PRO评测基准是什么和普通物理评测有什么不同ASEEPHYS PRO是一套专门用来检验AI模型信息表达方式改变时推理是否稳定的评测工具。普通物理评测只给模型一种形式的题目比如只有文字或只有图而SEEPHYS PRO把每道题做成四个版本信息逐步从文字转移到图像通过观察模型在四个版本间的成绩变化来判断它是真的懂物理还是只擅长处理某种特定的信息形式。Q2盲训练为什么能让模型在有图的测试集上成绩提升A这是因为训练数据中的文字本身就包含了大量可以利用的规律比如题目的语言风格、常见公式模板、答案的数值范围等。模型在盲训练中学到的是这些文字层面的统计规律而不是真正的视觉理解能力。把图片遮黑之后模型依然能靠文字猜出更多答案导致测试集成绩看起来提升了但这和学会看图没有关系。Q3当前多模态AI在视觉变量理解上的主要瓶颈是什么A最核心的问题是变量接地能力不足也就是模型即便看见了图中标注的数值也经常无法正确判断这个数值对应的是哪个物理实体或物理量。比如图里有三个不同位置的电阻值标注模型可能读错了数字或者把某个数字匹配到了错误的元件上导致后续所有计算都建立在错误的基础上。

相关新闻

我终于把AI应用拆明白了：Agent、RAG、MCP

7B秒杀70B！大模型微调秘籍全解：从理论到实战，玩转高效适配！

中华民族站起来了，《AI驱动上下五千年：从结绳记事到智能纪元》第三章：周礼分封——面向服务的架构（SOA）首次实践

终极指南：3分钟快速安装Windows官方包管理器Winget

25岁测试工程师的焦虑：该深耕技术还是提前布局管理

四足机器人并行弹性执行器设计与运动优化

Armv9内存拷贝指令优化与性能调优

从零到部署：用VirtualBox免费搭建你的第一个Linux服务器（CentOS 7 + 静态IP + Xshell连接）

ContextMenuManager：5分钟掌握Windows右键菜单管理的终极免费方案

RK3588开发板系统固化实战：从启动卡制作到eMMC烧录全解析

C#怎么给PDF添加水印_C#如何保护电子文档版权【案例】

命令行AI工具aichat：无缝集成LLM到终端工作流

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感