这项由小鹏汽车XPeng Motors研究团队完成的研究以预印本形式发表于2026年4月论文编号为arXiv:2605.18758有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。当你拿起手机告诉语音助手帮我把刚才那首歌加入我的歌单或者在视频播放到精彩画面时喊一声暂停你其实是在做一件对人类来说极其自然、对AI来说却异常困难的事——同时看着屏幕、听着声音、感知时间流逝然后做出反应。目前绝大多数能帮你操作手机的AI助手其实是睁眼瞎——不对准确说是闭耳聋。它们只会看截图就像一个人试图通过看一张静止的照片来理解一段正在发生的对话。屏幕上出现的文字它能读但你说的话它听不见视频里此刻放到哪里它不知道背景音乐停了还是响着它更是毫无察觉。小鹏汽车的研究团队发现了这个巨大的缺口于是打造了一个叫做OmniGUI的全新测试平台——这是全球首个专门测试AI在手机上同时看、同时听、同时感知时间变化能力的标准化考场。这个考场不只是给AI看一张截图然后问你下一步要点哪里而是同时递给AI一段视频、一段同步录音和一张截图考验它能不能像真人一样综合所有感官信息做出正确操作。一、为什么现在的AI助手还停留在看图说话阶段要理解OmniGUI解决的是什么问题可以先想象一个场景你正在用手机看一部纪录片旁白说当背景音乐渐渐停止的时候导演想表达的是...。此时你的大脑同时处理着画面内容、旁白语音和音乐的起伏变化三者合一才能让你理解这个时刻的含义。现在的AI手机助手做的事情完全不同。研究团队梳理了学术界已有的所有AI手机操作测试平台发现几乎所有平台都只给AI看截图。有少数平台加入了一点视频或音频但这些内容都是在任务开始之前给AI看的就像老师在考试之前给你看一段教学视频让你先学习一下然后再让你用截图做题。没有任何一个平台在AI每一步操作的时候都同步提供当前时刻的视频画面和同步音频。这个区别非常关键。真实生活中手机交互充满了此刻独有的信号一条通知音响起了、视频播放到了某个特定画面、旁白刚刚说了一句重要的话。这些信号转瞬即逝不在截图里不在事先准备好的参考视频里只存在于此时此刻。测试平台如果不提供这些信号就好比让厨师闭着眼睛炒菜——也许能完成动作但永远做不出真正好吃的菜。二、OmniGUI考场是怎么设计的——一个有声有色的多步骤大考OmniGUI的核心设计思路是在AI每走一步棋的时候都给它看三样东西。第一样是当前屏幕的截图这是AI的眼睛第二样是从上一步操作完成到现在这段时间的屏幕录像这是AI的动态视觉感知第三样是这段时间里设备内部的真实音频包括系统提示音、媒体播放声音或者用户说的话这是AI的耳朵。除了这三样实时信息AI还能看到自己之前做过的所有操作记录这是它的记忆。整个数据集由10位有超过五年安卓使用经验的专业用户手动录制完成共涵盖29款常用手机应用收录了709个完整的任务演示细分下来共有2579个单步操作。这些任务横跨中英双语其中中文应用15款、英文应用14款保证了测试的语言多样性。平均每个任务包含约3.64个操作步骤从简单的单步点击到需要等待特定时刻的多步复杂流程都有覆盖。录制过程非常严谨录制者在真实安卓手机上执行任务系统在后台同步以每秒30帧的速度录制屏幕视频、录制设备内部音频、记录精确的触摸坐标。每一步操作的截图取自该步骤触发之前的那一刻视频和音频片段则精确截取自上一步操作结束到当前操作开始之间的这段时间。AI在每步操作中需要从一个包含13种基本动作的工具箱里挑选正确的行为并给出精确的执行参数。这13种动作涵盖了手机操作的几乎所有形态等待观察、点击、双击、长按、向上滑、向下滑、向左滑、向右滑、输入文字、返回、回主页、宣告任务完成、宣告任务无法完成。所有坐标被统一缩放到0到1000的范围内与设备实际分辨率无关方便不同手机型号之间的横向对比。三、任务被分成五大能力维度就像一张全面的体检单研究团队在设计任务时没有随机堆砌而是从人机交互学的角度出发梳理出人在使用手机时大脑需要完成的五种核心认知操作并以此为框架系统地设计了所有709个任务。第一类能力叫空间定位占全部任务的20.5%共446个操作步骤。这类任务考验的是AI能不能根据视觉或语音描述准确找到屏幕上某个特定位置并点击。比如点击左上角的设置图标这在截图中就能完成但如果位置描述来自语音就需要AI能听懂声音里的空间描述。第二类叫语义理解占19.3%共530步。这类任务需要AI真正理解文字、画面或声音里的含义而不是简单匹配关键词。比如用户说把刚才那位说话者推荐的那首歌加入收藏AI需要理解刚才那位说话者推荐的是什么意思然后在界面里找到对应内容。第三类叫跨模态辨别占19.9%共514步。这类任务要求AI把来自视频、音频和文字的互补信息整合在一起做判断。比如界面上有三个看起来相似的歌单而用户说选那个正在播放背景音乐的那个AI必须把声音里听到的旋律和屏幕里看到的内容对应起来才能做出正确选择。第四类叫时序推理占比最高达22%共617步。这类任务涉及动态变化——界面在动、内容在变AI需要追踪这个变化过程在正确的时刻做出反应。比如当视频播放进度条到达一半的时候点击暂停这种任务光靠截图根本没法完成。第五类叫即时响应占18.3%共472步。这类任务要求AI对转瞬即逝的声音或画面信号立即做出反应。比如当你听到铃声响起时点击接听——这一声铃响可能只持续几秒AI必须当场捕捉并立即行动没有回放没有第二次机会。四、任务还按有没有音视频才能完成分成三个难度等级除了按认知维度分类研究团队还从另一个角度对所有任务进行了客观标注这个任务到底需不需要用耳朵和动态视觉才能完成最高难度的一类叫音视频关键级占全部任务的29.8%共803步。这类任务至少有一个步骤单靠截图根本无法判断该做什么——必须听到某段声音或者看到视频的某个特定状态才能知道正确答案。拿文章开头那个例子来说当背景打击乐渐渐消失时把电影加入歌单你不听音频根本不知道背景打击乐消失这件事什么时候发生。中间一类叫音视频辅助级占32.4%共860步。这类任务从截图里能猜到该做什么但如果再加上音视频信息判断会更准确、更有把握。好比你在一个嘈杂的餐厅里听人说话就算没看清对方的嘴型也能大概猜出意思但同时看嘴型的话理解会更精确。最低难度的叫音视频存在级占37.8%共916步。这类任务完全靠截图就能完成音视频在任务里的角色只是背景环境噪音对判断正确操作没有任何帮助。录音机里放着音乐屏幕上在播视频但你要做的事情就是点击界面上清清楚楚显示着的那个按钮。标注这三个等级的方式非常严谨。标注人员首先只看截图判断能不能做出正确决策然后加入视频和音频再判断一次。两次判断对比之下就能客观确定音视频信息对这个步骤的必要程度。研究团队随机抽取了100个任务请第二位标注人员独立完成同样的标注两人的一致程度高达0.84这个数字接近1表示几乎完全一致说明这套分类标准客观且可复现。五、考试怎么打分——四个角度全面衡量AI的表现为了公平地比较不同AI模型的能力研究团队设计了一套打分体系就像一个人参加驾照考试既要看你每个动作做没做对也要看最终有没有顺利开出停车场。最基础的分数叫类型匹配率AI选的动作类型对不对比如这步应该点击AI有没有选点击而不是滑动这个分数不管AI点的哪里只看动作种类对不对。更严格的分数叫精确匹配率动作类型对了坐标也对了才算一步真正完成。对于点击类操作AI预测的坐标必须落在正确UI元素的实际边界框内对于文字输入生成的文字必须和目标文字完全相同。任务级别的成功率更为苛刻只有一个任务里的每一步都达到精确匹配这个任务才算成功否则就是0分没有部分分。最后还有一个更温柔的目标进度率计算在一个多步任务里有百分之多少的步骤精确匹配了。就算整个任务最终失败这个指标也能反映AI完成了多少部分。为了让每一步的评分不受前面错误的连锁影响研究团队采用了教师强制的评估方法——每步评估时AI看到的历史操作记录都是人类专家的正确操作而不是AI自己之前可能犯的错误。这样就能精确衡量AI在每一个孤立时刻的多模态感知能力排除错误积累带来的干扰。六、八个顶尖AI模型走进考场结果差距悬殊研究团队邀请了当前最强的八个AI模型参加考试其中包括谷歌的Gemini 3.0 Pro、Gemini 3.0 Flash、Gemini 2.5 Pro、Gemini 2.5 Flash四个商业闭源模型以及阿里巴巴的Qwen3-Omni、MiniCPM-o 4.5、VITA-1.5和百川Baichuan-Omni-1.5四个开源模型。需要说明的是OpenAI的GPT-4o没有参与这次测试原因是它的API在技术层面不支持同时接收图像和原始音频作为输入与OmniGUI要求的实时多模态批量评估方式存在根本性的不兼容。所有模型在测试中使用完全相同的提示词模板没有任何针对特定模型的优化调整确保比较的公平性。为了减少随机性对结果的影响所有模型都被设置为确定性输出模式也就是让模型每次都给出它最有把握的那个答案而不是随机采样。考试结果揭示了一道清晰的分水岭。在商业模型中Gemini 3.0 Pro表现最佳精确匹配率达到66.4%整体任务成功率为33.1%。这意味着在单步操作上它大约能答对三分之二但要完整完成一个多步任务成功概率只有三分之一。Gemini 3.0 Flash紧随其后精确匹配率61.3%成功率30.3%在某些维度上甚至略微超越了Pro版本。Gemini 2.5 Pro和2.5 Flash的表现则明显落后于3.0系列精确匹配率分别只有44.1%和37.8%。这个出人意料的结果说明更新一代的模型在多模态实时交互这个特定场景下不一定比旧版本表现更好。开源模型与商业模型之间的差距相当悬殊。Qwen3-Omni是开源组里的最强选手精确匹配率33.4%任务成功率5.2%——只有5%的任务能从头到尾完美完成。VITA-1.5、MiniCPM-o 4.5和Baichuan-Omni-1.5的任务成功率均低于1.1%几乎没有能完整成功完成多步任务的案例。从五个认知维度来看所有模型都在空间定位上表现最好——Gemini 3.0 Pro在这一维度的精确匹配率高达76.2%因为这类任务更接近传统的截图看图操作。而在跨模态辨别59.9%和时序推理61.8%上同一个模型的分数明显下滑说明把动态时间信号和声音信号整合进操作决策目前对所有AI来说都是真实存在的难题。七、拆掉耳朵或眼睛——消融实验揭示关键瓶颈为了验证OmniGUI的设计是否真的有意义研究团队做了一系列零件拆卸实验把给AI的输入信息一项项拿掉看看对成绩有什么影响。这就像考试中途把考生的计算器、草稿纸、参考图表一样一样没收观察成绩怎么变。实验覆盖了三种拆卸方式只拿掉音频、只拿掉视频、同时拿掉音频和视频。结果非常清晰地印证了任务分类体系的合理性。在音视频关键级任务上拿掉所有音视频输入对Gemini 3.0 Pro造成了9个百分点的精确匹配率下降。这种下降是真实的能力损失——因为决策所需的关键信息本来就在音频或视频里没有这些信息AI当然做不对。与此形成鲜明对比的是在音视频存在级任务上那些单靠截图就能完成的任务拿掉音视频对Gemini 3.0 Pro几乎没有任何影响成绩变化只有区区-0.3%。这证明了任务分类的科学性——研究团队确实准确区分了哪些任务真的需要音视频哪些不需要。然而拆卸实验还发现了一个出乎意料的现象研究团队将其命名为跨模态干扰。在那些截图就能完成的任务里给Gemini 2.5 Flash和Qwen3-Omni提供完整的音视频输入反而导致它们的成绩下降了。Gemini 2.5 Flash在音视频存在级任务上有完整音视频时精确匹配率是40.8%拿掉所有音视频后反而升到了49.9%。这个发现很有意思当屏幕信息已经足以做决策时额外引入无关的环境声音和视频非但没有帮助AI反而让它分心了产生了类似人类在嘈杂环境中注意力分散的效果。这个问题在当前模型架构中是一个真实存在的缺陷也给未来的研究指明了需要改进的方向。八、用语音说任务指令——双重音轨让AI更容易出错日常生活中用户经常是用说话而不是打字来告诉AI要做什么。研究团队专门测试了一种更真实的场景把任务指令从文字换成TTS合成语音也就是用文字转语音技术生成的朗读音频然后观察AI的成绩变化。结果呈现出明显的不对称性。在音视频存在级任务上把文字指令换成语音指令几乎没有影响——Gemini 3.0 Pro的精确匹配率变化仅有0.1%。单纯把一句指令从文字换成语音对AI来说几乎是透明的。但在音视频关键级任务上同样的替换却造成了5.3%的成绩下滑。这两者之间的差异正好揭示了问题所在在关键级任务里AI的耳朵要同时处理两路音频——一路是任务指令的朗读声另一路是来自手机环境的真实音频比如正在播放的媒体声音、系统提示音。当这两路声音同时涌入AI就出现了双音轨处理困难——它在尝试理解指令的同时跟踪重要的环境音信号的能力明显下降。这个发现对未来设计真正可用的语音控制手机助手来说是非常重要的警示。九、两个真实失误案例让AI的困境一目了然研究团队从最强的Gemini 3.0 Pro的失败案例里挑出了两个最具代表性的错误用来直观说明当前AI的瓶颈在哪里。第一个失误案例发生在Vimeo视频应用里。任务是当视频里的旁白讲完一句话并停顿的时候立刻点击分享按钮。步骤1时环境一片寂静AI正确输出了等待动作步骤2时旁白开始说话AI再次正确输出等待。然而到了步骤3旁白真的停顿了这正是应该点击的时刻但AI依然输出了等待没有识别出这个声学信号代表着此刻应该行动。动作类型错了坐标自然也错了两项得分全部挂零。这个案例完美展示了瞬时听觉响应的失败AI能听到声音但无法把声音状态的变化映射到对应的操作决策上。第二个失误发生在Red Bull TV应用里。任务是听到旁白开始说话时先调出视频工具栏再打开字幕设置。步骤1时画面只有汽车声音AI正确等待步骤2时旁白出现AI正确点击屏幕调出工具栏到步骤3AI正确判断应该点击字幕相关的按钮动作类型完全正确然而预测坐标是(200, 2400)而正确答案是(1050, 2100)——偏差超出了字幕图标的实际范围。这个案例展示的是空间定位失败AI理解了该做什么但在复杂视觉界面里精确定位目标的能力出现了偏差。动作类型得分精确位置不得分。这两种失误一个涉及时间感知一个涉及空间定位覆盖了多模态GUI任务中两类截然不同的核心挑战也为后续研究提供了清晰的改进方向。说到底OmniGUI做的事情其实特别直接它把人类使用手机时理所当然会用的眼睛耳朵时间感变成了一道真实的考题然后发现现在最强的AI在这道题上还只能得六七成分。最顶尖的商业模型单步操作准确率有66.4%但完整任务成功率只有33%开源模型差距更大任务成功率普遍低于6%。这项研究的价值不在于告诉我们AI不行而在于它给出了一把精确的尺子——用这把尺子研究者们能知道AI的耳朵在什么情况下会失灵知道无关的背景噪音会让AI分心知道同时处理两路音频会让AI的判断能力下降。有了这些具体的数字未来的工程师就知道该在哪里下功夫。归根结底真正能帮你操作手机的AI助手不该只是一个看图说话的程序而应该像一个真正理解你所处环境的搭档——能听到你说的话能感知到此刻屏幕上发生的变化能在正确的时间做出正确的反应。OmniGUI标志着这条路上一个务实的起点。有兴趣深入了解的读者可以通过arXiv编号2605.18758查阅完整论文。QAQ1OmniGUI和现有手机AI测试平台最本质的区别是什么A核心区别在于同步实时多模态输入。现有平台在AI每步操作时只提供截图少数平台会在任务开始前给AI看一段参考视频。而OmniGUI在AI每一步操作时都同时提供当前截图、这一步时间段内的屏幕录像和同步音频模拟真实手机使用中声音和动态画面随时出现的情况。Q2为什么给AI更多音视频信息反而会让它表现变差AOmniGUI的消融实验发现了跨模态干扰现象。当一个任务靠截图就能完成时额外提供无关的环境音和视频会让当前模型分心准确率反而下降。这说明现有模型在过滤无关信息方面存在缺陷多余的感官输入会干扰决策而不是帮助决策。Q3OmniGUI涵盖了哪些手机应用类型AOmniGUI覆盖29款常用应用包含中英双语各约一半涉及视频平台Bilibili、YouTube、TED、Vimeo、音乐应用QQ Music、Spotify、电商淘宝、亚马逊、社交媒体微信、X/Twitter、Instagram、打车出行滴滴和语言学习多邻国等多种日常应用场景。
小鹏汽车团队打造了一个专门测试AI“耳朵“的考场
这项由小鹏汽车XPeng Motors研究团队完成的研究以预印本形式发表于2026年4月论文编号为arXiv:2605.18758有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。当你拿起手机告诉语音助手帮我把刚才那首歌加入我的歌单或者在视频播放到精彩画面时喊一声暂停你其实是在做一件对人类来说极其自然、对AI来说却异常困难的事——同时看着屏幕、听着声音、感知时间流逝然后做出反应。目前绝大多数能帮你操作手机的AI助手其实是睁眼瞎——不对准确说是闭耳聋。它们只会看截图就像一个人试图通过看一张静止的照片来理解一段正在发生的对话。屏幕上出现的文字它能读但你说的话它听不见视频里此刻放到哪里它不知道背景音乐停了还是响着它更是毫无察觉。小鹏汽车的研究团队发现了这个巨大的缺口于是打造了一个叫做OmniGUI的全新测试平台——这是全球首个专门测试AI在手机上同时看、同时听、同时感知时间变化能力的标准化考场。这个考场不只是给AI看一张截图然后问你下一步要点哪里而是同时递给AI一段视频、一段同步录音和一张截图考验它能不能像真人一样综合所有感官信息做出正确操作。一、为什么现在的AI助手还停留在看图说话阶段要理解OmniGUI解决的是什么问题可以先想象一个场景你正在用手机看一部纪录片旁白说当背景音乐渐渐停止的时候导演想表达的是...。此时你的大脑同时处理着画面内容、旁白语音和音乐的起伏变化三者合一才能让你理解这个时刻的含义。现在的AI手机助手做的事情完全不同。研究团队梳理了学术界已有的所有AI手机操作测试平台发现几乎所有平台都只给AI看截图。有少数平台加入了一点视频或音频但这些内容都是在任务开始之前给AI看的就像老师在考试之前给你看一段教学视频让你先学习一下然后再让你用截图做题。没有任何一个平台在AI每一步操作的时候都同步提供当前时刻的视频画面和同步音频。这个区别非常关键。真实生活中手机交互充满了此刻独有的信号一条通知音响起了、视频播放到了某个特定画面、旁白刚刚说了一句重要的话。这些信号转瞬即逝不在截图里不在事先准备好的参考视频里只存在于此时此刻。测试平台如果不提供这些信号就好比让厨师闭着眼睛炒菜——也许能完成动作但永远做不出真正好吃的菜。二、OmniGUI考场是怎么设计的——一个有声有色的多步骤大考OmniGUI的核心设计思路是在AI每走一步棋的时候都给它看三样东西。第一样是当前屏幕的截图这是AI的眼睛第二样是从上一步操作完成到现在这段时间的屏幕录像这是AI的动态视觉感知第三样是这段时间里设备内部的真实音频包括系统提示音、媒体播放声音或者用户说的话这是AI的耳朵。除了这三样实时信息AI还能看到自己之前做过的所有操作记录这是它的记忆。整个数据集由10位有超过五年安卓使用经验的专业用户手动录制完成共涵盖29款常用手机应用收录了709个完整的任务演示细分下来共有2579个单步操作。这些任务横跨中英双语其中中文应用15款、英文应用14款保证了测试的语言多样性。平均每个任务包含约3.64个操作步骤从简单的单步点击到需要等待特定时刻的多步复杂流程都有覆盖。录制过程非常严谨录制者在真实安卓手机上执行任务系统在后台同步以每秒30帧的速度录制屏幕视频、录制设备内部音频、记录精确的触摸坐标。每一步操作的截图取自该步骤触发之前的那一刻视频和音频片段则精确截取自上一步操作结束到当前操作开始之间的这段时间。AI在每步操作中需要从一个包含13种基本动作的工具箱里挑选正确的行为并给出精确的执行参数。这13种动作涵盖了手机操作的几乎所有形态等待观察、点击、双击、长按、向上滑、向下滑、向左滑、向右滑、输入文字、返回、回主页、宣告任务完成、宣告任务无法完成。所有坐标被统一缩放到0到1000的范围内与设备实际分辨率无关方便不同手机型号之间的横向对比。三、任务被分成五大能力维度就像一张全面的体检单研究团队在设计任务时没有随机堆砌而是从人机交互学的角度出发梳理出人在使用手机时大脑需要完成的五种核心认知操作并以此为框架系统地设计了所有709个任务。第一类能力叫空间定位占全部任务的20.5%共446个操作步骤。这类任务考验的是AI能不能根据视觉或语音描述准确找到屏幕上某个特定位置并点击。比如点击左上角的设置图标这在截图中就能完成但如果位置描述来自语音就需要AI能听懂声音里的空间描述。第二类叫语义理解占19.3%共530步。这类任务需要AI真正理解文字、画面或声音里的含义而不是简单匹配关键词。比如用户说把刚才那位说话者推荐的那首歌加入收藏AI需要理解刚才那位说话者推荐的是什么意思然后在界面里找到对应内容。第三类叫跨模态辨别占19.9%共514步。这类任务要求AI把来自视频、音频和文字的互补信息整合在一起做判断。比如界面上有三个看起来相似的歌单而用户说选那个正在播放背景音乐的那个AI必须把声音里听到的旋律和屏幕里看到的内容对应起来才能做出正确选择。第四类叫时序推理占比最高达22%共617步。这类任务涉及动态变化——界面在动、内容在变AI需要追踪这个变化过程在正确的时刻做出反应。比如当视频播放进度条到达一半的时候点击暂停这种任务光靠截图根本没法完成。第五类叫即时响应占18.3%共472步。这类任务要求AI对转瞬即逝的声音或画面信号立即做出反应。比如当你听到铃声响起时点击接听——这一声铃响可能只持续几秒AI必须当场捕捉并立即行动没有回放没有第二次机会。四、任务还按有没有音视频才能完成分成三个难度等级除了按认知维度分类研究团队还从另一个角度对所有任务进行了客观标注这个任务到底需不需要用耳朵和动态视觉才能完成最高难度的一类叫音视频关键级占全部任务的29.8%共803步。这类任务至少有一个步骤单靠截图根本无法判断该做什么——必须听到某段声音或者看到视频的某个特定状态才能知道正确答案。拿文章开头那个例子来说当背景打击乐渐渐消失时把电影加入歌单你不听音频根本不知道背景打击乐消失这件事什么时候发生。中间一类叫音视频辅助级占32.4%共860步。这类任务从截图里能猜到该做什么但如果再加上音视频信息判断会更准确、更有把握。好比你在一个嘈杂的餐厅里听人说话就算没看清对方的嘴型也能大概猜出意思但同时看嘴型的话理解会更精确。最低难度的叫音视频存在级占37.8%共916步。这类任务完全靠截图就能完成音视频在任务里的角色只是背景环境噪音对判断正确操作没有任何帮助。录音机里放着音乐屏幕上在播视频但你要做的事情就是点击界面上清清楚楚显示着的那个按钮。标注这三个等级的方式非常严谨。标注人员首先只看截图判断能不能做出正确决策然后加入视频和音频再判断一次。两次判断对比之下就能客观确定音视频信息对这个步骤的必要程度。研究团队随机抽取了100个任务请第二位标注人员独立完成同样的标注两人的一致程度高达0.84这个数字接近1表示几乎完全一致说明这套分类标准客观且可复现。五、考试怎么打分——四个角度全面衡量AI的表现为了公平地比较不同AI模型的能力研究团队设计了一套打分体系就像一个人参加驾照考试既要看你每个动作做没做对也要看最终有没有顺利开出停车场。最基础的分数叫类型匹配率AI选的动作类型对不对比如这步应该点击AI有没有选点击而不是滑动这个分数不管AI点的哪里只看动作种类对不对。更严格的分数叫精确匹配率动作类型对了坐标也对了才算一步真正完成。对于点击类操作AI预测的坐标必须落在正确UI元素的实际边界框内对于文字输入生成的文字必须和目标文字完全相同。任务级别的成功率更为苛刻只有一个任务里的每一步都达到精确匹配这个任务才算成功否则就是0分没有部分分。最后还有一个更温柔的目标进度率计算在一个多步任务里有百分之多少的步骤精确匹配了。就算整个任务最终失败这个指标也能反映AI完成了多少部分。为了让每一步的评分不受前面错误的连锁影响研究团队采用了教师强制的评估方法——每步评估时AI看到的历史操作记录都是人类专家的正确操作而不是AI自己之前可能犯的错误。这样就能精确衡量AI在每一个孤立时刻的多模态感知能力排除错误积累带来的干扰。六、八个顶尖AI模型走进考场结果差距悬殊研究团队邀请了当前最强的八个AI模型参加考试其中包括谷歌的Gemini 3.0 Pro、Gemini 3.0 Flash、Gemini 2.5 Pro、Gemini 2.5 Flash四个商业闭源模型以及阿里巴巴的Qwen3-Omni、MiniCPM-o 4.5、VITA-1.5和百川Baichuan-Omni-1.5四个开源模型。需要说明的是OpenAI的GPT-4o没有参与这次测试原因是它的API在技术层面不支持同时接收图像和原始音频作为输入与OmniGUI要求的实时多模态批量评估方式存在根本性的不兼容。所有模型在测试中使用完全相同的提示词模板没有任何针对特定模型的优化调整确保比较的公平性。为了减少随机性对结果的影响所有模型都被设置为确定性输出模式也就是让模型每次都给出它最有把握的那个答案而不是随机采样。考试结果揭示了一道清晰的分水岭。在商业模型中Gemini 3.0 Pro表现最佳精确匹配率达到66.4%整体任务成功率为33.1%。这意味着在单步操作上它大约能答对三分之二但要完整完成一个多步任务成功概率只有三分之一。Gemini 3.0 Flash紧随其后精确匹配率61.3%成功率30.3%在某些维度上甚至略微超越了Pro版本。Gemini 2.5 Pro和2.5 Flash的表现则明显落后于3.0系列精确匹配率分别只有44.1%和37.8%。这个出人意料的结果说明更新一代的模型在多模态实时交互这个特定场景下不一定比旧版本表现更好。开源模型与商业模型之间的差距相当悬殊。Qwen3-Omni是开源组里的最强选手精确匹配率33.4%任务成功率5.2%——只有5%的任务能从头到尾完美完成。VITA-1.5、MiniCPM-o 4.5和Baichuan-Omni-1.5的任务成功率均低于1.1%几乎没有能完整成功完成多步任务的案例。从五个认知维度来看所有模型都在空间定位上表现最好——Gemini 3.0 Pro在这一维度的精确匹配率高达76.2%因为这类任务更接近传统的截图看图操作。而在跨模态辨别59.9%和时序推理61.8%上同一个模型的分数明显下滑说明把动态时间信号和声音信号整合进操作决策目前对所有AI来说都是真实存在的难题。七、拆掉耳朵或眼睛——消融实验揭示关键瓶颈为了验证OmniGUI的设计是否真的有意义研究团队做了一系列零件拆卸实验把给AI的输入信息一项项拿掉看看对成绩有什么影响。这就像考试中途把考生的计算器、草稿纸、参考图表一样一样没收观察成绩怎么变。实验覆盖了三种拆卸方式只拿掉音频、只拿掉视频、同时拿掉音频和视频。结果非常清晰地印证了任务分类体系的合理性。在音视频关键级任务上拿掉所有音视频输入对Gemini 3.0 Pro造成了9个百分点的精确匹配率下降。这种下降是真实的能力损失——因为决策所需的关键信息本来就在音频或视频里没有这些信息AI当然做不对。与此形成鲜明对比的是在音视频存在级任务上那些单靠截图就能完成的任务拿掉音视频对Gemini 3.0 Pro几乎没有任何影响成绩变化只有区区-0.3%。这证明了任务分类的科学性——研究团队确实准确区分了哪些任务真的需要音视频哪些不需要。然而拆卸实验还发现了一个出乎意料的现象研究团队将其命名为跨模态干扰。在那些截图就能完成的任务里给Gemini 2.5 Flash和Qwen3-Omni提供完整的音视频输入反而导致它们的成绩下降了。Gemini 2.5 Flash在音视频存在级任务上有完整音视频时精确匹配率是40.8%拿掉所有音视频后反而升到了49.9%。这个发现很有意思当屏幕信息已经足以做决策时额外引入无关的环境声音和视频非但没有帮助AI反而让它分心了产生了类似人类在嘈杂环境中注意力分散的效果。这个问题在当前模型架构中是一个真实存在的缺陷也给未来的研究指明了需要改进的方向。八、用语音说任务指令——双重音轨让AI更容易出错日常生活中用户经常是用说话而不是打字来告诉AI要做什么。研究团队专门测试了一种更真实的场景把任务指令从文字换成TTS合成语音也就是用文字转语音技术生成的朗读音频然后观察AI的成绩变化。结果呈现出明显的不对称性。在音视频存在级任务上把文字指令换成语音指令几乎没有影响——Gemini 3.0 Pro的精确匹配率变化仅有0.1%。单纯把一句指令从文字换成语音对AI来说几乎是透明的。但在音视频关键级任务上同样的替换却造成了5.3%的成绩下滑。这两者之间的差异正好揭示了问题所在在关键级任务里AI的耳朵要同时处理两路音频——一路是任务指令的朗读声另一路是来自手机环境的真实音频比如正在播放的媒体声音、系统提示音。当这两路声音同时涌入AI就出现了双音轨处理困难——它在尝试理解指令的同时跟踪重要的环境音信号的能力明显下降。这个发现对未来设计真正可用的语音控制手机助手来说是非常重要的警示。九、两个真实失误案例让AI的困境一目了然研究团队从最强的Gemini 3.0 Pro的失败案例里挑出了两个最具代表性的错误用来直观说明当前AI的瓶颈在哪里。第一个失误案例发生在Vimeo视频应用里。任务是当视频里的旁白讲完一句话并停顿的时候立刻点击分享按钮。步骤1时环境一片寂静AI正确输出了等待动作步骤2时旁白开始说话AI再次正确输出等待。然而到了步骤3旁白真的停顿了这正是应该点击的时刻但AI依然输出了等待没有识别出这个声学信号代表着此刻应该行动。动作类型错了坐标自然也错了两项得分全部挂零。这个案例完美展示了瞬时听觉响应的失败AI能听到声音但无法把声音状态的变化映射到对应的操作决策上。第二个失误发生在Red Bull TV应用里。任务是听到旁白开始说话时先调出视频工具栏再打开字幕设置。步骤1时画面只有汽车声音AI正确等待步骤2时旁白出现AI正确点击屏幕调出工具栏到步骤3AI正确判断应该点击字幕相关的按钮动作类型完全正确然而预测坐标是(200, 2400)而正确答案是(1050, 2100)——偏差超出了字幕图标的实际范围。这个案例展示的是空间定位失败AI理解了该做什么但在复杂视觉界面里精确定位目标的能力出现了偏差。动作类型得分精确位置不得分。这两种失误一个涉及时间感知一个涉及空间定位覆盖了多模态GUI任务中两类截然不同的核心挑战也为后续研究提供了清晰的改进方向。说到底OmniGUI做的事情其实特别直接它把人类使用手机时理所当然会用的眼睛耳朵时间感变成了一道真实的考题然后发现现在最强的AI在这道题上还只能得六七成分。最顶尖的商业模型单步操作准确率有66.4%但完整任务成功率只有33%开源模型差距更大任务成功率普遍低于6%。这项研究的价值不在于告诉我们AI不行而在于它给出了一把精确的尺子——用这把尺子研究者们能知道AI的耳朵在什么情况下会失灵知道无关的背景噪音会让AI分心知道同时处理两路音频会让AI的判断能力下降。有了这些具体的数字未来的工程师就知道该在哪里下功夫。归根结底真正能帮你操作手机的AI助手不该只是一个看图说话的程序而应该像一个真正理解你所处环境的搭档——能听到你说的话能感知到此刻屏幕上发生的变化能在正确的时间做出正确的反应。OmniGUI标志着这条路上一个务实的起点。有兴趣深入了解的读者可以通过arXiv编号2605.18758查阅完整论文。QAQ1OmniGUI和现有手机AI测试平台最本质的区别是什么A核心区别在于同步实时多模态输入。现有平台在AI每步操作时只提供截图少数平台会在任务开始前给AI看一段参考视频。而OmniGUI在AI每一步操作时都同时提供当前截图、这一步时间段内的屏幕录像和同步音频模拟真实手机使用中声音和动态画面随时出现的情况。Q2为什么给AI更多音视频信息反而会让它表现变差AOmniGUI的消融实验发现了跨模态干扰现象。当一个任务靠截图就能完成时额外提供无关的环境音和视频会让当前模型分心准确率反而下降。这说明现有模型在过滤无关信息方面存在缺陷多余的感官输入会干扰决策而不是帮助决策。Q3OmniGUI涵盖了哪些手机应用类型AOmniGUI覆盖29款常用应用包含中英双语各约一半涉及视频平台Bilibili、YouTube、TED、Vimeo、音乐应用QQ Music、Spotify、电商淘宝、亚马逊、社交媒体微信、X/Twitter、Instagram、打车出行滴滴和语言学习多邻国等多种日常应用场景。