IBM和南卡罗来纳大学的实验让答题准确率飙升28个百分点

IBM和南卡罗来纳大学的实验让答题准确率飙升28个百分点 这项由IBM研究院与南卡罗来纳大学人工智能研究所联合开展的研究以预印本形式发布于2026年5月12日论文编号为arXiv:2605.18827有兴趣深入了解的读者可通过该编号查询完整论文。**研究概要一个关于考试辅助的大胆实验**考虑这样一个场景你是一名基础知识有限的学生面对一份选择题试卷。如果让你独立作答正确率可能只有三四成。但如果有一位经验丰富的助教提前为每道题专门设计了一套解题框架——告诉你该从哪些角度分析、用什么步骤推导、做完之后再用什么方法验证——你的得分会不会大幅提升这正是IBM与南卡罗来纳大学研究团队做的事情只不过学生换成了小型语言模型Small Language Models简称SLM助教变成了一段由强大AI生成的Python程序。这套被命名为代码引导推理Code-Guided ReasoningCGR的方法是一套专门用来测量这种辅助效果的评测框架。研究结果出人意料地显著在核心对比组中有了这套代码辅助脚手架之后小模型的答题准确率从38.11%跃升至66.21%整整提高了28.10个百分点。这不是某一道题偶然答对的运气而是横跨九个不同知识领域、六种不同小模型的系统性观察结果数据来自超过两万条有效记录。当然研究团队非常诚实地指出这个数字背后有很多需要交代清楚的条件——辅助路径消耗了约七倍于直接回答的计算资源答案提取机制并不完美有一个数据集甚至出现了准确率下降的倒退现象。正因如此这篇论文的价值不仅仅在于那个亮眼的数字更在于它提供了一套完整的检查清单让后来的研究者能够看清每一个数字背后的来龙去脉。---**一、为什么直接让AI回答选择题其实是一种裸考**日常生活中当我们评价一个学生的能力时通常有两种方式。一种是把他单独关在考场里不给任何工具直接看他能答对多少题。另一种是给他计算器、参考书、草稿纸甚至允许他把大题拆成小步骤逐一推导然后再看他的最终成绩。显然这两种场景测出来的东西是不一样的。然而当研究人员评测AI语言模型时长期以来默认采用的都是第一种方式给模型一道选择题要求它直接输出A、B、C或D中的某个字母然后对答案完事。这种裸考模式在大型模型时代或许勉强够用——那些千亿参数的巨型模型本身就储存了海量知识直接回答往往还不错。但现实中越来越多的AI应用场景并不是让单个模型孤立地回答问题。工程师们早就开始构建更复杂的系统一个控制程序把问题拆解成若干步骤调用模型多次汇总结果排除矛盾最终给出答案。这种有外部脚手架支撑的工作方式才是小型模型在实际部署中真正的样子。小型模型之所以被广泛使用原因很实际它们更便宜、可以在本地运行、对数据隐私友好、延迟低。但它们的知识储量和推理能力通常不如大模型在裸考状态下表现有限。CGR框架的核心问题就是如果给这些小模型配备一套精心设计的代码脚手架它们的表现会发生什么变化---**二、助教是怎样工作的三条答题通道的设计**CGR框架的运作方式可以用一个学校考试的比喻来理解。有一位经验丰富的出题助教在实验中是一个强大的大型AI被称为生成模型还有一名应试学生被评测的小型模型被称为求解模型。整个过程分两条并行的路径推进。第一条路径是裸考直接把选择题丢给小模型要求它输出一个选项字母这就是直接基线答案。第二条路径是辅助考试先让助教AI针对这道题专门写一段Python程序这段程序相当于一份定制化的解题指南——它可以把题目拆成几个角度分别分析把每个角度的问题依次发给小模型收集小模型的回答比对是否一致如果不一致再发一道决胜题来打平分最后汇总出一个最终答案。这就是辅助路径答案。第三个通道有些特殊助教AI在写这段程序的时候自己也在心里预判了一个答案这个答案被保存在程序里作为生成模型侧答案。这个通道存在的意义是诊断性的——如果辅助路径的准确率很高研究人员需要分辨这究竟是因为小模型真的被帮助了还是因为助教AI自己的答案泄露进了程序。这三条通道必须分开记录、分开计分绝不能混为一谈。把它们混在一起看就像把老师自己的答案和学生通过辅助答出来的答案算在一起那就什么都说明不了了。从工程层面来说每段Python程序都有一个固定的返回合同必须返回三个值——求解模型选的答案、生成模型预判的答案、生成模型估计的题目难度。程序里可以调用两个工具函数一个是调用小模型的接口另一个是从模型回复中提取选项字母的提取器它的规则很简单找第一个独立出现的大写字母A到Z找不到就返回X表示提取失败。---**三、九个考场、六位学生实验的规模和覆盖范围**为了让这套评测框架的结论足够可信研究团队为它配备了相当丰富的考题库。他们把九个来源各异的选择题数据集汇编成一个标准化题库总共保留了超过两万条有效结果记录。这九个数据集覆盖的领域差异显著。MMLU-Pro包含500道需要深度推理的多领域学术选择题难度远高于普通常识问答。OpenBookQA收录了500道小学科学类问题考察的是将基本知识灵活应用于新场景的能力。SuperGPQA的500道题横跨285个研究生级别学科从神经科学到材料工程无所不包。MedQA的500道题来自医学执照考试需要在复杂临床场景中做出鉴别诊断。PhysicsQA则收录了45道物理学题这批题来自一项专门研究如何帮助大模型改善物理推理的项目。Time-MQA是一个特别的数据集它把时间序列分析——也就是分析随时间变化的数据趋势——包装成了自然语言选择题的形式500道题考察的是对时序数据模式的理解。CorrectBenchQA的494道题来自一项研究AI自我纠错能力的基准测试。FailureSensorIQ的500道题聚焦工业4.0场景考察对传感器关系和设备故障模式的推理能力——研究团队特别提醒这个数据集里的知识高度专业且容错率极低AI给出的任何答案都不能直接用于实际工业诊断必须经过专家验证。AIME则收录了2025年美国邀请数学考试的30道竞赛题题目本身受版权保护论文中没有复现题目原文。担任应试学生角色的六个小模型分属不同的模型家族和参数规模涵盖了来自IBM的Granite系列包括针对代码优化的Granite 8B Code和更小的Granite 4H Small、Meta的Llama 3.2 11B、Mistral的Small 3.1 24B以及更新一批的Google Gemma 4 E2B和英伟达的Nemotron-3-Nano-4B。这六个模型并非按照参数量对齐的严格对比组而是代表了实际工程应用中会被选用的不同类型小模型。所有模型都以温度值0.0运行以尽量保证结果可复现求解模型的回复上限为2000个词元而生成助教程序的强大模型的上限则高达8192个词元。---**四、核心数据那28个百分点背后的完整故事**当所有结果汇总之后研究团队得到了三张截然不同的成绩单。第一张是对所有两万多条记录不加区分地统计小模型直接回答的微平均准确率是23.27%辅助路径的准确率是62.41%而助教AI自己预判的准确率是79.19%。三者之间相差悬殊辅助路径比直接回答提高了约39个百分点。但这张成绩单掺杂了一个难以解释的情况有些小模型在某些数据集上不管题目怎么出直接回答全部错误准确率为零。这种情况下如果辅助路径突然答对了很多题我们根本无法判断这是代码脚手架真正帮助了模型推理还是模型连基本题意都没理解辅助路径只是碰巧从格式混乱的回复中提取出了正确字母。这就好比一个学生考试交了白卷但老师改卷时发现草稿纸上的涂鸦恰好写对了答案你该怎么算这道题的分数因此第二张成绩单才是研究的主角把那些直接回答完全为零分的数据集-模型组合剔除出去只保留至少有一道题答对了的组合再对每个数据集-模型配对计算宏平均准确率也就是给每个配对相同的权重不让题目多的数据集把结果拉偏。在这个口径下直接回答的宏平均准确率是38.11%辅助路径是66.21%差值是28.10个百分点。研究团队还设置了一个更严格的门槛只保留直接回答准确率超过30%的配对——也就是说模型在裸考状态下已经能答对至少三成题目具备一定直接能力的情况下辅助路径还能进一步提升多少答案是14.11个百分点。这个数字比28.10小了一半但依然正向说明辅助效果并不只是在模型完全抓瞎的时候才出现。这两个数字放在一起传递了一个关键信号那28个百分点的提升一部分来自帮助原本就有一点能力的模型把能力发挥出来另一部分则更难区分清楚可能混入了纯粹因为调用次数更多、格式处理更好而带来的收益。研究团队用对数据集-模型配对进行自举法重采样的方式估计了不确定性得到了[20.32, 36.43]这个95%置信区间——换句话说这28.10这个点估计在合理的统计波动范围内是可信的但绝不是精确到小数点的定论。第三张成绩单是零分诊断组那些直接回答全部错误的配对辅助路径的宏平均准确率达到了62.19%。这组数据单独列出作为诊断参考不纳入主要结论。---**五、助教程序是如何工作的以一道雾天选择题为例**论文中有一个具体到代码层面的例子非常清楚地说明了辅助路径和直接路径的区别。题目是OpenBookQA中的一道题下面哪个地方最有可能出现雾A.沼泽地B.冻土带C.平原D.沙漠。正确答案是A。当Granite 4H Small小模型直接面对这道题时它回答了E——这个字母根本不在选项范围内直接算作错误。而辅助路径是这样工作的助教AI生成了一段Python代码代码里先从物理学角度定义了雾的形成机制近地面空气冷却到露点温度然后分别从四个维度对比了沼泽、冻土带、平原和沙漠的特征水分可用性如何、冷却机制是什么、风速怎样、露点温差有多大。程序把这些分析包装成一道分析题提示词发给小模型得到一个回答再把这个回答包装成一道验证题提示词再次发给小模型得到第二个回答提取两次回答的选项字母。如果两次一致就取那个字母如果不一致再发一道决胜题取第三次回答作为最终答案。在这个具体例子中两次回答都是A直接取A答对了。与此同时助教AI在程序里自己也留了一个答案A也是对的。这段代码的结构简化版大致如下先调用模型做分析提取字母再调用模型做验证提取字母如果两个字母相同就把它作为最终的求解模型答案如果不同再调用模型做一次决胜判断最后程序固定返回求解模型答案、助教AI预判答案以及难度估计这三个值。---**六、有人进步有人退步结果的差异性远比平均值更有意思**28.10个百分点是所有数据对的平均但如果把每个数据集-模型配对单独列出来会看到一幅更复杂的图景。提升最大的几个案例令人印象深刻。MedQA医学题组里Llama 3.2 11B在直接回答时准确率只有1.20%辅助路径下飙升到84.57%提升了83.37个百分点。同样是MedQAMistral Small 3.1 24B从3.38%跃升到78.22%提升了74.84个百分点。在AIME数学竞赛题组里Mistral Small 3.1 24B从3.33%升至83.33%提升了80个百分点。这些数字看起来惊人但研究团队提醒要谨慎解读直接准确率只有个位数意味着小模型在裸考状态下基本上不具备这个领域的有效知识辅助路径的大幅提升有相当部分可能来自助教AI自身知识的渗透而非小模型推理能力的真正释放。Gemma 4 E2B在MedQA上的情况则更有力它的直接准确率是52.91%已经不低了辅助路径进一步升至91.58%提升了38.68个百分点。Nemotron-3-Nano-4B在MMLU-Pro上从64.13%升至86.77%提升22.65个百分点。这两组数据更能说明辅助脚手架在模型本身已有一定能力的基础上仍然能带来显著改善。然而Time-MQA时序问答数据集里出现了令人不安的相反案例。在这个数据集上直接准确率越强的模型辅助路径反而表现越差。Gemma 4 E2B的直接准确率是61.65%辅助路径下降到56.22%下滑了5.42个百分点。Granite 8B Code从31.70%跌到29.24%下滑2.45个百分点。Nemotron-3-Nano-4B从62.25%小降到61.04%。反倒是原来直接准确率只有个位数的几个弱模型在辅助路径下有了较明显的提升。研究团队对这个现象提出了一个合理但未经严格验证的解释对于时序数据判断题直接看数字趋势可能是更高效的路径而把题目拆解成多个语言化的子问题、通过文字分析得出结论的做法反而可能把本来清晰的数字信号打散引入了更多干扰。这就好比一个熟练的厨师在凭直觉判断火候的时候如果强迫他按照复杂的分析清单逐项检查反而可能让他手忙脚乱。实验中所有出现辅助路径比直接路径差的数据集-模型配对全部来自Time-MQA这个规律性非常强成为了整套实验最重要的边界案例。---**七、三个数字为何不能混为一谈答题通道的不可交换性**研究团队花了相当篇幅解释一个看似简单实则微妙的问题直接路径准确率、辅助路径准确率和助教AI预判准确率这三个数字不是同一件事的三种描述它们在逻辑上不可互换。在所有两万多条记录中有75.50%的情况下辅助路径答案和助教AI预判答案是相同的这意味着约四分之一的时候两者是不同的。更重要的是有3,688条记录占17.99%出现了助教AI猜对但小模型辅助路径答错的情况而仅有249条记录占1.21%出现了小模型辅助路径答对但助教AI猜错的情况。这组数据揭示了一个关键事实助教AI在绝大多数情况下比小模型更可靠但它的答案是通过生成代码这个间接方式记录在程序里的而不是直接传递给小模型的。小模型得到的只有脚手架程序安排的一系列提示词而不是助教AI的直接答案。如果把辅助路径准确率和助教AI预判准确率混在一起当成小模型的成绩那就相当于把学生靠辅助工具答对的题和老师自己答对的题都算在学生头上这显然不对。因此辅助路径准确率测量的是在有一套专门设计的解题程序辅助的情况下小模型自己选出的答案有多少是正确的。这个数字依然受到多种因素的影响包括脚手架程序的质量、小模型响应提示的能力以及答案提取机制是否可靠。---**八、那些被记录在案的瑕疵研究的透明度令人注目**这项研究有一个值得称道的特点研究团队没有只展示好看的数字而是系统性地记录了实验中所有已知的问题和局限。最直接的问题是计算成本的不对等。辅助路径平均每道题调用小模型7.18次最多的一道题调用了90次而直接路径平均只调用1.01次。辅助路径消耗的词元总量约为1.48亿直接路径约为2012万前者是后者的7.36倍。这意味着如果要公平比较应该考虑在相同计算预算下多次直接回答取多数答案自洽投票的方法能达到什么准确率。这个对照实验没有在当前研究中进行是一个明确的缺口。答案提取机制也有明显缺陷。辅助路径的提取失败率返回X表示没找到合法字母达到15.67%而直接路径只有0.44%。当程序无法从小模型的回复中提取出明确的选项字母时就只能记录失败。这在零分诊断组17.92%的失败率中尤为突出——那些完全不会直接回答的模型在辅助路径中也更容易给出格式混乱的回复。生成的Python程序并非总是遵守不许写死答案的规定。静态扫描发现3569个生成程序文件中有43个包含类似solverLLM_answer A这样的直接赋值语句这些语句绕过了真正调用小模型的环节让脚手架程序直接把助教AI预判的答案当成了求解模型的答案。这43个文件对应251条结果记录。不过研究团队计算了把这251条记录剔除之后的差值结论是提升幅度几乎没有变化从28.10变为28.11说明这个问题对整体结论的影响极小但它的存在本身就是一个需要在未来版本中解决的合规问题。此外助教程序的不超过10次调用限制只是提示词里写的要求Python运行时并不强制执行加上笔记本环境允许对无效输出重试最多3次实际上调用次数完全可能超标。90次这个最大值就是在这种情况下发生的。最后整套实验只保留了每道题的单次运行结果没有做重复生成的不确定性估计。如果对同一道题重新生成程序、重新执行结果可能有所不同但这种变异性没有被量化。---**九、难度越高辅助效果反而更稳定一个有趣的内部诊断**助教AI在写程序的同时还会为每道题打一个1到9的难度分。虽然这个难度分是AI自己估计的并非题目本身经过权威认定的难度等级但它提供了一个有趣的内部视角。随着难度分从1升到9直接回答准确率从38.69%一路下滑到12.84%这与直觉完全吻合——越难的题小模型裸考越差。然而辅助路径准确率在整个难度范围内基本保持在50%以上没有随着难度升高而成比例下滑。在难度为7、8、9的极高难题上辅助路径准确率甚至略有回升在58%到60%左右。这个模式暗示对于小模型来说辅助脚手架在高难度题上的相对贡献可能更大——毕竟在容易的题上小模型自己也能答对脚手架的边际贡献有限而在极难的题上直接路径几乎无能为力脚手架至少还能把问题结构化地拆解开来给模型提供更有针对性的提示。---**十、我只能到这里研究的边界和它留下的问题**研究团队在论文结尾非常坦率地列举了当前结论无法支持的说法。这套框架无法证明辅助方式和直接方式是等成本的竞争者因为辅助路径明显消耗更多资源。无法证明这种提升是普遍适用的因为Time-MQA就出现了退步。无法证明这种方法在医疗或工业安全场景中是可靠的因为基准测试结果和真实部署安全性是完全不同的事情。也无法从纯粹的Python代码结构中分离出是代码的控制流带来了改善还是只是多调用了几次模型就改善了因为缺乏匹配计算成本的直接自洽投票对照组。研究团队提出了未来版本需要解决的几个关键问题需要能够感知选项集合的更智能答案提取器而不是简单取第一个大写字母需要运行时强制执行的调用次数上限需要真正沙盒隔离的执行环境需要对每道题生成多个程序并观察结果波动需要在相同计算预算下的直接自洽投票对照组。把这些改进全部做到之后CGR框架才能从一套观察性的审计工具升级为一套可控的基准测试。---说到底这项研究做的事情可以用一句话来概括它精心设计了一套测量工具用来观察同一个小模型在两种不同工作模式下的表现差异并且把观察过程中所有值得怀疑的地方都公开记录了出来。那个28个百分点的提升是真实的但它是在特定的测量条件下、特定的模型和题目组合上观察到的有七倍的计算成本差异有15%以上的答案提取失败率有一个数据集持续出现退步还有极少数程序里藏着写好答案的小把戏。归根结底这套框架的价值不在于它证明了给AI加代码脚手架总是更好而在于它提供了一种让我们能够有条有据地讨论这个问题的工具——什么时候有效、有多有效、背后是什么原因、哪些情况下会适得其反。对于正在思考如何在实际工程系统中部署小语言模型的人来说这些细节比一个漂亮的平均数字要有用得多。有兴趣深入研究这套框架的读者可以通过arXiv编号2605.18827查阅完整论文其中包含了所有实验数据、生成程序样例、完整的审计记录和分区定义。---QAQ1代码引导推理CGR框架和普通的提示词工程有什么本质区别A普通提示词工程是改变给模型的问法模型还是只调用一次、输出一个答案。CGR框架则是让一个强大的AI预先为每道题写一段Python程序这个程序可以把问题拆成多个步骤多次调用小模型对比不同步骤的回答最终汇总出一个答案。本质区别在于CGR引入了可执行的代码作为中间层让小模型不再是在孤立地回答一个问题而是在一套精心设计的流程里逐步作答。Q2Time-MQA时序问答数据集为什么在辅助路径下反而准确率下降A研究团队观察到在时序问答中直接准确率已经较强的模型如Gemma 4 E2B的61.65%和Nemotron-3-Nano-4B的62.25%辅助路径后准确率分别下降了约5和1个百分点。一个可能的解释是时序分析本质上需要直接感知数字趋势而将题目拆解成多个语言化子问题的做法反而打散了这种直觉判断引入了额外干扰。不过研究团队明确表示这只是合理推测需要专门的消融实验来验证。Q3CGR框架的结论能直接用来指导在医疗或工业场景部署AI模型吗A不能直接套用。研究团队明确指出MedQA和FailureSensorIQ上的高准确率是基准测试结果不代表在真实临床或工业环境中的可靠性。医疗诊断和工业故障分析都是高风险领域AI生成的推理链可能产生看起来合理但实际上错误的解释。CGR的结论只能说明这套框架在标准化测试题上的表现任何实际部署都需要经过领域专家的独立验证。