英伟达：AXPO缩小智能体思维行动差距-尧图企业网站定制

标题Agent Explorative Policy Optimization for Multimodal Agentic Reasoning来源arXiv, 2605.28774v1️文章简介研究问题如何解决多模态智能体推理中因工具使用的高方差和低频尝试导致的强化学习信号缺失问题主要贡献论文提出AXPO算法通过固定思维前缀并重采样工具调用有效缩小“思维-行动”差距显著提升模型性能。重点思路诊断“思维-行动”差距研究发现标准RL方法如GRPO存在两个症状工具使用仅占约30%的 rollout且在使用工具的子组中约40%的问题全错导致工具调用token缺乏正向学习信号。提出工具调用重采样机制针对全错的工具使用子组AXPO固定已生成的思维前缀仅对工具调用及其后续内容进行重采样。这避免了从头生成的计算浪费将探索集中在高方差的行动环节。基于不确定性的前缀选择并非所有失败前缀都值得重采样。AXPO根据策略对工具调用token的平均概率作为不确定性代理对候选前缀进行排名优先重采样置信度最低的前缀以提高恢复成功率。分离优势计算为避免梯度冲突AXPO将优势流分解。重采样的延续部分使用独立的每前缀GRPO优势源前缀则通过二元恢复指标只要有一个重采样成功即奖励更新确保思维前缀获得正确的正向反馈。分析总结性能全面超越基线在九个多模态基准测试中SFTAXPO在Pass1和Pass4上均优于SFTGRPO。8B模型经AXPO训练后Pass4表现甚至超越了未训练的32B基座模型参数量仅为后者的四分之一。有效逆转训练动态实验显示AXPO训练过程中工具使用率显著上升增加28个百分点而全错率大幅下降降低17个百分点证明其成功恢复了工具调用的学习信号。组件消融验证有效性移除前缀固定、不确定性排序或分离优势计算任一组件性能均出现明显下降证实了AXPO各设计选择的必要性。相比单纯增加rollout预算或奖励塑形AXPO以更少的计算开销获得了更高的收益。提升工具交互质量在需要工具介入的任务如感知和搜索中增益最大且在匹配的工具使用子集上AXPO的条件通过率更高表明其不仅增加了工具使用频率更提升了工具使用的准确性。个人观点论文识别智能体RL中的结构性不对称问题传统方法往往平等对待思维和行动但AXPO洞察到行动工具调用是高方差瓶颈。通过“固定思维、重采样行动”的策略针对性的探索机制比盲目增加样本量更高效。

相关新闻

自制真空管难题揭秘：硼硅酸盐玻璃与金属多种密封方法各有优劣！

Python GraphQL与graphene应用

Python import系统与模块加载的细节

BetterNCM-Installer终极指南：3分钟轻松搞定网易云音乐插件安装

三分钟掌握ncmdump：轻松解密网易云音乐NCM加密文件

Driver Store Explorer终极指南：5分钟学会Windows驱动存储深度清理

Grok Build CLI：面向终端原生体验的AI编程代理

UVa 509 RAID

斋月终端提醒工具：为穆斯林开发者定制的轻量级CLI礼拜时间助手

3步解锁显卡潜能：DLSS Swapper智能性能引擎完全实战手册

HarmonyOS PC 实战之注册表单的状态设计——四个 @State 如何驱动完整的表单交互

2026测评视角拆解：香港公屋“奇葩”不规则户型，全屋定制怎么做才不翻车？

CTU-13数据集深度使用指南：如何用它训练你的第一个僵尸网络检测模型？

别再手动数圆了！用OpenCV+Python 5行代码自动识别图片中的圆形并标记中心点

遗传算法进阶：算子机制、种群健康度与自适应参数调优

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定