ICLR 2026 | VLM靠打游戏练级？复旦提出Game-RL，推理匹敌几何数据-尧图企业网站定制

视觉语言模型VLM的强化学习RL目前往往局限于几何题、图表分析等场景。这种领域上的局限制约了 VLM 的探索和学习。如何拓展 VLM 的 RL 训练领域——复旦大学 NLP 实验室的研究团队提出了 Game-RL。通过合成多模态游戏数据用于 RL成功激发了 VLM 的通用推理能力泛化到多个域外通用测试基准。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。论文标题Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs General Reasoning论文链接https://arxiv.org/abs/2505.13886项目网站https://iclr26-game-rl.github.io代码仓库https://github.com/tongjingqi/Game-RL数据和模型https://huggingface.co/collections/OpenMOSS-Team/game-rlGame-RLVLM 的 RL 训练领域重要拓展电子游戏具有视觉元素丰富、规则明确而可验证的特点是理想的多模态推理数据源。研究团队由此提出了 Game-RL —— 构造多模态可验证的游戏任务来强化训练 VLM。合成的游戏数据示例如图 14 个代表性游戏的任务。〓图1GameQA 数据集中各游戏类别的代表性游戏3D 重建、七巧板变体、数独和推箱子。各游戏展示两个视觉问答示例包含当前游戏状态图片相应的问题以及逐步推理过程和答案。从游戏代码到训练数据Code2Logic 方法的巧思为获得训练数据团队提出了新颖的 Code2Logic 方法通过游戏代码系统化地大规模合成可验证游戏任务数据如图 1。如图 2利用强 LLM 生成游戏代码、设计任务及其模板、构建数据引擎代码最后只要执行代码便能自动生成数据还能灵活控制样本难度和生成数据量。〓图2Code2Logic 方法借助 LLM 通过三个核心步骤将游戏代码转换为推理数据。第一步游戏代码构建第二步游戏任务及其 QA 模板设计第三步数据引擎构建基于前两步构建自动化程序然后只要执行代码就能自动批量生成数据。GameQA丰富的游戏任务数据集利用 Code2Logic 方法构建的 GameQA 数据集不仅能评测 VLM 的推理能力更可作为多模态可验证游戏任务数据强化训练 VLM。GameQA 有4 大认知能力类别、30 个游戏如图 3、158 个推理任务、14 万个问答对。难度分级任务按难度分三级样本按视觉输入复杂度分三级。〓图3GameQA 的 30 个游戏分为 4 个认知能力类别涵盖 3D 空间推理、模式识别与匹配、多步推理、策略规划。20 个域内游戏用于训练和测试而 10 个域外游戏不参与训练用于测试模型在未见游戏场景下的泛化能力。核心发现 IGame-RL 带来了可泛化的通用推理在 GameQA 上使用 GRPO 训练3 个开源 VLM 在 7 个完全域外的通用视觉语言推理基准上均取得提升Qwen2.5-VL-7B 平均提升 2.65%展现出跨领域泛化如表 1。〓表1通用视觉语言推理基准上的评测结果核心发现 II游戏数据训练效果竟匹敌几何数据研究团队用 GameQA 和几何与图表推理数据集进行对比训练发现 GameQA 可与之匹敌。如表 2尽管训练数据量更少且领域不匹配但 GameQA 训的模型在通用基准上总体表现很有竞争力而且在 MathVista 与 MathVerse 这两个和几何与函数推理有关的基准上Game-RL 训练竟超过了比较“对口”的训练数据。这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。〓表2对比训练5K GameQA 样本 vs. 8K MAVIS几何与函数视觉推理vs. 8K Multimodal-Open-R1以几何推理为主vs. 8K MultiMath综合的数学领域多模态推理GameQA 训练的模型总体很有竞争力实验也显示混合训练MultiMath 中加入 GameQA 数据能助力模型提得更多。核心发现 III训练数据量和游戏个数的 Scaling Effect数据量的 Scaling Effect加大训练的 GameQA 数据量至 20K实验显示模型在通用推理基准上的表现总体呈持续提升如图 4。〓图4训练数据量的 Scaling Effect游戏个数的 Scaling Effect随着训练的游戏种类变多域外泛化效果增强如图 5。〓图5使用 20 种游戏的任务训练模型在域外通用基准上的提升优于使用4种游戏的配置。深度剖析Game-RL 后模型能力提升在哪为更好理解 Game-RL 对 VLM 推理能力的提升研究团队随机采样了案例进行了细致的人工分析。结果显示Game-RL 后模型在视觉感知和文本推理两个方面都有提升如图 6。〓图6人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上视觉感知和文本推理能力的变化情况下方是视觉感知能力提升的一个案例。结论研究提出了 Game-RL 以及可验证游戏数据合成方法 Code2Logic构建了 GameQA 数据集将 VLM 强化训练领域拓展到游戏场景。通过实验研究团队证明了 Game-RL 能提升 VLM 的可泛化的通用推理。此外游戏数据训练效果可匹敌几何数据且扩展训练游戏数和数据量还能带来持续提升。以上结论表明在游戏环境 scale 强化学习可作为提升模型通用推理能力的重要方向。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关新闻

【MySQL安全】密码插件指南：从配置到踩坑

DataV大屏设计避坑指南：从边框异常到图表刷新，这些坑我都帮你踩过了

时序数据库性能PK：IoTDB vs InfluxDB在车联网场景下的实测对比

【无人机三维路径规划】基于磷虾群算法KH实现复杂地形下无人机避障三维航迹规划附Matlab代码

抖音无水印视频下载终极指南：轻松保存高清内容

Jmeter接口安全测试实战：RSA/AES加密与签名生成全解析

MPC7410处理器架构解析：AltiVec矢量技术与硬件设计实践

从零到一：TeX Live 与 TeXstudio 的完整安装与配置实战

AlienFX Tools终极指南：告别臃肿AWCC，500KB掌控你的Alienware设备

HarmonyOS6踩坑记录之Navigation + Tabs 嵌套后路由栈全乱了？每个 Tab 独立 NavPathStack 才是正解

MC68F375 QSMCM模块深度解析：从寄存器配置到队列SPI实战

深入解析MC9S08GB/GT FLASH编程、擦除与安全机制实战

CTU-13数据集深度使用指南：如何用它训练你的第一个僵尸网络检测模型？

别再手动数圆了！用OpenCV+Python 5行代码自动识别图片中的圆形并标记中心点

遗传算法进阶：算子机制、种群健康度与自适应参数调优

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定