如何给 Reasoning 提供过程奖励?逻辑能力或许是激发通用推理能力的关键!

如何给 Reasoning 提供过程奖励?逻辑能力或许是激发通用推理能力的关键! 主题如何给 Reasoning 提供过程奖励逻辑能力或许是激发通用推理能力的关键时间北京时间2026.03.22 (周日) 11:00-12:00美东时间2026.03.21 (周六) 23:00-24:00美西时间2026.03.21 (周六) 20:00-21:00直播平台微信视频号b站直播间内容介绍现有强化学习方法要么只以结果作为奖励要么依赖模型自身信号如置信度、PRM但都无法评估推理逻辑的正确性。现有研究表明逻辑与代码、数学一样是提升大模型推理能力的关键。所以本文探索了如果从逻辑的角度出发给推理过程打分来进行强化学习从而提升大模型的逻辑推理能力并且测试逻辑能力能否泛化到别的任务上。作者提出 LogicReward将大模型的自然语言推理过程形式化后用一个验证器打分。但是大模型在自然语言形式化上效果不好。比如说大模型在推理的时候会做很多隐性的假设但是这些假设缺失的话会导致验证器的结果与实际结果不匹配。所以作者提出先用 LLM 自动补全在一个推理步骤中的所有假设或常识再进行形式化验证提高了形式化的准确率。更好的形式化也带来了更准确的 LogicReward从而在后续强化学习中也提供了更准确的训练信号。实验结果表明经过 LogicReward 构造的数据训练大模型能在自然语言推理和逻辑推理任务上有很大的提升。并且训练后的模型也能在分布外的任务上比如数学GSM8K常识推理CommonsenseQA演绎推理BoarderGameQA有很好的提升。说明将大模型在逻辑上对齐后也能在别的任务上得到泛化。本文还做了很多实验分析为后续大模型逻辑对齐指出了若干研究方向。论文信息标题LogicReward: Incentivizing LLM Reasoning Via Step-Wise Logical Supervision链接https://arxiv.org/pdf/2512.18196嘉宾徐俊东新加坡国立大学计算机系博士一年级主要研究方向是大模型的推理能力包括大模型的严谨逻辑推理符号推理。他致力于探索 Neuro-Symbolic 的方法如何能让大模型的推理过程更可信和可验证。他作为第一作者在 Neuro-Symbolic 领域的多项研究成果已发表于 NeurIPS、ICLR、ACL、AAAI 等人工智能顶级会议并获得 AAAI 2026 Symbolic and Logical Reasoning Workshop Best Paper Award。个人主页https://aiden0526.github.io/主持人罗盟新加坡国立大学计算机系博士主要研究方向包括认知驱动的多模态理解和推理、多模态情感分析、视频理解和生成等。个人主页https://eurekaleo.github.io/入群欢迎加入 NICE 每周分享交流群可与 NICEer 唠嗑以及第一时间收到后续 NICE 分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球 50 位一线青年学者共同发起的顶尖 AI 前沿交流平台。 成立以来我们汇聚海内外 300 嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超 13 万关注。目前NICE 已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化 AI 前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/niceaitalk编辑 | 宁钰成 中国科学院大学