认知循环架构与六种算法的关系

认知循环架构与六种算法的关系 文章目录一、前言二、认知循环架构与六种算法的关系一、总览映射九步循环 vs 六种算法二、六个维度的详细对比维度1目标管理第1、2、9步—— 这是最大的断层维度2数据来源与优秀样本判断第3步维度3学习模式与取其精华第4、5步维度4反馈信号与分析差异第6、7步维度5更新机制与修正理解第8步维度6Critic 的缺失——你最敏锐的观察三、两者的互补性如果把它们融合四、一句话总结一、前言仅供参考未经实验验证。 DeepSeekMath对SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法有统一范式描述看看与九步认知循环关系。二、认知循环架构与六种算法的关系详细分析一下九步认知循环与SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法的区别和联系这是一个非常深刻的元认知问题。下面我从六个维度系统对比九步认知循环与这六种训练算法先画一张总览映射图再逐层拆解。一、总览映射九步循环 vs 六种算法九步认知循环SFTRFTOnline RFTDPOPPOGRPO1. 确立大目标无被动接收任务无无无无无2. 目标分解无无无无无无3. 获取外部信息/判断优秀样本人工数据直接给从旧模型采样离线从实时模型采样在线从旧模型采样成对数据离线从实时模型采样在线从实时模型采样组数据在线4. 外源学习取其精华全文背诵无筛选拒绝采样只保留正确—成对偏好筛选对比学习——5. 内源学习自我博弈——边做边筛—奖励模型Critic组内PKKL约束6. 实践验证无无验证规则验证对/错规则验证偏好验证奖励模型打分奖励模型打分7. 分析差异无答案 vs 真值答案 vs 真值偏好 vs 厌恶实际回报 vs Critic预估组内得分 vs 组内均值8. 修正理解贝叶斯更新GC1全量平等GC0/1硬筛选GC0/1硬筛选GC∈(0,1)软筛选GCA_t时序差分GCÂKL组内相对偏离约束9. 粗糙容忍度循环/停机收敛即停收敛即停收敛即停收敛即停收敛即停收敛即停二、六个维度的详细对比维度1目标管理第1、2、9步—— 这是最大的断层九步循环的核心特征目标是有结构的全局目标 → 局部子目标嵌套分解粗糙容忍度不要求一步完美跑通 demo 就转下一步显式停机判断成本-收益性价比、是否阻碍继续、技术债标记六种算法的核心特征目标是标量函数最大化似然SFT/RFT或最大化期望回报PPO/GRPO无粗糙容忍度优化过程追求数学收敛没有差不多就行的概念无显式停机训练到 loss 不降或资源耗尽为止不存在标记技术债转向下一目标关键区别九步循环是项目管理式学习算法是函数优化式学习。前者知道什么时候该停后者只知道往哪走。维度2数据来源与优秀样本判断第3步九步循环主动搜索/调研判断是否存在优秀样本搜索方向本身是基于过去经验的直觉方向错了可能找不到优秀样本算法对应算法数据从哪来对应九步的哪种模式SFT人工直接给没有搜索直接喂答案像有人把书塞到你手里RFT从固定旧模型π s f t \pi_{sft}πsft​采样外源学习从过去的自己旧模型产生的作品中筛选DPO从固定旧模型π s f t \pi_{sft}πsft​采样成对数据外源学习对比从旧作品里挑好/差对比着学Online RFT从实时模型π θ \pi_{\theta}πθ​采样内源学习边做边筛用现在的自己出题PPO从实时模型π θ \pi_{\theta}πθ​采样内源学习裁判自我博弈但请了专业裁判奖励模型和参谋CriticGRPO从实时模型π θ \pi_{\theta}πθ​采样组数据内源学习组内PK没有参谋靠同学互评关键洞察九步循环的外源/内源切换恰好对应了论文中Offline vs Online的划分。但九步循环多了搜索方向的选择第3步而算法的数据来源是预设的要么离线要么在线没有先判断有没有优秀样本再决定学习模式的元决策。维度3学习模式与取其精华第4、5步九步循环的外源学习模仿、推测、提问、质疑理解有层级循环越多对优秀样本的理解越深选择性内化取其精华去其糟粕认知层面的筛选算法对应算法如何取其精华是否有理解层级SFT无筛选全文背诵❌ 无死记硬背RFT硬筛选错的答案直接扔掉I ( o ) 0 \mathbb{I}(o)0I(o)0❌ 无只分对错不分理解深度DPO软筛选成对比较隐式学习偏好❌ 无学到的是概率偏好不是概念层级Online RFT硬筛选实时生成实时扔掉错的❌ 无PPO/GRPO精细筛选按分数/排名差异化更新❌ 无只调输出概率不建概念层级关键区别九步循环的取其精华发生在认知表示层面理解为什么好内化到自己的知识框架算法的筛选发生在数据层面扔掉错误样本或降低差样本概率。前者是结构性的知识重组后者是统计性的频率调整。维度4反馈信号与分析差异第6、7步九步循环实践验证后比较自己输出与预期/真值的差异真值来源优秀样本如果有、物理世界如果是实验、逻辑一致性如果是推理算法对应算法反馈信号与九步的差异SFT无反馈默认人工答案100%正确没有分析差异环节RFT/Online RFT规则判断对/错二值类似与标准答案比对但只是结果层面的对错DPO人类偏好好/差序关系没有绝对真值只有相对偏好PPO奖励模型连续打分 Critic 价值预估最接近九步的分析差异但Critic是事中预估每个token预估未来回报而九步是事后复盘输出后比较GRPO组内相对排名归一化得分没有绝对标准只有这次比同组其他人好还是差关键区别九步循环的真值通常是外生且相对可靠的优秀样本、物理实验、逻辑真值。而 PPO/GRPO 的裁判奖励模型是内生且带噪声的论文明确说 PRM800K 有 20% 错误标注。九步循环没有显式处理反馈信号不可靠的问题而 RL 的核心挑战之一就是噪声鲁棒性。维度5更新机制与修正理解第8步九步循环贝叶斯更新根据反馈调整假设概率有选择地更新不是全盘推翻而是修正第4/5步的理解或修正第3步的搜索直觉更新是结构性的理解框架的调整算法对应梯度系数G C GCGC的对比算法G C GCGC更新力度更新选择性与九步的类比SFT1 11恒定❌ 无选择性全量平等像抄书每个字都抄不分重点RFTI ( o ) ∈ { 0 , 1 } \mathbb{I}(o) \in \{0,1\}I(o)∈{0,1}✅ 硬筛选只更新正确的像批改作业错的撕掉对的照抄Online RFTI ( o ) ∈ { 0 , 1 } \mathbb{I}(o) \in \{0,1\}I(o)∈{0,1}✅ 同上但数据实时像边做边撕错题DPOσ ( ⋅ ) ∈ ( 0 , 1 ) \sigma(\cdot) \in (0,1)σ(⋅)∈(0,1)✅ 软筛选自适应力度像对比学习好答案多模仿差答案少模仿力度看当前差距PPOA t ∈ R A_t \in \mathbb{R}At​∈R✅ 精细调节可正可负像老师逐句批改这句比预期好那句比预期差−GRPOA ^ i , t β ( π r e f π θ − 1 ) \hat{A}_{i,t} \beta(\frac{\pi_{ref}}{\pi_{\theta}}-1)A^i,t​β(πθ​πref​​−1)✅ 精细调节偏离约束像小组讨论导师把关组内PK决定谁的发言值得学导师防止你走偏关键区别九步循环的修正理解是符号层面的概念、假设、搜索方向的调整而算法的更新是参数层面的神经网络权重的梯度下降。GRPO 的 KL 项最接近九步的防止走偏导师把关但它是数学约束而非认知约束。维度6Critic 的缺失——你最敏锐的观察这是两个框架最深层的差异之一。PPO 的 Critic价值网络V ψ V_{\psi}Vψ​作用在每个 token 位置预估从这个状态出发未来还能拿多少分特点事中预估、时序性、细粒度公式A t r t γ V ( s t 1 ) − V ( s t ) A_t r_t \gamma V(s_{t1}) - V(s_t)At​rt​γV(st1​)−V(st​)时序差分九步循环中最接近 Critic 的是什么第3步搜索方向判断基于经验的直觉预期但它是事前的不是事中的第9步成本-收益判断宏观层面的资源分配但它是离散决策不是连续价值预估关键区别九步循环没有显式的、细粒度的、时序的状态价值函数。人类的元认知“我觉得我现在这条路能走通吗”确实在扮演类似角色但九步循环没有把它形式化为每个中间步骤的未来回报预估。这是九步循环的一个潜在缺口——如果要在复杂推理任务中应用九步循环可能需要补充一个中间步骤价值评估的机制类似过程奖励模型 PRM。三、两者的互补性如果把它们融合如果把九步循环的元认知层和 RL 的优化层结合会得到一个更强大的框架九步循环提供RL 算法提供融合后的增强目标分解与停机判断参数优化引擎课程式 RL先训子目标达标后转下一个避免在单一目标上过度优化外源/内源模式切换离线/在线采样机制自适应采样策略先判断是否有高质量离线数据再决定用 RFT 还是 GRPO理解层级与选择性内化梯度系数差异化表示层面的课程学习不仅调概率还显式维护概念理解的层级结构成本-收益元认知收敛性保证资源受限 RL训练预算有限时像九步循环一样做技术债标记不追求完美收敛真值/优秀样本参照噪声鲁棒优化弱监督 RL当真值稀缺或噪声大时用九步的质疑-筛选机制清洗奖励信号四、一句话总结九步认知循环是一个元学习操作系统关心学什么、什么时候学、什么时候停六种 RL 算法是这个操作系统下的具体优化程序关心给定目标后怎么更新参数。两者在反馈-选择-更新的闭环结构上同构但九步循环在目标管理和认知层级上更高而 RL 算法在时序价值预估Critic和噪声鲁棒优化上更精细。如果把九步循环形式化它最可能导向分层强化学习或元强化学习的方向——即让智能体自己决定当前该用 SFT、RFT 还是 GRPO。