原文链接https://datawhalechina.github.io/fun-rec/chapter_5_gr_basic/1.gr_intro.html传统的按照 先对数据做处理再做召回——粗排——精排——重排最后做推荐这样的判别式推荐有许多问题和局限性。而生成式推荐由于其建模自身的诸多优势作为一种新的推荐系统建模范式在未来可能成为一种方向与可能。1.判别式推荐学习一个条件概率分布预测用户u 在上下文c的条件下对物品i产生交互(点击点赞收藏、转发)的概率。在每一阶段都有各自不同的考量和侧重例如召回阶段侧重于快速地区分用户喜欢还是不喜欢粗排和精排使用不用规模的神经网络对物品进行打分重排会考虑多样性问题。其中的多个阶段包括召回、粗排、精排和重排 在此处称为多阶段级联。这种范式带来几个问题1.参数效率问题Embedding层参数量占比太多并且参数稀疏低效。2.语义建模缺失每次只考虑单个物品不关心物品ID之间的关联。没有在更全局的角度对物品语义关系进行建模。3.多阶段级联困境一方面每个阶段都是在优化局部目标导致全局目标很难对齐。另一方面前面阶段的过滤处理可能会丢掉一些后面阶段、甚至最终推荐阶段用户更看重的有潜力的优质物品从而陷入“局部最优”困境。2.生成式推荐将推荐问题建模为一个序列生成过程。模型需要学习的不是“某个物品是否应该被推荐”而是“在已知历史行为的条件下用户接下来最可能与哪个物品交互”。这种自回归建模方式天然地捕捉了用户行为的序列依赖性也为模型提供了更丰富的学习信号。这种自回归建模可以进行端到端的优化通过一次前向传播生成推荐结果不需要经过复杂的多个阶段避免了多阶段级联所带来的误差累计和目标不一致问题。更加关注全局目标的优化问题。(这里绕开了判别式推荐的短板和痛点)3.两种范式的区别 区别体现在 1目标函数2信息流动方式3模型架构目标函数生成式模型优化完整的概率分布不仅关注“哪些物品应该被推荐”更关注“整个交互序列是如何生成的”。信息流动方式的区别1判别式模型通常采用前馈网络结构信息从输入层经过多层变换之后流向输出层。独立计算每个物品的打分分数忽略了推荐列表中物品之间的依赖关系。2生成式模型采用自回归结构当前时刻的预测依赖于之前所有时刻的输出信息在时间维度上形成了循环流动 (?)。模型架构的区别1判别式推荐系统在不同阶段设计了不同的专用模块——召回阶段使用双塔模型或图神经网络排序阶段使用复杂的特征交互网络重排阶段 考虑列表级约束。2生成式推荐采用统一的Transformer架构通过自注意力机制和前馈网络的堆叠处理所有任务。更本质的区别体现在建模差异上 判别式范式追求的是“在给定候选集下做出最优选择”它假设候选集已经通过某种方式如召回被确定模型的任务是在这个有限的空间内进行排序。 而生成式范式则试图“学习用户行为的生成过程”它不预设候选集的存在而是让模型从全体物品空间中直接生成推荐结果。问题在原文5.1.3处讲两种范式的本质区别的时候在说明信息流动方式区别时提到信息在时间维度上形成了循环流动。 对于这里面的 “循环流动”这一概念不是很清楚自回归建模不是序列这一概念有换嘛怎么与循环这一概念又关呢期待在后续学的过程中回答这一问题。这是我结合原文做出的一点理解与整理有理解错误和表达错误之处敬请大家指出与讨论还是希望大家去看原文。
推荐系统学习笔记-01
原文链接https://datawhalechina.github.io/fun-rec/chapter_5_gr_basic/1.gr_intro.html传统的按照 先对数据做处理再做召回——粗排——精排——重排最后做推荐这样的判别式推荐有许多问题和局限性。而生成式推荐由于其建模自身的诸多优势作为一种新的推荐系统建模范式在未来可能成为一种方向与可能。1.判别式推荐学习一个条件概率分布预测用户u 在上下文c的条件下对物品i产生交互(点击点赞收藏、转发)的概率。在每一阶段都有各自不同的考量和侧重例如召回阶段侧重于快速地区分用户喜欢还是不喜欢粗排和精排使用不用规模的神经网络对物品进行打分重排会考虑多样性问题。其中的多个阶段包括召回、粗排、精排和重排 在此处称为多阶段级联。这种范式带来几个问题1.参数效率问题Embedding层参数量占比太多并且参数稀疏低效。2.语义建模缺失每次只考虑单个物品不关心物品ID之间的关联。没有在更全局的角度对物品语义关系进行建模。3.多阶段级联困境一方面每个阶段都是在优化局部目标导致全局目标很难对齐。另一方面前面阶段的过滤处理可能会丢掉一些后面阶段、甚至最终推荐阶段用户更看重的有潜力的优质物品从而陷入“局部最优”困境。2.生成式推荐将推荐问题建模为一个序列生成过程。模型需要学习的不是“某个物品是否应该被推荐”而是“在已知历史行为的条件下用户接下来最可能与哪个物品交互”。这种自回归建模方式天然地捕捉了用户行为的序列依赖性也为模型提供了更丰富的学习信号。这种自回归建模可以进行端到端的优化通过一次前向传播生成推荐结果不需要经过复杂的多个阶段避免了多阶段级联所带来的误差累计和目标不一致问题。更加关注全局目标的优化问题。(这里绕开了判别式推荐的短板和痛点)3.两种范式的区别 区别体现在 1目标函数2信息流动方式3模型架构目标函数生成式模型优化完整的概率分布不仅关注“哪些物品应该被推荐”更关注“整个交互序列是如何生成的”。信息流动方式的区别1判别式模型通常采用前馈网络结构信息从输入层经过多层变换之后流向输出层。独立计算每个物品的打分分数忽略了推荐列表中物品之间的依赖关系。2生成式模型采用自回归结构当前时刻的预测依赖于之前所有时刻的输出信息在时间维度上形成了循环流动 (?)。模型架构的区别1判别式推荐系统在不同阶段设计了不同的专用模块——召回阶段使用双塔模型或图神经网络排序阶段使用复杂的特征交互网络重排阶段 考虑列表级约束。2生成式推荐采用统一的Transformer架构通过自注意力机制和前馈网络的堆叠处理所有任务。更本质的区别体现在建模差异上 判别式范式追求的是“在给定候选集下做出最优选择”它假设候选集已经通过某种方式如召回被确定模型的任务是在这个有限的空间内进行排序。 而生成式范式则试图“学习用户行为的生成过程”它不预设候选集的存在而是让模型从全体物品空间中直接生成推荐结果。问题在原文5.1.3处讲两种范式的本质区别的时候在说明信息流动方式区别时提到信息在时间维度上形成了循环流动。 对于这里面的 “循环流动”这一概念不是很清楚自回归建模不是序列这一概念有换嘛怎么与循环这一概念又关呢期待在后续学的过程中回答这一问题。这是我结合原文做出的一点理解与整理有理解错误和表达错误之处敬请大家指出与讨论还是希望大家去看原文。