“Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mi

“Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mi 文研究短视频推荐中的观看时长预测问题。作者发现真实数据在多粒度层面呈现复杂分布特性包括粗粒度大量快速滑走quick-skip导致严重偏态需要能够解决这种局部聚类现象的专门建模方法细粒度用户-视频的细粒度交互导致多样性和多峰分布引入了跨粒度的不兼容性从而放大了预测的复杂性需要自适应架构来捕获异构特征现有的观看时间预测方法通常通过两种主要方法来规避这些挑战。第一种方法是标签标准化它不仅简化了标签分布以便于拟合而且还提供了用户兴趣的公正反映。然而这可能会导致绝对观看时间信息丢失从而导致预测精度降低。第二种方法是任务转换其中回归任务被转换为一系列分类。好处是每个子分类任务比整体回归问题更容易学习而离散化和后续重建的过程不可避免地会引入额外的误差因此作者建议基于合理的分布假设直接回归观看时间的绝对值从而提高估计精度协调不同粒度的分布差异。作者假设短视频观看时长服从指数-高斯混合分布EGM其中指数分量解决粗粒度分布偏度高斯分量自适应捕获细粒度分布多样性。并设计了一个神经网络模型EGMN来学习该分布参数方法建模以前的方法通常选择特定的度量例如 MSE来构建损失函数然而这些指标依赖于对观看时间概率分布 () 的过于简化的假设忽略了跨多粒度级别的固有异质性因此作者这里对 ()​​ 进行概率建模作为一个指数分布和 K-高斯分布的混合EGM 的密度公式如下()0exp(|)∑1gauss(|,2)​其中前者是速率参数为 的指数分布的概率密度函数后者是均值为 方差为 2 的高斯分布的概率密度函数在粗粒度水平上分布高度倾斜指数分布非常适合对快速跳跃行为进行建模在细粒度级别分布变得更加复杂而高斯混合分布在理论上已被建立为复杂多模态分布的统一一致估计量EGMN(1) 隐藏表示编码器对于每个 user-item 对先从多个来源收集特征用户、视频、上下文可用特征通过嵌入层进行处理以创建特征向量 x。最初 x 被输入到特征编码器主干中以获得隐藏表示 h该表示在 EGM 分布中的多个组件之间共享。其中主干网络可以使用任何适合推荐预测场景的特征编码主干进行实例化例如 DCN、DIN、SENet、Transformer 等(2) 混合参数生成器隐藏表示随后被送往单独的分支中以估计每个分布分量的参数上图右半部分。对于 0 附近的峰值使用指数分布进行刻画h 为基座模型的输出比如 MoE 等用 h 输入到一个 dense 网络得到指数分布的参数值为了确保可识别性并防止分量模糊对高斯函数的均值限制为超过等式 (4) 中指数分量的均值最终某个样本的时长分布由上述分布的加权和构成权重由模型去学习一个 gate 网络得到(|)0()exp(|())∑1()gauss(|(),2())(3) 训练目标作者使用三个损失函数的组合来优化 EGMN分别是最大似然估计损失鼓励模型给更接近的分布更高的权重熵最大化损失避免模型偷懒只认真学习了其中一两个分布作者对分布权重值计算了熵希望熵越大越好不同分布的权重尽量均匀尽量都有学习到回归损失确保模型在最终预估的时长均值和真实 label 的距离越近越好最终的损失函数为这三种损失的加权和(4) 推理过程在推理过程中EGMN 以完全端到端的方式在可能的观看时间范围内生成完整的条件概率分布。对于标准观看时间预测我们简单地利用各个分布的均值的加权和作为时长的预估值实验可以看到 EGMN 在量化指标上取得了全面领先并能拿到 0.6% 的线上时长收益由于引入指数分布刻画 0 值附近的分布模型对快滑样本的预估能力提升能够更好的识别快滑样本这对负反馈有很大的意义)。从图上可以看到EGMN 能够更好的逼近真实分布同时也能更加准确的建模用户个人习惯和视频特定参与模式的能力并组合它们形成准确的联合预测分布总结EGMN 确实是理论上很好的工作在输入特征完全的情况下理论上可以拟合所有不同 user-item 对的多模态分布不同 duration 区间、不同性格用户、不同视频种类指数-混合高斯也是很好的拟合分布但是我更想知道是不是真的实现了这种效果结果里面只展示了不同 duration 区间内部的拟合情况并没有展示不同性格用户、不同视频种类的拟合情况尤其实在显示场景