2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference 文章核心总结与翻译一、主要内容文章聚焦大语言模型(LLMs)推理的可复现性问题,揭示了数值精度是关键影响因素。研究发现,即使固定随机种子和使用贪心解码,GPU数量、批次大小、GPU型号等系统配置变化,也会导致模型输出(准确率、响应长度)出现显著差异,推理类模型受影响更严重(如DeepSeek-R1-Distill-Qwen-7B在BF16精度下准确率波动达9%)。根本原因是浮点运算的非结合性与有限精度导致的舍入误差,低精度格式(BF16)的误差会在长文本生成中累积放大。基于此,文章提出混合精度推理流水线LayerCast,通过BF16存储权重、FP32执行计算,在保证内存效率的同时实现了接近FP32的可复现性,并给出了可复现性优化的实践建议。二、创新点首次系统验证了数值精度对LLM推理可复现性的影响,量化了不同精度(BF16/FP16/FP32)、硬件及系统配置下的输出差异。揭示了推理类模型因竞争token概率差距小,对数值误差更敏感的特性,解释了可复现性问题的场景依赖性。提出LayerCast优化方案,平衡了内存效率与数值稳定性,仅需少量代码修改即可集成到vLLM等框架。给出了分场景的可复现性实践指南,为LLM基准测试和研究提供了标准化参考。三、核心部分翻译(Markdown格式)Abstract大语言模型(LLMs)现已融入各类领域并