2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

发布时间：2026/5/25 14:28:44

2025_NIPS_Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

文章核心总结与翻译一、主要内容文章聚焦大语言模型（LLMs）推理的可复现性问题，揭示了数值精度是关键影响因素。研究发现，即使固定随机种子和使用贪心解码，GPU数量、批次大小、GPU型号等系统配置变化，也会导致模型输出（准确率、响应长度）出现显著差异，推理类模型受影响更严重（如DeepSeek-R1-Distill-Qwen-7B在BF16精度下准确率波动达9%）。根本原因是浮点运算的非结合性与有限精度导致的舍入误差，低精度格式（BF16）的误差会在长文本生成中累积放大。基于此，文章提出混合精度推理流水线LayerCast，通过BF16存储权重、FP32执行计算，在保证内存效率的同时实现了接近FP32的可复现性，并给出了可复现性优化的实践建议。二、创新点首次系统验证了数值精度对LLM推理可复现性的影响，量化了不同精度（BF16/FP16/FP32）、硬件及系统配置下的输出差异。揭示了推理类模型因竞争token概率差距小，对数值误差更敏感的特性，解释了可复现性问题的场景依赖性。提出LayerCast优化方案，平衡了内存效率与数值稳定性，仅需少量代码修改即可集成到vLLM等框架。给出了分场景的可复现性实践指南，为LLM基准测试和研究提供了标准化参考。三、核心部分翻译（Markdown格式）Abstract大语言模型（LLMs）现已融入各类领域并