Gram Newton-Schulz 算法重写 Newton-Schulz，为 Muon 优化器提速最高 50%-尧图企业网站定制

我们的贡献为解决标准 Newton-Schulz 算法的缺点引入 Gram Newton-Schulz 算法在万亿参数的 MoE 模型中可将优化器时间最多减少 50%。该算法在小的方形对称 Gram 矩阵上迭代降低浮点运算成本更多使用对称 GEMM 内核。贡献包括将标准算法重写为朴素 Gram Newton-Schulz 算法、研究其数值特性并改进为稳定算法、实现自定义对称矩阵乘法内核、用其取代 Muon 的 Newton-Schulz 例程得到 GramMuon 优化器且发布开源实现。Muon 回顾Muon 是训练先进语言模型的首选优化器与 AdamW 相比达到给定损失所需优化器步骤更少但每个步骤计算成本更高开销源于 Newton-Schulz 正交化过程。Muon 更新规则涉及动量矩阵和极分解操作使用 Newton-Schulz 方法近似极分解。标准 Newton-Schulz 算法实现有特定步骤后续工作试图改进 Muon但大多未改变 Newton-Schulz 例程的实际运行时间。标准 Newton-Schulz 算法运行时间分析显示其存在对称矩阵乘法和对矩阵纵横比依赖的缺点。Gram Newton-Schulz 算法该算法通过在小的方形对称 Gram 矩阵上迭代减少昂贵的矩形矩阵乘法数量输出与标准 Newton-Schulz 算法相同但计算成本显著降低。其基于特定公式将迭代多项式方法转换为近似平方根倒数的方法有朴素 Gram Newton-Schulz 算法版本。该算法与 Polar Express 论文附录 F 方法相关但在公式、内核使用和稳定性分析方面有超越。朴素 Gram Newton-Schulz 算法运行时间计算表明在典型 Muon 应用中比使用对称 GEMM 运算的标准算法节省 55% 浮点运算次数比不使用对称 GEMM 运算的典型实现节省 68%。朴素 Gram Newton-Schulz 算法的不稳定性使用朴素 Gram Newton-Schulz 算法训练 Transformer 大语言模型会出现损失值飙升和输出充满无穷大的问题。通过跟踪中间矩阵的特征值发现不稳定性源于 Gram 矩阵存在虚假负特征值和特征向量漂移。

相关新闻

2025年周口工商年报怎么选？避开这5个常见误区

微信小程序虚拟支付2.0实战：手把手教你用Java搞定余额查询API（附完整代码与避坑指南）

避坑指南：RK3588 RGA库im2d API的正确打开方式，从query到improcess全解析

本地AI播客流水线：用Python搭建离线可控的多角色语音生成系统

KV Cache原理与实战：大模型推理加速的核心机制

洛雪音乐音源终极指南：免费解锁全网高品质音乐资源的3个简单技巧

STC8H8K64U单片机IAP免冷启动下载，一个串口中断函数搞定远程升级

别再截图了！ArcMap地图导出AI格式的完整避坑指南（含释放蒙版关键步骤）

Sklearn入门之数据预处理preprocessing

深入S32K3时钟树：从FIRC到PLL，如何用S32DS为你的应用选对时钟源？

i.MX 6SoloX异构处理器开发实战：A9与M4协同、安全启动与性能优化

i.MX 7ULP异构处理器：架构解析与低功耗物联网开发实战

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定