一行import代码，英伟达NeMo AutoModel让MoE大模型微调提速3.7倍！

发布时间：2026/6/27 0:54:15

一行import代码，英伟达NeMo AutoModel让MoE大模型微调提速3.7倍！

【导语英伟达开源最新研究成果NeMo AutoModel基于Hugging Face Transformers v5不改代码API仅添一行import就能让MoE模型微调提速3.7倍还能减少显存占用。】一行代码MoE微调提速3.7倍英伟达NeMo AutoModel专为大规模构建和微调生成式AI模型打造。在Hugging Face Transformers v5基础上它不改代码API只需添加一行import就能实现对MoE模型更快速的微调。实验显示相比Hugging Face原版Transformers v5NeMo AutoModel能在MoE微调中实现3.4 - 3.7倍训练吞吐提升并减少29% - 32% GPU显存占用。以Qwen3 - 30B - A3B为例在单节点8xH100 80GB GPU上TPS/GPU从3075提升到11340提升达3.69倍。核心技术三项创新攻克训练难题MoE成为前沿模型主流架构但给高效训练带来挑战需要配套基础设施支持。HuggingFace的Transformers v5是常用的MoE训练“通用底座”英伟达NeMo AutoModel站在其肩膀上兼容其API。具体而言NeMo AutoModel增加了专家并行EP、DeepEP和TransformerEngine。专家并行技术主要降低内存压力将专家权重分布到多个GPU上每张GPU只持有部分参数。如8张GPU上ep_size 8专家权重分布至8块GPU每张GPU的MoE内存占用能降到原来的1/8。对于Qwen3峰值内存从68.2GiB降至48.1GiB降幅29%对于Nemotron Nanomo模型内存占用从62.1 GiB降至42.5 GiB降幅32%。DeepEP实现了计算和通信的融合把token分发和组合操作整合进优化的GPU内核实现通信过程和专家计算的重叠降低传统方式中token分发和专家计算之间的通信成本。TransformerEngine内核为各类核心运算提供加速提供融合注意力机制、线性层和RMSNorm等实现不仅加速MoE层也加速普通Transformer层。无痛升级性能提升显著对于原本使用Transformers v5的用户英伟达NeMo AutoModel提供了无痛升级方案只需加上一行import代码就能获得3倍MoE微调速度提升。在Qwen3 - 30B - A3B和Nemotron 3 Nano 30B - A3B上能实现3.4 - 3.7倍的训练吞吐量提升同时内存消耗降低29% - 32%。英伟达还展示了Nemotron 3 Ultra 550B A55B在16个H100节点、128张GPU上的全参数微调结果TPS/GPU为815TFLOP/s/GPU约为293峰值内存为58.2GiB。而Transformers v5在这种规模下会直接撑爆内存。开源代码助力行业发展英伟达已将代码、配置和基准测试脚本放在GitHub上https://github.com/NVIDIA - NeMo/Automodel/tree/blog/transformers - v5 - automodel/blog_experiments 具体使用指南可参考https://docs.nvidia.com/nemo/automodel/latest/get - started/hf - compatibility 。编辑观点英伟达NeMo AutoModel的开源为MoE模型微调带来重大突破通过简单代码修改大幅提升性能降低成本有望推动生成式AI模型的大规模应用和发展。