从Adam、LAMB到Muon和ZeRO-1：大模型优化器演进与llm.c底层实现

发布时间：2026/6/7 19:54:43

先看一张账本。训练 GPT-2 124M，bf16 权重本体 124M × 2 字节 ≈ 248 MB。如果你以为这就是显存大头，去看 karpathy 的 llm.c（commit f1e2ace）里这三行分配：// train_gpt2.cu:397-409（有删节，略去 printf 与 assert）cudaMallocConditionallyManaged((void**)model-m_memory,shard_num_parameters*sizeof