先看一张账本。训练 GPT-2 124M,bf16 权重本体 124M × 2 字节 ≈ 248 MB。如果你以为这就是显存大头,去看 karpathy 的 llm.c(commit f1e2ace)里这三行分配:// train_gpt2.cu:397-409(有删节,略去 printf 与 assert)cudaMallocConditionallyManaged((void**)model-m_memory,shard_num_parameters*sizeof
从Adam、LAMB到Muon和ZeRO-1:大模型优化器演进与llm.c底层实现
先看一张账本。训练 GPT-2 124M,bf16 权重本体 124M × 2 字节 ≈ 248 MB。如果你以为这就是显存大头,去看 karpathy 的 llm.c(commit f1e2ace)里这三行分配:// train_gpt2.cu:397-409(有删节,略去 printf 与 assert)cudaMallocConditionallyManaged((void**)model-m_memory,shard_num_parameters*sizeof