前置知识:高中数学。是的,你没看错。大模型需要的数学远比你想的少,但远比你想的深。引言:为什么工程师要学数学?我见过太多工程师绕开数学直接上手 PyTorch——model.train()、optimizer.step(),跑通了就完事。直到某天 loss 变成nan,梯度消失得像人生希望,你才意识到:不懂数学的工程师,调试模型全靠运气。但好消息是:大模型所需的数学知识有一个"最小够用集"。你不需要成为数学家,只需要理解这些概念在大模型中具体出现在哪里、为什么这么设计、出了什么问题怎么修。这篇文章就是这份"最小够用集"的完整呈现。我们不会推导所有公式(那是数学教材的事),但我们会告诉你每个公式在大模型代码中的对应位置。一、线性代数:矩阵是深度学习的"原子货币"1.1 矩阵乘法:一切计算的底层操作大模型的前向传播,本质上就是一连串矩阵乘法:输入嵌入: X [batch, seq_len, d_model] @ 权重矩阵: W [d_model, d_head * n_heads] ───────────────────────────────────── = 线性输出: Y [batch, seq_len, d_model]
数学基础速查——大模型工程师的“最小够用集“
前置知识:高中数学。是的,你没看错。大模型需要的数学远比你想的少,但远比你想的深。引言:为什么工程师要学数学?我见过太多工程师绕开数学直接上手 PyTorch——model.train()、optimizer.step(),跑通了就完事。直到某天 loss 变成nan,梯度消失得像人生希望,你才意识到:不懂数学的工程师,调试模型全靠运气。但好消息是:大模型所需的数学知识有一个"最小够用集"。你不需要成为数学家,只需要理解这些概念在大模型中具体出现在哪里、为什么这么设计、出了什么问题怎么修。这篇文章就是这份"最小够用集"的完整呈现。我们不会推导所有公式(那是数学教材的事),但我们会告诉你每个公式在大模型代码中的对应位置。一、线性代数:矩阵是深度学习的"原子货币"1.1 矩阵乘法:一切计算的底层操作大模型的前向传播,本质上就是一连串矩阵乘法:输入嵌入: X [batch, seq_len, d_model] @ 权重矩阵: W [d_model, d_head * n_heads] ───────────────────────────────────── = 线性输出: Y [batch, seq_len, d_model]