大模型Transformer架构学习

发布时间：2026/6/26 6:11:04

大模型Transformer架构学习

基础知识损失函数梯度下降单次训练过程过拟合数据增强增加训练数据对原始数据加噪翻转旋转正则化防止该函数过分变化让损失函数加上该参数调整损失函数时会抑制参数变化Dropout每次训练丢失一些参数防止模型过分依赖某些参数卷积操作卷积神经网络循环神经网络让上一次的训练结果乘以额外的权重矩阵得到一个隐藏层h传入到下次输入向量里权重矩阵相应增加每次计算依赖上一次的结果前后依赖注意力机制将每个词变量经过矩阵变换带上其他词的信息Transformer架构word2vec生成嵌入矩阵