lm_head是什么?—— Transformer 的"翻译官"目录`lm_head` 是什么?—— Transformer 的"翻译官"一、一句话定义二、物理形态:就是一个 `nn.Linear`三、它在整个网络中的位置四、数学上做了什么五、Embedding vs lm_head:神奇的"权重绑定"六、在代码中怎么访问一个完整 mini 示例八、为什么前面讲 DoLa / Logit Lens 都要强调它一、一句话定义lm_head(Language Model Head)= 一个把"隐向量"翻译回"词表概率"的线性层。是 LLM 的"最后一道工序",专门负责把模型内部的高维表示变成你看得懂的下一个词。二、物理形态:就是一个nn.Linearself.lm_head=nn.Linear(hidden_size,vocab_size,bias=False
揭秘Transformer的翻译官:lm_head
lm_head是什么?—— Transformer 的"翻译官"目录`lm_head` 是什么?—— Transformer 的"翻译官"一、一句话定义二、物理形态:就是一个 `nn.Linear`三、它在整个网络中的位置四、数学上做了什么五、Embedding vs lm_head:神奇的"权重绑定"六、在代码中怎么访问一个完整 mini 示例八、为什么前面讲 DoLa / Logit Lens 都要强调它一、一句话定义lm_head(Language Model Head)= 一个把"隐向量"翻译回"词表概率"的线性层。是 LLM 的"最后一道工序",专门负责把模型内部的高维表示变成你看得懂的下一个词。二、物理形态:就是一个nn.Linearself.lm_head=nn.Linear(hidden_size,vocab_size,bias=False