7. 编码器-解码器注意力(Cross-Attention)编码器-解码器注意力是Transformer架构中连接编码器和解码器的核心机制,用于实现跨序列的信息交互步骤:解码器的 Query 与编码器的 Key、Value 交互。意义:让解码器动态关注编码器的输出(如翻译时对齐源语言和目标语言的位置)。一、核心作用与原理功能定位:允许解码器在生成每个目标词时,动态检索编码器输出的相关信息。数学表达:Q (Query):来自解码器的当前状态(询问需要什么信息)K (Key)/V (Value):来
【Transformer拆解】-7.编码器-解码器注意力(Cross-Attention)和输出层(Linear + Softmax)
7. 编码器-解码器注意力(Cross-Attention)编码器-解码器注意力是Transformer架构中连接编码器和解码器的核心机制,用于实现跨序列的信息交互步骤:解码器的 Query 与编码器的 Key、Value 交互。意义:让解码器动态关注编码器的输出(如翻译时对齐源语言和目标语言的位置)。一、核心作用与原理功能定位:允许解码器在生成每个目标词时,动态检索编码器输出的相关信息。数学表达:Q (Query):来自解码器的当前状态(询问需要什么信息)K (Key)/V (Value):来