一、基本概念⭐LLMLLM是一个基于Transformer的自回归概率生成模型通过学习token序列分布在上下文条件下逐token生成文本。⭐TransformerTransformer是一种基于Self-Attention机制的并行序列建模结构用于捕捉全局依赖关系。⭐Attention本质Attention是一种基于Q-K相似度计算权重并对V进行加权求和的信息融合机制。 二、LLM的工作流程1️⃣ Tokenization文本切分输入文本会被拆分为token“我喜欢AI” → [“我”, “喜欢”, “AI”]Token是模型处理文本的最小单位不等于词2️⃣ Embedding向量化每个token会被映射为向量表示token → vector语义空间坐标3️⃣ Positional Encoding位置信息由于Transformer没有顺序概念因此需要加入位置信息让模型知道token顺序4️⃣ Transformer处理核心输入向量进入多层Transformer结构进行信息交互与更新。 三、Transformer核心结构 1. Self-Attention机制Self-Attention的作用是让每个token与序列中所有token建立关系并动态计算重要性权重。 2. Q/K/V机制每个token通过训练得到的线性变换矩阵projection matrices得到Q XWq K XWk V XWv含义向量作用Q当前token想找什么信息K其他token的特征表示V其他token的真实内容Attention 用Q去匹配K并从V中提取信息 4. 多层Transformer每一层都会更新token表示融合上下文信息 四、自回归生成机制LLM属于自回归模型Autoregressive Model当前token的生成只依赖于之前的token 生成过程我 今天 很 → 开心我 今天 很 开心 → 因为我 今天 很 开心 因为 → … 本质LLM通过不断预测下一个token的概率分布逐步生成完整文本 五、Transformer vs RNN补充理解维度RNNTransformer计算方式顺序并行信息建模hidden stateattention长距离依赖弱强训练效率慢快 核心区别RNN依赖“记忆传递”Transformer依赖“全局注意力”
LLM | 学习笔记一
一、基本概念⭐LLMLLM是一个基于Transformer的自回归概率生成模型通过学习token序列分布在上下文条件下逐token生成文本。⭐TransformerTransformer是一种基于Self-Attention机制的并行序列建模结构用于捕捉全局依赖关系。⭐Attention本质Attention是一种基于Q-K相似度计算权重并对V进行加权求和的信息融合机制。 二、LLM的工作流程1️⃣ Tokenization文本切分输入文本会被拆分为token“我喜欢AI” → [“我”, “喜欢”, “AI”]Token是模型处理文本的最小单位不等于词2️⃣ Embedding向量化每个token会被映射为向量表示token → vector语义空间坐标3️⃣ Positional Encoding位置信息由于Transformer没有顺序概念因此需要加入位置信息让模型知道token顺序4️⃣ Transformer处理核心输入向量进入多层Transformer结构进行信息交互与更新。 三、Transformer核心结构 1. Self-Attention机制Self-Attention的作用是让每个token与序列中所有token建立关系并动态计算重要性权重。 2. Q/K/V机制每个token通过训练得到的线性变换矩阵projection matrices得到Q XWq K XWk V XWv含义向量作用Q当前token想找什么信息K其他token的特征表示V其他token的真实内容Attention 用Q去匹配K并从V中提取信息 4. 多层Transformer每一层都会更新token表示融合上下文信息 四、自回归生成机制LLM属于自回归模型Autoregressive Model当前token的生成只依赖于之前的token 生成过程我 今天 很 → 开心我 今天 很 开心 → 因为我 今天 很 开心 因为 → … 本质LLM通过不断预测下一个token的概率分布逐步生成完整文本 五、Transformer vs RNN补充理解维度RNNTransformer计算方式顺序并行信息建模hidden stateattention长距离依赖弱强训练效率慢快 核心区别RNN依赖“记忆传递”Transformer依赖“全局注意力”