收藏 2026 版｜一文吃透 Transformer 原理：从分词 Token 到逐字预测全过程-尧图企业网站定制

本篇以诗句春眠不觉推演补全晓为例带你完整跑通 Transformer 输入到输出全流程零基础小白、入门程序员都能轻松看懂。全文沿用uer/gpt2-chinese-cluecorpussmall中文 GPT2 模型演示结合实战代码、流程拆解同步补充 2026 大模型应用侧实用知识点。Transformer 整体框架下面用「春眠不觉」→ 补全「晓」串起全流程层数、维度随具体模型而变输入春眠不觉 │ ▼ ┌─────────────────────────────────────────┐ │ 1. Tokenize分词 │ │ [春, 眠, 不, 觉] │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 2. 编码Token → ID │ │ [102, 235, 301, 189] │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 3. Embedding如 768 维 │ │ 查表得 [v1, v2, v3, v4] │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 4. 位置编码Position Embedding │ │ 与 vi 相加输入i vi pi │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 5. Decoder × N 层如 12 层视模型而定 │ │ • Masked Self-Attention │ │ • Feed-Forward Network │ │ • 残差连接 LayerNorm │ │ Encoder-Decoder 架构才有 │ │ Cross-Attention纯 GPT 无此项 │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 6. Linear输出层 / LM Head │ │ 隐状态 → 词表大小如 21128→ logits │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 7. Softmax │ │ logits → 词表上的概率分布 │ └─────────────────────────────────────────┘ │ ▼ 概率示意词表维度非句中第几位 [0, 0, …, 0.92, …, 0] → 「晓」对应下标概率最高 │ ▼ 输出 Token晓最终句子春眠不觉晓后文各节按1 → 7的顺序展开说明。文本转换为Token把一段文字变成一组Token这一过程叫词元化Tokenization。Transformer 处理自然语言的第一步模型只能对数字做矩阵运算不能直接处理汉字或英文因此须先把文本切成离散单元再映射为整数编号。分词器做什么对应上文流程图的第 1、2 步Tokenize → 编码由Tokenizer分词器完成人类模型输入「春眠不觉晓」同一句经词元化后实际使用直接理解语义[101, 2345, 6789, …]这样的 Token ID 序列送进模型的是ID 序列不是原始字符串。分词器主要做两件事切分把字符串拆成 Token 列表编码把每个 Token 换成词表Vocabulary里的整数 ID。训练与推理须用同一套词元化规则换模型通常也要换对应的分词器否则 ID 与词义会对不上。三种词元化粒度字、词与子词模型里的Token是词元化后交给大模型的最小单元按切分方式常见有三类粒度做法优点缺点字/字符级每个汉字、字母单独成 Token词表小罕见词也能表示序列很长语义片段被拆碎词级按词典切分为完整词语符合直觉词表巨大未登录词OOV难处理子词级SubwordBPE、WordPiece、SentencePiece 等词表可控能兼顾常见词与生僻词规则稍复杂需专门学习当前主流大模型GPT、BERT、LLaMA 等几乎都采用子词分词常见词整段保留生僻词拆成更小的片段。从句子到 ID 序列以句子「春眠不觉晓」为例实际切分结果因模型而异原文春眠不觉晓 Token [春, 眠, 不, 觉, 晓] ← 词元化后的字符串片段 Token ID [2345, 1890, 45, 67, 891] ← 词表中的整数编号模型后续接收的是Token ID 序列而不是原始字符串。解码时再用分词器的decode把 ID 还原成文字。特殊 Token词表里除了普通字词还预留了一些控制用的符号例如符号示例常见含义[CLS]BERT 等用于分类/句首聚合GPT 生成模型通常不用[SEP]句子分隔多用于 BERT 双句输入补齐到同一长度批处理时[MASK]掩码语言模型训练时遮盖的位置|endoftext|endoftext用 Hugging Face 亲手试一次用AutoTokenizer加载与模型配套的分词器from transformers import AutoTokenizer model_name uer/gpt2-chinese-cluecorpussmall tokenizer AutoTokenizer.from_pretrained(model_name) text 春眠不觉晓 # 编码文本 → Token ID encoded tokenizer(text) print(Token ID:, encoded[input_ids]) # 看每个 ID 对应什么片段便于理解子词切分 tokens tokenizer.tokenize(text) print(Token 片段:, tokens) # 解码Token ID → 文本 decoded tokenizer.decode(encoded[input_ids]) print(还原文本:, decoded)典型输出形态具体数字以本机为准GPT-2 中文多为按字切分一般不含 BERT 的 [CLS]/[SEP]Token 片段: [春, 眠, 不, 觉, 晓] Token ID: [2345, 1890, 45, 67, 891]要点小结Tokenizer 与模型成对使用from_pretrained同一模型名会下载vocab.txt、tokenizer_config.json等见下一篇文章模型目录说明。词表大小如 21128决定 Embedding 矩阵行数即模型最多认识多少个不同 Token。Token转换为向量Embedding嵌入把每个 Token ID 映射为一条hidden_size维向量如 768 维。实现上是查表矩阵[词表大小, hidden_size]每个 ID 取一行n个 Token 得到[n, hidden_size]。用代码看形状import torch from transformers import AutoModel, AutoTokenizer model_name uer/gpt2-chinese-cluecorpussmall tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained(model_name) text 春眠不觉晓 inputs tokenizer(text, return_tensorspt) input_ids inputs[input_ids] print(Token ID 张量:, input_ids.shape) # 取出模型的词嵌入层 embed_layer model.get_input_embeddings() token_vectors embed_layer(input_ids) print(Token 向量张量:, token_vectors.shape) print(hidden_size:, model.config.hidden_size)若hidden_size为 768、分词后序列长度为 5则token_vectors.shape多为torch.Size([1, 5, 768])维度含义第 1 维1batch一次 1 条句子第 2 维5序列中 5 个 Token第 3 维768每个 Token 一条 768 维向量要点小结Embedding 把离散 ID 变成连续向量是第一个可学习的语义表示层。走完整 Transformer 后同一词在不同上下文里向量还会被后续层改写本节是刚查表时的初始向量。向量中加入位置信息Embedding 只按 Token ID 查表同一字在不同位置查到的向量相同——还须知道顺序。例如「狗咬人」与「人咬狗」词一样顺序不同意思相反。怎么做位置向量与 Token 向量相加输入表示 Token Embedding Position Embedding方式说明正弦位置编码原始论文用 sin/cos 生成不增加可训练参数可学习位置编码GPT-2、BERT每个位置一行可训练向量相加后同一 Token 在不同位置上的输入向量不同后续自注意力才能区分先后。用代码看一眼GPT-2GPT-2 使用可学习位置编码内部大致是「词嵌入位置嵌入」from transformers import AutoModel, AutoTokenizer model_name uer/gpt2-chinese-cluecorpussmall tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained(model_name) inputs tokenizer(春眠不觉晓, return_tensorspt) # 模型 forward 时会自动把 wte词嵌入与 wpe位置嵌入相加 outputs model(**inputs) print(outputs.last_hidden_state.shape) # [1, 序列长度, hidden_size]要点小结Embedding 管「是什么词」位置编码管「在第几位」。没有位置信息模型无法稳定区分语序。深度理解语义「春」在「春眠不觉晓」和「春色满园」里含义不同——须结合整句其它词更新每个位置的表示。核心是自注意力Self-Attention每个 Token 按相关程度汇总句中信息。Decoder 生成时还用掩码自注意力Masked Self-Attention当前位置不能看见后面的词避免「偷看答案」。自注意力以「春」为例见下图按Q / K / V三步融合全句——算相关度「春」的Q与每个词的K比对得权重Softmax 归一权重和为 1加权求和对V加权得到春’。符号含义通俗理解Q当前词「想找什么」K每个词「能提供什么匹配信息」V每个词「实际贡献的语义内容」句中每个词都会走一遍也会看自己因此叫「自」注意力。一层 Block 与多层堆叠把多头注意力MHA与前馈网络FFN组成一层Transformer Block各带一次 Add Norm再叠 N 层——对应文首第 5 步与整体架构图1-1.png里 Decoder 的Nx。多头是同一层内多路并行多层是同一种 Block 重复很多遍二者含义不同。叠完后得到last_hidden_state供下文映射到词表。本文为仅 Decoder的 GPT理解类常用 Encoder如 BERT翻译等用 Encoder-Decoder。outputs model(**inputs) hidden outputs.last_hidden_state # [1, 序列长度, hidden_size]生成“下一个字”的权重分布对应文首流程图第 6 步。最后一层每个位置是一条hidden_size维向量经LinearLM Head映射到整个词表得到每个候选 Token 的logits未归一化的得分。from transformers import AutoModelForCausalLM, AutoTokenizer model_name uer/gpt2-chinese-cluecorpussmall tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name) inputs tokenizer(春眠不觉, return_tensorspt) outputs model(**inputs) logits outputs.logits # [1, 序列长度, vocab_size] print(logits 形状:, logits.shape) print(词表大小:, model.config.vocab_size) # 通常取最后一个位置的 logits用于预测「下一个字」 next_logits logits[0, -1, :]将权重分布转换成概率分布对应文首第 7 步。对 logits 做Softmax得到和为 1 的概率再取概率最大贪心或按概率采样得到下一个 Token。以补全「晓」为例词表中「晓」对应位置概率最高即输出该 Token再拼回输入继续预测直到遇到结束符——这叫自回归生成。import torch probs torch.softmax(next_logits, dim-1) pred_id torch.argmax(probs).item() print(预测 Token ID:, pred_id) print(预测片段:, tokenizer.decode([pred_id]))也可用model.generate自动完成多轮预测见下一篇文章。要点回顾步骤做什么本文对应1–2词元化 → Token IDTokenizer3ID → 向量Embedding4加位置信息Position Embedding5N 层 Decoder 理解上下文自注意力 Block × N6映射到词表得分LM Head → logits7得分 → 概率 → 下一个字Softmax 采样/贪心「春眠不觉」经上述链路模型在词表上给「晓」较高概率补全为「春眠不觉晓」。最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

手把手调SerDes信号质量：从“翘眼皮”眼图到清晰波形的FFE配置实战

6款高效降AI率工具 改写实力出众

123546

Ubuntu 22.04 LTS上快速开启Telnet服务，5分钟搞定远程登录测试

现在这情况，我劝大家提前做好准备。。

复刻8052AH-BASIC开发板：从冯·诺依曼架构到嵌入式教学实践

3分钟搞定Steam游戏清单：Onekey工具的终极使用指南

Arduino PWM转4-20mA工业电流信号：二阶滤波与V/I转换电路设计

从分立逻辑到单片机：基于ATmega8的MIDI通道分析仪设计与实现

Unity ML-Agents 环境配置避坑指南：Python+CUDA+Unity 版本精准匹配

毕业设计 yolov11骨折检测医疗辅助系统（源码+论文）

别再死记硬背了！用5个生活化比喻彻底搞懂Linux进程的fork、exec和wait

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

6款高效降AI率工具改写实力出众

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势