如果你刚入门大模型这篇文章帮你从听说过大模型进化到能跟产品经理解释清楚大模型在干嘛。本文分三块模型本源认识你调用的这位同事、训练相关了解它是怎么被培训上岗的、交互基础掌握怎么跟它沟通。 1.1 模型本源LLM大语言模型是什么Large Language Model基于海量文本喂出来的大模型。能跟你对话写代码编小说堪称程序员的外挂大脑。本质上是个什么如果用程序员的方式理解它就是一个超级高级的 Autocomplete。传统 Autocompletenext_word predict_next_word(current_text) LLM 本质next_token predict_next_token(context_window)本质上它是接龙大师给定前文预测下一个 token然后循环调用直到凑出完整回答。没有什么神秘魔法就是概率 统计 暴力美学。核心原理组件作用Transformer注意力机制让模型看到上下文每个词的关系自回归生成一次吐一个 token像打字机一样往外蹦海量预训练读遍全网文本学会语言的各种姿势关键参数参数说明参数量7B/13B/70B/405B… 越大越贵但也可能越笨看训练质量上下文窗口能一次性处理多少 token决定了它的背书能力训练语料TB 级别的文本数据吃的越多懂得越多应用场景写代码Copilot、写文案、聊天机器人摘要总结知识问答多语言翻译推理分析角色扮演常见误区❌ 参数量越大越聪明 — 这就像说代码行数越多系统越牛 X显然不是。❌ LLM 真的理解语义 — 它只是在学 token 序列的统计相关性。所以别神话它。Token词元是什么LLM 处理文本的最小单元。不是按字或词切分而是按语义块切分。为什么要叫 Token因为中文、英文、日文每种语言的最小语义单元不一样英文Hello → 1个词 → 约 1.3 个 token 中文你好 → 2个字 → 约 1-2 个 token取决于分词器 代码function() → 4-5 个 token每个符号算一个Token vs 字的区别方面字Token中文一个汉字可能 1-2 个 Token英文一个单词可能 1-3 个 Token代码一个符号每个符号 1 个 Token一个直观的比喻想象你在玩一个成语接龙游戏LLM 成语接龙大师 Token 成语 用户胸有成竹 LLM下一个是竹... 用户继续竹篮打水一场空 LLM下一个是空... 只不过 LLM 的词汇库比成语大得多 它可以接龙、接话、接气...Token 的计数方式# OpenAI 的 tiktoken 库可以看 Tokenizer 长什么样importtiktoken enctiktoken.get_encoding(cl100k_base)# GPT-4 用这个textHello, world!tokensenc.encode(text)print(tokens)# [15496, 11, 1917, 0]text2你好世界tokens2enc.encode(text2)print(tokens2)# [39575, 234, 108, 136, 113, 124]# 中文一个token大概对应1-2个汉字Token 和费用的关系GPT-4 API 定价 - Input: $0.03 / 1K tokens ≈ $0.03 / 750个汉字 - Output: $0.06 / 1K tokens 所以写 Prompt 的原则 ✅ 简洁明了别废话 ✅ 用 Markdown 格式化减少无意义字符 ❌ 不要重复描述同一个概念Token 限制的坑GPT-4 Turbo 的上下文窗口128K tokens 看起来很大但实际使用中 1. 你的 Prompt 可能占 10K tokens 2. 检索到的文档可能占 50K tokens 3. 历史对话可能占 40K tokens 4. 剩余给回答的128K - 100K 28K tokens 所以别以为 128K 就能随便用 控制好 Token 分配才是王道常见误区❌ 中文每个字 1 个 Token — 错中文 token 化后通常是 1-2 个字一个 token❌ Token 限制是指输入 输出 — 通常是指单次输入的 tokens 数上下文窗口Context Window是什么LLM 在生成回答时能看到的最大 Token 数量。就像一个只能容纳 N 张便签的白板超过就看不见了。为什么叫窗口因为它是一个滑动窗口——你可以把窗口移动到文档的任意位置但一次只能看到窗口内的内容。一个 4K 上下文窗口的例子 文档从前有座山山里有座庙庙里有个老和尚在讲故事... 窗口位置1从前有座山山里有座庙 ← 窗口内能看到 窗口位置2庙里有个老和尚在讲故事 ← 窗口内能看到 窗口位置3故事讲的是从前有座山... ← 窗口内能看到 如果文档很长窗口外的部分 LLM 就完全看不见上下文窗口的大小对比模型上下文窗口约等于GPT-3.54K / 16K一篇中等长度文章GPT-48K / 32K一本短篇小说GPT-4 Turbo128K一本《哈利波特》Claude 3200K1-2 本长篇小说Gemini 1.51M一部完整的美剧上下文窗口的迷惑性⚠️ 上下文窗口大 ≠ 回答质量好 常见误解 我把整本书都喂给 LLM它就能完美回答关于这本书的问题 现实 - 500K tokens 的上下文LLM 对中间部分的记忆最弱 - 这叫 Lost in the Middle中间迷失 - 书的前100页和后100页 LLM 记得最清楚 - 中间的情节可能记混或记错 解决之道 1. RAG检索增强— 只检索最相关的片段 2. 摘要压缩 — 把长文档压缩成摘要 3. 多次检索 — 分段检索再合并上下文窗口的实际应用# 场景分析一份 10 万字的技术文档# ❌ 错误做法直接塞进上下文promptf请分析以下文档{document_100k_tokens}问题文档的核心观点是什么# 结果可能超出限制或者中间迷失# ✅ 正确做法分块检索chunkssplit_document(document,chunk_size5000)# 分成20块relevant_chunksretrieve_top_k(question,chunks,k5)# 只检索最相关的5块promptf基于以下参考资料{relevant_chunks}问题{question}# 结果精准回答常见误区❌ 上下文窗口越大越好 — 大窗口也有中间迷失问题❌ 塞满上下文窗口效果最好 — 适当精简聚焦关键信息❌ LLM 会记住所有上下文内容 — 长文本中间部分最容易丢失参数量Parameters是什么模型中可学习参数的数量。通常用B表示 Billion十亿。为什么参数量重要参数量 模型脑容量 7B 参数模型 ≈ 70亿个可调阀门 70B 参数模型 ≈ 700亿个可调阀门 就像 - 7B 一只猫的大脑容量但比猫聪明亿点点 - 70B 一只狗的大脑容量但比狗聪明万点点 - 405B 一个仓鼠... 呃比喻不下去了主流模型参数量对比模型参数量备注GPT-3175BGPT-3.5 的前身GPT-4~1.8TMoE官方没说具体数字Claude 3未公开Anthropic 没公布Llama 27B / 13B / 70B开源最流行Llama 38B / 70B当前最强开源Qwen 2.57B / 32B / 72B国产之光DeepSeek V3236BMoE 架构国产新秀参数量 vs 效果的关系参数量和效果的关系不是线性的 7B 参数 → 能跑对话但推理能力有限 13B 参数 → 对话更流畅推理能力提升 70B 参数 → 接近 GPT-3.5 水平 405B 参数 → GPT-4 级别但实际效果还看训练 但 参数量 ≠ 智能 一个 70B 训练差的模型可能不如一个 7B 训练好的模型 类比 - 参数量 脑容量 - 训练质量 教育水平 一个985毕业的本科生可能比一个普通学校的博士生更厉害参数量和硬件需求参数量FP16 显存INT4 量化后推荐显卡7B14GB3.5GBRTX 3060 12GB13B26GB6.5GBRTX 4090 24GB34B68GB17GBA100 40GB × 170B140GB35GBA100 80GB × 2常见误区❌ 参数量越大越聪明 — 训练质量同样重要❌ 参数量 算力需求 — 量化后可以在消费级显卡上跑 70B❌ 开源模型永远追不上闭源 — Llama 3 70B 已经接近 GPT-3.5幻觉Hallucination是什么LLM 一本正经地胡说八道。它不知道自己说的是真的还是假的一切都是概率。为什么叫幻觉因为 AI 产生的内容就像人在幻觉中说的话——听起来很流畅、很有道理但跟现实完全对不上。一个经典的幻觉案例 用户请介绍一下 Apple 公司 CEO Tim Cook 的生平 AI幻觉版 Tim Cook 于 1965 年出生于中国深圳1998年加入苹果公司... 实际情况 - Tim Cook 出生于美国阿拉巴马州 - 1965年出生是对的但地点完全错了 AI 的回答听起来很流畅 语法没问题 但事实是错的 这就是幻觉幻觉产生的原因原因1训练数据的偏差 AI 学到了太多相似的文本 当不确定时会平均出一个可能的答案 原因2上下文窗口的干扰 如果你给的上下文包含错误信息 AI 会倾向于相信并延续这个错误 原因3概率生成机制 狗的尾巴后面最可能接很灵活 但如果上下文是狗的尾巴像... AI 可能生成蛇一样这在现实中不对但概率上合理如何减少幻觉# 方法1提供上下文RAG# 让 AI 基于真实文档回答而不是靠记忆contextretrieve_from_knowledge_base(question)promptf基于以下资料回答{context}问题{question}# 方法2让 AI 标注不确定性responsellm.generate( 回答问题时 1. 如果确定标注✅ 确认 2. 如果不确定标注⚠️ 不确定 3. 如果不知道标注❌ 不知道 )# 方法3Few-shot 示例# 给 AI 一些标准答案作为参考prompt 示例 Q: 苹果的 CEO 是谁 A: 蒂姆·库克Tim Cook Q: iPhone 15 什么时候发布 A: 我没有2024年之后的信息无法准确回答。 现在回答{question} 幻觉的正确认识幻觉是 LLM 的先天缺陷不是 bug无法完全消除 正确态度 ✅ 接受它存在 ✅ 用外部验证机制RAG、工具调用来兜底 ✅ 关键场景必须有人的审核 ❌ 不要相信 AI 说的我确定 ❌ 不要在不确定的场景完全依赖 AI常见误区❌ 幻觉是模型的 bug — 它是统计模型的固有特性无法完全消除❌ 更大的模型幻觉更少 — 恰恰相反更大的模型有时更自信地胡说八道❌ Prompt 能完全解决幻觉 — Prompt 是缓解不是根治涌现能力Emergent Ability是什么当模型参数量超过某个临界点时突然涌现出之前没有的能力。就像水在 0 度突然变成冰——不是渐变是突变。为什么叫涌现因为这些能力在小模型上完全不存在突然在某个参数量级上冒出来了科学家也解释不清为什么。涌现能力的经典案例 7B 参数模型 ❌ 不会三位数乘法 ❌ 不会编写复杂代码 ❌ 不会做逻辑推理题 70B 参数模型 ✅ 会三位数乘法虽然慢 ✅ 能写中等复杂度代码 ✅ 能做简单逻辑推理 这不是因为训练数据变了 只是因为脑容量够了 某些能力就涌现出来了已观察到的涌现能力能力涌现门槛说明思维链CoT~100B突然会思考了算术能力~10B会做多位数乘法代码生成~15B能生成可用代码多语言能力~7B不只是英语上下文学习~10BFew-shot 能力涌现能力的争议⚠️ 有人认为涌现是测量假象不是真实现象 争议点 如果用平滑的指标衡量不是会不会二元判断 很多涌现能力其实是渐进的 但不管怎么说 模型越大能力越强 这是确定的 只是强多少的问题涌现能力 vs 规模定律规模定律Scaling Law 模型越大 数据越多 效果越好 涌现能力Emergent Ability 模型越大 ≠ 慢慢变好 模型越大 某些能力突然出现 类比 - 普通学习分数从60→70→80慢慢提升 - 涌现就像突然开窍从不会到会为什么涌现能力重要1. 它解释了为什么大模型这么贵还这么多人用 → 因为小模型真的做不了某些事 2. 它给了 AI 发展的希望 → 更大的模型可能涌现出更多能力 → AGI通用人工智能或许不是梦 3. 它也带来了焦虑 → 我们不知道下一个涌现的能力是什么 → 也不知道它会在哪个参数量级涌现常见误区❌ 涌现能力是模型变聪明了 — 更准确的说法是能力阈值被跨越了❌ 所有能力都是涌现的 — 有些能力如文字补全是随着规模线性提升的❌ 涌现能力解释了一切 — 科学家仍在研究涌现的本质 本节知识地图┌─────────────────────────────────────────────────────────────┐ │ 模型本源核心概念 │ │ │ │ ┌─────────┐ ┌─────────────┐ ┌──────────────┐ │ │ │ LLM │────→│ Token │────→│ 上下文窗口 │ │ │ │ 大语言 │ │ 词元 │ │ 窗口大小 │ │ │ │ 模型 │ │ │ │ │ │ │ └────┬────┘ └─────────────┘ └──────────────┘ │ │ │ │ │ │ ┌─────────────┐ │ │ └────────→│ 参数量 │ │ │ │ 7B/70B │ │ │ └──────┬──────┘ │ │ │ │ │ ┌────────────────┼────────────────┐ │ │ │ │ │ │ │ ┌────▼────┐ ┌────▼────┐ ┌────▼────┐ │ │ │ 幻觉 │ │ 涌现能力│ │ 训练相关 │ │ │ │ 一本正经│ │ 突然出现│ │ (下节) │ │ │ │ 胡说八道│ │ 的能力 │ │ │ │ │ └─────────┘ └─────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────┘ 下节预告学会了认识 LLM 这位同事接下来要了解它是怎么被培训上岗的下一节我们将拆解预训练LLM 是怎么学会语言的微调 SFT怎么让它学会特定技能对齐 RLHF怎么让它听话、不乱说DPO / IPO更新的对齐技术有哪些准备好继续硬核之旅
1.1 模型本源:LLM、Token、上下文窗口、参数量、幻觉、涌现能力
如果你刚入门大模型这篇文章帮你从听说过大模型进化到能跟产品经理解释清楚大模型在干嘛。本文分三块模型本源认识你调用的这位同事、训练相关了解它是怎么被培训上岗的、交互基础掌握怎么跟它沟通。 1.1 模型本源LLM大语言模型是什么Large Language Model基于海量文本喂出来的大模型。能跟你对话写代码编小说堪称程序员的外挂大脑。本质上是个什么如果用程序员的方式理解它就是一个超级高级的 Autocomplete。传统 Autocompletenext_word predict_next_word(current_text) LLM 本质next_token predict_next_token(context_window)本质上它是接龙大师给定前文预测下一个 token然后循环调用直到凑出完整回答。没有什么神秘魔法就是概率 统计 暴力美学。核心原理组件作用Transformer注意力机制让模型看到上下文每个词的关系自回归生成一次吐一个 token像打字机一样往外蹦海量预训练读遍全网文本学会语言的各种姿势关键参数参数说明参数量7B/13B/70B/405B… 越大越贵但也可能越笨看训练质量上下文窗口能一次性处理多少 token决定了它的背书能力训练语料TB 级别的文本数据吃的越多懂得越多应用场景写代码Copilot、写文案、聊天机器人摘要总结知识问答多语言翻译推理分析角色扮演常见误区❌ 参数量越大越聪明 — 这就像说代码行数越多系统越牛 X显然不是。❌ LLM 真的理解语义 — 它只是在学 token 序列的统计相关性。所以别神话它。Token词元是什么LLM 处理文本的最小单元。不是按字或词切分而是按语义块切分。为什么要叫 Token因为中文、英文、日文每种语言的最小语义单元不一样英文Hello → 1个词 → 约 1.3 个 token 中文你好 → 2个字 → 约 1-2 个 token取决于分词器 代码function() → 4-5 个 token每个符号算一个Token vs 字的区别方面字Token中文一个汉字可能 1-2 个 Token英文一个单词可能 1-3 个 Token代码一个符号每个符号 1 个 Token一个直观的比喻想象你在玩一个成语接龙游戏LLM 成语接龙大师 Token 成语 用户胸有成竹 LLM下一个是竹... 用户继续竹篮打水一场空 LLM下一个是空... 只不过 LLM 的词汇库比成语大得多 它可以接龙、接话、接气...Token 的计数方式# OpenAI 的 tiktoken 库可以看 Tokenizer 长什么样importtiktoken enctiktoken.get_encoding(cl100k_base)# GPT-4 用这个textHello, world!tokensenc.encode(text)print(tokens)# [15496, 11, 1917, 0]text2你好世界tokens2enc.encode(text2)print(tokens2)# [39575, 234, 108, 136, 113, 124]# 中文一个token大概对应1-2个汉字Token 和费用的关系GPT-4 API 定价 - Input: $0.03 / 1K tokens ≈ $0.03 / 750个汉字 - Output: $0.06 / 1K tokens 所以写 Prompt 的原则 ✅ 简洁明了别废话 ✅ 用 Markdown 格式化减少无意义字符 ❌ 不要重复描述同一个概念Token 限制的坑GPT-4 Turbo 的上下文窗口128K tokens 看起来很大但实际使用中 1. 你的 Prompt 可能占 10K tokens 2. 检索到的文档可能占 50K tokens 3. 历史对话可能占 40K tokens 4. 剩余给回答的128K - 100K 28K tokens 所以别以为 128K 就能随便用 控制好 Token 分配才是王道常见误区❌ 中文每个字 1 个 Token — 错中文 token 化后通常是 1-2 个字一个 token❌ Token 限制是指输入 输出 — 通常是指单次输入的 tokens 数上下文窗口Context Window是什么LLM 在生成回答时能看到的最大 Token 数量。就像一个只能容纳 N 张便签的白板超过就看不见了。为什么叫窗口因为它是一个滑动窗口——你可以把窗口移动到文档的任意位置但一次只能看到窗口内的内容。一个 4K 上下文窗口的例子 文档从前有座山山里有座庙庙里有个老和尚在讲故事... 窗口位置1从前有座山山里有座庙 ← 窗口内能看到 窗口位置2庙里有个老和尚在讲故事 ← 窗口内能看到 窗口位置3故事讲的是从前有座山... ← 窗口内能看到 如果文档很长窗口外的部分 LLM 就完全看不见上下文窗口的大小对比模型上下文窗口约等于GPT-3.54K / 16K一篇中等长度文章GPT-48K / 32K一本短篇小说GPT-4 Turbo128K一本《哈利波特》Claude 3200K1-2 本长篇小说Gemini 1.51M一部完整的美剧上下文窗口的迷惑性⚠️ 上下文窗口大 ≠ 回答质量好 常见误解 我把整本书都喂给 LLM它就能完美回答关于这本书的问题 现实 - 500K tokens 的上下文LLM 对中间部分的记忆最弱 - 这叫 Lost in the Middle中间迷失 - 书的前100页和后100页 LLM 记得最清楚 - 中间的情节可能记混或记错 解决之道 1. RAG检索增强— 只检索最相关的片段 2. 摘要压缩 — 把长文档压缩成摘要 3. 多次检索 — 分段检索再合并上下文窗口的实际应用# 场景分析一份 10 万字的技术文档# ❌ 错误做法直接塞进上下文promptf请分析以下文档{document_100k_tokens}问题文档的核心观点是什么# 结果可能超出限制或者中间迷失# ✅ 正确做法分块检索chunkssplit_document(document,chunk_size5000)# 分成20块relevant_chunksretrieve_top_k(question,chunks,k5)# 只检索最相关的5块promptf基于以下参考资料{relevant_chunks}问题{question}# 结果精准回答常见误区❌ 上下文窗口越大越好 — 大窗口也有中间迷失问题❌ 塞满上下文窗口效果最好 — 适当精简聚焦关键信息❌ LLM 会记住所有上下文内容 — 长文本中间部分最容易丢失参数量Parameters是什么模型中可学习参数的数量。通常用B表示 Billion十亿。为什么参数量重要参数量 模型脑容量 7B 参数模型 ≈ 70亿个可调阀门 70B 参数模型 ≈ 700亿个可调阀门 就像 - 7B 一只猫的大脑容量但比猫聪明亿点点 - 70B 一只狗的大脑容量但比狗聪明万点点 - 405B 一个仓鼠... 呃比喻不下去了主流模型参数量对比模型参数量备注GPT-3175BGPT-3.5 的前身GPT-4~1.8TMoE官方没说具体数字Claude 3未公开Anthropic 没公布Llama 27B / 13B / 70B开源最流行Llama 38B / 70B当前最强开源Qwen 2.57B / 32B / 72B国产之光DeepSeek V3236BMoE 架构国产新秀参数量 vs 效果的关系参数量和效果的关系不是线性的 7B 参数 → 能跑对话但推理能力有限 13B 参数 → 对话更流畅推理能力提升 70B 参数 → 接近 GPT-3.5 水平 405B 参数 → GPT-4 级别但实际效果还看训练 但 参数量 ≠ 智能 一个 70B 训练差的模型可能不如一个 7B 训练好的模型 类比 - 参数量 脑容量 - 训练质量 教育水平 一个985毕业的本科生可能比一个普通学校的博士生更厉害参数量和硬件需求参数量FP16 显存INT4 量化后推荐显卡7B14GB3.5GBRTX 3060 12GB13B26GB6.5GBRTX 4090 24GB34B68GB17GBA100 40GB × 170B140GB35GBA100 80GB × 2常见误区❌ 参数量越大越聪明 — 训练质量同样重要❌ 参数量 算力需求 — 量化后可以在消费级显卡上跑 70B❌ 开源模型永远追不上闭源 — Llama 3 70B 已经接近 GPT-3.5幻觉Hallucination是什么LLM 一本正经地胡说八道。它不知道自己说的是真的还是假的一切都是概率。为什么叫幻觉因为 AI 产生的内容就像人在幻觉中说的话——听起来很流畅、很有道理但跟现实完全对不上。一个经典的幻觉案例 用户请介绍一下 Apple 公司 CEO Tim Cook 的生平 AI幻觉版 Tim Cook 于 1965 年出生于中国深圳1998年加入苹果公司... 实际情况 - Tim Cook 出生于美国阿拉巴马州 - 1965年出生是对的但地点完全错了 AI 的回答听起来很流畅 语法没问题 但事实是错的 这就是幻觉幻觉产生的原因原因1训练数据的偏差 AI 学到了太多相似的文本 当不确定时会平均出一个可能的答案 原因2上下文窗口的干扰 如果你给的上下文包含错误信息 AI 会倾向于相信并延续这个错误 原因3概率生成机制 狗的尾巴后面最可能接很灵活 但如果上下文是狗的尾巴像... AI 可能生成蛇一样这在现实中不对但概率上合理如何减少幻觉# 方法1提供上下文RAG# 让 AI 基于真实文档回答而不是靠记忆contextretrieve_from_knowledge_base(question)promptf基于以下资料回答{context}问题{question}# 方法2让 AI 标注不确定性responsellm.generate( 回答问题时 1. 如果确定标注✅ 确认 2. 如果不确定标注⚠️ 不确定 3. 如果不知道标注❌ 不知道 )# 方法3Few-shot 示例# 给 AI 一些标准答案作为参考prompt 示例 Q: 苹果的 CEO 是谁 A: 蒂姆·库克Tim Cook Q: iPhone 15 什么时候发布 A: 我没有2024年之后的信息无法准确回答。 现在回答{question} 幻觉的正确认识幻觉是 LLM 的先天缺陷不是 bug无法完全消除 正确态度 ✅ 接受它存在 ✅ 用外部验证机制RAG、工具调用来兜底 ✅ 关键场景必须有人的审核 ❌ 不要相信 AI 说的我确定 ❌ 不要在不确定的场景完全依赖 AI常见误区❌ 幻觉是模型的 bug — 它是统计模型的固有特性无法完全消除❌ 更大的模型幻觉更少 — 恰恰相反更大的模型有时更自信地胡说八道❌ Prompt 能完全解决幻觉 — Prompt 是缓解不是根治涌现能力Emergent Ability是什么当模型参数量超过某个临界点时突然涌现出之前没有的能力。就像水在 0 度突然变成冰——不是渐变是突变。为什么叫涌现因为这些能力在小模型上完全不存在突然在某个参数量级上冒出来了科学家也解释不清为什么。涌现能力的经典案例 7B 参数模型 ❌ 不会三位数乘法 ❌ 不会编写复杂代码 ❌ 不会做逻辑推理题 70B 参数模型 ✅ 会三位数乘法虽然慢 ✅ 能写中等复杂度代码 ✅ 能做简单逻辑推理 这不是因为训练数据变了 只是因为脑容量够了 某些能力就涌现出来了已观察到的涌现能力能力涌现门槛说明思维链CoT~100B突然会思考了算术能力~10B会做多位数乘法代码生成~15B能生成可用代码多语言能力~7B不只是英语上下文学习~10BFew-shot 能力涌现能力的争议⚠️ 有人认为涌现是测量假象不是真实现象 争议点 如果用平滑的指标衡量不是会不会二元判断 很多涌现能力其实是渐进的 但不管怎么说 模型越大能力越强 这是确定的 只是强多少的问题涌现能力 vs 规模定律规模定律Scaling Law 模型越大 数据越多 效果越好 涌现能力Emergent Ability 模型越大 ≠ 慢慢变好 模型越大 某些能力突然出现 类比 - 普通学习分数从60→70→80慢慢提升 - 涌现就像突然开窍从不会到会为什么涌现能力重要1. 它解释了为什么大模型这么贵还这么多人用 → 因为小模型真的做不了某些事 2. 它给了 AI 发展的希望 → 更大的模型可能涌现出更多能力 → AGI通用人工智能或许不是梦 3. 它也带来了焦虑 → 我们不知道下一个涌现的能力是什么 → 也不知道它会在哪个参数量级涌现常见误区❌ 涌现能力是模型变聪明了 — 更准确的说法是能力阈值被跨越了❌ 所有能力都是涌现的 — 有些能力如文字补全是随着规模线性提升的❌ 涌现能力解释了一切 — 科学家仍在研究涌现的本质 本节知识地图┌─────────────────────────────────────────────────────────────┐ │ 模型本源核心概念 │ │ │ │ ┌─────────┐ ┌─────────────┐ ┌──────────────┐ │ │ │ LLM │────→│ Token │────→│ 上下文窗口 │ │ │ │ 大语言 │ │ 词元 │ │ 窗口大小 │ │ │ │ 模型 │ │ │ │ │ │ │ └────┬────┘ └─────────────┘ └──────────────┘ │ │ │ │ │ │ ┌─────────────┐ │ │ └────────→│ 参数量 │ │ │ │ 7B/70B │ │ │ └──────┬──────┘ │ │ │ │ │ ┌────────────────┼────────────────┐ │ │ │ │ │ │ │ ┌────▼────┐ ┌────▼────┐ ┌────▼────┐ │ │ │ 幻觉 │ │ 涌现能力│ │ 训练相关 │ │ │ │ 一本正经│ │ 突然出现│ │ (下节) │ │ │ │ 胡说八道│ │ 的能力 │ │ │ │ │ └─────────┘ └─────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────┘ 下节预告学会了认识 LLM 这位同事接下来要了解它是怎么被培训上岗的下一节我们将拆解预训练LLM 是怎么学会语言的微调 SFT怎么让它学会特定技能对齐 RLHF怎么让它听话、不乱说DPO / IPO更新的对齐技术有哪些准备好继续硬核之旅