1、文本是如何传入大模型的人类输入的是自然语言模型真正处理的是数字。文本进入大模型通常经历以下步骤这条链路里最重要的认识是大模型并不是“直接读汉字或英文单词”而是先把文本转换成可计算的数字表示再进行预测和生成。2、Token词元基础Token是大语言模型处理文本的基本单位。它不一定等于一个完整单词也不一定等于一个完整汉字而是模型词表定义下的切分单元。常见理解要点英文里一个单词可能被拆成多个 Token。中文里一个字/词也可能被拆成多个 Token。模型的上下文长度、计费方式、响应速度通常都与 Token 数量直接相关。例如用户输入一段很长的文档时模型首先关心的不是“字数多少”而是“总共有多少 Token”。因此Token 是连接“文本输入”“模型计算”“上下文长度”这三者的核心概念。理解 Token 最重要的是以下三件事Token 不等于字数也不等于词数。同样一句话在不同模型里切分结果可能不同所以不能简单按“多少字”来估算成本。输入会消耗 Token输出也会消耗 Token。你给模型的背景资料越长要求它输出越长整体成本就越高。历史对话也占 Token。多轮聊天并不是“只算这一次提问”而是常常连同上下文一起送进模型因此越聊越长成本和延迟都会上升。Token 的直观示例Token 的切分方式取决于模型词表下面只是帮助理解的近似示例输入内容可能的 Token 切分方式说明Hello worldHello / world英文常按词或子词切分unbelievableun / believe / able一个长单词可能被拆成多个 Token人工智能人工 / 智能 或 人 / 工 / 智 / 能中文也可能按词或字拆分CAIE Level 1CA / IE / Level / 1英文、缩写、数字混合时更容易被拆开要点不是记住某个具体切法而是明白模型看到的不是自然语言原貌而是一串 Token 序列。Token 为什么会影响成本和速度在实际使用 AI 工具时Token 直接影响三个结果影响维度Token 越多会怎样对业务使用者意味着什么成本计费通常更高长材料、大段上下文、多轮对话更贵速度模型处理更慢响应延迟增加批量任务更明显长度限制更容易触达上下文窗口上限早期内容可能被压缩、截断或遗忘很多平台的计费方式都可以概括为总费用 ≈ 输入 Token 费用 输出 Token 费用也就是说以下几种操作都会明显增加成本把整篇长文原样粘进对话框。每次都重复发送同一段背景介绍。要求模型一次输出多版方案、超长报告或大段逐字改写。在一个很长的聊天里持续追问而不做总结或重开新对话。3、大语言模型如何“读懂”上下文Transformer当前主流大语言模型大多基于Transformer架构。掌握两点模型不会孤立地理解某个词而是会结合前后文一起判断含义。模型能够关注句子中不同位置之间的关系因此能根据上下文生成更合理的回答。例如“银行”这个词出现在“去银行办贷款”和“河流的银行”这两个句子里表示的含义不同。正确含义取决于周围词语。Transformer 的价值就在于帮助模型综合上下文来判断“当前这个词到底是什么意思”。如果再多理解一步可以把 Transformer 的工作方式概括为三层意思先把文字变成向量Embedding。 模型先把 Token 转成可计算的数字表示。再看位置关系位置编码。 模型不仅看“有哪些词”还要知道“这些词出现在哪个位置”。最后动态分配注意力Self Attention。 模型会根据当前词与上下文其他词的关系决定该重点参考哪里。其中最关键的机制是注意力机制Attention。它让模型在处理当前位置时不必只机械地按顺序往后读而是能“回看”上下文中与当前内容最相关的部分。正因为如此大语言模型才会比早期序列模型更擅长摘要、问答、改写和复杂生成。Transformer 为什么适合长文本理解Transformer 的优势在于它能在同一轮计算中同时考虑多个位置之间的关系而不是只能一步接一步地传递信息。例如当用户要求模型综合一段材料中的多处信息判断前后是否一致根据前文设定继续往后写Transformer 通常比早期 RNN 类模型更有优势。
大语言模型(理论篇)
1、文本是如何传入大模型的人类输入的是自然语言模型真正处理的是数字。文本进入大模型通常经历以下步骤这条链路里最重要的认识是大模型并不是“直接读汉字或英文单词”而是先把文本转换成可计算的数字表示再进行预测和生成。2、Token词元基础Token是大语言模型处理文本的基本单位。它不一定等于一个完整单词也不一定等于一个完整汉字而是模型词表定义下的切分单元。常见理解要点英文里一个单词可能被拆成多个 Token。中文里一个字/词也可能被拆成多个 Token。模型的上下文长度、计费方式、响应速度通常都与 Token 数量直接相关。例如用户输入一段很长的文档时模型首先关心的不是“字数多少”而是“总共有多少 Token”。因此Token 是连接“文本输入”“模型计算”“上下文长度”这三者的核心概念。理解 Token 最重要的是以下三件事Token 不等于字数也不等于词数。同样一句话在不同模型里切分结果可能不同所以不能简单按“多少字”来估算成本。输入会消耗 Token输出也会消耗 Token。你给模型的背景资料越长要求它输出越长整体成本就越高。历史对话也占 Token。多轮聊天并不是“只算这一次提问”而是常常连同上下文一起送进模型因此越聊越长成本和延迟都会上升。Token 的直观示例Token 的切分方式取决于模型词表下面只是帮助理解的近似示例输入内容可能的 Token 切分方式说明Hello worldHello / world英文常按词或子词切分unbelievableun / believe / able一个长单词可能被拆成多个 Token人工智能人工 / 智能 或 人 / 工 / 智 / 能中文也可能按词或字拆分CAIE Level 1CA / IE / Level / 1英文、缩写、数字混合时更容易被拆开要点不是记住某个具体切法而是明白模型看到的不是自然语言原貌而是一串 Token 序列。Token 为什么会影响成本和速度在实际使用 AI 工具时Token 直接影响三个结果影响维度Token 越多会怎样对业务使用者意味着什么成本计费通常更高长材料、大段上下文、多轮对话更贵速度模型处理更慢响应延迟增加批量任务更明显长度限制更容易触达上下文窗口上限早期内容可能被压缩、截断或遗忘很多平台的计费方式都可以概括为总费用 ≈ 输入 Token 费用 输出 Token 费用也就是说以下几种操作都会明显增加成本把整篇长文原样粘进对话框。每次都重复发送同一段背景介绍。要求模型一次输出多版方案、超长报告或大段逐字改写。在一个很长的聊天里持续追问而不做总结或重开新对话。3、大语言模型如何“读懂”上下文Transformer当前主流大语言模型大多基于Transformer架构。掌握两点模型不会孤立地理解某个词而是会结合前后文一起判断含义。模型能够关注句子中不同位置之间的关系因此能根据上下文生成更合理的回答。例如“银行”这个词出现在“去银行办贷款”和“河流的银行”这两个句子里表示的含义不同。正确含义取决于周围词语。Transformer 的价值就在于帮助模型综合上下文来判断“当前这个词到底是什么意思”。如果再多理解一步可以把 Transformer 的工作方式概括为三层意思先把文字变成向量Embedding。 模型先把 Token 转成可计算的数字表示。再看位置关系位置编码。 模型不仅看“有哪些词”还要知道“这些词出现在哪个位置”。最后动态分配注意力Self Attention。 模型会根据当前词与上下文其他词的关系决定该重点参考哪里。其中最关键的机制是注意力机制Attention。它让模型在处理当前位置时不必只机械地按顺序往后读而是能“回看”上下文中与当前内容最相关的部分。正因为如此大语言模型才会比早期序列模型更擅长摘要、问答、改写和复杂生成。Transformer 为什么适合长文本理解Transformer 的优势在于它能在同一轮计算中同时考虑多个位置之间的关系而不是只能一步接一步地传递信息。例如当用户要求模型综合一段材料中的多处信息判断前后是否一致根据前文设定继续往后写Transformer 通常比早期 RNN 类模型更有优势。