为什么一块显卡比你家房子还贵为什么AI大模型“说一句话”要消耗几度电那个被大佬挂在嘴边的“token”到底是什么玩意儿你肯定经历过这个场景刷到一则科技新闻说“GPT-5 的训练使用了 10 万张 H100 显卡总算力高达 200 EFLOPS”。评论区炸了“这得多少电费”“老黄又赢麻了。”你盯着“EFLOPS”这个单词脑子里浮现出战斗机起飞、黑客帝国代码雨然后默默地点了个赞。或者另一个场景公司老板突然迷上 AI开会时唾沫横飞“我们要做私有化大模型先采购 1000 个 token 试试水”你差点脱口而出Token 不是游戏厅的硬币吗1000 个能玩几局抓娃娃今天这篇文章我们就来把“算力”和“token”这两个 AI 时代最熟悉的陌生词一次扒得底裤都不剩。保你以后在饭局上聊起这些能让人以为你是硅谷回来的。一、算力到底是什么——别想复杂就是“脑子转多快”算力简单粗暴地讲就是计算机每秒钟能做多少次运算。就像你问一个人“你算 99×99 要几秒”算得越快算力越强。同样你问一块芯片“你一秒钟能算多少次浮点加法”它告诉你的数字就是算力。一个极简的烤红薯模型你用手指数数一秒数 3 次你的“算力”是 3 次/秒。你掏出计算器一秒能算几千次加减法算力飙升。你打开 RTX 4090 显卡它一秒能算几十万亿次乘法和加法脑子直接冒烟。所以算力就是把电变成数学答案的速度。二、算力的单位从每秒一次到每秒百亿亿次我们衡量长度用米、公里、光年衡量算力也有一个“单位家族”。这个家族的核心祖宗是FLOPS —— 每秒浮点运算次数FLOPSFloating-pointOperationsPerSecond浮点运算就是带小数点的计算比如 3.14 × 2.718。为啥强调浮点因为 AI、图形渲染、科学计算几乎全是小数点的天下。整数计算比如数人头对AI没啥用。FLOPS 就是算力界的“米”其他的都是加前缀单位英文含义每秒运算次数打个比方FLOPSFlops1 次你用手指戳一下计算器KFLOPSKilo FLOPS10³千一只训练有素的仓鼠MFLOPSMega FLOPS10⁶百万90 年代的奔腾电脑GFLOPSGiga FLOPS10⁹十亿一部 iPhone 的神经网络引擎TFLOPSTera FLOPS10¹²万亿一块 RTX 4090 显卡PFLOPSPeta FLOPS10¹⁵千万亿一座大型数据中心的集群EFLOPSExa FLOPS10¹⁸百亿亿国家级超算训练 GPT-5 的怪物ZFLOPSZetta FLOPS10²¹十万亿亿目前还只能靠科幻片实现所以当新闻说“总算力 200 EFLOPS”意思就是那个系统每一秒能进行 200,000,000,000,000,000,000 次小数运算。你数一下零200 后面有 18 个零。这个速度是什么概念你让全球 80 亿人每人拿一个计算器同时开始按不眠不休按一年大概约等于这块系统工作一秒的量。三、一个你更常见的单位TOPS每秒万亿次操作除了 FLOPS你还经常看到一个词TOPS。TOPSTeraOperationsPerSecond它和 TFLOPS 不同在于OPS 不限定必须是浮点运算整数也算。但对于 AI 芯片比如手机里的 NPU苹果的 A17 Pro 芯片厂家最爱宣传 TOPS因为很多神经网络推理时用的是 INT8 这种低精度整数运算不是浮点。简单记住训练大模型时大家用FLOPS需要高精度。运行大模型时手机、汽车端侧大家用TOPS低精度、省电。四、什么是 Token——不是硬币是 AI 眼里的“字”好了算力讲明白了我们聊聊那个让你困惑的token。你在用 ChatGPT 时按字数计费不是是按token。Token是大语言模型“阅读”和“生成”文本的最小颗粒度。它可以是一个完整的单词如apple一个单词的一部分如playing被拆成playing一个汉字在中文里通常一个汉字是一个 token一个标点符号如甚至是一个空格OpenAI 的官方划分规则大致是对于英文1 个 token ≈ 0.75 个单词。对于中文1 个汉字 ≈ 1~2 个 token。所以当你说 GPT-4 的上下文窗口是“128k tokens”意思是它一次性最多能“读进去”大约 9 万个英文单词或者约六七万个汉字。当某公司说“处理 1000 个 token 收费 0.002 美元”意思是你输入或输出约 750 个英文单词要付 0.002 美元。为什么大模型要“切”成 token——和算力直接相关你发给 ChatGPT 的问题“今天天气怎么样”在进入模型之前会被“分词器”切成一串编号text复制下载[今天, 天气, 怎么样, ]→ 映射成 [10494, 8623, 10259, 10023]这些编号进入模型后会经历一场极其疯狂的计算。每个 token 都要和之前的所有 token 进行注意力计算那个计算量是 token 数量的平方级。这就是为什么处理 4000 token 的成本不是处理 2000 token 的两倍而是更多。所以算力和 token 的关系是这样的Token 是模型吃的“饭”算力是模型消化这顿饭消耗的“热量”你给再多饭算力不够它就噎死了算力拉满就能吃下满汉全席。这也是为什么 OpenAI 要限制你的 token 数量不是怕你写长篇小说而是怕你的请求占满所有显卡。五、我们能用这些知识干什么——三个扎心现实1. 为什么你买不到便宜的显卡因为训练 GPT-4 级别的大模型需要几万张显卡跑几个月这个算力需求是按 EFLOPS 算的。全球显卡产能就那么大AI 公司先把货扫光了留给游戏玩家的都是高价残羹。2. 为什么有些 AI 应用免费有些死贵免费的 ChatGPT 给你几千个 token 的上下文后台只分配你一点点算力。付费的 ChatGPT Plus给你 128k token 上下文这相当于给你开了几十倍的算力房间。而企业版 API 按 token 收费本质上就是按“消耗的算力”收费——每生成一个 token都要经过数亿次乘加运算这些都是电费、显卡折旧费。3. 为什么你的手机跑不动本地大模型手机上的 NPU 算力通常只有几十 TOPS而跑一个 70 亿参数的小模型至少要几 GB 显存和几十 TFLOPS。所以现在能在手机上跑的都是“缩水版”小模型。算力上限决定了模型智商上限。六、终极总结一张“算力-数据-智能”的烧烤架原理图想象你在 BBQ算力是炭火的温度和火焰大小每秒钟能烧多少柴。数据是待烤的肉串token 串起来的文本序列。模型参数是烧烤师傅的配方经验也就是神经网络连接的权重。炭火不够旺算力低 → 肉串烤不熟训练不充分或者烤一串等半天推理慢。肉串太多了token 序列太长 → 炭火必须超级猛否则摊子就凉了。配方再好模型设计好没有炭火没 GPU白搭。所以下一次你再看到“算力即权力”这句话你不会觉得是鸡汤了。在这个 AI 时代算力就是新的石油token 就是输送石油的管道而你付的 API 费用就是石油账单。下次饭局当有人感叹“AI 真神奇”你可以缓缓放下筷子说“其实它背后就是一个每秒运算 200 百亿亿次小数的巨型烧烤架。”全桌人都会向你投来看透红尘的眼神。如果你对这个话题还有哪些想深挖的比如 GPU 为什么比 CPU 更适合 AI显存又是什么评论区告诉我下一篇继续翻。
你天天听“算力不够了”,但算力到底是什么?——从烤红薯到GPT-4o的硬核科普
为什么一块显卡比你家房子还贵为什么AI大模型“说一句话”要消耗几度电那个被大佬挂在嘴边的“token”到底是什么玩意儿你肯定经历过这个场景刷到一则科技新闻说“GPT-5 的训练使用了 10 万张 H100 显卡总算力高达 200 EFLOPS”。评论区炸了“这得多少电费”“老黄又赢麻了。”你盯着“EFLOPS”这个单词脑子里浮现出战斗机起飞、黑客帝国代码雨然后默默地点了个赞。或者另一个场景公司老板突然迷上 AI开会时唾沫横飞“我们要做私有化大模型先采购 1000 个 token 试试水”你差点脱口而出Token 不是游戏厅的硬币吗1000 个能玩几局抓娃娃今天这篇文章我们就来把“算力”和“token”这两个 AI 时代最熟悉的陌生词一次扒得底裤都不剩。保你以后在饭局上聊起这些能让人以为你是硅谷回来的。一、算力到底是什么——别想复杂就是“脑子转多快”算力简单粗暴地讲就是计算机每秒钟能做多少次运算。就像你问一个人“你算 99×99 要几秒”算得越快算力越强。同样你问一块芯片“你一秒钟能算多少次浮点加法”它告诉你的数字就是算力。一个极简的烤红薯模型你用手指数数一秒数 3 次你的“算力”是 3 次/秒。你掏出计算器一秒能算几千次加减法算力飙升。你打开 RTX 4090 显卡它一秒能算几十万亿次乘法和加法脑子直接冒烟。所以算力就是把电变成数学答案的速度。二、算力的单位从每秒一次到每秒百亿亿次我们衡量长度用米、公里、光年衡量算力也有一个“单位家族”。这个家族的核心祖宗是FLOPS —— 每秒浮点运算次数FLOPSFloating-pointOperationsPerSecond浮点运算就是带小数点的计算比如 3.14 × 2.718。为啥强调浮点因为 AI、图形渲染、科学计算几乎全是小数点的天下。整数计算比如数人头对AI没啥用。FLOPS 就是算力界的“米”其他的都是加前缀单位英文含义每秒运算次数打个比方FLOPSFlops1 次你用手指戳一下计算器KFLOPSKilo FLOPS10³千一只训练有素的仓鼠MFLOPSMega FLOPS10⁶百万90 年代的奔腾电脑GFLOPSGiga FLOPS10⁹十亿一部 iPhone 的神经网络引擎TFLOPSTera FLOPS10¹²万亿一块 RTX 4090 显卡PFLOPSPeta FLOPS10¹⁵千万亿一座大型数据中心的集群EFLOPSExa FLOPS10¹⁸百亿亿国家级超算训练 GPT-5 的怪物ZFLOPSZetta FLOPS10²¹十万亿亿目前还只能靠科幻片实现所以当新闻说“总算力 200 EFLOPS”意思就是那个系统每一秒能进行 200,000,000,000,000,000,000 次小数运算。你数一下零200 后面有 18 个零。这个速度是什么概念你让全球 80 亿人每人拿一个计算器同时开始按不眠不休按一年大概约等于这块系统工作一秒的量。三、一个你更常见的单位TOPS每秒万亿次操作除了 FLOPS你还经常看到一个词TOPS。TOPSTeraOperationsPerSecond它和 TFLOPS 不同在于OPS 不限定必须是浮点运算整数也算。但对于 AI 芯片比如手机里的 NPU苹果的 A17 Pro 芯片厂家最爱宣传 TOPS因为很多神经网络推理时用的是 INT8 这种低精度整数运算不是浮点。简单记住训练大模型时大家用FLOPS需要高精度。运行大模型时手机、汽车端侧大家用TOPS低精度、省电。四、什么是 Token——不是硬币是 AI 眼里的“字”好了算力讲明白了我们聊聊那个让你困惑的token。你在用 ChatGPT 时按字数计费不是是按token。Token是大语言模型“阅读”和“生成”文本的最小颗粒度。它可以是一个完整的单词如apple一个单词的一部分如playing被拆成playing一个汉字在中文里通常一个汉字是一个 token一个标点符号如甚至是一个空格OpenAI 的官方划分规则大致是对于英文1 个 token ≈ 0.75 个单词。对于中文1 个汉字 ≈ 1~2 个 token。所以当你说 GPT-4 的上下文窗口是“128k tokens”意思是它一次性最多能“读进去”大约 9 万个英文单词或者约六七万个汉字。当某公司说“处理 1000 个 token 收费 0.002 美元”意思是你输入或输出约 750 个英文单词要付 0.002 美元。为什么大模型要“切”成 token——和算力直接相关你发给 ChatGPT 的问题“今天天气怎么样”在进入模型之前会被“分词器”切成一串编号text复制下载[今天, 天气, 怎么样, ]→ 映射成 [10494, 8623, 10259, 10023]这些编号进入模型后会经历一场极其疯狂的计算。每个 token 都要和之前的所有 token 进行注意力计算那个计算量是 token 数量的平方级。这就是为什么处理 4000 token 的成本不是处理 2000 token 的两倍而是更多。所以算力和 token 的关系是这样的Token 是模型吃的“饭”算力是模型消化这顿饭消耗的“热量”你给再多饭算力不够它就噎死了算力拉满就能吃下满汉全席。这也是为什么 OpenAI 要限制你的 token 数量不是怕你写长篇小说而是怕你的请求占满所有显卡。五、我们能用这些知识干什么——三个扎心现实1. 为什么你买不到便宜的显卡因为训练 GPT-4 级别的大模型需要几万张显卡跑几个月这个算力需求是按 EFLOPS 算的。全球显卡产能就那么大AI 公司先把货扫光了留给游戏玩家的都是高价残羹。2. 为什么有些 AI 应用免费有些死贵免费的 ChatGPT 给你几千个 token 的上下文后台只分配你一点点算力。付费的 ChatGPT Plus给你 128k token 上下文这相当于给你开了几十倍的算力房间。而企业版 API 按 token 收费本质上就是按“消耗的算力”收费——每生成一个 token都要经过数亿次乘加运算这些都是电费、显卡折旧费。3. 为什么你的手机跑不动本地大模型手机上的 NPU 算力通常只有几十 TOPS而跑一个 70 亿参数的小模型至少要几 GB 显存和几十 TFLOPS。所以现在能在手机上跑的都是“缩水版”小模型。算力上限决定了模型智商上限。六、终极总结一张“算力-数据-智能”的烧烤架原理图想象你在 BBQ算力是炭火的温度和火焰大小每秒钟能烧多少柴。数据是待烤的肉串token 串起来的文本序列。模型参数是烧烤师傅的配方经验也就是神经网络连接的权重。炭火不够旺算力低 → 肉串烤不熟训练不充分或者烤一串等半天推理慢。肉串太多了token 序列太长 → 炭火必须超级猛否则摊子就凉了。配方再好模型设计好没有炭火没 GPU白搭。所以下一次你再看到“算力即权力”这句话你不会觉得是鸡汤了。在这个 AI 时代算力就是新的石油token 就是输送石油的管道而你付的 API 费用就是石油账单。下次饭局当有人感叹“AI 真神奇”你可以缓缓放下筷子说“其实它背后就是一个每秒运算 200 百亿亿次小数的巨型烧烤架。”全桌人都会向你投来看透红尘的眼神。如果你对这个话题还有哪些想深挖的比如 GPU 为什么比 CPU 更适合 AI显存又是什么评论区告诉我下一篇继续翻。