六大Coding Plan 速度和tokens消耗测试!

六大Coding Plan 速度和tokens消耗测试! 天下武功唯快不破不管做什么事情速度都是重要的衡量指标。除了躺着做的事情……不着急过日子嘛能省就省除了快还要省 tokens这是大家在购买 Coding Plan 时最关心的两个问题今天就给大家做一个测试可以作为选购参考。放心无广告无链接只有实测这是我自己开发的测试平台目前我主要是购买了阿里云百炼火山方舟、腾讯云、智谱、Kimi、MiniMax 六家公司的 Coding Plan。除了智谱升级到了 Pro 级别之外为了用上 GLM5其他全部是入门款订阅套餐。对大家来说应该非常有参考价值为了测试速度和 tokens 消耗情况我会出三个题目测两种场景然后每个题目测三次。1、简单问答首先我们来测试最简单的问题比如“早上好”。这个问题主要是看各家模型的最快反应速度我在系统提示词中特别强调了关闭所有思考能力用最简单的方式来回答下面直接来看结果我这个批量测试可以从多维度测试模型比如查看回复内容总的消耗时间总的消耗token如果有思考内容输出也可以查看思考过程。第一次测试结果最快的是 Kimi只用了 7 秒左右。最慢的是阿里云百炼 27.8 秒。然后我把 6 个平台3 次测试18 个结果进行了汇总并制作了图表。汇总图表如下从图表中可以非常直观的看到基于我的网络环境和测试问题来看速度前三是Kimi智谱MiniMax因为这个问题回答很少所以比 tokens 没太大意思。唯一有意思的就是阿里云百炼的思考模式真的是有点问题什么弱智问题都得思考半天。上面的问题只是为了测试最快的情况接下来两个题目会测试深度思考模式下的速度和tokens消耗情况。顺便也看一下各家模型的逻辑思维能力智商怎么样。2、排队问题第一个题目是排队问题这应该算是数学逻辑的范畴。问题如下有 5 个人排成一排每人帽子颜色为红或蓝。他们可以看到前面的人的帽子但看不到自己的。主持人宣布“至少有一顶红帽子。”从最后一人开始每人依次说“是”或“否”表示是否知道自己帽子的颜色。如果第 5 人说“否”第 4 人说“是”求所有可能的帽子颜色分布。这题我以前是用来测试本地开源大模型的在去年的时候开源模型还无法很好处理这个问题有的开源模型直接会把脑子烧坏疯狂思考不出结果。即便是当时最强的模型也要花点时间。因为这是逻辑题所以我在系统提示词中特别强调启用思维链把思考等级调到最大保持问题的准确性这是输入截图第一次测试结果如下首先我们可以看到MiniMax 和腾讯云交了白卷。就是思考卡住了然后被截断了。其次最快的是火山方舟 15 秒最慢的是阿里云百炼 98 秒。这个问题基本上就为了查看 tokens 消耗情况能答出来基本就是正确的答不出来就是答不出来直接卡死。下面是汇总图表注意图表 Y 轴中时间单位是秒图片顶部标注了毫秒有一点点问题。这部分的测试结果有一个很严重的问题就是有些选手交白卷。我在图中做了标注正常来说腾讯和MiniMax应该没有资格存在这个图表里了。从这一题中我们可以得到的结论是最快的三个是火山方舟Kimi智谱 GLM。最省 token 的三个是Kimi火山方舟智谱 GLM。3、空间题有的人特别擅长数字逻辑但是不一定擅长空间逻辑。所以我也出了一个空间题6 米长的竹竿能否通过 4 米高3 米宽的门系统提示词是启用 COT 思维链把思考级别拉到最高但是要尽快正确的回答这个问题这个题目在人类看来很简单。但是 AI 可能还没有明白这其中的陷阱。我去年测试的时候当时只有 Grok 和 DS 最新版可以稳定的回答这个问题。输入截图第一次结果如下首先这一轮腾讯云交了白卷。其次阿里智谱火山回答正确MiniMax 和 Kimi 回答错误。最后回答最快的是 Kimi回答最慢的是阿里云。这个问题其实没有那么简单。下面是第二次的结果这次MiniMax 说可以了Kimi 还是不行。这是第三次的结果这一次MiniMax 直接摆烂Kimi 说能通过。可以看到有些选手咬定了可以有些选手一会儿这样一会儿那样。模型的稳定性也是很重要的有些 AI 其实根本不懂就是抛硬币而已。另外那些咬死答案的也有可能只是看了标准答案而不是自己思考的结果。三次汇总如下从这个图中可以看到最快的是Kimi火山智谱。最省的是火山Kimi智谱。4、汇总和总结最后把三题的数据汇总一下总耗时均值 (ms)从这个图表来看腾讯云MiniMax阿里云百炼可以先排除了速度慢token 消耗多。其中有两位选手还常常答不出来。剩下 3 位是 Kimi火山智谱。Kimi 最快但是存在答错问题的情况年轻人快但是不一定准火山方舟最省也没有答错问题常规问答场景综合性能不错简单问题思考有点长GLM5 是最稳的速度不快不慢tokens 消耗不多不少回答问题智商在线今天的问题都是一些问答题不涉及复杂的工程问题。主要是测试速度tokens消耗常规智力等维度。最后还要补充一下这个速度在不同时间段和不同拥堵状态可能会有差异。我记得我最早测 GLM 的时候就觉得它能力还可以但是配到小龙虾里面就特别特别慢。后来我就换成了 Kimi跑得飞快。然后前几天又发现 Kimi 慢得不行有一段时间甚至直接没有回复在 OpenClaw 上面。然后这几天我又在测试好像 GLM 的速度上来了比较正常了。无论编程还是OpenClaw。主要是这段时间这个东西太火爆了一旦人多 token 速度肯定就会受影响人少速度就会快起来还有一个问题协议的问题。Kimi 的 OpenAI 协议好像会提示不允许非编程场景调用。阿里那个 Coding Plan 刚上的时候Anthropic 协议直接就挂了目前正常。有些平台的接口多问几次也会异常。这两天稍微好一些基本上通过 Anthropic协议都能正常调用。大概就是这些吧我本来准备一个小时结束战斗越写越多。本来想着之前测试项目写文章太累了今天来个轻松的就截个图。没想到又是表格又是图表看起来是爽了写起来真累‍为了设计这张封面图又花了我好多时间希望对大家有帮助有帮助的话帮忙扩散一下声明一下我就是个业余测试结果可能并不全面和准确仅供参考当然也八九不离十啦~~最后放一个彩蛋我的 Coding Plan 测试平台添加了一个新功能。我添加了一个大模型对战系统目前支持五子棋和中国象棋对战。五子棋对战中国象棋对战赶紧收工 下期见