Claude Opus 4.8 实测:更精确、更诚实,但创作还是不如 4.65 月 28 日凌晨,Anthropic 正式上线 Claude Opus 4.8。距上一代 Opus 4.7 发布只过去 42 天——这是 Claude 系列史上最快的一次大版本迭代。发布节奏这么急的原因不难猜:4.7 在创作场景被吐槽AI 味变重,与此同时 GPT-5.5 Codex 在 agentic 开发上节节进逼,Terminal-Bench 始终压着 Claude 半截身位。Anthropic 必须出手。这篇文章不复述官方公告,把 4.8 跑了一夜后能感受到的真实变化、隐藏代价、能力边界,逐项拆给你。模型参数与价格:基本没动项目Opus 4.7Opus 4.8模型 IDclaude-opus-4-7claude-opus-4-8上下文窗口1M 默认1M 默认最大输出64K128K输入价(官方)$5 / M tokens$5 / M tokens输出价(官方)$25 / M tokens$25 / M tokens知识截止2026 年初2026 年初参数与价格几乎一模一样。基模大概率仍是 4.7 这份,4.8 主要在指令遵循、honesty、agentic 行为这几条线上做了重点 fine-tune。五个能感受到的真实变化1. Effort 思考强度,对所有人开放Effort(思考努力等级)原本只在 Claude Code 和 Cowork 里能调,这次直接搬到了 Chat 模式——所有套餐都能用,包括免费用户。位置在模型选择旁边,从 Low 到 Max 五档。下面那个自适应思考建议别关,和 effort 组合使用:Low / Medium:日常问答、轻量代码High:默认档,绝大多数开发任务xHigh / Max:复杂重构、长链 agentic 任务旧版 4.7 只留了自适应思考一个开关,等于把档位决定权全交给模型。4.8 把控制权还给了人——这对工程化场景是明显加分。2. 更精确,但主动性变弱实测下来 Opus 4.8 有一种指哪打哪的 GPT-5.5 感。给 A 任务就只做 A,不会自作主张地猜你是不是顺便也想做 B。对专业开发者:体验非常好,错误率、幻觉率明显下降对模糊指令的用户:会难受。过去 Claude 那种你含含糊糊说一句它就猜到完整需求顺手干掉的体感明显变弱举个实际场景:之前我习惯不显式提醒 Claude 去看线上数据,4.6/4.7 都会主动用配置好的 skill 连生产环境拉数据;4.8 两次都没主动去,只基于本地代码给方案。结果是要重新调记忆和工作流,把必须看线上这条规则写得更明确。实测结论:4.8 上线后,对需求表达精确度的要求会被拉高。模糊指令换不来主动补全。这点对长链 agent 尤其要命——一旦主动性偏差被放大几十步,后面擦屁股的成本极高。3. honesty 提升 4 倍,自信地胡说明显减少Anthropic 官方给的数字:Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率,比 4.7 降低约 4 倍。翻一下 system card 还能看到更夸张的:在偷懒这项内部评测上,Opus 4.8 是同代模型里唯一做到 0% 不良率的。实测体感:4.8 写完代码会主动告诉你这里我不确定,建议你跑一下 X 测试或者这部分依赖你确认 Y 配置,而不是像 4.7 那样言之凿凿地拍胸脯然后跑起来报错。这是 4.8 在开发场景下最实在的进步——和上面那条主动性下降组合起来读,本质是同一件事:模型不再越界猜测,对自己不确定的部分会显式标记出来。4. Fast Mode 速度 2.5×、价格降到原版 1/3旧 Opus 4.7 Fast Mode 一直被吐槽性价比差:速度 2.5×,价格 6 倍($30 / $150)。4.8 这次把 Fast Mode 重新定价:模式速度输入价输出价标准 Opus 4.81×$5 / M$25 / MFast Mode(旧)2.5×$30 / M$150 / MFast Mode(4.8 新)2.5×$10 / M$50 / M从6 倍价降到2 倍价,速度不变。背后的逻辑很直白:算力供给上来了——5 月这一周 Anthropic 同时拿下 AWS 5 GW、Google/Broadcom 5 GW TPU、SpaceX Colossus 1/2 GPU 资源,算力一进来 Fast Mode 自然就能降价。5. Dynamic Workflows:一次任务编排上百个子 agent这条更新主要在 Claude Code 上:Dynamic Workflows 允许 Claude 在一次任务里自己起一套编排脚本,并行拉起几十到上百个子 agent,每个子 agent 跑完后由主 agent 自检结果,再汇总给你。两种触发方式:直接对 Claude Code 说创建一个动态工作流,做 XX把 effort 调到Ultracode档——这个档位会自动把 effort 拉到 xHigh,并由模型自己判断何时启用 Dynamic WorkflowsAnthropic 自己给的典型场景:跨服务的缺陷排查、涉及数百个文件的迁移、多角度压力测试方案。一句话:单 agent 啃不下来的大活。创作能力:比 4.7 好一点,但仍不如 4.6老实说这是这次最让人遗憾的部分。用同样的 skill、同样的提示词跑内容创作,Opus 4.8 比 4.7 强,但还是不如 4.6。具体问题:仍然会写不是 X、而是 Y这种被禁用的 AI 味句式,只是改头换面成不再是 X,而是 Y比喻经常奇怪——把靠谱的人比喻成高速运转机器里的润滑油,把一个人物化成锚排比堆砌未见明显收敛续写小说时人物刻板印象明显按 Claude 网页端只保留两代模型的惯例,4.8 上线意味着 4.6 大概率会被下线。这对内容创作场景的用户是真切的损失——很多基于 4.6 调好的写作 skill、prompt 体系需要重写。接入示例:怎么在自己的项目里用兼容 Anthropic SDK 格式,迁移现有代码只需替换base_url与模型 ID:fromanthropicimportAnthropic clientAnthropic(api_keysk-xxx,base_urlhttps://gw.claudeapi.com)respclient.messages.create(modelclaude-opus-4-8,max_tokens4096,messages[{role:user,content:解释 effort 档位的取值策略}])print(resp.content[0].text)Node.js:importAnthropicfromanthropic-ai/sdk;constclientnewAnthropic({apiKey:process.env.ANTHROPIC_API_KEY,baseURL:https://gw.claudeapi.com});constrespawaitclient.messages.create({model:claude-opus-4-8,max_tokens:4096,messages:[{role:user,content:总结这次 4.8 的核心改动}]});cURL(OpenAI 兼容路径):curlhttps://gw.claudeapi.com/v1/chat/completions\-HAuthorization: Bearer sk-xxx\-HContent-Type: application/json\-d{ model: claude-opus-4-8, messages: [{role: user, content: Hello}] }还有一个钩子:Mythos这次发布会上 Anthropic 还留了一个钩子:内部代号Mythos的更高一档模型,“几周内对所有客户开放”。Anthropic 自己也承认 Opus 4.8 在某些复杂任务上仍逊于未发布的 Mythos——这个表态在过去几乎不曾出现。Mythos 正式发布时大概率又是一轮节奏紧张的升级。写在最后一句话总结:Opus 4.8 是对 4.7 的快速救火,对开发者是显著加分,对内容创作者是小幅倒退。按场景选模型的建议:场景推荐agentic 开发、长链任务、严格代码自检立刻迁到 4.8复杂重构、跨文件改动4.8 Ultracode Dynamic Workflows内容创作、营销文案、剧本撰写暂留 4.6,等 4.8 后续小版本日常问答、批量分类Sonnet 4.6 或 Haiku 4.5(性价比更高)新模型上线节奏越来越紧——4.7 → 4.8 只用了 42 天,Mythos 还在后面排队。把 prompt、skill、工作流的版本管理做扎实,比追每一次发布都要重要。
Claude Opus 4.8 实测:更精确、更诚实,但创作还是不如 4.6
Claude Opus 4.8 实测:更精确、更诚实,但创作还是不如 4.65 月 28 日凌晨,Anthropic 正式上线 Claude Opus 4.8。距上一代 Opus 4.7 发布只过去 42 天——这是 Claude 系列史上最快的一次大版本迭代。发布节奏这么急的原因不难猜:4.7 在创作场景被吐槽AI 味变重,与此同时 GPT-5.5 Codex 在 agentic 开发上节节进逼,Terminal-Bench 始终压着 Claude 半截身位。Anthropic 必须出手。这篇文章不复述官方公告,把 4.8 跑了一夜后能感受到的真实变化、隐藏代价、能力边界,逐项拆给你。模型参数与价格:基本没动项目Opus 4.7Opus 4.8模型 IDclaude-opus-4-7claude-opus-4-8上下文窗口1M 默认1M 默认最大输出64K128K输入价(官方)$5 / M tokens$5 / M tokens输出价(官方)$25 / M tokens$25 / M tokens知识截止2026 年初2026 年初参数与价格几乎一模一样。基模大概率仍是 4.7 这份,4.8 主要在指令遵循、honesty、agentic 行为这几条线上做了重点 fine-tune。五个能感受到的真实变化1. Effort 思考强度,对所有人开放Effort(思考努力等级)原本只在 Claude Code 和 Cowork 里能调,这次直接搬到了 Chat 模式——所有套餐都能用,包括免费用户。位置在模型选择旁边,从 Low 到 Max 五档。下面那个自适应思考建议别关,和 effort 组合使用:Low / Medium:日常问答、轻量代码High:默认档,绝大多数开发任务xHigh / Max:复杂重构、长链 agentic 任务旧版 4.7 只留了自适应思考一个开关,等于把档位决定权全交给模型。4.8 把控制权还给了人——这对工程化场景是明显加分。2. 更精确,但主动性变弱实测下来 Opus 4.8 有一种指哪打哪的 GPT-5.5 感。给 A 任务就只做 A,不会自作主张地猜你是不是顺便也想做 B。对专业开发者:体验非常好,错误率、幻觉率明显下降对模糊指令的用户:会难受。过去 Claude 那种你含含糊糊说一句它就猜到完整需求顺手干掉的体感明显变弱举个实际场景:之前我习惯不显式提醒 Claude 去看线上数据,4.6/4.7 都会主动用配置好的 skill 连生产环境拉数据;4.8 两次都没主动去,只基于本地代码给方案。结果是要重新调记忆和工作流,把必须看线上这条规则写得更明确。实测结论:4.8 上线后,对需求表达精确度的要求会被拉高。模糊指令换不来主动补全。这点对长链 agent 尤其要命——一旦主动性偏差被放大几十步,后面擦屁股的成本极高。3. honesty 提升 4 倍,自信地胡说明显减少Anthropic 官方给的数字:Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率,比 4.7 降低约 4 倍。翻一下 system card 还能看到更夸张的:在偷懒这项内部评测上,Opus 4.8 是同代模型里唯一做到 0% 不良率的。实测体感:4.8 写完代码会主动告诉你这里我不确定,建议你跑一下 X 测试或者这部分依赖你确认 Y 配置,而不是像 4.7 那样言之凿凿地拍胸脯然后跑起来报错。这是 4.8 在开发场景下最实在的进步——和上面那条主动性下降组合起来读,本质是同一件事:模型不再越界猜测,对自己不确定的部分会显式标记出来。4. Fast Mode 速度 2.5×、价格降到原版 1/3旧 Opus 4.7 Fast Mode 一直被吐槽性价比差:速度 2.5×,价格 6 倍($30 / $150)。4.8 这次把 Fast Mode 重新定价:模式速度输入价输出价标准 Opus 4.81×$5 / M$25 / MFast Mode(旧)2.5×$30 / M$150 / MFast Mode(4.8 新)2.5×$10 / M$50 / M从6 倍价降到2 倍价,速度不变。背后的逻辑很直白:算力供给上来了——5 月这一周 Anthropic 同时拿下 AWS 5 GW、Google/Broadcom 5 GW TPU、SpaceX Colossus 1/2 GPU 资源,算力一进来 Fast Mode 自然就能降价。5. Dynamic Workflows:一次任务编排上百个子 agent这条更新主要在 Claude Code 上:Dynamic Workflows 允许 Claude 在一次任务里自己起一套编排脚本,并行拉起几十到上百个子 agent,每个子 agent 跑完后由主 agent 自检结果,再汇总给你。两种触发方式:直接对 Claude Code 说创建一个动态工作流,做 XX把 effort 调到Ultracode档——这个档位会自动把 effort 拉到 xHigh,并由模型自己判断何时启用 Dynamic WorkflowsAnthropic 自己给的典型场景:跨服务的缺陷排查、涉及数百个文件的迁移、多角度压力测试方案。一句话:单 agent 啃不下来的大活。创作能力:比 4.7 好一点,但仍不如 4.6老实说这是这次最让人遗憾的部分。用同样的 skill、同样的提示词跑内容创作,Opus 4.8 比 4.7 强,但还是不如 4.6。具体问题:仍然会写不是 X、而是 Y这种被禁用的 AI 味句式,只是改头换面成不再是 X,而是 Y比喻经常奇怪——把靠谱的人比喻成高速运转机器里的润滑油,把一个人物化成锚排比堆砌未见明显收敛续写小说时人物刻板印象明显按 Claude 网页端只保留两代模型的惯例,4.8 上线意味着 4.6 大概率会被下线。这对内容创作场景的用户是真切的损失——很多基于 4.6 调好的写作 skill、prompt 体系需要重写。接入示例:怎么在自己的项目里用兼容 Anthropic SDK 格式,迁移现有代码只需替换base_url与模型 ID:fromanthropicimportAnthropic clientAnthropic(api_keysk-xxx,base_urlhttps://gw.claudeapi.com)respclient.messages.create(modelclaude-opus-4-8,max_tokens4096,messages[{role:user,content:解释 effort 档位的取值策略}])print(resp.content[0].text)Node.js:importAnthropicfromanthropic-ai/sdk;constclientnewAnthropic({apiKey:process.env.ANTHROPIC_API_KEY,baseURL:https://gw.claudeapi.com});constrespawaitclient.messages.create({model:claude-opus-4-8,max_tokens:4096,messages:[{role:user,content:总结这次 4.8 的核心改动}]});cURL(OpenAI 兼容路径):curlhttps://gw.claudeapi.com/v1/chat/completions\-HAuthorization: Bearer sk-xxx\-HContent-Type: application/json\-d{ model: claude-opus-4-8, messages: [{role: user, content: Hello}] }还有一个钩子:Mythos这次发布会上 Anthropic 还留了一个钩子:内部代号Mythos的更高一档模型,“几周内对所有客户开放”。Anthropic 自己也承认 Opus 4.8 在某些复杂任务上仍逊于未发布的 Mythos——这个表态在过去几乎不曾出现。Mythos 正式发布时大概率又是一轮节奏紧张的升级。写在最后一句话总结:Opus 4.8 是对 4.7 的快速救火,对开发者是显著加分,对内容创作者是小幅倒退。按场景选模型的建议:场景推荐agentic 开发、长链任务、严格代码自检立刻迁到 4.8复杂重构、跨文件改动4.8 Ultracode Dynamic Workflows内容创作、营销文案、剧本撰写暂留 4.6,等 4.8 后续小版本日常问答、批量分类Sonnet 4.6 或 Haiku 4.5(性价比更高)新模型上线节奏越来越紧——4.7 → 4.8 只用了 42 天,Mythos 还在后面排队。把 prompt、skill、工作流的版本管理做扎实,比追每一次发布都要重要。