整理 | 屠敏出品 | CSDNIDCSDNnews5 月 28 日Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8。从定位来看Claude Opus 4.8 并非一次大规模架构升级而更像是一轮针对实际使用反馈的“强化版本”。用官方的话来说“用户会发现Opus 4.8 相比前代版本虽然提升幅度不算巨大但改进是切实可感知的。”值得关注的是Anthropic 还同步推出了一项名为 Dynamic Workflows动态工作流的全新功能允许 Claude 在执行复杂任务时自动调度大量子智能体协同工作可以同时调用上百个 Agent 干活。此外官方还提前预告Claude Mythos 将会在几周之后就到来。仅时隔 43 天Claude Opus 4.8 发布回看过往Anthropic 以往的模型更新节奏通常以数月为单位。例如 Sonnet、Haiku 等系列模型两次主要版本升级之间往往相隔 3 至 7 个月。而此次 Opus 4.8 在 43 天内完成迭代显然并不寻常。原因或许主要来自两个方面一方面Claude Opus 4.7 发布后官方虽然称它在编程和智能体能力测试中取得不错成绩但部分开发者在真实体验后反馈并不太好。不少网友纷纷在各大社交媒体平台吐槽这一版本生成的代码注释过于冗长、工具调用稳定性不足还有在复杂任务中的决策判断能力也不行。对此不少人向 Anthropic 请愿保留更旧的 Claude Opus 4.6 版本甚至威胁称如果官方要移除 Opus 4.6他们将取消订阅并转向 OpenAI 阵营。另一方面OpenAI、Google 等竞争对手近期持续加码 AI 编程和智能体赛道。包括 OpenAI 的 Codex、Google 的 Gemini 3.5 Flash 等产品陆续发布使得 Anthropic 需要更快地回应市场需求。在此背景下Opus 4.8 升级目标非常明确更可靠、更诚实、更高效也更适合智能体场景。免费领 100 小时云算力CSDN 读者专属福利适配 DeepSeek、Qwen 等主流大模型扫码即刻领取每月还有显卡、AIPC 等实物好礼抽奖咖啡领取链接https://s.csdn.cn/4nPsOp新版本升级了什么根据 Anthropic 公布的数据Claude Opus 4.8 在代码生成、智能体执行、复杂推理以及专业办公任务等多个维度均较前代有所提升。其中Anthropic 使用 Terminal-Bench 2.1 对 Claude Opus 4.8 的推理能力进行了评测。该基准测试主要衡量大语言模型在命令行环境中完成任务的能力。测试结果显示Claude Opus 4.8 取得了 74.2% 的成绩较 Opus 4.7 提高了 8.4%。在更通用的软件工程测试 SWE-Bench Pro 上Opus 4.8 的得分也比前代版本高出 4.9%。此外Anthropic 表示Claude Opus 4.8 在涵盖计算机操作Computer Use和金融分析等任务的多项基准测试中同样取得了不同程度的性能提升。相比性能提升Opus 4.8 本次最大升级亮点之一是对模型生成内容真实性的改进。这几年里大模型普遍存在一个问题即使缺乏足够证据模型仍倾向于给出看似确定的答案甚至时不时地错误宣称任务已经完成。Anthropic 表示Opus 4.8 针对这一问题进行了专门优化。与前代模型相比Opus 4.8 更倾向于明确指出自身的不确定性对于缺乏依据的信息会主动标注风险而不是强行给出结论。Anthropic 内部测试结果显示Opus 4.8 忽略代码缺陷、未报告潜在漏洞的概率已降至前代版本的四分之一。换句话说新模型不仅更擅长发现问题也更愿意承认自己不知道答案。在 AI 逐渐进入企业生产环境的背景下这种能力尤为重要。另外Anthropic 还对 Opus 4.8 进行了全面的安全与对齐测试。官方数据显示在用户自主权保护、遵循用户意图以及避免误导性行为等指标上Opus 4.8 达到了目前 Claude 系列的最高水平。与此同时模型出现欺骗行为、配合违规操作等风险行为的概率也进一步下降。Anthropic 称其整体对齐表现已经接近目前内部测试中的 Claude Mythos 预览版。其他重磅更新Dynamic Workflows一次调度数百个 AI 分身除了模型本身本次发布最大的亮点之一是动态工作流Dynamic Workflows。该功能目前处于研究预览阶段主要面向 Claude Code 用户开放。简单来说它让 Claude 不再只是单独完成任务而能够像项目经理一样将复杂任务拆分给多个子智能体并行处理。整个过程包括自动规划执行步骤创建多个子智能体分配不同工作内容并行执行任务自动验证结果汇总最终输出Anthropic 表示在 Dynamic Workflows 的支持下Claude 可以在单个任务中调度数百个并行智能体并持续运行更长时间。例如一个涉及数十万行代码的大型迁移项目Claude 可以自主完成需求分析、代码修改、测试验证以及最终合并等多个步骤而无需开发者频繁介入。这也是 Anthropic 对 AI Agent 发展方向的一次重要布局。新增“思考强度”调节功能Anthropic 还为 Claude 增加了新的“思考强度”Effort Controls控制选项。用户可以根据需求调整模型投入的推理资源。当选择更高档位时Claude 会花费更多时间和 Token 对问题进行分析从而获得更高质量的结果而在较低档位下则能够以更快速度完成响应并减少调用成本。Anthropic 表示Opus 4.8 默认采用高思考强度模式在输出质量与成本之间取得了较好的平衡。对于复杂编程任务、长周期智能体工作流等场景则建议使用更高档位。API 也迎来更新面向开发者Anthropic 还更新了 Messages API。新的接口支持在消息数组内部直接插入系统指令开发者能够在任务运行过程中动态调整模型行为而不会影响提示词缓存机制。这意味着开发者可以更方便地修改权限设置、资源配额以及运行环境参数为复杂 Agent 系统提供更高的灵活性。Claude Mythos 已在路上在发布 Opus 4.8 的同时Anthropic 还透露了下一阶段计划。其模型团队正在研发一系列能力更强的新模型其中包括此前已经曝光的 Claude Mythos。目前 Mythos 仍处于有限预览阶段仅向少数合作伙伴开放测试。Anthropic 表示由于这类模型具备更强的自主执行和网络安全能力因此需要配套更完善的安全防护体系后才能正式开放。按照官方披露的信息相关准备工作已经接近完成预计未来数周内 Mythos 将逐步向更多用户开放。定价在定价方面Claude Opus 4.8 常规使用定价与 Opus 4.7 保持一致每百万输入 token 为 5 美元每百万输出 token 为 25 美元。极速模式定价为每百万输入 token 为 10 美元每百万输出 token 为 50 美元。开发者可通过 Claude API 调用模型 claude-opus-4-8。随着这一最新版本已在全平台正式启用不少用户也率先进行了尝鲜。X 用户JUMPERZ 基于此还总结了一份适用指南其表示「Claude Opus 4.8 发布了而有意思的是Anthropic 这次似乎并没有把重点放在冲击各类排行榜上。从测试成绩来看相比 Opus 4.7它的基准测试分数提升并不算大。整个版本更新更强调的是 Token 效率——运行成本大约降低了 61%而 Fast Mode 的成本更是下降了约 3 倍。这其实透露出 Anthropic 真正在意的方向。因此如今讨论 “Opus 4.8 和 GPT-5.5 谁更聪明” 已经没有太大意义了因为两者的能力已经非常接近很难单纯用“更聪明”来区分。真正的问题变成了你准备用它来做什么。为此我整理了一份简单的“选型指南”。更适合 Claude Opus 4.8 的场景包括大型代码仓库开发与维护、长时间无人值守运行的智能体任务、需要模型主动发现并纠正自身错误的工作、计算机操作Computer Use类任务。更适合 GPT-5.5 / Codex 的场景大量依赖终端Terminal的工作流、Web 搜索与信息研究、高吞吐量、批量化任务处理、对响应速度要求较高的场景。至于纯粹的推理能力以及生成首个 Token 的速度Time to First Token两者基本处于同一水平很难拉开明显差距。」那么你是否已经使用上新版的 Opus 4.8 了感兴趣的小伙伴不妨一试https://www.anthropic.com/news/claude-opus-4-8
重磅!Claude Opus 4.8来了:价格不变、更诚实、一次可调动上百AI Agent!
整理 | 屠敏出品 | CSDNIDCSDNnews5 月 28 日Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8。从定位来看Claude Opus 4.8 并非一次大规模架构升级而更像是一轮针对实际使用反馈的“强化版本”。用官方的话来说“用户会发现Opus 4.8 相比前代版本虽然提升幅度不算巨大但改进是切实可感知的。”值得关注的是Anthropic 还同步推出了一项名为 Dynamic Workflows动态工作流的全新功能允许 Claude 在执行复杂任务时自动调度大量子智能体协同工作可以同时调用上百个 Agent 干活。此外官方还提前预告Claude Mythos 将会在几周之后就到来。仅时隔 43 天Claude Opus 4.8 发布回看过往Anthropic 以往的模型更新节奏通常以数月为单位。例如 Sonnet、Haiku 等系列模型两次主要版本升级之间往往相隔 3 至 7 个月。而此次 Opus 4.8 在 43 天内完成迭代显然并不寻常。原因或许主要来自两个方面一方面Claude Opus 4.7 发布后官方虽然称它在编程和智能体能力测试中取得不错成绩但部分开发者在真实体验后反馈并不太好。不少网友纷纷在各大社交媒体平台吐槽这一版本生成的代码注释过于冗长、工具调用稳定性不足还有在复杂任务中的决策判断能力也不行。对此不少人向 Anthropic 请愿保留更旧的 Claude Opus 4.6 版本甚至威胁称如果官方要移除 Opus 4.6他们将取消订阅并转向 OpenAI 阵营。另一方面OpenAI、Google 等竞争对手近期持续加码 AI 编程和智能体赛道。包括 OpenAI 的 Codex、Google 的 Gemini 3.5 Flash 等产品陆续发布使得 Anthropic 需要更快地回应市场需求。在此背景下Opus 4.8 升级目标非常明确更可靠、更诚实、更高效也更适合智能体场景。免费领 100 小时云算力CSDN 读者专属福利适配 DeepSeek、Qwen 等主流大模型扫码即刻领取每月还有显卡、AIPC 等实物好礼抽奖咖啡领取链接https://s.csdn.cn/4nPsOp新版本升级了什么根据 Anthropic 公布的数据Claude Opus 4.8 在代码生成、智能体执行、复杂推理以及专业办公任务等多个维度均较前代有所提升。其中Anthropic 使用 Terminal-Bench 2.1 对 Claude Opus 4.8 的推理能力进行了评测。该基准测试主要衡量大语言模型在命令行环境中完成任务的能力。测试结果显示Claude Opus 4.8 取得了 74.2% 的成绩较 Opus 4.7 提高了 8.4%。在更通用的软件工程测试 SWE-Bench Pro 上Opus 4.8 的得分也比前代版本高出 4.9%。此外Anthropic 表示Claude Opus 4.8 在涵盖计算机操作Computer Use和金融分析等任务的多项基准测试中同样取得了不同程度的性能提升。相比性能提升Opus 4.8 本次最大升级亮点之一是对模型生成内容真实性的改进。这几年里大模型普遍存在一个问题即使缺乏足够证据模型仍倾向于给出看似确定的答案甚至时不时地错误宣称任务已经完成。Anthropic 表示Opus 4.8 针对这一问题进行了专门优化。与前代模型相比Opus 4.8 更倾向于明确指出自身的不确定性对于缺乏依据的信息会主动标注风险而不是强行给出结论。Anthropic 内部测试结果显示Opus 4.8 忽略代码缺陷、未报告潜在漏洞的概率已降至前代版本的四分之一。换句话说新模型不仅更擅长发现问题也更愿意承认自己不知道答案。在 AI 逐渐进入企业生产环境的背景下这种能力尤为重要。另外Anthropic 还对 Opus 4.8 进行了全面的安全与对齐测试。官方数据显示在用户自主权保护、遵循用户意图以及避免误导性行为等指标上Opus 4.8 达到了目前 Claude 系列的最高水平。与此同时模型出现欺骗行为、配合违规操作等风险行为的概率也进一步下降。Anthropic 称其整体对齐表现已经接近目前内部测试中的 Claude Mythos 预览版。其他重磅更新Dynamic Workflows一次调度数百个 AI 分身除了模型本身本次发布最大的亮点之一是动态工作流Dynamic Workflows。该功能目前处于研究预览阶段主要面向 Claude Code 用户开放。简单来说它让 Claude 不再只是单独完成任务而能够像项目经理一样将复杂任务拆分给多个子智能体并行处理。整个过程包括自动规划执行步骤创建多个子智能体分配不同工作内容并行执行任务自动验证结果汇总最终输出Anthropic 表示在 Dynamic Workflows 的支持下Claude 可以在单个任务中调度数百个并行智能体并持续运行更长时间。例如一个涉及数十万行代码的大型迁移项目Claude 可以自主完成需求分析、代码修改、测试验证以及最终合并等多个步骤而无需开发者频繁介入。这也是 Anthropic 对 AI Agent 发展方向的一次重要布局。新增“思考强度”调节功能Anthropic 还为 Claude 增加了新的“思考强度”Effort Controls控制选项。用户可以根据需求调整模型投入的推理资源。当选择更高档位时Claude 会花费更多时间和 Token 对问题进行分析从而获得更高质量的结果而在较低档位下则能够以更快速度完成响应并减少调用成本。Anthropic 表示Opus 4.8 默认采用高思考强度模式在输出质量与成本之间取得了较好的平衡。对于复杂编程任务、长周期智能体工作流等场景则建议使用更高档位。API 也迎来更新面向开发者Anthropic 还更新了 Messages API。新的接口支持在消息数组内部直接插入系统指令开发者能够在任务运行过程中动态调整模型行为而不会影响提示词缓存机制。这意味着开发者可以更方便地修改权限设置、资源配额以及运行环境参数为复杂 Agent 系统提供更高的灵活性。Claude Mythos 已在路上在发布 Opus 4.8 的同时Anthropic 还透露了下一阶段计划。其模型团队正在研发一系列能力更强的新模型其中包括此前已经曝光的 Claude Mythos。目前 Mythos 仍处于有限预览阶段仅向少数合作伙伴开放测试。Anthropic 表示由于这类模型具备更强的自主执行和网络安全能力因此需要配套更完善的安全防护体系后才能正式开放。按照官方披露的信息相关准备工作已经接近完成预计未来数周内 Mythos 将逐步向更多用户开放。定价在定价方面Claude Opus 4.8 常规使用定价与 Opus 4.7 保持一致每百万输入 token 为 5 美元每百万输出 token 为 25 美元。极速模式定价为每百万输入 token 为 10 美元每百万输出 token 为 50 美元。开发者可通过 Claude API 调用模型 claude-opus-4-8。随着这一最新版本已在全平台正式启用不少用户也率先进行了尝鲜。X 用户JUMPERZ 基于此还总结了一份适用指南其表示「Claude Opus 4.8 发布了而有意思的是Anthropic 这次似乎并没有把重点放在冲击各类排行榜上。从测试成绩来看相比 Opus 4.7它的基准测试分数提升并不算大。整个版本更新更强调的是 Token 效率——运行成本大约降低了 61%而 Fast Mode 的成本更是下降了约 3 倍。这其实透露出 Anthropic 真正在意的方向。因此如今讨论 “Opus 4.8 和 GPT-5.5 谁更聪明” 已经没有太大意义了因为两者的能力已经非常接近很难单纯用“更聪明”来区分。真正的问题变成了你准备用它来做什么。为此我整理了一份简单的“选型指南”。更适合 Claude Opus 4.8 的场景包括大型代码仓库开发与维护、长时间无人值守运行的智能体任务、需要模型主动发现并纠正自身错误的工作、计算机操作Computer Use类任务。更适合 GPT-5.5 / Codex 的场景大量依赖终端Terminal的工作流、Web 搜索与信息研究、高吞吐量、批量化任务处理、对响应速度要求较高的场景。至于纯粹的推理能力以及生成首个 Token 的速度Time to First Token两者基本处于同一水平很难拉开明显差距。」那么你是否已经使用上新版的 Opus 4.8 了感兴趣的小伙伴不妨一试https://www.anthropic.com/news/claude-opus-4-8