一、SkyClaw 能当新引擎但不是一键替代整辆车SkyClaw-v1.0 最值得关注的地方不是“又一个国产大模型发布”而是它把目标直接对准了 Agent Coding 的关键环节长上下文、多轮工具调用、文件编辑、代码生成、测试执行和真实任务闭环。通俗讲以前很多模型更像“会写代码片段的高手”你问它一个函数它给你一段答案但真正的 AI Coding 不是写一段函数而是接到一个需求后能自己看仓库、找文件、改代码、跑测试、看报错、继续修最后交出一个可以审查的 diff。这就是 SkyClaw-v1.0 的爽点它不是只卷聊天而是把战场推到 Agent 执行。百万上下文让它能吞下更长的仓库信息、任务历史、日志和测试反馈Agent 强化训练让它更像一个能连续干活的执行模型。但问题也要说清楚SkyClaw-v1.0 本质上更接近“模型引擎”而 Claude Code 是一整套成熟的 Agentic Coding 工具。Claude Code 不只是调用模型它还包含终端/IDE/Web/Slack 入口、仓库理解、文件编辑、命令执行、权限确认、测试、PR 与团队工作流。所以答案不是简单的“能”或“不能”如果你说的是替代某些 Agent 框架里的模型核心SkyClaw 值得试如果你说的是完整替代 Claude Code 的产品体验、权限系统、生态入口和工程闭环只靠模型还不够。二、SkyClaw-v1.0 到底发布了什么从官方资料看SkyClaw-v1.0 的定位非常明确一个面向复杂工具使用、多轮工作流和真实任务执行的高性能 Agent 模型。官方标出的几个关键词很关键1M token 上下文、OpenAI-compatible API、低成本、Agent Benchmark、真实工具环境训练。更具体一点官方页面给出了四个直接信号第一1M token 上下文针对长链路 Agent 工作流第二OpenAI 兼容 API方便接入已有 Agent 框架第三主打低成本旗舰版输入价格为 0.5 CNY / M tokenslite 版本为 0.3 CNY / M tokens第四官方强烈建议把 SkyClaw-v1.0 放进 Agent workflow而不是当普通聊天模型单独使用。这几个信号合起来看SkyClaw 不是在讲“我会回答编程问题”而是在讲“我可以被放进一个 Agent 工程系统里连续推进任务”。这就是它和普通代码模型最大的区别。维度SkyClaw-v1.0 公开信息对 AI Coding 的意义上下文1M token可容纳更多仓库、日志、文档和历史步骤接口OpenAI-compatible API便于接入现有 Agent Harness 和模型网关训练工具环境 SFT 轨迹 Agentic RL强化多步执行稳定性而非只优化单次回答适配Hermes、Claude Code、Codex 等 Agent 框架更像可插拔模型引擎成本官方给出较低 token 定价适合高频、多轮、长上下文任务试点三、百万上下文的价值不是把整个仓库硬塞进去而是让长任务不断片很多人看到“1M token 上下文”第一反应是那是不是可以把整个项目都扔进去这只说对了一半。长上下文确实能让 Agent 看见更多信息但工程里真正重要的是“哪些信息该进上下文哪些信息该检索哪些信息该摘要”。在 AI Coding 里百万上下文有三个实用价值。第一适合多文件联动改造。比如一个功能牵涉 Controller、Service、DAO、前端页面、配置文件、测试用例短上下文模型容易改着改着忘掉前面的约束长上下文模型可以保留更多线索。第二适合日志 代码 历史修复一起分析。线上 Bug 往往不是一段代码能看懂的可能要结合报错日志、调用链、配置、最近提交和历史 issue。上下文越长Agent 越有机会把线索串起来。第三适合长链路任务。Agent 不是一次性回答它会跑很多步先读文件再列计划再改代码再跑测试再看报错再补改。长上下文能让它保留更多“已经做过什么”和“为什么这么做”。但也要警惕一个坑长上下文不是万能药。上下文越长噪声越多模型也可能被无关文件带偏。真正稳定的做法仍然是“检索 摘要 长上下文 测试反馈”组合使用。四、SkyClaw 的训练路线不是只刷题而是练 Agent 干活SkyClaw 官方对训练思路的描述很有信息量训练围绕 practical agent behavior 展开包括复杂工具环境、过滤后的合成任务轨迹以及端到端强化学习目标是提升多步执行的稳定性。这句话翻译成人话就是模型不只是学习“代码答案长什么样”而是学习“接到任务后应该怎么一步步干”。它需要知道什么时候读文件、什么时候搜索、什么时候编辑、什么时候运行测试、什么时候根据失败结果修正。这也是 AI Coding 从“提示词工程”走向“任务执行工程”的关键变化过去我们关心模型会不会写函数现在更关心它能不能在一堆工具、文件、测试、报错之间保持方向感。五、榜单怎么看有爽点但别把 Benchmark 当生产结论官方页面给出了一组 Agent Benchmark 数字PinchBench-v2 为 87.2Claw-Eval Pass^3 为 59.7Claw-Eval Avg 为 74.2Skywork-Claw-Bench 为 62.9。官方还表示SkyClaw-v1.0 在主要 Agent Benchmark 上超过 Minimax 2.7、DeepSeek V4 Flash、Qwen 3.6 35B A3B / 27B 等模型在 OpenClaw 相关任务上接近 DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus 等更大闭源模型。这组信息的意义在于SkyClaw 的竞争点已经不是“普通问答能力”而是 Agent 执行能力。尤其是代码任务、文件编辑、多轮工具调用、应用构建这类场景才是它想打的主战场。但工程团队不能只看榜单。榜单的爽点是“方向对了”落地的关键是“你的仓库里能不能跑通”。同一个模型在 Demo 项目里很猛放到真实项目里可能遇到私有框架、历史债务、奇怪命名、隐式业务规则、测试环境缺失一下就露馅。六、真正可能改变团队决策的不只是能力还有成本AI Coding 一旦从个人尝鲜走向团队生产成本马上变成关键因素。一个 Agent 任务不是调用一次模型就结束它可能要反复读取文件、生成计划、改代码、跑测试、分析报错再继续修正。这意味着 token 用量会很大尤其是长上下文任务。模型越贵团队越不敢把它放进批量流水线模型越便宜才越有可能把 AI Coding 从“少数高手的玩具”变成“团队级自动化能力”。SkyClaw 官方价格表里旗舰版输入 0.5 CNY/M tokens、输出 4 CNY/M tokenslite 版输入 0.3 CNY/M tokens、输出 2 CNY/M tokens。这个价格信号说明国产 Agent 模型正在主动切入“高频、长链路、多轮调用”的成本痛点。七、回到核心问题它能不能替代 Claude Code先把问题拆开。Claude Code 是什么官方描述里Claude Code 可以直接在代码库中工作支持从终端、IDE、Slack 或 Web 发起任务它能读代码、写改动、运行测试、生成 PR并且在修改文件或运行命令前请求权限。这说明 Claude Code 的价值不只在模型而在完整工作流入口、上下文获取、文件操作、命令执行、权限控制、测试验证、PR 交付、团队协作。SkyClaw-v1.0 则更像是可以插进这些工作流的模型引擎。官方也明确建议在应用构建任务里把 SkyClaw-v1.0 运行在 Hermes、Claude Code 或 Codex 等 Agent 框架中让它能够规划、编辑文件、测试和多轮迭代而不是当普通聊天模型单独使用。所以最准确的判断是SkyClaw-v1.0 可能替代或补充某些 Agent 框架里的模型层但它不是直接替代 Claude Code 整个产品层。你可以把它理解成国产发动机开始变强了但整车体验、控制系统和安全系统还要一起比。八、哪些场景最适合先试 SkyClaw第一类是低风险代码任务。比如补测试、改文档、修简单 Bug、生成脚手架、前端页面原型、批量迁移配置。这些任务出错成本较低适合作为第一批 A/B 测试集。第二类是长上下文需求明显的任务。比如大仓库理解、老项目梳理、日志分析、跨多文件重构、接口链路排查。1M 上下文的优势应该优先在这些任务里验证。第三类是高频批量任务。比如每天生成测试、扫描代码异味、整理变更说明、辅助 Review、自动生成迁移说明。这里成本优势会被放大。不建议一上来就做的是生产自动合并、自动部署、密钥相关操作、支付/风控/权限系统核心代码改造。AI Coding 再强也不能跳过人审、CI、安全扫描和回滚机制。九、企业落地架构模型进来以后安全带必须先系好如果团队想认真试 SkyClaw不建议直接让它接触生产仓库并开写。更稳的方式是搭一个受控 Agent Harness任务来自任务池模型通过模型网关调用工具运行在沙箱里所有文件修改都生成 diff所有命令执行都走权限策略所有结果都通过 CI 和人工审查。这套架构的核心不是限制 AI而是让 AI 的能力可控、可验收、可复盘。没有这些护栏模型越强风险越大有了这些护栏模型越强收益越明显。十、别争论拿你的仓库做评估判断国产 AI Coding 是否真追上最好的办法不是争论参数也不是只看官方榜单而是做一套自己的评估集。建议准备 50 到 100 个真实任务覆盖 Bug 修复、测试生成、前端修改、接口改造、配置迁移、文档同步、代码解释、性能小优化等类型。每个任务都要有验收标准测试是否通过、diff 是否干净、有没有误改、Reviewer 要花多久、token 成本是多少。评估时把 SkyClaw、Claude Code 默认模型、其他国产模型放在同一套任务上跑。不要只看“能不能完成”还要看“完成得是否可合并”。AI Coding 最终拼的是交付质量不是回答看起来多自信。十一、最终判断国产 AI Coding 进入“可替代部分能力”的阶段SkyClaw-v1.0 的发布释放了一个很强的信号国产模型不再只是在聊天、知识问答、通用推理上追赶而是开始直冲 Agent Coding 的真实执行层。它的爽点很明确百万上下文、Agent 强化训练、低成本、OpenAI 兼容接口、多框架适配。对于国内团队来说这意味着 AI Coding 终于有机会从“贵、慢、只能少量试”走向“可批量、可集成、可持续评估”。但冷静地说SkyClaw-v1.0 还不能凭模型本身完整替代 Claude Code。Claude Code 的强大是模型能力、工具链、权限系统、IDE/终端入口、团队工作流和生态沉淀的组合。SkyClaw 要替代的是其中的模型引擎层真正替代完整产品还需要更多工程系统配合。最适合的落地策略是先把 SkyClaw 接入现有 Agent Harness 或自研编排系统用真实仓库做 A/B 测低风险任务先跑稳定后再扩大范围所有自动改动必须经过测试、人审和权限护栏。一句话总结SkyClaw-v1.0 不是 Claude Code 的简单复制品而是国产 AI Coding 向“模型引擎层”发起的一次强攻。谁能把它和 Harness、评测、安全、CI 流程接好谁就能先吃到下一波 AI 编程效率红利。
SkyClaw-v1.0 发布:国产百万上下文 Agent 模型,能不能替代 Claude Code?
一、SkyClaw 能当新引擎但不是一键替代整辆车SkyClaw-v1.0 最值得关注的地方不是“又一个国产大模型发布”而是它把目标直接对准了 Agent Coding 的关键环节长上下文、多轮工具调用、文件编辑、代码生成、测试执行和真实任务闭环。通俗讲以前很多模型更像“会写代码片段的高手”你问它一个函数它给你一段答案但真正的 AI Coding 不是写一段函数而是接到一个需求后能自己看仓库、找文件、改代码、跑测试、看报错、继续修最后交出一个可以审查的 diff。这就是 SkyClaw-v1.0 的爽点它不是只卷聊天而是把战场推到 Agent 执行。百万上下文让它能吞下更长的仓库信息、任务历史、日志和测试反馈Agent 强化训练让它更像一个能连续干活的执行模型。但问题也要说清楚SkyClaw-v1.0 本质上更接近“模型引擎”而 Claude Code 是一整套成熟的 Agentic Coding 工具。Claude Code 不只是调用模型它还包含终端/IDE/Web/Slack 入口、仓库理解、文件编辑、命令执行、权限确认、测试、PR 与团队工作流。所以答案不是简单的“能”或“不能”如果你说的是替代某些 Agent 框架里的模型核心SkyClaw 值得试如果你说的是完整替代 Claude Code 的产品体验、权限系统、生态入口和工程闭环只靠模型还不够。二、SkyClaw-v1.0 到底发布了什么从官方资料看SkyClaw-v1.0 的定位非常明确一个面向复杂工具使用、多轮工作流和真实任务执行的高性能 Agent 模型。官方标出的几个关键词很关键1M token 上下文、OpenAI-compatible API、低成本、Agent Benchmark、真实工具环境训练。更具体一点官方页面给出了四个直接信号第一1M token 上下文针对长链路 Agent 工作流第二OpenAI 兼容 API方便接入已有 Agent 框架第三主打低成本旗舰版输入价格为 0.5 CNY / M tokenslite 版本为 0.3 CNY / M tokens第四官方强烈建议把 SkyClaw-v1.0 放进 Agent workflow而不是当普通聊天模型单独使用。这几个信号合起来看SkyClaw 不是在讲“我会回答编程问题”而是在讲“我可以被放进一个 Agent 工程系统里连续推进任务”。这就是它和普通代码模型最大的区别。维度SkyClaw-v1.0 公开信息对 AI Coding 的意义上下文1M token可容纳更多仓库、日志、文档和历史步骤接口OpenAI-compatible API便于接入现有 Agent Harness 和模型网关训练工具环境 SFT 轨迹 Agentic RL强化多步执行稳定性而非只优化单次回答适配Hermes、Claude Code、Codex 等 Agent 框架更像可插拔模型引擎成本官方给出较低 token 定价适合高频、多轮、长上下文任务试点三、百万上下文的价值不是把整个仓库硬塞进去而是让长任务不断片很多人看到“1M token 上下文”第一反应是那是不是可以把整个项目都扔进去这只说对了一半。长上下文确实能让 Agent 看见更多信息但工程里真正重要的是“哪些信息该进上下文哪些信息该检索哪些信息该摘要”。在 AI Coding 里百万上下文有三个实用价值。第一适合多文件联动改造。比如一个功能牵涉 Controller、Service、DAO、前端页面、配置文件、测试用例短上下文模型容易改着改着忘掉前面的约束长上下文模型可以保留更多线索。第二适合日志 代码 历史修复一起分析。线上 Bug 往往不是一段代码能看懂的可能要结合报错日志、调用链、配置、最近提交和历史 issue。上下文越长Agent 越有机会把线索串起来。第三适合长链路任务。Agent 不是一次性回答它会跑很多步先读文件再列计划再改代码再跑测试再看报错再补改。长上下文能让它保留更多“已经做过什么”和“为什么这么做”。但也要警惕一个坑长上下文不是万能药。上下文越长噪声越多模型也可能被无关文件带偏。真正稳定的做法仍然是“检索 摘要 长上下文 测试反馈”组合使用。四、SkyClaw 的训练路线不是只刷题而是练 Agent 干活SkyClaw 官方对训练思路的描述很有信息量训练围绕 practical agent behavior 展开包括复杂工具环境、过滤后的合成任务轨迹以及端到端强化学习目标是提升多步执行的稳定性。这句话翻译成人话就是模型不只是学习“代码答案长什么样”而是学习“接到任务后应该怎么一步步干”。它需要知道什么时候读文件、什么时候搜索、什么时候编辑、什么时候运行测试、什么时候根据失败结果修正。这也是 AI Coding 从“提示词工程”走向“任务执行工程”的关键变化过去我们关心模型会不会写函数现在更关心它能不能在一堆工具、文件、测试、报错之间保持方向感。五、榜单怎么看有爽点但别把 Benchmark 当生产结论官方页面给出了一组 Agent Benchmark 数字PinchBench-v2 为 87.2Claw-Eval Pass^3 为 59.7Claw-Eval Avg 为 74.2Skywork-Claw-Bench 为 62.9。官方还表示SkyClaw-v1.0 在主要 Agent Benchmark 上超过 Minimax 2.7、DeepSeek V4 Flash、Qwen 3.6 35B A3B / 27B 等模型在 OpenClaw 相关任务上接近 DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus 等更大闭源模型。这组信息的意义在于SkyClaw 的竞争点已经不是“普通问答能力”而是 Agent 执行能力。尤其是代码任务、文件编辑、多轮工具调用、应用构建这类场景才是它想打的主战场。但工程团队不能只看榜单。榜单的爽点是“方向对了”落地的关键是“你的仓库里能不能跑通”。同一个模型在 Demo 项目里很猛放到真实项目里可能遇到私有框架、历史债务、奇怪命名、隐式业务规则、测试环境缺失一下就露馅。六、真正可能改变团队决策的不只是能力还有成本AI Coding 一旦从个人尝鲜走向团队生产成本马上变成关键因素。一个 Agent 任务不是调用一次模型就结束它可能要反复读取文件、生成计划、改代码、跑测试、分析报错再继续修正。这意味着 token 用量会很大尤其是长上下文任务。模型越贵团队越不敢把它放进批量流水线模型越便宜才越有可能把 AI Coding 从“少数高手的玩具”变成“团队级自动化能力”。SkyClaw 官方价格表里旗舰版输入 0.5 CNY/M tokens、输出 4 CNY/M tokenslite 版输入 0.3 CNY/M tokens、输出 2 CNY/M tokens。这个价格信号说明国产 Agent 模型正在主动切入“高频、长链路、多轮调用”的成本痛点。七、回到核心问题它能不能替代 Claude Code先把问题拆开。Claude Code 是什么官方描述里Claude Code 可以直接在代码库中工作支持从终端、IDE、Slack 或 Web 发起任务它能读代码、写改动、运行测试、生成 PR并且在修改文件或运行命令前请求权限。这说明 Claude Code 的价值不只在模型而在完整工作流入口、上下文获取、文件操作、命令执行、权限控制、测试验证、PR 交付、团队协作。SkyClaw-v1.0 则更像是可以插进这些工作流的模型引擎。官方也明确建议在应用构建任务里把 SkyClaw-v1.0 运行在 Hermes、Claude Code 或 Codex 等 Agent 框架中让它能够规划、编辑文件、测试和多轮迭代而不是当普通聊天模型单独使用。所以最准确的判断是SkyClaw-v1.0 可能替代或补充某些 Agent 框架里的模型层但它不是直接替代 Claude Code 整个产品层。你可以把它理解成国产发动机开始变强了但整车体验、控制系统和安全系统还要一起比。八、哪些场景最适合先试 SkyClaw第一类是低风险代码任务。比如补测试、改文档、修简单 Bug、生成脚手架、前端页面原型、批量迁移配置。这些任务出错成本较低适合作为第一批 A/B 测试集。第二类是长上下文需求明显的任务。比如大仓库理解、老项目梳理、日志分析、跨多文件重构、接口链路排查。1M 上下文的优势应该优先在这些任务里验证。第三类是高频批量任务。比如每天生成测试、扫描代码异味、整理变更说明、辅助 Review、自动生成迁移说明。这里成本优势会被放大。不建议一上来就做的是生产自动合并、自动部署、密钥相关操作、支付/风控/权限系统核心代码改造。AI Coding 再强也不能跳过人审、CI、安全扫描和回滚机制。九、企业落地架构模型进来以后安全带必须先系好如果团队想认真试 SkyClaw不建议直接让它接触生产仓库并开写。更稳的方式是搭一个受控 Agent Harness任务来自任务池模型通过模型网关调用工具运行在沙箱里所有文件修改都生成 diff所有命令执行都走权限策略所有结果都通过 CI 和人工审查。这套架构的核心不是限制 AI而是让 AI 的能力可控、可验收、可复盘。没有这些护栏模型越强风险越大有了这些护栏模型越强收益越明显。十、别争论拿你的仓库做评估判断国产 AI Coding 是否真追上最好的办法不是争论参数也不是只看官方榜单而是做一套自己的评估集。建议准备 50 到 100 个真实任务覆盖 Bug 修复、测试生成、前端修改、接口改造、配置迁移、文档同步、代码解释、性能小优化等类型。每个任务都要有验收标准测试是否通过、diff 是否干净、有没有误改、Reviewer 要花多久、token 成本是多少。评估时把 SkyClaw、Claude Code 默认模型、其他国产模型放在同一套任务上跑。不要只看“能不能完成”还要看“完成得是否可合并”。AI Coding 最终拼的是交付质量不是回答看起来多自信。十一、最终判断国产 AI Coding 进入“可替代部分能力”的阶段SkyClaw-v1.0 的发布释放了一个很强的信号国产模型不再只是在聊天、知识问答、通用推理上追赶而是开始直冲 Agent Coding 的真实执行层。它的爽点很明确百万上下文、Agent 强化训练、低成本、OpenAI 兼容接口、多框架适配。对于国内团队来说这意味着 AI Coding 终于有机会从“贵、慢、只能少量试”走向“可批量、可集成、可持续评估”。但冷静地说SkyClaw-v1.0 还不能凭模型本身完整替代 Claude Code。Claude Code 的强大是模型能力、工具链、权限系统、IDE/终端入口、团队工作流和生态沉淀的组合。SkyClaw 要替代的是其中的模型引擎层真正替代完整产品还需要更多工程系统配合。最适合的落地策略是先把 SkyClaw 接入现有 Agent Harness 或自研编排系统用真实仓库做 A/B 测低风险任务先跑稳定后再扩大范围所有自动改动必须经过测试、人审和权限护栏。一句话总结SkyClaw-v1.0 不是 Claude Code 的简单复制品而是国产 AI Coding 向“模型引擎层”发起的一次强攻。谁能把它和 Harness、评测、安全、CI 流程接好谁就能先吃到下一波 AI 编程效率红利。