引言“与其手动微调 Prompt不如建立一套让指令自我进化的生态系统。”这是一天一个开源项目系列的第119篇文章。今天我们要介绍的是Darwin Skill (达尔文.skill)。如果你在使用 Claude Code、Trae 或其他支持SKILL.md规范的 AI Agent 工具你可能会发现手动维护这些技能文件非常繁琐。Darwin Skill的出现将机器学习中的“训练”思想引入到了提示词工程中。它像一个永远向前转的“棘轮”通过自动化的实验循环确保你的 AI 技能在每一次微调后都能变得更强。你将学到什么什么是“技能进化”的棘轮机制Ratchet Mechanism受 Karpathy 启发的自主实验循环流程如何结合“人在回路”Human in the Loop进行高可靠的指令迭代项目背景项目简介Darwin Skill 是一个让 AI 技能无限进化的系统。它将 Agent 执行任务的指令资产SKILL.md视为一种可以被“训练”的对象。通过对技能进行多维度的评分、针对性的改进建议以及严苛的回归测试它只保留那些经证实的改进。该项目目前处于 v2.0 版本系统性地吸收了微软研究院关于SkillOpt和SkillLens的最新研究成果。核心价值结果导向不仅检查指令的结构是否正确更注重实际运行后的效果得分。只增不减类似于git ratchet机制如果一轮优化导致分数下降系统会自动执行git revert确保能力不会退化。消除偏差坚持“独立评分”原则避免“自己考自己”的 LLM 自评偏差。主要功能1. 9 维度评估体系Darwin Skill 参考了微软的实证研究建立了包含“失败模式编码”、“可执行具体性”和“高风险行动黑名单”在内的 9 维评分矩阵满分 100。这让优化从模糊的感觉变为了精准的数字。2. 自动化优化循环典型的优化周期分为 5 个阶段基线评估了解当前技能的短板。针对性改进每一轮只改一个维度确保变量可控。验证与测试运行预设的测试提示词test-prompts.json验证改进是否真实有效。保留或回滚新分高于旧分则提交否则回滚到上一个稳定版本。3. 人在回路 (Human in the Loop)区别于全自动优化系统Darwin Skill 在关键节点如 Phase 2 的 CHECKPOINT会强制暂停展示 Diff 差异和分数变化等待用户的最终确认。这种设计既利用了 AI 的效率又保留了人类的审美与安全边界。项目剖析受 autoresearch 启发的映射逻辑Darwin Skill 巧妙地将 Karpathy 的autoresearch逻辑映射到了 Skill 领域autoresearchDarwin Skill逻辑说明program.mdSKILL.md 本身定义目标与规则train.py待优化的 Skill 文件被优化的核心资产val_bpb9 维加权总分量化的性能指标git ratchet回滚机制确保进度不会倒退这种“棘轮机制”确保了随着时间的推移你的 AI 技能库会像生物进化一样由于自然选择验证门控的作用越来越适应复杂的任务场景。项目地址与资源官方资源GitHub: alchaincyf/darwin-skill快速安装:npx skills add alchaincyf/darwin-skill设计灵感: 受 Andrej Karpathy 的 autoresearch 启发。总结Darwin Skill 不仅仅是一个工具它代表了一种全新的 Agent 开发范式指令即实验迭代即进化。通过科学的评估标准和严谨的回滚机制它让每一位开发者都能构建出具备生产级可靠性的 AI 技能。如果你发现你的 AI 指令总是“时好时坏”那么是时候用“达尔文进化论”来重塑你的技能库了。欢迎来我的个人主页找到更多有用的知识和有趣的产品
每日一个开源项目(第119篇):Darwin Skill - 受 Karpathy 启发,让 AI 技能无限进化的“棘轮”系统
引言“与其手动微调 Prompt不如建立一套让指令自我进化的生态系统。”这是一天一个开源项目系列的第119篇文章。今天我们要介绍的是Darwin Skill (达尔文.skill)。如果你在使用 Claude Code、Trae 或其他支持SKILL.md规范的 AI Agent 工具你可能会发现手动维护这些技能文件非常繁琐。Darwin Skill的出现将机器学习中的“训练”思想引入到了提示词工程中。它像一个永远向前转的“棘轮”通过自动化的实验循环确保你的 AI 技能在每一次微调后都能变得更强。你将学到什么什么是“技能进化”的棘轮机制Ratchet Mechanism受 Karpathy 启发的自主实验循环流程如何结合“人在回路”Human in the Loop进行高可靠的指令迭代项目背景项目简介Darwin Skill 是一个让 AI 技能无限进化的系统。它将 Agent 执行任务的指令资产SKILL.md视为一种可以被“训练”的对象。通过对技能进行多维度的评分、针对性的改进建议以及严苛的回归测试它只保留那些经证实的改进。该项目目前处于 v2.0 版本系统性地吸收了微软研究院关于SkillOpt和SkillLens的最新研究成果。核心价值结果导向不仅检查指令的结构是否正确更注重实际运行后的效果得分。只增不减类似于git ratchet机制如果一轮优化导致分数下降系统会自动执行git revert确保能力不会退化。消除偏差坚持“独立评分”原则避免“自己考自己”的 LLM 自评偏差。主要功能1. 9 维度评估体系Darwin Skill 参考了微软的实证研究建立了包含“失败模式编码”、“可执行具体性”和“高风险行动黑名单”在内的 9 维评分矩阵满分 100。这让优化从模糊的感觉变为了精准的数字。2. 自动化优化循环典型的优化周期分为 5 个阶段基线评估了解当前技能的短板。针对性改进每一轮只改一个维度确保变量可控。验证与测试运行预设的测试提示词test-prompts.json验证改进是否真实有效。保留或回滚新分高于旧分则提交否则回滚到上一个稳定版本。3. 人在回路 (Human in the Loop)区别于全自动优化系统Darwin Skill 在关键节点如 Phase 2 的 CHECKPOINT会强制暂停展示 Diff 差异和分数变化等待用户的最终确认。这种设计既利用了 AI 的效率又保留了人类的审美与安全边界。项目剖析受 autoresearch 启发的映射逻辑Darwin Skill 巧妙地将 Karpathy 的autoresearch逻辑映射到了 Skill 领域autoresearchDarwin Skill逻辑说明program.mdSKILL.md 本身定义目标与规则train.py待优化的 Skill 文件被优化的核心资产val_bpb9 维加权总分量化的性能指标git ratchet回滚机制确保进度不会倒退这种“棘轮机制”确保了随着时间的推移你的 AI 技能库会像生物进化一样由于自然选择验证门控的作用越来越适应复杂的任务场景。项目地址与资源官方资源GitHub: alchaincyf/darwin-skill快速安装:npx skills add alchaincyf/darwin-skill设计灵感: 受 Andrej Karpathy 的 autoresearch 启发。总结Darwin Skill 不仅仅是一个工具它代表了一种全新的 Agent 开发范式指令即实验迭代即进化。通过科学的评估标准和严谨的回滚机制它让每一位开发者都能构建出具备生产级可靠性的 AI 技能。如果你发现你的 AI 指令总是“时好时坏”那么是时候用“达尔文进化论”来重塑你的技能库了。欢迎来我的个人主页找到更多有用的知识和有趣的产品