如果你第一次看到 Harness Engineering 这个词你可能会想——这不是提示词工程换了个更酷的名字吗我第一次看到它的时候也是这个反应。但继续读下去后我意识到——这不是换个名字。它是一种认知上的转向一种工程重心的迁移。用一个最简单的比喻来说如果说提示词工程是在拉缰绳——你用一行聪明的文字来驾驭 AI——那么 Harness Engineering 就是在设计整副马具。缰绳当然有用。你可以通过调整缰绳的角度、力度、节奏让马走得更稳、更听话。但当马开始长途奔袭、地形复杂多变的时候你会发现光靠缰绳远远不够。你需要马鞍、脚蹬、胸带、肚带——你需要一整套环境而不是一根绳子。Harness Engineering 的核心定义用它的提出者 Mitchell HashimotoTerraform 的作者的话来说就是一句话每当你发现 AI 智能体犯了一个错误就花时间设计一个解决方案让这个智能体永远不再犯同样的错误。注意这句话的关键词——不是写更好的提示词让它不犯错而是设计一个解决方案让它不犯错。从一行文字到一套方案这是本质的区别。如果它不是换个名字那它到底是什么为什么提示词工程突然不够用了在理解 Harness Engineering 之前我们需要先理解它要解决的问题。过去几年里提示词工程Prompt Engineering已经成了和 AI 对话的标准姿势。写一段精心设计的文字告诉 AI 你想要什么、怎么思考、输出什么格式——这个方法在面对单次问答的时候非常有效。你给它一个问题它给你一个答案。但 Agent 时代改变了游戏。Agent——简单说就是能自己做一系列动作的 AI——和之前的单次问答模型有一个根本不同它不是回答一个问题就结束了。它可能需要连续运行几个小时、几天在这段时间里做数十上百个决策调用不同的工具产生中间结果再基于中间结果继续下一步。当 AI 从回答一个问题变成长期做一件事的时候提示词工程的核心局限就暴露出来了它只是一行文字。一行文字可以告诉 AI你应该做什么但它无法给 AI 一套不应该做什么的护栏。它无法在 AI 走偏的时候自动纠正无法在关键节点强制验证无法在出错之后自动回溯并修复。它能做的最多只是告诉 AI 小心而小心是不可靠的。回到马具的比喻——你可以用缰绳告诉马往哪个方向走但缰绳无法阻止它被路边的东西吸引而偏离路线无法在它要踩进水坑的时候自动停下来也无法帮你固定在马背上。你需要的是整副马具。这就是 Harness Engineering 要解决的核心问题。既然提示词不够用了那 Harness 是怎么解决的设计一整套让 AI 不容易犯错的环境Hashimoto 给的不是一个新的提示词而是一个新的工程范式设计系统而非写提示词。这个说法听起来有点抽象让我把它翻译成生活语言——想象你在开车。如果 AI 是你的车那么提示词就是你坐在车里对它喊请开快点请在前面右转请避开那只猫。你喊得再聪明本质上也还是用一行文字来指挥。而 Harness Engineering 是什么呢它是在这辆车上装红绿灯——到了某个节点必须停下来验证装护栏——有些错误的道路根本不让你开上去装导航系统——给它一个大方向它会自己规划路径并监控是否走偏了。它不是在每一步都喊请这样做而是设计了一整套让这辆车不容易出错的环境。这一整套环境包括但不限于这些东西输入验证层——在 AI 接收任何外部输入之前先检查这输入是不是合法的、合理的、在预期范围内的。如果不是根本不让它进入系统。中间状态检查点——在 AI 的每一步决策之后、下一步行动之前都设一个检查站。比如在写代码 → 提交代码之间必须过一个代码是否符合安全规范的检查点。边界约束——给 AI 设定它可以访问的文件范围、可以调用的工具列表、可以消耗的资源上限。它在这些边界内是自由的但越界就自动被拦下。错误反馈与自愈机制——当 AI 犯错的时候它一定会犯错系统不是简单地停下来而是把错误信息结构化地反馈给它告诉它你刚才犯了 X 类错误请修正后再试并限制它最多修正几次。人类审查开关——在关键节点比如把代码部署到生产环境AI 无法自己按确认必须由人类来按。你注意到了吗——所有这些东西都不是提示词。它们是代码、配置、工具链、接口层。工程师不是在写让 AI 更聪明的提示而是在写让 AI 更不容易犯错的环境。Hashimoto 的那句话放在这个语境下就变得非常具体了每一次你发现 AI 犯了一个错误你的第一反应不是去改提示词哦我应该在提示词里加一句别忘了检查 X而是去改 Harness——在那个类型的错误发生的地方设计一个永久的护栏。这就是两者的本质区别提示词工程试图让 AI 更聪明地做事而 Harness Engineering 试图让做事的环境本身更可靠。前者依赖提示词的精确性后者依赖系统的健壮性。从让 AI 做对的事升级到让 AI 不容易做错的事。前者是提示词工程后者是 Harness Engineering。它做到了什么100 万行代码零手写如果说 Harness Engineering 听起来还是纸上谈兵那 OpenAI 团队把它变成了一个令人瞩目的实战案例。据 OpenAI 在博客中披露他们的团队使用 Harness Engineering 的思路在 5 个月内交付了 100 万行生产代码——而且没有一行是人工手写的。这个数字的震撼程度不在于100 万这个绝对值而在于它揭示的一个方向工程的重心正在从写提示词转向设计系统。当一家公司用 AI Agent 来写代码的时候真正决定产出质量和速度的不是某个工程师写提示词有多厉害——而是整个团队的 Harness 设计得有多好。他们给 Agent 设计了什么样的检查点给它设定了什么样的边界在什么样的节点需要人类确认错误发生时如何结构化地反馈给它并自动重试马具隐喻在这里第三次显形不是骑手的技术决定了马能跑多远而是马具的设计决定了马能跑多稳。同样的思路也被 Anthropic 的研究团队验证他们发表了数篇关于 harness 设计的工程论文讨论的是长期运行的 Agent 如何设计可靠的 harness。Thoughtworks 的技术专家 Birgitta Böckeler 也在 Martin Fowler 的网站撰文把这个概念做了更系统化的框架化阐述。在 Agent 时代决定 AI 系统可靠性的不是你给它写的提示词有多聪明而是你给它设计的 Harness 有多周密。读到这里你可能会有一个疑问——这东西听起来像是在限制 AI给它上枷锁让它变笨恰恰相反。马具不是让马跑得更慢而是让骑手能驾驭马的力量让它在复杂的道路上也能跑而不是只能在空旷的草地上跑。Harness Engineering 也是一样的——它不是限制 AI而是让你能放心地让 AI 在更复杂的场景里跑更长的时间。没有马具的马力量再大你也不敢骑太久因为你不知道它什么时候会跑偏。有了马具你才能真正用它的力量。那它对你意味着什么如果你是一个工程师它意味着你的工作重心可能正在从写聪明的提示词转向设计让 AI 不容易犯错的系统。你的新战场是输入验证、状态检查、边界约束和自愈机制。如果你是一个产品经理它意味着你在设计 AI 产品的时候第一考虑不再是这个场景用什么提示词而是这个场景下 AI 可能会犯什么错我如何在环境层面就把错误拦住。如果你只是一个对 AI 趋势保持关注的普通读者它意味着未来你每天用的 AI 产品背后越来越多的不是写得多么华丽的提示词而是一整套被精心设计过的 Harness 系统。这不是一个我们需要去掌握的技术而是一个需要理解的认知转向。如果你对 Harness Engineering、AI Agent 这些方向感兴趣也欢迎来群里一起学习交流。扫码即可加入图片
Harness Engineering:从提示词到马具,OpenAI 用5个月100万行代码验证的工程革命
如果你第一次看到 Harness Engineering 这个词你可能会想——这不是提示词工程换了个更酷的名字吗我第一次看到它的时候也是这个反应。但继续读下去后我意识到——这不是换个名字。它是一种认知上的转向一种工程重心的迁移。用一个最简单的比喻来说如果说提示词工程是在拉缰绳——你用一行聪明的文字来驾驭 AI——那么 Harness Engineering 就是在设计整副马具。缰绳当然有用。你可以通过调整缰绳的角度、力度、节奏让马走得更稳、更听话。但当马开始长途奔袭、地形复杂多变的时候你会发现光靠缰绳远远不够。你需要马鞍、脚蹬、胸带、肚带——你需要一整套环境而不是一根绳子。Harness Engineering 的核心定义用它的提出者 Mitchell HashimotoTerraform 的作者的话来说就是一句话每当你发现 AI 智能体犯了一个错误就花时间设计一个解决方案让这个智能体永远不再犯同样的错误。注意这句话的关键词——不是写更好的提示词让它不犯错而是设计一个解决方案让它不犯错。从一行文字到一套方案这是本质的区别。如果它不是换个名字那它到底是什么为什么提示词工程突然不够用了在理解 Harness Engineering 之前我们需要先理解它要解决的问题。过去几年里提示词工程Prompt Engineering已经成了和 AI 对话的标准姿势。写一段精心设计的文字告诉 AI 你想要什么、怎么思考、输出什么格式——这个方法在面对单次问答的时候非常有效。你给它一个问题它给你一个答案。但 Agent 时代改变了游戏。Agent——简单说就是能自己做一系列动作的 AI——和之前的单次问答模型有一个根本不同它不是回答一个问题就结束了。它可能需要连续运行几个小时、几天在这段时间里做数十上百个决策调用不同的工具产生中间结果再基于中间结果继续下一步。当 AI 从回答一个问题变成长期做一件事的时候提示词工程的核心局限就暴露出来了它只是一行文字。一行文字可以告诉 AI你应该做什么但它无法给 AI 一套不应该做什么的护栏。它无法在 AI 走偏的时候自动纠正无法在关键节点强制验证无法在出错之后自动回溯并修复。它能做的最多只是告诉 AI 小心而小心是不可靠的。回到马具的比喻——你可以用缰绳告诉马往哪个方向走但缰绳无法阻止它被路边的东西吸引而偏离路线无法在它要踩进水坑的时候自动停下来也无法帮你固定在马背上。你需要的是整副马具。这就是 Harness Engineering 要解决的核心问题。既然提示词不够用了那 Harness 是怎么解决的设计一整套让 AI 不容易犯错的环境Hashimoto 给的不是一个新的提示词而是一个新的工程范式设计系统而非写提示词。这个说法听起来有点抽象让我把它翻译成生活语言——想象你在开车。如果 AI 是你的车那么提示词就是你坐在车里对它喊请开快点请在前面右转请避开那只猫。你喊得再聪明本质上也还是用一行文字来指挥。而 Harness Engineering 是什么呢它是在这辆车上装红绿灯——到了某个节点必须停下来验证装护栏——有些错误的道路根本不让你开上去装导航系统——给它一个大方向它会自己规划路径并监控是否走偏了。它不是在每一步都喊请这样做而是设计了一整套让这辆车不容易出错的环境。这一整套环境包括但不限于这些东西输入验证层——在 AI 接收任何外部输入之前先检查这输入是不是合法的、合理的、在预期范围内的。如果不是根本不让它进入系统。中间状态检查点——在 AI 的每一步决策之后、下一步行动之前都设一个检查站。比如在写代码 → 提交代码之间必须过一个代码是否符合安全规范的检查点。边界约束——给 AI 设定它可以访问的文件范围、可以调用的工具列表、可以消耗的资源上限。它在这些边界内是自由的但越界就自动被拦下。错误反馈与自愈机制——当 AI 犯错的时候它一定会犯错系统不是简单地停下来而是把错误信息结构化地反馈给它告诉它你刚才犯了 X 类错误请修正后再试并限制它最多修正几次。人类审查开关——在关键节点比如把代码部署到生产环境AI 无法自己按确认必须由人类来按。你注意到了吗——所有这些东西都不是提示词。它们是代码、配置、工具链、接口层。工程师不是在写让 AI 更聪明的提示而是在写让 AI 更不容易犯错的环境。Hashimoto 的那句话放在这个语境下就变得非常具体了每一次你发现 AI 犯了一个错误你的第一反应不是去改提示词哦我应该在提示词里加一句别忘了检查 X而是去改 Harness——在那个类型的错误发生的地方设计一个永久的护栏。这就是两者的本质区别提示词工程试图让 AI 更聪明地做事而 Harness Engineering 试图让做事的环境本身更可靠。前者依赖提示词的精确性后者依赖系统的健壮性。从让 AI 做对的事升级到让 AI 不容易做错的事。前者是提示词工程后者是 Harness Engineering。它做到了什么100 万行代码零手写如果说 Harness Engineering 听起来还是纸上谈兵那 OpenAI 团队把它变成了一个令人瞩目的实战案例。据 OpenAI 在博客中披露他们的团队使用 Harness Engineering 的思路在 5 个月内交付了 100 万行生产代码——而且没有一行是人工手写的。这个数字的震撼程度不在于100 万这个绝对值而在于它揭示的一个方向工程的重心正在从写提示词转向设计系统。当一家公司用 AI Agent 来写代码的时候真正决定产出质量和速度的不是某个工程师写提示词有多厉害——而是整个团队的 Harness 设计得有多好。他们给 Agent 设计了什么样的检查点给它设定了什么样的边界在什么样的节点需要人类确认错误发生时如何结构化地反馈给它并自动重试马具隐喻在这里第三次显形不是骑手的技术决定了马能跑多远而是马具的设计决定了马能跑多稳。同样的思路也被 Anthropic 的研究团队验证他们发表了数篇关于 harness 设计的工程论文讨论的是长期运行的 Agent 如何设计可靠的 harness。Thoughtworks 的技术专家 Birgitta Böckeler 也在 Martin Fowler 的网站撰文把这个概念做了更系统化的框架化阐述。在 Agent 时代决定 AI 系统可靠性的不是你给它写的提示词有多聪明而是你给它设计的 Harness 有多周密。读到这里你可能会有一个疑问——这东西听起来像是在限制 AI给它上枷锁让它变笨恰恰相反。马具不是让马跑得更慢而是让骑手能驾驭马的力量让它在复杂的道路上也能跑而不是只能在空旷的草地上跑。Harness Engineering 也是一样的——它不是限制 AI而是让你能放心地让 AI 在更复杂的场景里跑更长的时间。没有马具的马力量再大你也不敢骑太久因为你不知道它什么时候会跑偏。有了马具你才能真正用它的力量。那它对你意味着什么如果你是一个工程师它意味着你的工作重心可能正在从写聪明的提示词转向设计让 AI 不容易犯错的系统。你的新战场是输入验证、状态检查、边界约束和自愈机制。如果你是一个产品经理它意味着你在设计 AI 产品的时候第一考虑不再是这个场景用什么提示词而是这个场景下 AI 可能会犯什么错我如何在环境层面就把错误拦住。如果你只是一个对 AI 趋势保持关注的普通读者它意味着未来你每天用的 AI 产品背后越来越多的不是写得多么华丽的提示词而是一整套被精心设计过的 Harness 系统。这不是一个我们需要去掌握的技术而是一个需要理解的认知转向。如果你对 Harness Engineering、AI Agent 这些方向感兴趣也欢迎来群里一起学习交流。扫码即可加入图片