永恒的劣质九月2026 年 5 月 24 日有人断言在软件开发中采用 AI 智能体将成为该领域历史上代价最惨痛的错误之一。智能体无法进行编程而人们意识到这一点所花费的时间越来越长。它们不过是高度复杂的统计模型旨在模仿编程的分布模式其输出结果漏洞百出且越来越难以察觉这正是日益精确的统计模型会出现的情况。起初有人并不认同这个观点接受了推特上关于地位焦虑的解释。认为将部分自我价值定义在编程能力上为维护自尊尽可能长时间地否认这些模型具备编程能力是合理的。毕竟它们能解决一些人即便耗尽一生也无法解决的数学问题那为什么不能编程呢也许是作为程序员还不够优秀无法识别它们的天赋。在过去的 6 个月里有人真的努力尝试过使用智能体编写了 tinygrad 的部分代码还使用智能体逆向分析了一个 USB - PCIe 芯片。但每次都怀疑手动操作会完成得更好、更快。智能体前期会取得一些进展然后就像拉动老虎机的拉杆一样寄希望于它能完成最后的完善但始终差那么一点。别再说“你用错了”这种话。已经尝试了所有不同的模型、不同的工具和不同的提示方式问题并不在此。说这种话的人可能对老虎机也会有同样的看法中了樱桃之后得押 5 条线难怪赢不了并不是说 AI 没有用它显然是有用的。对于大多数搜索来说它绝对比谷歌更好用。而且当需要快速搭建一个原型又不那么在意完善程度时它的速度快得惊人。但它能替代软件工程师吗在工作过的任何一家公司它都远远达不到要求。关键在于要知道何时该使用它何时不该用。进一步思考了自我价值保护的问题。AFL 发现的漏洞比大语言模型LLMs还多但没人对此有类似的担忧。国际象棋和围棋如今比以往任何时候都更受欢迎。有人迫不及待地希望能有一群可靠的机器人“助手”来帮清理代码并不害怕失去地位甚至觉得这是推销智能体的一种心理战术。对失去的恐惧是促使大公司采取行动的少数因素之一。不过认为它们在这种恐惧的驱使下犯了大错。智能体的影响差异智能体对大型组织的伤害将超过对高绩效个人或小型组织的影响。在过去的 6 个月里观察了朋友和同事们如何采用这些工具。高绩效者都具备纠错能力大多能敏锐地判断出劣质成果。要探索、利用并调整何时使用这些工具、何时信任它们以及如何使用等外部循环需要一些时间……但除了在某些特定领域还没见过他们中有谁会不仔细阅读和理解每一行代码。与之形成鲜明对比的是大型组织。它们的反馈循环更慢内部协调性更差。表现最差的员工不会进行自我检查。他们使用智能体后产出提高了 10 倍。那么这个组织的平均产出会怎样整个世界的平均产出又会怎样智能体将比以往任何时候都能产出更多的代码、应用程序和功能。这是一个充斥着大量劣质成果的黄金时代却是高质量精品的黑暗时代。听说苹果公司正在向所有工程师推广 AI。当人们抽象地思考时会认为 AI 能完成所有这些事情但来看一个具体的例子。未来两年内 macOS 会变得更好还是更糟AI 生成产品的问题当人们看到一个产品时会对其创作过程做出假设。他们甚至不假思索地认为创作者具有基本的人类思维状态。但这种假设已不再成立。产品可能会以以前不可能的方式出现问题而像语法和句法这类衡量潜在质量的旧指标已毫无用处。AI 生成的产品与人类创作的产品过程不同这种差异虽然在统计数据上极其细微但当以人类的方式与之交互并在此基础上进行开发时就会变得显而易见。现在虽不完全认同 LeCun 和 Marcus 关于大语言模型的所有观点但站在他们这一边。认为这类模型永远无法真正编程觉得过程很重要。认为深度学习仍然是解决方案但真正的编程智能体需要世界模型而不是那种把失败的测试注释掉然后告诉你所有测试都通过了的强化学习虚拟现实RLVR把戏。这个时代的真正故事将是谁能在 AI 狂热中避免自我伤害。
软件开发采用 AI 智能体:是惨痛错误还是有用工具?
永恒的劣质九月2026 年 5 月 24 日有人断言在软件开发中采用 AI 智能体将成为该领域历史上代价最惨痛的错误之一。智能体无法进行编程而人们意识到这一点所花费的时间越来越长。它们不过是高度复杂的统计模型旨在模仿编程的分布模式其输出结果漏洞百出且越来越难以察觉这正是日益精确的统计模型会出现的情况。起初有人并不认同这个观点接受了推特上关于地位焦虑的解释。认为将部分自我价值定义在编程能力上为维护自尊尽可能长时间地否认这些模型具备编程能力是合理的。毕竟它们能解决一些人即便耗尽一生也无法解决的数学问题那为什么不能编程呢也许是作为程序员还不够优秀无法识别它们的天赋。在过去的 6 个月里有人真的努力尝试过使用智能体编写了 tinygrad 的部分代码还使用智能体逆向分析了一个 USB - PCIe 芯片。但每次都怀疑手动操作会完成得更好、更快。智能体前期会取得一些进展然后就像拉动老虎机的拉杆一样寄希望于它能完成最后的完善但始终差那么一点。别再说“你用错了”这种话。已经尝试了所有不同的模型、不同的工具和不同的提示方式问题并不在此。说这种话的人可能对老虎机也会有同样的看法中了樱桃之后得押 5 条线难怪赢不了并不是说 AI 没有用它显然是有用的。对于大多数搜索来说它绝对比谷歌更好用。而且当需要快速搭建一个原型又不那么在意完善程度时它的速度快得惊人。但它能替代软件工程师吗在工作过的任何一家公司它都远远达不到要求。关键在于要知道何时该使用它何时不该用。进一步思考了自我价值保护的问题。AFL 发现的漏洞比大语言模型LLMs还多但没人对此有类似的担忧。国际象棋和围棋如今比以往任何时候都更受欢迎。有人迫不及待地希望能有一群可靠的机器人“助手”来帮清理代码并不害怕失去地位甚至觉得这是推销智能体的一种心理战术。对失去的恐惧是促使大公司采取行动的少数因素之一。不过认为它们在这种恐惧的驱使下犯了大错。智能体的影响差异智能体对大型组织的伤害将超过对高绩效个人或小型组织的影响。在过去的 6 个月里观察了朋友和同事们如何采用这些工具。高绩效者都具备纠错能力大多能敏锐地判断出劣质成果。要探索、利用并调整何时使用这些工具、何时信任它们以及如何使用等外部循环需要一些时间……但除了在某些特定领域还没见过他们中有谁会不仔细阅读和理解每一行代码。与之形成鲜明对比的是大型组织。它们的反馈循环更慢内部协调性更差。表现最差的员工不会进行自我检查。他们使用智能体后产出提高了 10 倍。那么这个组织的平均产出会怎样整个世界的平均产出又会怎样智能体将比以往任何时候都能产出更多的代码、应用程序和功能。这是一个充斥着大量劣质成果的黄金时代却是高质量精品的黑暗时代。听说苹果公司正在向所有工程师推广 AI。当人们抽象地思考时会认为 AI 能完成所有这些事情但来看一个具体的例子。未来两年内 macOS 会变得更好还是更糟AI 生成产品的问题当人们看到一个产品时会对其创作过程做出假设。他们甚至不假思索地认为创作者具有基本的人类思维状态。但这种假设已不再成立。产品可能会以以前不可能的方式出现问题而像语法和句法这类衡量潜在质量的旧指标已毫无用处。AI 生成的产品与人类创作的产品过程不同这种差异虽然在统计数据上极其细微但当以人类的方式与之交互并在此基础上进行开发时就会变得显而易见。现在虽不完全认同 LeCun 和 Marcus 关于大语言模型的所有观点但站在他们这一边。认为这类模型永远无法真正编程觉得过程很重要。认为深度学习仍然是解决方案但真正的编程智能体需要世界模型而不是那种把失败的测试注释掉然后告诉你所有测试都通过了的强化学习虚拟现实RLVR把戏。这个时代的真正故事将是谁能在 AI 狂热中避免自我伤害。