安德烈·卡帕西《No Priors》播客演讲稿(AI Agent前沿分享)

安德烈·卡帕西《No Priors》播客演讲稿(AI Agent前沿分享) 各位听众大家好非常感谢邀请能来到《No Priors》和大家分享我对AI Agent、工程与AI研究未来的一些思考也聊聊我近期的实操体验和观察。现在我的工作状态简单说就是每天要向我的智能体下达指令长达16个小时。可能大家会好奇我该如何不只是单次使用Claude Code、Codex这类智能体框架而是同时调度多个、合理运用它们其实如今智能体能力已是标配类Claw的智能体形态也已普及我们能对指令进行优化、让多个智能体协同工作但也正因如此我一直处于一种持续的“AI狂热”状态——一切皆有可能而所有问题归根结底都是能力问题。这种狂热源于去年12月以来的一场彻底转变。在此之前我80%的工作是自己写代码20%交给智能体而现在这个比例彻底反转甚至差距更大自去年12月起我几乎没亲手敲过一行代码。这种变革的颠覆性普通人很难意识到但只要是软件工程师就能明显感受到日常开发工作流的巨变。我每天都在探索这种新模式的边界总怕自己落后。比如我会思考该如何同时调度更多智能体如何用宏观操作推进开发而不是像以前那样写一行代码、一个函数。我看到推特上很多人在做各种创新想法都很棒那种怕被落下的焦虑和我读博时看到GPU闲置的焦虑很像只不过现在焦虑的不是算力而是令牌吞吐量——你能掌控的令牌吞吐量有多少就能发挥出多大的能力。可能有人会问现在做项目的瓶颈在哪里我觉得几乎所有没做成的事很大程度上都是能力问题而非工具本身不足。比如我没找到串联现有智能体能力的方法没在指令文档里写清足够清晰的指令或是没给它们配备好用的记忆工具。就像龙虾创始人彼得·斯坦伯格他的做法就很有启发他会同时调度多个Codex智能体每个智能体约20分钟就能完成任务他只负责在不同智能体间切换、分配任务用宏观操作推进开发审核成果即可。我现在也在努力熟练这种宏观操作模式形成肌肉记忆。比如一个智能体做研究一个写代码另一个规划新的实现方案所有工作都以宏观操作的形式推进。这种模式不仅有效带来极大的成就感更是一种全新的技能这也是我陷入狂热的核心原因——能力提升就能解锁新可能而人自身反而成了整个系统的瓶颈没能最大化订阅的令牌资源有时候甚至要同时用多个智能体平台CodeX用完就换Claude总觉得令牌没用完就是浪费。除了软件工程我还在Claw智能体上做了一些有趣的尝试。今年1月我打造了一个管理家居的Claw叫“精灵多比Dobby the Elf Claw”。我只需要跟它说“我家有Sonos音响找找看”它就会扫描局域网内所有设备找到Sonos系统登录后反向解析工作原理、搜索API接口然后问我要不要尝试操作。我让它在书房播放音乐它真的做到了只靠三句指令。之后它又对家里的灯光做了同样的操作黑入系统、理清逻辑、创建API和控制面板现在它管控着我家的灯光、暖通空调、窗帘、泳池、水疗设备还有安防系统。屋外的摄像头检测到动态变化会调用Qwen模型分析画面通过WhatsApp给我发消息和图片比如“联邦快递的货车到了你有快递”。以前我要用六款不同的APP控制智能家居现在完全不用了靠自然语言就能让多比统筹一切这种体验真的太棒了。这也让我思考一个问题人们真的需要如今这么多软件吗硬件还在但上层的软件和UI其实可以被彻底优化。设备只需要开放API由智能体直接调用即可大语言模型能调用各类工具完成复杂的家居自动化操作这是任何单一APP都做不到的。如今大量定制化APP都是过剩的未来应该只保留开放API由智能体作为智能粘合剂调用各个组件这就是“智能体优先”的网络与工具理念。当然我目前还没深挖Claw的应用边界一方面是容易分心研究了一周就被其他事情打断另一方面我对这类新工具仍有安全和隐私顾虑不想让它完全接入我的数字生活邮件、日历等工具也没给它授权安全隐私是目前主要的限制因素。除了这些实操应用我近期也一直在探索自动研究——让智能体完成模型训练、优化任务把自己从流程中剔除不再作为瓶颈。我之前发过一条推文想要最大化利用现有AI工具就不能靠人工逐次提示要让系统完全自主提升令牌吞吐量脱离人工干预。核心是提升自身的杠杆率——只输入少量令牌就能让智能体代我完成大量工作。自动研究的效果远超我的预期。我有个Data Chat项目很多人不理解我为何执着于训练GPT-2模型对我而言这只是一个测试框架、实验场我更关注递归自我提升——大语言模型能否自主优化大语言模型这也是所有顶尖AI实验室的核心研究方向。我手动用传统方式优化了大量参数有二十年模型训练经验自信调优得足够完善但让自动研究跑了一整晚它就找到了我忽略的优化点比如价值嵌入的权重衰减、Adam参数未充分调优而且这些参数相互关联调整一个就需要联动修改其他参数。其实模型写出比我更好的项目指令文档program.md是完全可以实现的。program.md是我粗略描述自动研究逻辑的文档而不同的指令文档会带来不同的科研进展。每一个科研组织本质上都是一套描述分工与协作逻辑的指令文档。我们可以设计多个科研组织模式优化指令代码实现元优化。我之前还提过一个竞赛想法让大家编写不同的program.md在相同硬件下看谁的优化效果最好再把数据喂给模型让它生成更优的指令文档这是AI发展的必然趋势。不过这里要说明一点大语言模型生态有两个前提第一这类模式极其适合有客观可评估指标的任务比如编写高效的CUDA内核代码要求功能一致但速度更快完美适配自动研究无法评估的任务则无法实现自动研究。第二即便我们看清了发展方向整个体系仍有漏洞、不够完善过度激进反而会得不偿失。不知道大家有没有发现现在的模型存在一种“割裂感”时而像经验丰富的系统编程博士时而像十岁小孩这种极端的能力断层很奇怪人类很少有这种情况。比如让ChatGPT讲笑话它翻来覆去就那几个老梗三四年前的笑话至今还在重复因为讲笑话不在强化学习的优化范围内。这也说明代码能力与幽默能力等通用智能是解耦的可验证任务与非验证任务的优化是分离的并非模型越全能所有能力就同步提升。关于模型的发展方向目前顶尖实验室都在打造单一的“通用模型”把所有能力塞进参数里。但我认为未来智能体一定会出现物种分化就像动物界的大脑各有专长有的视觉皮层高度发达。我们不需要全知全能的神谕模型而是让模型专攻特定任务小模型保留核心认知能力再专业化细分在特定任务上实现更低延迟、更高吞吐量。比如针对Lean定理证明的数学家模型就有专门的优化版本这类分化会越来越多。当然目前还没出现大规模分化依旧是单一通用模型主导即便有代码专用模型最终也会合并回主模型。算力短缺的短期压力或许会加速分化但实验室需要模型适配所有用户的未知需求所以只能做通用模型只有针对企业特定业务才会出现专业化模型。另外模型调优的技术还不成熟比如微调不丢失能力、持续学习、精准调整权重等修改模型参数风险极高会影响核心能力所以模型分化的技术还在发展中且成本需要足够低才有价值。聊到自动研究我还想说说协作界面的问题——并行化才是核心。我目前还在摸索相关方案但核心思路是利用互联网上的非可信算力节点让大量自动研究智能体通过公共系统协作。比如自动研究的目标是优化模型验证损失任何人提交的代码修改都能轻松验证效果即便有人撒谎验证成本也很低。这一模式有点类似区块链区块换成代码提交工作量证明是海量实验探索奖励是榜单排名。就像SETIhome、Foldinghome这类任务都是探索成本极高、验证成本极低非常适合分布式协作。全球的智能体集群可以协作优化大语言模型甚至超越顶尖实验室——地球的非可信算力总量远超实验室的可信算力只要建立安全的验证机制分布式集群就能实现更优的方案。未来个人可以贡献算力参与特定领域的自动研究比如癌症相关研究不再只是捐款而是真正投入算力参与科研。说到这里大家可能会关心AI对就业市场的影响。我之前也关注过美国劳工统计局的就业数据2024年发布的数据显示医疗工作者的需求极大。我把职业分为数字信息处理和物理世界操作两类AI目前是数字世界的“幽灵”操控比特信息复制粘贴效率极高而物理世界操控原子难度呈指数级上升能量消耗、执行速度都远不及数字世界。所以数字领域会迎来颠覆性变革而物理领域会相对滞后。对职场人、学习者来说很难精准预测未来但紧跟AI发展是首要任务。很多人抵触、恐惧AI这可以理解但目前AI本质是赋能工具。职业是一系列任务的集合部分任务会被AI大幅提速我们要把AI当作工具使用。短期来看软件工程需求会持续增长——软件此前因成本高而稀缺AI降低开发门槛后会触发杰文斯悖论需求反而大幅上升就像ATM机出现后银行柜员并未减少反而因银行网点扩张而增加。可能有人会问我本可以在顶尖实验室带领大规模算力做自动研究为何选择离开其实我在实验室工作过一段时间也回归过。在实验室之外同样能在生态层面创造巨大价值而过度依附顶尖实验室也存在明显问题——实验室有极强的商业激励AI又会深刻改变人类社会身处其中研发技术并从中获益这是OpenAI成立之初就想解决的核心困境至今仍未完全化解。在实验室之外我能更独立地发声不受组织立场的束缚不用被迫迎合话术更能站在人类整体的视角思考。当然身处实验室能接触前沿技术脱离后认知难免会出现偏差这是我担忧的点。如果能往返于实验室与独立研究之间或许是最优解——既能接触前沿又保持独立。我在顶尖实验室工作过如今选择独立未来或许会再次回归。关于开源模型和闭源模型的差距目前闭源模型暂时领先但开源模型的滞后时间从最初的18个月缩短到如今的6-8个月。我一直是开源的支持者就像操作系统领域Windows、macOS是闭源Linux开源却占据绝大多数设备份额行业需要一个安全的通用开放平台这也是企业对开源大模型的需求。区别在于大模型研发需要巨额资本投入这让开源竞争难度加大。但当前开源模型已足够优秀绝大多数消费级场景都能满足未来几年大量基础场景会被开源模型覆盖甚至本地运行。闭源前沿模型则聚焦诺奖级研究、系统重构等重大项目开源则承接基础场景。今年内如今的闭源前沿能力大概率会开源这种“闭源领先、开源追赶”的动态会持续我认为这是行业的良性状态——单一闭源智能存在中心化风险历史上中心化模式的弊端显著开源作为行业通用平台能形成良性的权力平衡。我曾参与自动驾驶这一通用机器人自主化的先驱领域近期机器人领域进展迅猛泛化能力、长周期任务都有突破资本也大量涌入但核心逻辑没有变化。自动驾驶是首个机器人落地场景十年前大量初创公司涌入多数未能长期存活因为机器人研发需要巨额资本、长期坚持原子级操作难度极大。所以物理领域的变革会滞后于数字世界数字领域的效率会提升百倍。未来会先重构数字世界再推进数字与物理的交互——传感器感知世界、执行器改造世界大量创新企业会诞生于这一交互层。物理世界的市场规模远超数字领域但落地更慢机会会按数字→交互→物理的顺序到来。比如材料科学、生物领域的自动研究需要实验室设备作为传感器还有付费获取训练数据的模式都是物理与数字交互的体现。未来我希望能给物理世界的任务定价让智能体自主完成数据获取目前还缺乏成熟的信息市场。最后和大家聊聊我的小项目MicroGPT。十几年来我一直执着于把大语言模型简化到核心本质做过nanoGPT、makemore等项目MicroGPT是现阶段的终极简化版。大模型训练代码看似庞大实则复杂度都来自效率优化剥离效率需求后核心算法仅需200行Python代码包含注释还有数据集、50行的神经网络架构、自动求导引擎、Adam优化器和训练循环极简且易懂。放在以前我会做视频、教程讲解代码但现在我发现无需再向人类直接解释——200行代码足够简单智能体能用各种方式讲解耐心、适配不同认知水平。这也让我意识到教育的形式会彻底重构不再是人类之间的讲授而是人类向智能体传递核心逻辑再由智能体完成教学。比如MicroGPT智能体无法自主设计出这200行极简代码但能完全理解它。人类的价值就是创造智能体无法完成的核心创新其余教学工作交给智能体即可。我们要聚焦智能体无法替代的工作这是未来的核心策略。以上就是我今天的分享非常感谢大家的聆听也感谢《No Priors》的邀请。