快速摘要核心结论请先读这里① 哈佛理论物理学家Matthew Schwartz在2026年3月的美国物理学会全球峰会上公开断言大型语言模型LLM的智能规模正以每年约10倍的速度指数级增长并可能在5年内超越人类智能水平。他提出借助AI增强本世纪内可望催生10000个爱因斯坦彻底重塑科研范式。② OpenAI首席科学家Jakub Pachocki披露了该公司的北极星战略计划于2026年9月前建成自主AI研究实习生并在2028年完成多智能体全自动科研系统的部署最终目标是让一个数据中心顶替一整支科研团队。③ 对普通人而言这场变革意味着什么AI训练师、AI提示工程师、科研辅助岗位正在成为真实存在的职业窗口——而不是遥不可及的未来。 往下看有更详细的原理拆解、路线图解析与行动建议。一、一场让物理学家坐不住的峰会2026年3月美国物理学会APS全球物理学峰会在科罗拉多州丹佛拉开帷幕。就在这座洛基山脚下的城市里一场名为《驾驭AI革命让你的科研生涯不被时代淘汰》的圆桌研讨会挤满了慕名而来的年轻物理学家。会议长达三个小时讨论的核心只有一个AI到底会不会把物理学家这个职业送进历史博物馆这个问题的背景是过去几年里AI在科学领域接连刷新人类认知的几次重大事件。DeepMind的AlphaFold几乎独力解决了困扰生物学界数十年的蛋白质折叠预测难题AI系统在国际数学奥林匹克竞赛中的表现已超越绝大多数人类选手代码生成工具让软件开发效率翻倍。物理学界的紧迫感正是在这样的背景下积聚起来的。会场上哈佛大学理论物理学家Matthew Schwartz扮演了一个令人不安的预言家角色。二、哈佛教授的10000个爱因斯坦究竟是什么逻辑2.1 那个让全场沉默的停顿Schwartz在台上发言时向台下抛出了一组对比大型语言模型的规模参数正以每年约10倍的速度指数级增长。然后他停顿了一下在全场的笑声散去后补完了那句话的后半段——而我们人类并没有变得更聪明。这句话的杀伤力不在于悲观而在于它描述的是一个客观的物理事实人类大脑的神经元数量、突触密度、信息处理带宽受制于颅骨大小和生物进化速度几乎是一个固定量。而硅基计算系统则不受这些约束——它可以堆算力、加参数、并行运算理论上没有上限。2.2 正态分布曲线的比喻Schwartz用了一个很直观的概念框架来解释他的判断。如果把全人类的物理学才能画成一条正态分布曲线钟形曲线那么爱因斯坦代表的是这条曲线最右端那个极稀有的峰值。人类历史上这样的人百年难得一遇。但AI增强改变的不是这条曲线的形状而是整条曲线在才能轴上的位移。当AI把每一个普通研究者的认知能力放大十倍、百倍整条曲线就会向右大幅平移——原本处于中间位置的研究者其实际产出有可能超越今天最顶尖的天才。他的结论因此变得清晰借助AI增强本世纪内产生10000个爱因斯坦并非夸张而是一种数学上合理的外推。Matthew Schwartz本人是哈佛大学物理系教授同时也是美国国家科学基金会NSF人工智能与基础相互作用研究院IAIFI的核心领导者。他长期研究量子场论与机器学习的交叉应用对两个领域都有第一手的深刻认知并非无的放矢。2.3 人类大脑真的有天花板吗Schwartz提出了一个更深刻、也更让人不舒服的命题人类的神经系统或许根本无法理解某些终极问题。他用的类比是猫永远学不会下国际象棋不是因为猫不够努力而是因为猫的神经结构在进化上从来没有被设计来处理抽象规则系统。人类对于某些高维度的物理问题可能也面临同样的认知天花板。比如万物理论Theory of Everything——这是物理学家几十年来梦寐以求的终极目标试图用一套统一的数学框架描述所有基本力和基本粒子。弦理论、圈量子引力……每一个尝试都走到了人类数学直觉的极限边界。而机器可以在高维空间里直接操作、在内存中存储天文数字级别的中间变量、同时运行成千上万个并行假设——这些恰恰是人类大脑做不到的事情。三、DeepMind工程师的反击人类还有最后的阵地3.1 谷歌DeepMind的Ginsberg怎么说Schwartz发言结束后谷歌DeepMind工程师Matthew Ginsberg随即发表了截然不同的观点。值得注意的是这位来自顶级AI实验室的工程师反而是当天最坚定的人类价值捍卫者。Ginsberg的核心论点是LLM的本质是生成基于共识的答案而真正的科学突破从来都是反共识的。他说伟大的物理学家的核心价值不是回答问题而是提出正确的问题。爱因斯坦最天才的地方不是他解出了光速不变下的运动方程而是他在19世纪末那个一切物理学都已大功告成的氛围里看到了经典力学框架本身的裂缝并决定去追问那条裂缝。Ginsberg认为这种提出非共识问题的能力至少目前还完全是人类的领域。他的原话大意是提出好问题是物理学家的本质所在这一点目前100%属于我们。3.2 双方达成了什么共识然而让人略感不安的是尽管观点对立Schwartz和Ginsberg最终在一点上达成了共识AI可能在十年内就能学会提出好问题。这意味着人类在科学图谱上最后的一块领地——品味、创造力、提问能力——也许不是永久性的护城河只是一段尚未被填平的时间差。在这场三小时的激辩收尾时四位与会专家总结出的人类底牌只剩三张品味、创造力、提问能力。而这三张牌可能都有10年的保质期。四、OpenAI的北极星计划2028年AI接管实验室就在APS峰会热议期间《麻省理工科技评论》披露了OpenAI内部一份极具野心的战略路线图。OpenAI首席科学家Jakub Pachocki将其称为公司未来几年的北极星North Star目标构建一个能够独立攻克复杂科学难题的全自动AI科学家系统。4.1 三阶段路线图详解根据Pachocki的描述这条路线图分为三个清晰的阶段第一阶段自主AI研究实习生2026年9月前这个阶段的目标是打造一个能够在特定研究领域内闭环处理科研任务的自主Agent。所谓闭环意味着它可以在没有人类逐步介入的情况下独立完成数天量级的研究任务——从分析文献到设计实验方案到运行模型到整理结果报告全流程自主执行。Pachocki的原话是我们真正想要的自动化研究实习生是一个你可以把任务交给它、而这个任务通常需要一个人花几天时间来完成的系统。第二阶段多智能体研究实验室2028年这是一个更宏大的愿景。OpenAI计划在数据中心里部署多个协同工作的AI Agent它们将通过分工协作覆盖从理论构想到实验验证的完整科研流程。每个Agent负责不同的子任务——有的负责文献综述有的负责假设生成有的负责实验设计有的负责数据分析和迭代优化。这个阶段的目标是让AI系统能够独立参与数学、物理、生物、化学乃至经济学和政策研究等多个学科的复杂问题攻关。第三阶段通用科学智能长期目标打造具备合格研究员身份的通用科学智能——一个可以独立承担大型科研课题、具有完整研究能力的AI实体。Pachocki称届时一整个研究实验室可以装进一个数据中心。┌────────────────────────────────────────────────────────────────┐ │ OpenAI 北极星 AI科研自动化路线图 │ ├─────────────┬──────────────────────┬──────────────────────────┤ │ 阶段 │ 时间节点 │ 核心能力目标 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第一阶段 │ 2026年9月前 │ 自主AI研究实习生 │ │ │ │ 独立完成数天量级科研任务 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第二阶段 │ 2028年 │ 多智能体研究实验室 │ │ │ │ 多Agent协作全流程闭环科研 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第三阶段 │ 长期 │ 通用科学智能 │ │ │ │ 数据中心 完整研究实验室 │ └─────────────┴──────────────────────┴──────────────────────────┘4.2 Codex这一切的起点理解OpenAI这条路线图需要先认识一个名叫Codex的工具。2026年1月OpenAI发布了Codex——一个基于Agent架构的编程工具能够实时生成并执行代码完成文档分析、数据可视化、邮件摘要等复杂任务。目前OpenAI内部大多数技术人员已经在日常工作中使用Codex。Pachocki自己的感受颇具代表性他说一年前他还是Vim的忠实用户坚持逐字手写代码拒绝任何自动补全工具——因为他对代码质量有近乎洁癖的执念。但最新一代模型的进化让他彻底改变了看法。过去需要一周才能跑完的代码实验现在可以在一个周末内完成。他感慨效率已经无懈可击。Pachocki将Codex称为AI科研系统的早期版本是整条路线图的概念验证Proof of Concept。4.3 安全机制思维链监控任何一个能够在数据中心里自主运行数周、数月的AI系统都会带来不可忽视的安全风险。Pachocki对此并不回避。他说如果AI如此聪明、如此能干如果它能独立运行一整个研究项目那如果它做了什么不好的事情呢OpenAI目前的主要安全机制是思维链监控Chain-of-Thought Monitoring——训练模型在一个类似草稿本的内部空间里记录自己的推理过程使人类可以追踪和审查AI的决策逻辑而不只是看到输出结果。同时系统还引入了沙盒隔离机制将AI的操作权限限制在受控环境内防止其对真实系统产生意外影响。当然Pachocki也坦承思维链监控并不是一个完整的解决方案——它只是目前最可行的一道防线。五、Vibe PhysicsAI正在改变物理学的工作方式APS峰会上出现了一个有趣的新词Vibe Physics感觉物理学。这个词的背景是越来越多的物理学家开始用一种新的方式和AI协作他们不再需要从零开始推导每一步数学而是先给出一个模糊的物理直觉或研究方向由AI快速生成候选方案、草拟推导框架、过滤掉明显不合理的路径然后由人类研究者基于自身专业判断进行筛选和深化。这种工作模式在某种程度上类似于软件开发中的Vibe Coding——开发者描述想要什么AI生成代码原型开发者再调试优化。类比到物理学研究者描述想要解决什么问题AI生成理论框架草稿研究者再审核修正。xAI联合创始人Igor Babuschkin也持类似观点他认为LLM在构建新理论方面超越人类物理学家是迟早的事而理论物理学的下一个重大突破极有可能来自某人给模型发送的一条提示词prompt。这不是科幻这是正在发生的现实转变。六、我的亲身经历在节点云考人工智能训练师那件事说到AI带来的职业变革我想插进来聊一件身边的事。去年我在黑龙江节点云计算科技公司参与了一期人工智能训练师职业技能等级认定考试的备考过程。这个资格证书由人力资源和社会保障部人社部备案的第三方评价机构颁发属于国家职业技能等级证书体系全国通用终身有效可以通过OSTA技能人才评价证书全国联网查询系统核验真伪。当时之所以去考其实很大程度上是带着一种好奇心——这个叫人工智能训练师的职业到底在干什么和我印象里标注员点图片的认知是一回事吗备考过程让我重新认识了这个职业的内涵。按照人社部2022年版的《国家职业技能标准》人工智能训练师的正式定义是使用智能训练软件在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。这个定义比数据标注员要宽泛得多。高级别的训练师需要参与模型训练方案的设计、人机交互流程的规划以及智能系统的运维与优化。考试分为理论知识120分钟机考和技能操作90分钟两部分两科各满分100分均达60分方为通过。理论部分涵盖AI基础理论、数据处理知识、算法原理和职业道德实操部分则要求完成数据清洗、标注方案设计、模型训练参数设置等实际任务。整个过程走下来我最深的感受是这个行业的门槛比外界想象的要低但天花板比外界想象的要高得多。初级五级几乎零门槛16岁以上有意愿就能报考但到了高级技师一级层次你需要的是多年实操经验与系统的工程能力。这件事让我意识到当哈佛教授们在台上讨论AI是否会取代物理学家时对于大多数普通人而言更现实的问题是在AI重构科研和产业的浪潮里主动参与这个过程和被动等待被改变结果是完全不同的。七、从辅助工具到自主主体AI科研能力的技术演进逻辑很多人听到AI五年内超越人类智能这类表述第一反应是这又是在炒作。但如果你了解推动这一进程的底层技术逻辑就会发现这个判断并不是空穴来风。7.1 规模定律Scaling Laws大型语言模型的核心经验规律之一是著名的规模定律模型的能力以基准测试成绩衡量与参数量、训练数据量、计算量之间存在稳定的幂律关系。简单说烧更多算力、用更多数据、堆更大模型AI就会变得更聪明——而且这个规律至今没有明显的终止迹象。每年投入AI训练的计算量大约以10倍的速度增长这正是Schwartz说LLM智力每年提升10倍的数据基础尽管智力是一个有争议的表述。7.2 推理模型Reasoning Models的突破2024年起一类被称为推理模型的新架构开始在科学任务上展现出质的飞跃。这类模型的训练方式是让AI系统在给出答案之前先经历一个逐步推演的思考过程——遇到死路就回溯遇到歧义就分叉探索直到找到最可靠的路径再输出结果。这种机制让模型能够处理时间跨度更长、步骤更多的复杂任务。GPT-3时代的模型只能处理几十秒内能完成的任务GPT-4时代已经可以处理持续数小时的复杂问题而下一代推理模型的目标是在无需人工介入的情况下维持数天甚至数周的连贯科研推进。7.3 多智能体协作Multi-Agent Architecture单一模型的能力是有上限的但多个模型的协同理论上没有上限。多智能体架构让不同专长的AI可以并行工作、相互检验、分工协作就像一个团队里不同角色的研究者一起攻克一个大型项目。OpenAI 2028年的目标正是要在这个架构上实现全学科的科研自动化闭环。7.4 长上下文与任务持续性AI做科研的一个关键障碍是记忆长度。早期的LLM只能在几百个词的窗口内保持连贯超出就会忘事。但随着长上下文训练技术的进步当前模型已经可以处理数十万甚至百万量级的token——相当于同时读取几百篇论文并保持内部逻辑的一致性。而通过专门设计的复杂任务训练如数学竞赛题、编程马拉松题模型逐渐学会了如何将一个大问题分解成若干子任务、在多个并行线程中管理进度、并在遇到阻塞时主动回溯或寻求新路径。这些能力是自主科研的基础。八、这件事对普通人意味着什么让我们把视角从哈佛的讲台和OpenAI的数据中心拉回到日常生活。这场AI科研革命对大多数普通人的直接影响可能并不是某天突然被AI取代而是一个更缓慢、更具体的过程你所在行业的工作内容会逐渐发生结构性的变化。有几个值得关注的趋势科研辅助岗位正在扩张。无论是AI训练师、提示词工程师Prompt Engineer还是AI应用开发者这些围绕AI能力边界工作的岗位需求量在快速增长。人社部已将人工智能训练师列入国家职业技能等级认定体系正是这一趋势的官方信号。懂AI正在成为各行各业的基础能力。就像十年前懂Excel曾经是职场加分项今天能熟练用AI辅助工作已经开始成为许多岗位的默认要求。医学、法律、教育、金融……每个行业里都在出现把AI工具用得特别好的那类人而这类人往往比纯技术人员更快获得认可因为他们同时具备领域知识和AI协作能力。提问能力比以往任何时候都重要。这一点和Ginsberg在APS峰会上的论断不谋而合。当AI能够高效执行你给出的指令知道该提什么问题就变成了整个流程里最不可替代的那个环节。批判性思维、对问题本质的洞察、对研究方向的品味判断——这些软能力正在变成硬门槛。专注细分领域的深度仍然是护城河。AI是个样样能做、样样不精的通才。在任何一个需要深度专业判断的领域人类专家与AI的最佳合作模式是由人类提供领域内的精准标准和价值判断由AI完成繁重的计算和信息处理。换句话说你越懂某个具体领域你和AI配合的效果就越好。九、Pachocki的警示权力集中的风险这场讨论不应该只有乐观的一面。Pachocki本人在接受采访时明确发出了一个严肃的警告。他说当AI系统足够强大可以运行整个研究实验室乃至接管像OpenAI、谷歌这样的整个公司的工作时过去需要庞大人类组织才能完成的任务以后几个人就能搞定。这意味着掌握这些AI系统的极少数人或机构将拥有前所未有的能量。他用史无前例的权力极度集中来描述这种可能性并明确表示这是一个需要政策制定者介入讨论的严肃问题而不仅仅是技术人员的内部事务。这种担忧是真实的也是合理的。历史上每一次重大技术革命——印刷机、蒸汽机、互联网——都伴随着权力格局的重新洗牌。AI科研自动化带来的不仅是科学进步的加速也是现有社会结构面临的一次深刻考验。如何在这场变革中维持科学的开放性、成果的共享性、以及技术发展方向的民主审议是比AI五年内能否超越人类更加紧迫的问题。十、结语当星辰大海对AI触手可及人类的坐标在哪里APS峰会上那场三小时的辩论没有给出一个整齐的结论。它留下的是一个开放的、令人不安的问题当AI开始独立提出科学问题当数据中心里装下整支研究团队当万名爱因斯坦不再是隐喻而是可量化的预期人类在科学版图上的意义是什么Schwartz的答案是我们不必是智能的终点成为智能演化的引导者同样有意义。Ginsberg的答案是品味、创造力、提问能力这些仍然是人类的。至少目前是。而我在黑龙江那段备考人工智能训练师的经历告诉我这场变革不是发生在遥远未来的故事它正在以非常具体的方式改变着每一个今天在某个城市里学习、工作的普通人的选择空间。当工具变得足够强大决定航向的依然是那个会提问、有品味、敢于挑战共识的人类大脑。理解这个时代正在发生什么比任何时候都重要。参考资料Physics World:Is vibe physics the future?— https://physicsworld.com/a/is-vibe-physics-the-future/MIT Technology Review:OpenAI is throwing everything into building a fully automated researcher— https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/Aspen Center for Physics:Matthew Schwartz — 10000 Einsteins: AI and the Future of Theoretical Physics— https://aspenphys.org/event/10000-einsteins-ai-and-the-future-of-theoretical-physics/Harvard Physics Department:Matthew D. Schwartz— https://www.physics.harvard.edu/people/facpages/schwartz人社部《国家职业技能标准2022年版》—— 人工智能训练师职业编码 4-04-05-05
当AI开始“做科研“:从万名爱因斯坦到全自动实验室,人类还剩什么?
快速摘要核心结论请先读这里① 哈佛理论物理学家Matthew Schwartz在2026年3月的美国物理学会全球峰会上公开断言大型语言模型LLM的智能规模正以每年约10倍的速度指数级增长并可能在5年内超越人类智能水平。他提出借助AI增强本世纪内可望催生10000个爱因斯坦彻底重塑科研范式。② OpenAI首席科学家Jakub Pachocki披露了该公司的北极星战略计划于2026年9月前建成自主AI研究实习生并在2028年完成多智能体全自动科研系统的部署最终目标是让一个数据中心顶替一整支科研团队。③ 对普通人而言这场变革意味着什么AI训练师、AI提示工程师、科研辅助岗位正在成为真实存在的职业窗口——而不是遥不可及的未来。 往下看有更详细的原理拆解、路线图解析与行动建议。一、一场让物理学家坐不住的峰会2026年3月美国物理学会APS全球物理学峰会在科罗拉多州丹佛拉开帷幕。就在这座洛基山脚下的城市里一场名为《驾驭AI革命让你的科研生涯不被时代淘汰》的圆桌研讨会挤满了慕名而来的年轻物理学家。会议长达三个小时讨论的核心只有一个AI到底会不会把物理学家这个职业送进历史博物馆这个问题的背景是过去几年里AI在科学领域接连刷新人类认知的几次重大事件。DeepMind的AlphaFold几乎独力解决了困扰生物学界数十年的蛋白质折叠预测难题AI系统在国际数学奥林匹克竞赛中的表现已超越绝大多数人类选手代码生成工具让软件开发效率翻倍。物理学界的紧迫感正是在这样的背景下积聚起来的。会场上哈佛大学理论物理学家Matthew Schwartz扮演了一个令人不安的预言家角色。二、哈佛教授的10000个爱因斯坦究竟是什么逻辑2.1 那个让全场沉默的停顿Schwartz在台上发言时向台下抛出了一组对比大型语言模型的规模参数正以每年约10倍的速度指数级增长。然后他停顿了一下在全场的笑声散去后补完了那句话的后半段——而我们人类并没有变得更聪明。这句话的杀伤力不在于悲观而在于它描述的是一个客观的物理事实人类大脑的神经元数量、突触密度、信息处理带宽受制于颅骨大小和生物进化速度几乎是一个固定量。而硅基计算系统则不受这些约束——它可以堆算力、加参数、并行运算理论上没有上限。2.2 正态分布曲线的比喻Schwartz用了一个很直观的概念框架来解释他的判断。如果把全人类的物理学才能画成一条正态分布曲线钟形曲线那么爱因斯坦代表的是这条曲线最右端那个极稀有的峰值。人类历史上这样的人百年难得一遇。但AI增强改变的不是这条曲线的形状而是整条曲线在才能轴上的位移。当AI把每一个普通研究者的认知能力放大十倍、百倍整条曲线就会向右大幅平移——原本处于中间位置的研究者其实际产出有可能超越今天最顶尖的天才。他的结论因此变得清晰借助AI增强本世纪内产生10000个爱因斯坦并非夸张而是一种数学上合理的外推。Matthew Schwartz本人是哈佛大学物理系教授同时也是美国国家科学基金会NSF人工智能与基础相互作用研究院IAIFI的核心领导者。他长期研究量子场论与机器学习的交叉应用对两个领域都有第一手的深刻认知并非无的放矢。2.3 人类大脑真的有天花板吗Schwartz提出了一个更深刻、也更让人不舒服的命题人类的神经系统或许根本无法理解某些终极问题。他用的类比是猫永远学不会下国际象棋不是因为猫不够努力而是因为猫的神经结构在进化上从来没有被设计来处理抽象规则系统。人类对于某些高维度的物理问题可能也面临同样的认知天花板。比如万物理论Theory of Everything——这是物理学家几十年来梦寐以求的终极目标试图用一套统一的数学框架描述所有基本力和基本粒子。弦理论、圈量子引力……每一个尝试都走到了人类数学直觉的极限边界。而机器可以在高维空间里直接操作、在内存中存储天文数字级别的中间变量、同时运行成千上万个并行假设——这些恰恰是人类大脑做不到的事情。三、DeepMind工程师的反击人类还有最后的阵地3.1 谷歌DeepMind的Ginsberg怎么说Schwartz发言结束后谷歌DeepMind工程师Matthew Ginsberg随即发表了截然不同的观点。值得注意的是这位来自顶级AI实验室的工程师反而是当天最坚定的人类价值捍卫者。Ginsberg的核心论点是LLM的本质是生成基于共识的答案而真正的科学突破从来都是反共识的。他说伟大的物理学家的核心价值不是回答问题而是提出正确的问题。爱因斯坦最天才的地方不是他解出了光速不变下的运动方程而是他在19世纪末那个一切物理学都已大功告成的氛围里看到了经典力学框架本身的裂缝并决定去追问那条裂缝。Ginsberg认为这种提出非共识问题的能力至少目前还完全是人类的领域。他的原话大意是提出好问题是物理学家的本质所在这一点目前100%属于我们。3.2 双方达成了什么共识然而让人略感不安的是尽管观点对立Schwartz和Ginsberg最终在一点上达成了共识AI可能在十年内就能学会提出好问题。这意味着人类在科学图谱上最后的一块领地——品味、创造力、提问能力——也许不是永久性的护城河只是一段尚未被填平的时间差。在这场三小时的激辩收尾时四位与会专家总结出的人类底牌只剩三张品味、创造力、提问能力。而这三张牌可能都有10年的保质期。四、OpenAI的北极星计划2028年AI接管实验室就在APS峰会热议期间《麻省理工科技评论》披露了OpenAI内部一份极具野心的战略路线图。OpenAI首席科学家Jakub Pachocki将其称为公司未来几年的北极星North Star目标构建一个能够独立攻克复杂科学难题的全自动AI科学家系统。4.1 三阶段路线图详解根据Pachocki的描述这条路线图分为三个清晰的阶段第一阶段自主AI研究实习生2026年9月前这个阶段的目标是打造一个能够在特定研究领域内闭环处理科研任务的自主Agent。所谓闭环意味着它可以在没有人类逐步介入的情况下独立完成数天量级的研究任务——从分析文献到设计实验方案到运行模型到整理结果报告全流程自主执行。Pachocki的原话是我们真正想要的自动化研究实习生是一个你可以把任务交给它、而这个任务通常需要一个人花几天时间来完成的系统。第二阶段多智能体研究实验室2028年这是一个更宏大的愿景。OpenAI计划在数据中心里部署多个协同工作的AI Agent它们将通过分工协作覆盖从理论构想到实验验证的完整科研流程。每个Agent负责不同的子任务——有的负责文献综述有的负责假设生成有的负责实验设计有的负责数据分析和迭代优化。这个阶段的目标是让AI系统能够独立参与数学、物理、生物、化学乃至经济学和政策研究等多个学科的复杂问题攻关。第三阶段通用科学智能长期目标打造具备合格研究员身份的通用科学智能——一个可以独立承担大型科研课题、具有完整研究能力的AI实体。Pachocki称届时一整个研究实验室可以装进一个数据中心。┌────────────────────────────────────────────────────────────────┐ │ OpenAI 北极星 AI科研自动化路线图 │ ├─────────────┬──────────────────────┬──────────────────────────┤ │ 阶段 │ 时间节点 │ 核心能力目标 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第一阶段 │ 2026年9月前 │ 自主AI研究实习生 │ │ │ │ 独立完成数天量级科研任务 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第二阶段 │ 2028年 │ 多智能体研究实验室 │ │ │ │ 多Agent协作全流程闭环科研 │ ├─────────────┼──────────────────────┼──────────────────────────┤ │ 第三阶段 │ 长期 │ 通用科学智能 │ │ │ │ 数据中心 完整研究实验室 │ └─────────────┴──────────────────────┴──────────────────────────┘4.2 Codex这一切的起点理解OpenAI这条路线图需要先认识一个名叫Codex的工具。2026年1月OpenAI发布了Codex——一个基于Agent架构的编程工具能够实时生成并执行代码完成文档分析、数据可视化、邮件摘要等复杂任务。目前OpenAI内部大多数技术人员已经在日常工作中使用Codex。Pachocki自己的感受颇具代表性他说一年前他还是Vim的忠实用户坚持逐字手写代码拒绝任何自动补全工具——因为他对代码质量有近乎洁癖的执念。但最新一代模型的进化让他彻底改变了看法。过去需要一周才能跑完的代码实验现在可以在一个周末内完成。他感慨效率已经无懈可击。Pachocki将Codex称为AI科研系统的早期版本是整条路线图的概念验证Proof of Concept。4.3 安全机制思维链监控任何一个能够在数据中心里自主运行数周、数月的AI系统都会带来不可忽视的安全风险。Pachocki对此并不回避。他说如果AI如此聪明、如此能干如果它能独立运行一整个研究项目那如果它做了什么不好的事情呢OpenAI目前的主要安全机制是思维链监控Chain-of-Thought Monitoring——训练模型在一个类似草稿本的内部空间里记录自己的推理过程使人类可以追踪和审查AI的决策逻辑而不只是看到输出结果。同时系统还引入了沙盒隔离机制将AI的操作权限限制在受控环境内防止其对真实系统产生意外影响。当然Pachocki也坦承思维链监控并不是一个完整的解决方案——它只是目前最可行的一道防线。五、Vibe PhysicsAI正在改变物理学的工作方式APS峰会上出现了一个有趣的新词Vibe Physics感觉物理学。这个词的背景是越来越多的物理学家开始用一种新的方式和AI协作他们不再需要从零开始推导每一步数学而是先给出一个模糊的物理直觉或研究方向由AI快速生成候选方案、草拟推导框架、过滤掉明显不合理的路径然后由人类研究者基于自身专业判断进行筛选和深化。这种工作模式在某种程度上类似于软件开发中的Vibe Coding——开发者描述想要什么AI生成代码原型开发者再调试优化。类比到物理学研究者描述想要解决什么问题AI生成理论框架草稿研究者再审核修正。xAI联合创始人Igor Babuschkin也持类似观点他认为LLM在构建新理论方面超越人类物理学家是迟早的事而理论物理学的下一个重大突破极有可能来自某人给模型发送的一条提示词prompt。这不是科幻这是正在发生的现实转变。六、我的亲身经历在节点云考人工智能训练师那件事说到AI带来的职业变革我想插进来聊一件身边的事。去年我在黑龙江节点云计算科技公司参与了一期人工智能训练师职业技能等级认定考试的备考过程。这个资格证书由人力资源和社会保障部人社部备案的第三方评价机构颁发属于国家职业技能等级证书体系全国通用终身有效可以通过OSTA技能人才评价证书全国联网查询系统核验真伪。当时之所以去考其实很大程度上是带着一种好奇心——这个叫人工智能训练师的职业到底在干什么和我印象里标注员点图片的认知是一回事吗备考过程让我重新认识了这个职业的内涵。按照人社部2022年版的《国家职业技能标准》人工智能训练师的正式定义是使用智能训练软件在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。这个定义比数据标注员要宽泛得多。高级别的训练师需要参与模型训练方案的设计、人机交互流程的规划以及智能系统的运维与优化。考试分为理论知识120分钟机考和技能操作90分钟两部分两科各满分100分均达60分方为通过。理论部分涵盖AI基础理论、数据处理知识、算法原理和职业道德实操部分则要求完成数据清洗、标注方案设计、模型训练参数设置等实际任务。整个过程走下来我最深的感受是这个行业的门槛比外界想象的要低但天花板比外界想象的要高得多。初级五级几乎零门槛16岁以上有意愿就能报考但到了高级技师一级层次你需要的是多年实操经验与系统的工程能力。这件事让我意识到当哈佛教授们在台上讨论AI是否会取代物理学家时对于大多数普通人而言更现实的问题是在AI重构科研和产业的浪潮里主动参与这个过程和被动等待被改变结果是完全不同的。七、从辅助工具到自主主体AI科研能力的技术演进逻辑很多人听到AI五年内超越人类智能这类表述第一反应是这又是在炒作。但如果你了解推动这一进程的底层技术逻辑就会发现这个判断并不是空穴来风。7.1 规模定律Scaling Laws大型语言模型的核心经验规律之一是著名的规模定律模型的能力以基准测试成绩衡量与参数量、训练数据量、计算量之间存在稳定的幂律关系。简单说烧更多算力、用更多数据、堆更大模型AI就会变得更聪明——而且这个规律至今没有明显的终止迹象。每年投入AI训练的计算量大约以10倍的速度增长这正是Schwartz说LLM智力每年提升10倍的数据基础尽管智力是一个有争议的表述。7.2 推理模型Reasoning Models的突破2024年起一类被称为推理模型的新架构开始在科学任务上展现出质的飞跃。这类模型的训练方式是让AI系统在给出答案之前先经历一个逐步推演的思考过程——遇到死路就回溯遇到歧义就分叉探索直到找到最可靠的路径再输出结果。这种机制让模型能够处理时间跨度更长、步骤更多的复杂任务。GPT-3时代的模型只能处理几十秒内能完成的任务GPT-4时代已经可以处理持续数小时的复杂问题而下一代推理模型的目标是在无需人工介入的情况下维持数天甚至数周的连贯科研推进。7.3 多智能体协作Multi-Agent Architecture单一模型的能力是有上限的但多个模型的协同理论上没有上限。多智能体架构让不同专长的AI可以并行工作、相互检验、分工协作就像一个团队里不同角色的研究者一起攻克一个大型项目。OpenAI 2028年的目标正是要在这个架构上实现全学科的科研自动化闭环。7.4 长上下文与任务持续性AI做科研的一个关键障碍是记忆长度。早期的LLM只能在几百个词的窗口内保持连贯超出就会忘事。但随着长上下文训练技术的进步当前模型已经可以处理数十万甚至百万量级的token——相当于同时读取几百篇论文并保持内部逻辑的一致性。而通过专门设计的复杂任务训练如数学竞赛题、编程马拉松题模型逐渐学会了如何将一个大问题分解成若干子任务、在多个并行线程中管理进度、并在遇到阻塞时主动回溯或寻求新路径。这些能力是自主科研的基础。八、这件事对普通人意味着什么让我们把视角从哈佛的讲台和OpenAI的数据中心拉回到日常生活。这场AI科研革命对大多数普通人的直接影响可能并不是某天突然被AI取代而是一个更缓慢、更具体的过程你所在行业的工作内容会逐渐发生结构性的变化。有几个值得关注的趋势科研辅助岗位正在扩张。无论是AI训练师、提示词工程师Prompt Engineer还是AI应用开发者这些围绕AI能力边界工作的岗位需求量在快速增长。人社部已将人工智能训练师列入国家职业技能等级认定体系正是这一趋势的官方信号。懂AI正在成为各行各业的基础能力。就像十年前懂Excel曾经是职场加分项今天能熟练用AI辅助工作已经开始成为许多岗位的默认要求。医学、法律、教育、金融……每个行业里都在出现把AI工具用得特别好的那类人而这类人往往比纯技术人员更快获得认可因为他们同时具备领域知识和AI协作能力。提问能力比以往任何时候都重要。这一点和Ginsberg在APS峰会上的论断不谋而合。当AI能够高效执行你给出的指令知道该提什么问题就变成了整个流程里最不可替代的那个环节。批判性思维、对问题本质的洞察、对研究方向的品味判断——这些软能力正在变成硬门槛。专注细分领域的深度仍然是护城河。AI是个样样能做、样样不精的通才。在任何一个需要深度专业判断的领域人类专家与AI的最佳合作模式是由人类提供领域内的精准标准和价值判断由AI完成繁重的计算和信息处理。换句话说你越懂某个具体领域你和AI配合的效果就越好。九、Pachocki的警示权力集中的风险这场讨论不应该只有乐观的一面。Pachocki本人在接受采访时明确发出了一个严肃的警告。他说当AI系统足够强大可以运行整个研究实验室乃至接管像OpenAI、谷歌这样的整个公司的工作时过去需要庞大人类组织才能完成的任务以后几个人就能搞定。这意味着掌握这些AI系统的极少数人或机构将拥有前所未有的能量。他用史无前例的权力极度集中来描述这种可能性并明确表示这是一个需要政策制定者介入讨论的严肃问题而不仅仅是技术人员的内部事务。这种担忧是真实的也是合理的。历史上每一次重大技术革命——印刷机、蒸汽机、互联网——都伴随着权力格局的重新洗牌。AI科研自动化带来的不仅是科学进步的加速也是现有社会结构面临的一次深刻考验。如何在这场变革中维持科学的开放性、成果的共享性、以及技术发展方向的民主审议是比AI五年内能否超越人类更加紧迫的问题。十、结语当星辰大海对AI触手可及人类的坐标在哪里APS峰会上那场三小时的辩论没有给出一个整齐的结论。它留下的是一个开放的、令人不安的问题当AI开始独立提出科学问题当数据中心里装下整支研究团队当万名爱因斯坦不再是隐喻而是可量化的预期人类在科学版图上的意义是什么Schwartz的答案是我们不必是智能的终点成为智能演化的引导者同样有意义。Ginsberg的答案是品味、创造力、提问能力这些仍然是人类的。至少目前是。而我在黑龙江那段备考人工智能训练师的经历告诉我这场变革不是发生在遥远未来的故事它正在以非常具体的方式改变着每一个今天在某个城市里学习、工作的普通人的选择空间。当工具变得足够强大决定航向的依然是那个会提问、有品味、敢于挑战共识的人类大脑。理解这个时代正在发生什么比任何时候都重要。参考资料Physics World:Is vibe physics the future?— https://physicsworld.com/a/is-vibe-physics-the-future/MIT Technology Review:OpenAI is throwing everything into building a fully automated researcher— https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/Aspen Center for Physics:Matthew Schwartz — 10000 Einsteins: AI and the Future of Theoretical Physics— https://aspenphys.org/event/10000-einsteins-ai-and-the-future-of-theoretical-physics/Harvard Physics Department:Matthew D. Schwartz— https://www.physics.harvard.edu/people/facpages/schwartz人社部《国家职业技能标准2022年版》—— 人工智能训练师职业编码 4-04-05-05