如果你在 AI 领域待过一段时间可能会发现一个有趣的现象大家讨论的焦点永远是那个最闪亮的“金矿”——最新的模型架构、刷榜的算法、惊艳的 Demo。但很少有人去深究那些真正挖出金矿的团队手里握着的“铲子”到底是什么样的。这就像一场淘金热河滩上挤满了怀揣梦想的掘金者但最终能稳定产出、持续扩大战果的往往是那些不声不响先把铁锹、筛网、运输轨道打磨到极致的人。OpenAI 研究员翁家翌的经历就是这种“铲子哲学”的绝佳注脚。从学生时代两周写出强化学习框架“天授”到在 OpenAI 从零搭建支撑 ChatGPT 后训练的关键基础设施他做的事情内核高度一致不满足于“想法能跑通”而是执着于“让想法跑得飞快、跑得稳定、跑得可复用”。这种执着在 AI 研发从“小作坊实验”走向“工业化生产”的今天正从一种个人偏好演变为决定团队生死的关键竞争力。今天我们就来深入拆解一下从“天授”到 OpenAI RLHF Infra 的演进路径看看一把好的“工程铲子”究竟是如何被锻造出来并最终改变游戏规则的。1. 从“能跑”到“好用”天授框架的朴素起点所有伟大的基础设施往往都源于一个具体、微小且令人烦躁的痛点。对于学生时代的翁家翌来说这个痛点就是当时主流的强化学习框架 RLlib。如果你用过早期的 RLlib或者类似的大型、重型框架一定对那种体验记忆犹新代码库庞大抽象层级复杂文档可能还不甚清晰。你想实现一个简单的想法比如修改奖励函数reward shaping的逻辑或者尝试一个新的环境交互方式。但你会发现自己首先得花几天时间去理解框架内部的调度机制、数据流和生命周期管理。你的创造力被卡在了理解工具上而不是解决问题本身。翁家翌的反应很直接既然现有的“铲子”用起来太费劲影响了我挖矿的效率那我就自己造一把。于是他用两周时间从零写出了“天授”Tianshou的第一版。这个行为的背后有几个非常关键的判断这些判断也构成了“铲子哲学”的基石第一一致性Consistency高于功能的堆砌。天授的设计哲学极其简单让 API 直观到研究人员无需频繁查阅文档。它的目标不是提供最全的算法实现而是提供一个高度一致、可预测的编程接口。这意味着你学会了一个环境的接口就能类推到所有环境你掌握了一种算法的训练循环就能理解所有算法的训练逻辑。这种一致性极大地降低了认知负担让研究者能把精力集中在算法和实验设计本身。第二直面真实瓶颈。当时强化学习领域的一个普遍现象是大量研究论文在少数几个基准环境如 Atari上反复调参、防止模型崩溃。翁家翌认为这某种程度上是在用“战术上的勤奋”掩盖“战略上的懒惰”——大家宁愿在既有框架的约束下做艰难的微调也不愿意停下来花时间重新思考并构建一个更合理、更高效的基础设施。真正的瓶颈往往不是算法不够新颖而是实验迭代的速度太慢。第三工具的价值在于放大个体的能力。天授在 GitHub 上获得数千星标并成为翁家翌进入 OpenAI 的“敲门砖”这件事本身就极具象征意义。面试官 John Schulman 看重的并非他发表了多少顶级论文而是他“造铲子”的能力和开源贡献。这传递出一个清晰的信号在顶尖的 AI 实验室将想法高效工程化的能力其权重正在超过或至少比肩于单纯提出想法的能力。你能让团队里的其他人跑得更快你的价值就是指数级的。天授的成功验证了一个朴素的原则在研究的早期阶段一个轻量、灵活、符合直觉的工具能够极大地释放创新潜力。它是一把为“探索”而生的铲子。2. 从小模型到大模型基建难度的量级跃迁带着“造铲子”的经验进入 OpenAI 后翁家翌面临的挑战看似相似实则发生了根本性的质变。他负责搭建大模型“后训练”Post-training阶段的强化学习基础设施特别是支撑 RLHF人类反馈强化学习的关键系统。如果说天授是为“小模型复杂环境”如游戏、机器人控制设计的铲子那么 OpenAI 的 RLHF Infra 就是为“超大模型极简环境”设计的全自动挖掘流水线。两者的差异决定了基建思路必须彻底重构维度传统 RL天授面对的场景大模型 RLHFOpenAI 面对的场景模型规模较小百万至千万参数极大百亿至万亿参数环境复杂度高物理仿真、游戏逻辑极低文本提示词几微秒生成计算瓶颈环境仿真CPU密集型模型推理与训练GPU密集型单次实验成本相对较低可单机运行极高需数百张 GPU 卡并行运行数小时甚至数天系统优化重点环境并行化、仿真速度、采样效率GPU 利用率、梯度通信效率、Checkpoint 管理、大规模集群调度这种转变意味着过去那套行之有效的架构直接搬过来会立刻失效。例如通信成为核心瓶颈在数百张 GPU 上同步一个万亿参数模型的梯度网络带宽和延迟直接决定了训练能否进行。容错性要求极高运行几天、耗资数十万美元的实验不能因为单台机器的故障而全部崩溃。Checkpoint检查点的保存、加载和恢复策略必须极其可靠和高效。资源调度极其复杂如何在同一集群中高效地混合调度推理任务生成回答供人类标注和训练任务利用标注数据更新模型是一个复杂的系统工程问题。开发调试成本巨大你无法像调试小模型一样在本地用一小部分数据快速跑通一个想法。任何代码修改都需要在庞大的分布式系统上验证反馈周期很长。面对这种量级的挑战“凑合能用”的思维是致命的。技术债务的“利息”在这里会以惊人的速度累积。一个看似微小的设计缺陷比如低效的数据序列化方式或者冗余的内存拷贝在乘以几百张卡、运行几天之后带来的可能就是数万美元的额外算力成本和数天的时间损失。因此翁家翌在 OpenAI 的态度与做天授时一脉相承甚至更为坚决该重写就重写该重构就重构。不能因为某个现有模块“还能跑”就容忍它的低效。他的观点是管理代码和管理公司一样都需要高度的一致性。当技术债务积累到一定程度阻碍了系统的演进和团队的迭代效率时就必须有勇气进行彻底的清理和重建。这把为“生产”而生的铲子其核心指标不再是灵活性而是极端条件下的可靠性、效率和成本控制。3. 铲子哲学的乘数效应为什么基建决定上限我们回到最初的问题为什么顶级团队如此痴迷于“造铲子”答案在于“乘数效应”。在一个像 OpenAI 这样的团队里聚集了众多顶尖的研究员。大家的智力水平、获取新 idea 的能力差距并不会是天壤之别。真正的差距会随着时间被“迭代效率”这个乘数无限放大。我们可以做一个简单的思想实验团队A基础设施落后。跑一次完整的 RLHF 实验从启动到出结果需要 8 小时。研究员每天上班开始一个实验下班前能看到结果。一天最多验证 1-2 个想法。团队B基础设施先进。通过优化 GPU 利用率、通信、调度等将单次实验时间压缩到 2 小时。研究员一天内可以发起、监控并完成 4-5 轮实验。一天下来B 团队比 A 团队多积累了 3-4 次完整的实验反馈。一周下来这个差距就是 15-20 次有效迭代。一个月、一个季度下来呢B 团队探索的算法空间、调试的超参组合、积累的经验教训将远远超过 A 团队。这种由基础设施带来的迭代速度优势最终会直接转化为模型性能上的代际差。这就是“铲子哲学”的底层逻辑它不直接产生黄金新的算法突破但它决定了你挖掘黄金的速度和成本。在高度竞争的领域速度就是生命线。这也解释了翁家翌的一个观点教一个研究员做好工程比教一个工程师做好研究更难。因为前者需要改变的是思维模式——从追求单个实验的“成功”转变为追求整个实验流程的“效率”从关心算法的理论边界到关心算法在分布式系统上的实际开销。这种工程思维是很多研究背景出身的人所缺乏的但又是大规模 AI 研发中不可或缺的。4. 从理念到实践如何打造你自己的“铲子”理解了“铲子”的价值我们该如何行动无论是负责一个 ML Infra 团队还是作为一个独立开发者希望提升自己的工程效率都可以从以下几个层面入手4.1 重新定义价值评估标准首先要改变对“产出”的认知。对于个人不要只展示你调出了多高的准确率金矿更要展示你构建的自动化训练管道、高效的数据预处理工具、一键复现实验的脚本铲子。你的 GitHub 上一个设计优雅、文档清晰、被他人广泛使用的工具库其长期价值可能远超一篇难以复现的论文。对于团队ML Infra 团队的 KPI 不应该仅仅是“搭建了 X 系统”、“维护了 Y 服务”而应该与业务团队的研发效率直接挂钩。例如“将模型平均训练周期缩短了 30%”、“将实验失败后的调试定位时间从 4 小时降低到 30 分钟”、“支持研究员日均发起实验次数提升 50%”。铲子好不好用挖矿的人最清楚要让他们的反馈成为衡量标准。4.2 建立“推倒重来”的勇气与智慧畏惧技术债务是人之常情但必须建立定期评估和重构的机制。设立“债务利息”评估定期如每季度审视核心系统的关键指标启动时间、资源利用率、故障恢复时间、新功能接入成本。如果这些指标在持续恶化就像债务利息在增加就必须考虑偿还。把握重构时机最好的重构时机是在开发新功能、遇到无法绕过的瓶颈时顺势而为。为了重构而重构往往动力不足。当现有架构已经严重阻碍了关键业务的迭代速度时就是必须行动的号角。增量重构大规模系统很难一次性推翻。采用“绞杀者模式”或“抽象分支”等模式逐步用新的、设计良好的模块替换旧的平滑过渡。4.3 聚焦迭代效率的核心环节打造“铲子”不必面面俱到优先解决瓶颈最大的环节。对于 AI 研发流程通常有几个关键点实验管理能否一键复现三个月前的任何实验结果包括代码、数据、环境、超参实验记录和对比是否清晰直观数据流水线从原始数据到模型可用的训练样本这个过程是否自动化、可监控、可回溯数据版本如何管理训练流水线资源申请、任务调度、故障自动恢复、训练过程监控Loss、指标、资源消耗、模型 Checkpoint 保存与评估是否形成了一个无缝的闭环超参搜索与评估超参搜索是自动化的吗评估模型性能的流程是否标准、高效、全面从这些环节中挑选一个对你当前团队困扰最大的集中精力打造或引入一个“锋利”的工具其带来的效率提升将是立竿见影的。4.4 培养“产品思维”做基建最好的基础设施应该像最好的产品一样“用户”这里指研究员和算法工程师乐于使用甚至感觉不到它的存在。API 设计即用户体验像设计用户界面一样设计 API。追求一致性、直观性、可预测性。天授的成功很大程度上源于此。文档与示例即 onboarding完善的文档和丰富的、可运行的示例能极大降低使用门槛减少团队内部的沟通成本。可观测性即信任系统运行状态、任务进度、错误日志必须清晰可见。当问题发生时用户能快速定位而不是在黑盒中猜测。5. 结语在淘金热中选择成为更好的工匠AI 的浪潮仍在奔涌每天都有新的“金矿”模型、方向、应用被发现吸引着无数人投身其中。然而历史告诉我们在每一次淘金热中最终获得持久成功和财富的并不总是第一批发现金矿的冒险家而是那些为冒险家们提供可靠工具、运输和服务的工匠。从“天授”到 OpenAI 的 RLHF Infra“造铲子”这件事的内涵从个人效率工具演变为支撑千亿级模型生产的复杂系统工程。但其哲学内核从未改变对“迭代效率”的极致追求对“技术债务”的零容忍以及坚信卓越的工程能力是放大集体智慧的关键杠杆。对于身处这个时代的我们而言无论你是研究员、工程师还是技术负责人或许都应该停下来思考一下你当前的工作是在拥挤的河滩上奋力淘金还是在默默地锻造一把更锋利、更耐用的铲子后者或许没有那么多的即时光环但它所构建的壁垒以及带来的长期价值往往更加坚实和深远。因为当潮水退去金子可能被挖完但人们永远需要更好的工具去开拓新的疆土。
从“天授”到ChatGPT:揭秘AI工程基建如何决定模型迭代效率
如果你在 AI 领域待过一段时间可能会发现一个有趣的现象大家讨论的焦点永远是那个最闪亮的“金矿”——最新的模型架构、刷榜的算法、惊艳的 Demo。但很少有人去深究那些真正挖出金矿的团队手里握着的“铲子”到底是什么样的。这就像一场淘金热河滩上挤满了怀揣梦想的掘金者但最终能稳定产出、持续扩大战果的往往是那些不声不响先把铁锹、筛网、运输轨道打磨到极致的人。OpenAI 研究员翁家翌的经历就是这种“铲子哲学”的绝佳注脚。从学生时代两周写出强化学习框架“天授”到在 OpenAI 从零搭建支撑 ChatGPT 后训练的关键基础设施他做的事情内核高度一致不满足于“想法能跑通”而是执着于“让想法跑得飞快、跑得稳定、跑得可复用”。这种执着在 AI 研发从“小作坊实验”走向“工业化生产”的今天正从一种个人偏好演变为决定团队生死的关键竞争力。今天我们就来深入拆解一下从“天授”到 OpenAI RLHF Infra 的演进路径看看一把好的“工程铲子”究竟是如何被锻造出来并最终改变游戏规则的。1. 从“能跑”到“好用”天授框架的朴素起点所有伟大的基础设施往往都源于一个具体、微小且令人烦躁的痛点。对于学生时代的翁家翌来说这个痛点就是当时主流的强化学习框架 RLlib。如果你用过早期的 RLlib或者类似的大型、重型框架一定对那种体验记忆犹新代码库庞大抽象层级复杂文档可能还不甚清晰。你想实现一个简单的想法比如修改奖励函数reward shaping的逻辑或者尝试一个新的环境交互方式。但你会发现自己首先得花几天时间去理解框架内部的调度机制、数据流和生命周期管理。你的创造力被卡在了理解工具上而不是解决问题本身。翁家翌的反应很直接既然现有的“铲子”用起来太费劲影响了我挖矿的效率那我就自己造一把。于是他用两周时间从零写出了“天授”Tianshou的第一版。这个行为的背后有几个非常关键的判断这些判断也构成了“铲子哲学”的基石第一一致性Consistency高于功能的堆砌。天授的设计哲学极其简单让 API 直观到研究人员无需频繁查阅文档。它的目标不是提供最全的算法实现而是提供一个高度一致、可预测的编程接口。这意味着你学会了一个环境的接口就能类推到所有环境你掌握了一种算法的训练循环就能理解所有算法的训练逻辑。这种一致性极大地降低了认知负担让研究者能把精力集中在算法和实验设计本身。第二直面真实瓶颈。当时强化学习领域的一个普遍现象是大量研究论文在少数几个基准环境如 Atari上反复调参、防止模型崩溃。翁家翌认为这某种程度上是在用“战术上的勤奋”掩盖“战略上的懒惰”——大家宁愿在既有框架的约束下做艰难的微调也不愿意停下来花时间重新思考并构建一个更合理、更高效的基础设施。真正的瓶颈往往不是算法不够新颖而是实验迭代的速度太慢。第三工具的价值在于放大个体的能力。天授在 GitHub 上获得数千星标并成为翁家翌进入 OpenAI 的“敲门砖”这件事本身就极具象征意义。面试官 John Schulman 看重的并非他发表了多少顶级论文而是他“造铲子”的能力和开源贡献。这传递出一个清晰的信号在顶尖的 AI 实验室将想法高效工程化的能力其权重正在超过或至少比肩于单纯提出想法的能力。你能让团队里的其他人跑得更快你的价值就是指数级的。天授的成功验证了一个朴素的原则在研究的早期阶段一个轻量、灵活、符合直觉的工具能够极大地释放创新潜力。它是一把为“探索”而生的铲子。2. 从小模型到大模型基建难度的量级跃迁带着“造铲子”的经验进入 OpenAI 后翁家翌面临的挑战看似相似实则发生了根本性的质变。他负责搭建大模型“后训练”Post-training阶段的强化学习基础设施特别是支撑 RLHF人类反馈强化学习的关键系统。如果说天授是为“小模型复杂环境”如游戏、机器人控制设计的铲子那么 OpenAI 的 RLHF Infra 就是为“超大模型极简环境”设计的全自动挖掘流水线。两者的差异决定了基建思路必须彻底重构维度传统 RL天授面对的场景大模型 RLHFOpenAI 面对的场景模型规模较小百万至千万参数极大百亿至万亿参数环境复杂度高物理仿真、游戏逻辑极低文本提示词几微秒生成计算瓶颈环境仿真CPU密集型模型推理与训练GPU密集型单次实验成本相对较低可单机运行极高需数百张 GPU 卡并行运行数小时甚至数天系统优化重点环境并行化、仿真速度、采样效率GPU 利用率、梯度通信效率、Checkpoint 管理、大规模集群调度这种转变意味着过去那套行之有效的架构直接搬过来会立刻失效。例如通信成为核心瓶颈在数百张 GPU 上同步一个万亿参数模型的梯度网络带宽和延迟直接决定了训练能否进行。容错性要求极高运行几天、耗资数十万美元的实验不能因为单台机器的故障而全部崩溃。Checkpoint检查点的保存、加载和恢复策略必须极其可靠和高效。资源调度极其复杂如何在同一集群中高效地混合调度推理任务生成回答供人类标注和训练任务利用标注数据更新模型是一个复杂的系统工程问题。开发调试成本巨大你无法像调试小模型一样在本地用一小部分数据快速跑通一个想法。任何代码修改都需要在庞大的分布式系统上验证反馈周期很长。面对这种量级的挑战“凑合能用”的思维是致命的。技术债务的“利息”在这里会以惊人的速度累积。一个看似微小的设计缺陷比如低效的数据序列化方式或者冗余的内存拷贝在乘以几百张卡、运行几天之后带来的可能就是数万美元的额外算力成本和数天的时间损失。因此翁家翌在 OpenAI 的态度与做天授时一脉相承甚至更为坚决该重写就重写该重构就重构。不能因为某个现有模块“还能跑”就容忍它的低效。他的观点是管理代码和管理公司一样都需要高度的一致性。当技术债务积累到一定程度阻碍了系统的演进和团队的迭代效率时就必须有勇气进行彻底的清理和重建。这把为“生产”而生的铲子其核心指标不再是灵活性而是极端条件下的可靠性、效率和成本控制。3. 铲子哲学的乘数效应为什么基建决定上限我们回到最初的问题为什么顶级团队如此痴迷于“造铲子”答案在于“乘数效应”。在一个像 OpenAI 这样的团队里聚集了众多顶尖的研究员。大家的智力水平、获取新 idea 的能力差距并不会是天壤之别。真正的差距会随着时间被“迭代效率”这个乘数无限放大。我们可以做一个简单的思想实验团队A基础设施落后。跑一次完整的 RLHF 实验从启动到出结果需要 8 小时。研究员每天上班开始一个实验下班前能看到结果。一天最多验证 1-2 个想法。团队B基础设施先进。通过优化 GPU 利用率、通信、调度等将单次实验时间压缩到 2 小时。研究员一天内可以发起、监控并完成 4-5 轮实验。一天下来B 团队比 A 团队多积累了 3-4 次完整的实验反馈。一周下来这个差距就是 15-20 次有效迭代。一个月、一个季度下来呢B 团队探索的算法空间、调试的超参组合、积累的经验教训将远远超过 A 团队。这种由基础设施带来的迭代速度优势最终会直接转化为模型性能上的代际差。这就是“铲子哲学”的底层逻辑它不直接产生黄金新的算法突破但它决定了你挖掘黄金的速度和成本。在高度竞争的领域速度就是生命线。这也解释了翁家翌的一个观点教一个研究员做好工程比教一个工程师做好研究更难。因为前者需要改变的是思维模式——从追求单个实验的“成功”转变为追求整个实验流程的“效率”从关心算法的理论边界到关心算法在分布式系统上的实际开销。这种工程思维是很多研究背景出身的人所缺乏的但又是大规模 AI 研发中不可或缺的。4. 从理念到实践如何打造你自己的“铲子”理解了“铲子”的价值我们该如何行动无论是负责一个 ML Infra 团队还是作为一个独立开发者希望提升自己的工程效率都可以从以下几个层面入手4.1 重新定义价值评估标准首先要改变对“产出”的认知。对于个人不要只展示你调出了多高的准确率金矿更要展示你构建的自动化训练管道、高效的数据预处理工具、一键复现实验的脚本铲子。你的 GitHub 上一个设计优雅、文档清晰、被他人广泛使用的工具库其长期价值可能远超一篇难以复现的论文。对于团队ML Infra 团队的 KPI 不应该仅仅是“搭建了 X 系统”、“维护了 Y 服务”而应该与业务团队的研发效率直接挂钩。例如“将模型平均训练周期缩短了 30%”、“将实验失败后的调试定位时间从 4 小时降低到 30 分钟”、“支持研究员日均发起实验次数提升 50%”。铲子好不好用挖矿的人最清楚要让他们的反馈成为衡量标准。4.2 建立“推倒重来”的勇气与智慧畏惧技术债务是人之常情但必须建立定期评估和重构的机制。设立“债务利息”评估定期如每季度审视核心系统的关键指标启动时间、资源利用率、故障恢复时间、新功能接入成本。如果这些指标在持续恶化就像债务利息在增加就必须考虑偿还。把握重构时机最好的重构时机是在开发新功能、遇到无法绕过的瓶颈时顺势而为。为了重构而重构往往动力不足。当现有架构已经严重阻碍了关键业务的迭代速度时就是必须行动的号角。增量重构大规模系统很难一次性推翻。采用“绞杀者模式”或“抽象分支”等模式逐步用新的、设计良好的模块替换旧的平滑过渡。4.3 聚焦迭代效率的核心环节打造“铲子”不必面面俱到优先解决瓶颈最大的环节。对于 AI 研发流程通常有几个关键点实验管理能否一键复现三个月前的任何实验结果包括代码、数据、环境、超参实验记录和对比是否清晰直观数据流水线从原始数据到模型可用的训练样本这个过程是否自动化、可监控、可回溯数据版本如何管理训练流水线资源申请、任务调度、故障自动恢复、训练过程监控Loss、指标、资源消耗、模型 Checkpoint 保存与评估是否形成了一个无缝的闭环超参搜索与评估超参搜索是自动化的吗评估模型性能的流程是否标准、高效、全面从这些环节中挑选一个对你当前团队困扰最大的集中精力打造或引入一个“锋利”的工具其带来的效率提升将是立竿见影的。4.4 培养“产品思维”做基建最好的基础设施应该像最好的产品一样“用户”这里指研究员和算法工程师乐于使用甚至感觉不到它的存在。API 设计即用户体验像设计用户界面一样设计 API。追求一致性、直观性、可预测性。天授的成功很大程度上源于此。文档与示例即 onboarding完善的文档和丰富的、可运行的示例能极大降低使用门槛减少团队内部的沟通成本。可观测性即信任系统运行状态、任务进度、错误日志必须清晰可见。当问题发生时用户能快速定位而不是在黑盒中猜测。5. 结语在淘金热中选择成为更好的工匠AI 的浪潮仍在奔涌每天都有新的“金矿”模型、方向、应用被发现吸引着无数人投身其中。然而历史告诉我们在每一次淘金热中最终获得持久成功和财富的并不总是第一批发现金矿的冒险家而是那些为冒险家们提供可靠工具、运输和服务的工匠。从“天授”到 OpenAI 的 RLHF Infra“造铲子”这件事的内涵从个人效率工具演变为支撑千亿级模型生产的复杂系统工程。但其哲学内核从未改变对“迭代效率”的极致追求对“技术债务”的零容忍以及坚信卓越的工程能力是放大集体智慧的关键杠杆。对于身处这个时代的我们而言无论你是研究员、工程师还是技术负责人或许都应该停下来思考一下你当前的工作是在拥挤的河滩上奋力淘金还是在默默地锻造一把更锋利、更耐用的铲子后者或许没有那么多的即时光环但它所构建的壁垒以及带来的长期价值往往更加坚实和深远。因为当潮水退去金子可能被挖完但人们永远需要更好的工具去开拓新的疆土。