2026年AI增长之星Codex:从开发者工具到通用知识工具的转变之路

2026年AI增长之星Codex:从开发者工具到通用知识工具的转变之路 【Codex2026年AI增长之星】如果问2026年哪个AI产品的增长最令人瞩目「Codex」肯定排在第一位。自今年1月份以来该产品的周活跃用户增长了5倍以上增长曲线很陡目前周活跃用户规模已达500万。其中知识工作者非开发者采用Codex的速度是开发者群体的3倍以上。【增长催化剂桌面App发布】这些陡峭的增长曲线有个重要的催化剂——2月份桌面App的发布。这个桌面版提供了专属、优化的使用界面大幅降低了使用门槛带来了Codex下载和采用量的爆发式增长。【幕后推动者Andrew Ambrosino】在这条陡峭增长曲线背后推动产品形态发生变化的是Codex桌面应用团队负责人Andrew Ambrosino。他同时站在两个快速重叠的世界之间一边是以「写代码」为核心的开发者工具链另一边则是迅速扩张到几乎所有知识工作场景的通用AI工作入口。从产品发布节奏到用户行为变化再到团队内部如何重新定义「设计」「工程」和「产品」的边界他所看到的往往比增长数据本身更接近这场变化的本质。【访谈拆解Codex的改变与未来】接下来这段访谈从他的视角出发去拆解Codex改变了什么、为何与ChatGPT合并以及它未来的迭代方向是怎样的。【成本之变实现变便宜品味变贵】几年前整个产品开发的逻辑是实现很贵所以在动手写代码之前要做大量的事前去风险工作目的是让设计更便宜。但现在这个假设彻底反转了在OpenAI给人们大量的token每个人都有很好的想法所以每个人都在做东西。结果是一个需要做的功能可能有90个不同的团队在同时探索90种不同的实现方式。这意味着实现不再是昂贵的部分那什么变贵了呢Andrew直言不讳是品味更具体地说是策展的过程。当面对这90个不同的尝试时需要有眼光去判断哪些东西做得不错这些应该如何折叠进其他功能里这个东西应该怎么框架化这个切换按钮应该有几个段位这些决策本身才是现在最贵、最需要思考的地方。【品味内涵不止外观】「品味」这个词在硅谷被说烂了但在Andrew这里它有非常具体的含义。有个有趣的段子是Linear的产品负责人曾说有人过度强调品味的美学部分然后举Paul Graham为例——Paul Graham明显品味很好但他穿的是工装裤。这说明品味远不止外观。Andrew把品味的内涵列举出来有美学层面但那只是一部分有系统思维的层面即这个东西如何融入整个系统有方向感的层面这是什么主题的一部分有呈现方式的层面。当然还有一些细节的层面比如这个交互动画是否与它想表达的语义意思相符——它是不是太快速了不适合表达这个概念。但真正的核心品味问题是如果我们能建造任何东西那么我们想要什么这是什么我们如何到达那里这些才是真正的品味问题。它不仅是关于选择做什么也是关于如何展现信息、如何实现目标、使用什么介质。品味是这个新时代里人类大脑仍然最有价值的地方。【AI设计难题为何至今做不好】这是个有趣的悖论Codex在写代码上已经非常强大但当用它生成设计时输出的质量往往平庸。很少能说「哇它完全搞定了」。Andrew认为这背后有几层原因。首先是实际的原因设计比软件更难评分因为评价设计好坏的人类品味本身就是反馈机制的一部分这让训练模型变得困难不像代码很难用客观标准来衡量。其次从研究投入的角度看实验室历来投入最多资源去提升那些能加速AI研究本身的能力。在编码模型早期显然能写正确的代码会加速研究但设计能力好不好对AI研究的加速作用不那么直接。更深层的问题涉及设计工作本身的复杂性设计中有一个文化层面——什么算「好设计」是由文化决定的。去年所有新网站都在复制Linear的设计那是真的好设计有品味。但如果一个模型每次都输出Linear的样子那就不是进步而是失败。设计需要新颖性而软件工程恰恰相反你几乎总是希望代码跟随已知的模式。最难解决的问题在于抽象层当代码驱动视觉设计时两者之间存在着深层的互动。比如左上角的某个东西应该和下面某个地方在代码库中共享相同的抽象。这不仅仅是说模型需要成为更好的设计师而是说模型需要理解这些更深的结构关系——如果公司明天进行品牌重塑浅层的做法是逐个更新263个组件但深层的理解应该是这两个看起来不同的东西在语义上是相同的它们都是列表都有相同的样式都传达相同的交互模式。这种抽象层的理解目前对AI来说仍然遥不可及。【产品时机Codex为何不能提前发】这是一个非常深刻的观察产品的成功不仅取决于设计本身还取决于模型能力的时机。Andrew非常确信如果Codex应用在去年11月就推出它会在市场上彻底失败。而如果在2月推出的同一个产品形状却获得了巨大成功。唯一的变量是中间这几个月模型能力的进步。换句话说产品的交互设计、用户界面、整个概念都没有变但模型智能程度的提升完全改变了结果。这揭示了一个深刻的真相在AI时代产品是否好用、是否有价值不是由UI设计或交互设计单独决定的而是由「模型在这个时刻能做什么」决定的。同一个想法用旧的模型实现可能毫无用处但用新的模型就可能妙趣横生。这也改变了产品规划的方式Andrew在之前的公司看到过这个转变不再是「我们计划全年做什么」而是变成「我们相信模型在什么时间点能做什么让我们列出所有感兴趣的东西为它们全部做原型然后决定哪些现在可以做其他的先放着等待等到模型有新的跨越时再用升级后的模型尝试那些之前搁置的想法」。因为整个功能是否好用的前提不是设计的形状而是模型是否足够聪明。【角色边界工程师、设计师、PM的界限】Lenny提到看Andrew的履历工程师、设计师、产品经理、创业者他都做过现在管着整个桌面App就问设计团队是不是也归他管。Andrew笑说「看哪一周」——汇报关系一直在变但团队一直是紧密坐在一起、彼此嵌入地工作。Andrew说外界已经在讨论「角色坍缩」、说以后不会再分角色了他们团队还没到那一步但角色之间的重叠确实比公司其他部门、甚至整个行业都更明显——一部分原因是Codex本来就是面向工程师的技术型产品团队里的设计师能讲工程师的语言产品经理也能写代码比如另一位产品负责人Alexander就有计算机科学硕士学位Andrew自己反而没有。他认为现在更准确的说法是一个人不再由「设计到哪结束、工程从哪开始」这样的边界定义而是由他平均花时间在做什么来定义——这也跟团队的工作方式有关因为整个App是靠内部「吃自己的狗粮」跑出来的大家都想尽量在App里把事情做完哪怕它暂时还不是做这件事最好的工具这样它才能慢慢变成最好的工具。两人也顺带聊起「member of technical staff」这个头衔的由来Andrew认为最早可能是施乐Xerox开始这么叫的如今在研究驱动型公司里已经算一种传统。Lenny追问这是不是意味着未来大家都会变成不分职能的「builder」PM、设计、工程这些技能分类还会不会存在。Andrew的态度很明确他并不认同彻底取消角色划分。他见过不少公司喊出「取消产品岗位人人都是builder」结果是产品这个专业积累多年的最佳实践、试错经验就因为「我也能写代码」这种想法被当成没用的东西丢掉了。「这不是你的地盘」这种画地为牢式的边界感消失他是欢迎的但每个专业依然有自己的技能门槛——不是谁用用Excel就能去财务部门顶班。他也提到现在换角色确实比以前容易了因为能力不再和「是否精通某个具体工具」死死绑定他自己就曾长期觉得不该做工程师因为不喜欢钻研汇编语言、死记TypeScript语法而这种「精通某个工具才算干得好」的门槛正在瓦解。不过他也提醒这个趋势目前被外界过度夸大了。【前沿开发当下最前沿的AI辅助开发方式】Lenny把话题往回拉了一层从纯人工写代码到AI能写100%的代码再到现在「写代码」变成了「引导AI」——评估一个人写了多少代码几乎变成了「你纠正AI方向纠正了几次」。他问现在最前沿的做法是不是「loop」自主循环开发那些走在最前面的AI团队现在具体是怎么运作的Andrew提到一个本质的问题是「多少代码是AI写的」这个问题本身已经不重要了因为按去年的标准现在几乎100%的代码都是AI写的真正该问的是这些代码是「有监督」写出来的还是「无监督」写出来的这是完全不同的两件事。他说自己乐见这种评判标准不断被刷新因为这恰恰说明产品在往前走。团队做过不少「自主开发软件」方向的探索也包括不少「harness engineering」相关的尝试比如设想让模型在夜里自己跑一遍把代码库做一次「垃圾回收」式的清理。他也坦言目前所有模型都有一个通病——倾向于让代码越改越复杂。他半开玩笑地说如果哪家公司的研究团队正好在听希望能把模型「删代码」的能力练得更好一些。这也是把开发完全交给自动驾驶时会遇到的现实问题人和代码库两头都是如此怎么教模型判断该做哪些功能、该忽略哪些、哪些该合并重新归类怎么教模型搭建正确的抽象结构。这些能力都在变好但他认为目前还做不到「设一个loop让它自己去改进产品同时盯着Twitter、Slack、邮件」这种程度不过团队一直在朝这个方向努力。Lenny追问会不会有一天团队干脆直接给AI设一个「赢」或者「给我赚一个亿」这样的终极目标就完事了。Andrew笑着表示自己不敢把话说死不会轻易断言「永远不会」或者「一定会」。【合并原因为何非得把Codex和ChatGPT合并】Codex最早是命令行工具后来才做成独立App最初定位很明确一个「开发者工具」——不是IDE能看代码但不让编辑代码。App正式对外发布前团队先在OpenAI内部做了一轮试用1 - 2月。工程和研究场景里反馈非常清晰、非常正面。但团队同时发现市场、公关、财务、法务等几乎所有部门的人也在用这个App——尽管它对这些人并不友好界面里全是代码和命令行权限申请根本不是为他们设计的体验。团队一开始的应对是把Codex的能力搬到别的产品界面里比如ChatGPT桌面应用和Atlas浏览器做成更通用的知识工作工具。但结果是没人愿意离开Codex App去用那些「专门」打造的App。这让团队意识到开发者工具和通用知识工具之间的边界正在坍塌Codex和ChatGPT更像是同一个能力的不同入口而不是两类独立产品。团队的结论是这套产品该做成一个足够通用、可扩展的底层能同时承接财务、法务、科学等深度场景。真正的挑战只在于「怎么让它足够通用」——这也是团队对「Codex到底是开发者工具还是干脆就是ChatGPT」这个问题的回答。主持人Lenny由此点出Codex已经做得比ChatGPT App本身更好用、更好玩用户都跑去用它了所以合并是必然方向能避免认知混乱。Andrew笑着回应说有人把这个方向叫做「超级应用」super app他挺后悔当初有人说出这个词因为从那以后他每天都要被这个说法包围。Lenny追问先不叫它「超级应用」但核心思路是不是「用户到一个地方就能把所有事情都做完」还是说这件事目前还没有定论Andrew给出的回答是「home base」大本营这个概念这应该是一个很好的「主场」一个可以让用户追踪自己在不同产品界面上、所有待办事项的地方。有些事情用户可以完全在App内部完成另一些事情App则负责去调用、打开别的应用来完成——比如App可以连接ExcelApp内部确实也内置了一个电子表格编辑器但对于要在OpenAI做几十亿美元规模融资、需要做复杂财务建模的人来说这个内置编辑器可能还远远不够。所以App会直接和用户电脑桌面上的Microsoft Excel插件对话等事情做完用户可以直接把Excel关掉。也就是说这件事从来都不是「我们在屏幕上画一个方框所有事情都必须发生在这个方框里」而是——这个东西应该成为用户的一个「家」你在这里开始工作、结束工作、把工作自动化需要用到什么工具它就去调用什么工具。【应用案例Codex的神奇应用】为了说明这一点Andrew讲了一个具体的故事。Codex App最初发布的时候团队拍了一批宣传视频剪辑这些视频的活儿落在了内部的摄影师身上。结果摄影师全程用Codex剪完了这些视频——这是团队第一次真正意识到「天哪大家居然在用这东西做这种事」的瞬间之一。摄影师会想到用Codex剪视频纯粹是出于好奇就是想看看Codex到底能不能干这件事。Codex本身完全不是一个视频编辑器界面里也没有任何剪辑相关的UI但它能理解摄影师用的是Premiere Pro并且能通过直接编辑Premiere Pro背后、支撑屏幕显示内容的工程文件完成一部分剪辑操作——只是这样还不能覆盖所有需求。于是Codex接下来做的事是给自己写了一个可以装进Premiere Pro里的扩展插件然后通过这个插件和Premiere Pro「对话」——「嘿Premiere Pro扩展能不能帮我把这个标记点改一下。」团队第一次看到这个过程真实发生的时候都觉得这事儿太不可思议了。【未来模式Codex与ChatGPT的发展方向】由此Andrew总结出了一个模型这个世界上已经存在大量在各自领域里做到极致的专业工具Codex——现在要加上ChatGPT——想要同时做两件事。第一件事是如何和用户已经在用的这些工具无缝协作团队不需要重新造一个更好的视频编辑器而是让Codex和ChatGPT学会使用现成的工具——能和它交互、把任务交接给它这通常是通过connectors连接器、computer use电脑操作能力或者像Premiere Pro这个案例一样通过扩展插件来实现。第二件事则是Dan Shipper提到过的那种设想用户手里已经有一堆可以点来点去使用的网页应用但希望能把这些应用在Codex里直接打开让Codex在里面替他们多做一些事情。这两种模式几乎互为镜像团队目前正在同时大力推进这两条线。