奥特曼同时亮出两张底牌机器人团队重启手机APP被他亲手干掉6月1日OpenAI做了两件事。第一件正式宣布成立OpenAI Robotics部门由DALL-E和Sora的核心创建者Aditya Ramesh挂帅。第二件在Voice Hack Night活动上一支团队现场演示了一款Agentic操作系统原型——手机上没有APP没有应用商店所有界面由AI实时生成。一天之内奥特曼同时向两个方向开炮物理世界的机器人数字世界的手机操作系统。两张牌摆上台面目标是同一个——让AI从回答问题变成替你做事。Ramesh带队赌的是大脑比身体值钱把DALL-E和Sora的创建者放在机器人部门VP的位置上OpenAI下了一个很明确的注——机器人最难的部分不是硬件是大脑。Ramesh自己说目标是将视频生成模型的智能带到物理世界。说白了就是Sora学会了理解物理世界的运动规律现在要把这种理解塞进机器人的控制回路。2021年解散团队的核心瓶颈是什么训练数据不够。5年后世界模型给了另一条路不用从真实世界一点一点采集数据了Sora这样的视频模型可以高效模拟物理场景批量生成训练数据。思路变了结论也变了数据瓶颈不是无解是你之前的解法不够好。跟Figure闹翻之后2026年初OpenAI跟人形机器人公司Figure的合作公开破裂。Figure说自己取得了重大突破要垂直整合不需要外部AI了。OpenAI的回应就四个字那我自己做。背后有个判断值得注意当AI能力足够强把物理世界的执行外包给硬件公司是不够的。你得同时捏着大脑和身体才能保证系统级的一致性和迭代速度。Figure、1X、Physical Intelligence……赛道已经很挤了。OpenAI直接下场前合作伙伴全变竞争对手。底牌二没有APP的手机UI实时生成OpenAI Voice Hack Night上展示的Agentic操作系统原型核心设计理念四个字UI即系统。传统手机的交互点击APP图标 → 进入固定界面 → 在预设框架内操作。这个原型说话 → AI理解意图 → 端侧模型即时生成界面 → 复杂推理甩给云端GPT。没有APP安装没有应用商店没有固定界面。你看到的每一个界面都是AI根据你当前的意图实时画出来的。技术架构拆解根据现场演示这套系统分三层跑端侧小模型负责实时生成UI。你说了什么屏幕上立刻画出对应的操作界面。延迟目标毫秒级所以不能用云端大模型——等网络往返一秒用户体验就废了。云端GPT负责重推理。端侧画好界面后你要做的事如果需要深度思考写一封措辞讲究的邮件、规划一个多日行程这部分交给云端。交互以语音为主不是触屏点击。这是Agentic的核心——你告诉AI你要什么AI替你做完不用自己一步步操作界面。2027年量产是目前的说法。但原型到量产之间隔着硬件适配、端侧模型压缩、电池续航、网络延迟一堆事。两张牌为什么必须同时打机器人项目和手机操作系统项目表面上看风马牛不相及但底层在干同一件事——让AI从你问我答变成你说我干。ChatGPT回答问题是被动响应。Devin替你写代码、机器人替你搬箱子、手机替你叫车订餐这是主动执行。主动执行需要三个环节咬合AI得先听懂你要什么感知再把目标拆成可执行的步骤规划最后真的动手干完执行。手机操作系统补的是数字世界的执行——AI替你操作各种线上服务。机器人补的是物理世界的执行——AI替你搬东西、开门、拧螺丝。两个方向同时推OpenAI想做的事很清楚在听懂→想清楚→干完这条链路上每个环节都有自己的产品。对开发者的实际影响手机端开发者该紧张了。UI即系统如果成真传统APP开发模式直接掀桌。不用再为每个平台写原生代码、做UI适配、提交应用商店审核。你要做的事变成训练AI理解你的服务让AI在用户需要的时候自动生成交互界面。机器人领域的开发者可以期待一件事OpenAI Robotics很可能开放AI大脑的API接口。就像OpenAI API降低了语言模型的使用门槛机器人API可能让任何硬件团队都能接入OpenAI的智能控制层。还有一点值得所有人注意2021年OpenAI解散机器人团队时理由是数据不够。5年后他们换了思路——不是等真实世界的数据而是用世界模型自己造数据。这个思路如果跑通影响的不仅是机器人是整个AI落地的数据瓶颈问题。两张底牌同一天亮出来赌的是一个判断AI的下一站不是更聪明的聊天机器人而是替你干活的智能体。数字世界和物理世界两条路同一个终点。
奥特曼同时亮出两张底牌:机器人团队重启,手机APP被他亲手干掉
奥特曼同时亮出两张底牌机器人团队重启手机APP被他亲手干掉6月1日OpenAI做了两件事。第一件正式宣布成立OpenAI Robotics部门由DALL-E和Sora的核心创建者Aditya Ramesh挂帅。第二件在Voice Hack Night活动上一支团队现场演示了一款Agentic操作系统原型——手机上没有APP没有应用商店所有界面由AI实时生成。一天之内奥特曼同时向两个方向开炮物理世界的机器人数字世界的手机操作系统。两张牌摆上台面目标是同一个——让AI从回答问题变成替你做事。Ramesh带队赌的是大脑比身体值钱把DALL-E和Sora的创建者放在机器人部门VP的位置上OpenAI下了一个很明确的注——机器人最难的部分不是硬件是大脑。Ramesh自己说目标是将视频生成模型的智能带到物理世界。说白了就是Sora学会了理解物理世界的运动规律现在要把这种理解塞进机器人的控制回路。2021年解散团队的核心瓶颈是什么训练数据不够。5年后世界模型给了另一条路不用从真实世界一点一点采集数据了Sora这样的视频模型可以高效模拟物理场景批量生成训练数据。思路变了结论也变了数据瓶颈不是无解是你之前的解法不够好。跟Figure闹翻之后2026年初OpenAI跟人形机器人公司Figure的合作公开破裂。Figure说自己取得了重大突破要垂直整合不需要外部AI了。OpenAI的回应就四个字那我自己做。背后有个判断值得注意当AI能力足够强把物理世界的执行外包给硬件公司是不够的。你得同时捏着大脑和身体才能保证系统级的一致性和迭代速度。Figure、1X、Physical Intelligence……赛道已经很挤了。OpenAI直接下场前合作伙伴全变竞争对手。底牌二没有APP的手机UI实时生成OpenAI Voice Hack Night上展示的Agentic操作系统原型核心设计理念四个字UI即系统。传统手机的交互点击APP图标 → 进入固定界面 → 在预设框架内操作。这个原型说话 → AI理解意图 → 端侧模型即时生成界面 → 复杂推理甩给云端GPT。没有APP安装没有应用商店没有固定界面。你看到的每一个界面都是AI根据你当前的意图实时画出来的。技术架构拆解根据现场演示这套系统分三层跑端侧小模型负责实时生成UI。你说了什么屏幕上立刻画出对应的操作界面。延迟目标毫秒级所以不能用云端大模型——等网络往返一秒用户体验就废了。云端GPT负责重推理。端侧画好界面后你要做的事如果需要深度思考写一封措辞讲究的邮件、规划一个多日行程这部分交给云端。交互以语音为主不是触屏点击。这是Agentic的核心——你告诉AI你要什么AI替你做完不用自己一步步操作界面。2027年量产是目前的说法。但原型到量产之间隔着硬件适配、端侧模型压缩、电池续航、网络延迟一堆事。两张牌为什么必须同时打机器人项目和手机操作系统项目表面上看风马牛不相及但底层在干同一件事——让AI从你问我答变成你说我干。ChatGPT回答问题是被动响应。Devin替你写代码、机器人替你搬箱子、手机替你叫车订餐这是主动执行。主动执行需要三个环节咬合AI得先听懂你要什么感知再把目标拆成可执行的步骤规划最后真的动手干完执行。手机操作系统补的是数字世界的执行——AI替你操作各种线上服务。机器人补的是物理世界的执行——AI替你搬东西、开门、拧螺丝。两个方向同时推OpenAI想做的事很清楚在听懂→想清楚→干完这条链路上每个环节都有自己的产品。对开发者的实际影响手机端开发者该紧张了。UI即系统如果成真传统APP开发模式直接掀桌。不用再为每个平台写原生代码、做UI适配、提交应用商店审核。你要做的事变成训练AI理解你的服务让AI在用户需要的时候自动生成交互界面。机器人领域的开发者可以期待一件事OpenAI Robotics很可能开放AI大脑的API接口。就像OpenAI API降低了语言模型的使用门槛机器人API可能让任何硬件团队都能接入OpenAI的智能控制层。还有一点值得所有人注意2021年OpenAI解散机器人团队时理由是数据不够。5年后他们换了思路——不是等真实世界的数据而是用世界模型自己造数据。这个思路如果跑通影响的不仅是机器人是整个AI落地的数据瓶颈问题。两张底牌同一天亮出来赌的是一个判断AI的下一站不是更聪明的聊天机器人而是替你干活的智能体。数字世界和物理世界两条路同一个终点。