“龙虾”们正在改造机器人，具身智能的下一步是什么？-尧图企业网站定制

AI正在加速进入物理世界并开始改变具身智能机器人原有的运行方式。在3月的OpenClaw火热出圈之前开发者社区中已经有人将Agent接入机器人并跑通了从指令到执行的完整链路。有开发者把OpenClaw接入了一台真实的机器人。通过ROS 2机器人操作系统框架和WebRTC实时通信技术用户在Telegram或Discord上发一条消息远在另一端的机器人就能接收指令读取摄像头和传感器的信息并在现实世界里完成抓取、移动等操作。这个项目在2月OpenClaw Hackathon面向开发者的应用开发竞赛中拿下了冠军。这类项目深远的意义在于机器人不再只是一个“被编程的执行体”开始成为一个由 Agent 驱动的“自主行动系统”。实际上Agent接入机器人的探索就已经在行业中展开并出现了一批具体的实践案例。在海外包括Google DeepMind、OpenAI以及特斯拉等厂商已经在尝试将大模型能力引入机器人系统让机器人能够理解自然语言指令并在真实环境中完成操作同时英伟达等公司也在持续推进相关平台与工具建设推动AI能力更容易接入真实设备。在国内包括宇树科技、大晓机器人等在内的一批厂商也已经开始探索将大模型与机器人系统结合在真实场景中进行探索和落地尝试。当Agent开始接管“身体”具身智能机器人的核心驱动因素正在发生怎样的变化这一轮由Agent引发的重构究竟会把机器人产业带向哪里新的竞争将围绕什么展开在博鳌亚洲论坛2026年年会上商汤联合创始人、大晓机器人董事长王晓刚在会后交流中表示具身智能正在经历一轮底层范式的重构——从以机器为中心的研发方式转向“以人为中心”更加依赖真实世界数据的研发体系。这不仅会改变技术路线也将重塑整个产业的竞争逻辑。商汤联合创始人、大晓机器人董事长王晓刚围绕Agent时代下具身智能的范式变化、技术路径、成本结构及产业格局等关键问题王晓刚做了逐一解答以下为交流实录精华内容Q随着AI从工具辅助角色走向具备执行能力的Agent具身智能机器人的核心驱动力是否正在发生变化王晓刚随着AI进入Agent时代具身智能机器人正在经历一轮底层范式的变化。首先是数据获取方式的重构。我们提出了一种新的研究范式——“环境式数据采集Ambient Data Collection”。过去的数据采集是“以机器为中心”主要依赖人在实验室中操作设备、构建场景而现在正转向“以人为中心”通过让大量真实用户在真实生产生活环境中穿戴传感器来采集数据。这使数据来源从封闭场景走向开放世界规模也从有限采集跃迁到大规模分布式采集。这种变化直接带来了数据量级的跃升。过去几年行业积累的机器人训练数据大约在10万小时量级而在未来一到两年内我们判断有机会达到千万小时量级增长达到数百倍。这不仅会显著提升模型的泛化能力也会同步拉动对算力与存储基础设施的需求成为行业新的基础变量。其次是产业链重心的变化。随着数据和模型的重要性不断上升具身智能的竞争正在从“硬件能力”逐步转向“模型能力数据能力”的综合竞争。谁能够构建更具规模和质量的数据体系谁的模型生态更具影响力谁就更有可能在行业中占据主导地位。最后是算力体系与生态的重构。未来国产算力将逐步成为重要支撑这要求模型从设计之初就具备良好的适配能力。在这一背景下模型与芯片之间的协同将更加紧密模型影响力也将反过来影响算力生态的选择。因此我们选择开源“开悟”世界模型3.0一方面是为了推动开发者生态的形成另一方面也是为了更好地完成对国产算力体系的适配与协同。整体来看Agent时代带来的不仅是能力的提升更是从数据、模型到算力的系统性重构具身智能的行业格局也将因此进入新一轮洗牌阶段。Q从技术路线来看Agent时代与过去相比发生了哪些关键变化具身智能正在向什么方向演进王晓刚过去的主流路线是基于“机器中心”的数据采集方式结合VLAVision-Language-Action模型——给定一个指令模型直接输出机器人的动作参数或结构参数本质上是一种从“指令到动作”的映射但对真实物理世界的理解是相对有限的。而现在我们正在转向一条新的技术路径——“环境式数据采集世界模型”。所谓世界模型本质上是让模型去学习人类在真实环境中与世界交互的物理规律和行为逻辑而不仅仅是完成指令到动作的映射。沿着这条路线继续演进我们认为具身智能有机会迎来类似ChatGPT那样的“关键跃迁时刻”实现从可用到真正可规模化应用的跨越。从短期来看这两种路线更可能是协作关系。世界模型更像“大脑”具备较强的预测和推理能力。当机器人接收到复杂任务时世界模型会先在“脑海”中预演可能发生的场景并进行规划在执行具体动作时则可以调用VLA模型完成操作。如果执行结果与世界模型的预测不一致就会再次调用世界模型进行重新规划。这种“规划执行”的分工是短期内比较现实的技术路径。但从长期来看随着能力的提升世界模型有可能逐步吸收VLA的能力实现一体化。Q在这一变化中数据体系也在发生调整。训练机器人“世界模型”与VLA模型在数据来源上有哪些关键差异王晓刚训练世界模型通常需要三类数据。第一类是互联网中的图像和文本数据这些数据包含了大量物理规律相当于“读书”帮助模型学习物理定律以及人的行为逻辑但仅靠这一类数据是不够的。第二类是人类在真实环境中的行为数据包括人是如何工作、生活以及与物理环境进行交互的这是具身智能能力形成的关键基础。第三类是少量的真机数据。因为即便模型已经理解了物理世界、也知道人是如何完成任务的最终仍然需要将这些能力映射到具体机器人的参数体系上。相比之下VLA模型主要依赖真机数据这一类路径更直接但在泛化能力上存在一定限制。Q在“人形机器人的进阶与飞跃”分论坛上几位参加也谈到具身智能的“ChatGPT时刻”对于机器人实现跃迁时刻的行业判断存在分歧。有的嘉宾认为两年即可实现也有人认为需要十年。您如何理解的王晓刚大家对“ChatGPT时刻”的理解和侧重点不完全一样。比如认为需要十年的人更多是指机器人在现实世界中的大规模落地比如进入家庭这确实可能需要五年到十年甚至更长时间。而我们所说的“ChatGPT时刻”更侧重于具身智能“大脑”的突破即模型在通用性和泛化能力上实现跃迁出现类似“智能涌现”的阶段让技术路径具备高度确定性。就像ChatGPT在2022年底刚推出时虽然并不完美但已经验证了一件事只要持续扩大数据规模和算力规模能力就会持续提升路径是清晰的。在具身智能领域也是类似。我们期待的不是系统已经完全成熟而是能够验证这条路径是“可行且可放大的”。其中一个关键前提是数据规模的突破。当具备大量真实人类行为数据后才有可能训练出真正具备通用能力的具身大脑。Q在Agent时代的新范式下具身智能的成本结构会发生哪些变化主要体现在哪些环节王晓刚过去的研发范式是针对不同机器人分别采集数据、训练模型本体之间难以通用。今年为一种机器人积累的数据和模型到明年更换本体往往需要重新来过这种方式不可持续。同时传统的数据采集依赖人为操作机器完成效率较低也脱离真实生产生活场景。而在新的范式下通过环境式数据采集数据可以在真实场景中自然产生——例如保洁人员、产线工人在日常工作过程中就同步完成了数据采集不需要额外成本。这将显著降低数据采集成本同时随着数据规模和通用性的提升也会进一步降低模型训练成本。Q在OpenClaw这类Agent框架上大晓机器人做了哪些探索在将其引入物理世界的过程中安全问题是如何考虑的王晓刚我们的一个重要方向就是将OpenClaw类工具从数字世界延伸到物理世界。为此我们构建了一个机管平台用于统一控制多台机器人。同时在平台中引入强化学习机制让机器人在不同场景空间中持续探索并完成任务通过反馈不断加速学习过程。在安全方面机管平台的核心作用是实现“安全隔离”。平台连接的是各种用户需求如果将这些需求直接作用到机器人上可能会带来不可预期的风险。通过机管平台这一中间层可以将用户需求与机器人执行过程进行分离确保只有经过验证的、安全可靠的任务才会被下发执行。Q在Agent能力引入之后具身智能机器人的商业模式会发生哪些变化对于收费方式是如何考虑的王晓刚目前我们的核心商业模式仍然是软硬一体的产品形态即提供机器人本体加上“大脑”用于解决具体场景中的问题例如零售、职场办公等。在此基础上我们选择将世界模型开源是希望扩大技术影响力让更多开发者参与进来并在行业中逐步形成标准。只有开源之后大家才能真实使用、反馈问题并推动模型不断迭代优化最终形成统一的技术生态。Q在Agent驱动的新阶段中美在技术路径和产业推进上有哪些差异中国厂商的机会在哪里王晓刚从技术路线来看其实变化是非常快的。例如特斯拉自身也在不断调整路径从以真机数据为主逐步转向以人为中心的数据采集方式。从另一个角度看中美之间的差异更多体现在场景层面。中国具备更丰富的应用场景同时地方政府对机器人产业的支持力度较大能够帮助企业快速进入不同场景积累多样化的数据这对于模型能力的提升非常关键。相比之下美国更多依赖少数大型企业通过自上而下的方式完成数据积累。Q从应用落地来看人形机器人进入家庭还需要经历哪些阶段哪些类型的产品可能最先实现规模化落地王晓刚人形机器人进入家庭仍需要较长时间。如果是类似玩具的陪伴型机器人由于对安全性要求较低可能会更早落地。但一旦涉及实际操作任务家庭场景的复杂性和安全要求都会显著提高例如必须确保不会对老人和儿童造成伤害。此外相关的技术问题、法律法规以及伦理问题也仍需进一步完善。因此当前更现实的路径是先在to B的垂直场景中落地在验证技术成熟度和安全性之后再逐步进入家庭场景。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

相关新闻

5种实战技巧：用Python处理机器学习中的稀疏特征（附代码）

Duix.Avatar：如何在本地构建专业级数字人视频生成系统

深入解析DoIP协议：基于以太网的UDS诊断通信实践指南

别再只会用MessageBox.Show了！WinForm弹窗的8种图标和按钮组合实战指南

零代码搭建电流监测系统：ACS712传感器与Visuino可视化编程实战

DIY短波天线调谐电路：从LC谐振原理到实战制作全解析

从零到量产：用一颗IP5306搞定你的便携设备电源系统（充电、升压、电量显示全集成）

金融机器学习中的虚假可预测性：证伪审计框架与选择偏差量化

别再硬写width了！手把手教你用CSS搞定el-select自适应宽度（含placeholder过长处理）

大模型是“大脑“ Agent是“四肢“：AI智能体如何让AI从“空想家“变“实干家“？

AzurLaneAutoScript：碧蓝航线智能自动化脚本，彻底解放你的游戏时间

这次终于选对了！降AIGC工具测评：2026 最新好用推荐与对比分析

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势