目录9.1 具身智能平台的分类与格局9.2 人形机器人平台9.2.1 特斯拉Optimus9.2.2 Figure AI系列9.2.3 宇树科技H1/G19.2.4 其他重要人形机器人9.3 移动操控机器人平台9.3.1 Mobile ALOHA9.3.2 Hello Robot Stretch9.3.3 TIAGo系列9.4 桌面操作机器人平台9.4.1 Franka Emika Panda9.4.2 Universal Robots UR系列9.4.3 低成本开源机械臂9.5 灵巧手平台9.5.1 Shadow Hand9.5.2 LEAP Hand与低成本灵巧手9.5.3 特斯拉Optimus手与Figure手9.6 具身智能软件系统9.6.1 机器人操作系统ROS/ROS29.6.2 具身智能中间件9.6.3 学习型控制框架9.7 具身智能数据基础设施9.7.1 数据收集系统9.7.2 大规模数据集9.7.3 数据标准化与共享博主智算菩萨专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术从零基础入门到高阶实战陪伴开发者共同成长。目前已开设五大技术专栏累计发布多篇原创技术文章深受读者好评。 专栏导航人工智能前沿知识已更144篇深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体Agent技术系统性解析AI核心技术体系与前沿趋势。Python基础小白编程已更232篇从零开始以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法配有大量实战代码与避坑指南真正做到学以致用。机器学习与深度学习125篇系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践覆盖从公式推导到代码实现的全链路内容。音频、图像与视频处理理论与实战81篇涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术从基础操作到高级应用一应俱全。UI窗体程序设计实战78篇深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧提供从配置到编码的完整解决方案。智算菩萨以代码为经以算法为纬在人工智能的星辰大海中做你前行路上最可靠的导航者。本人最常用的AI对话工具是AIGCBAR。9.1 具身智能平台的分类与格局具身智能平台是承载智能算法的物理或虚拟载体是具身智能从理论走向应用的关键基础设施。根据形态和功能的不同具身智能平台可以分为以下几类人形机器人——具有类人形态的全能型平台目标是替代人类执行各种物理任务移动操控机器人——结合移动底盘和机械臂的实用型平台适合物流和服务场景桌面操作机器人——固定基座的机械臂适合研究和工业应用四足/双足机器人——以运动能力见长的平台适合复杂地形和巡检场景灵巧手平台——以精细操作见长的平台适合研究和精密操作。当前具身智能平台的发展呈现出两极分化的趋势一极是以特斯拉Optimus为代表的人形机器人追求通用性和全能性另一极是以专业服务机器人为代表的专用平台追求特定场景的极致性能。两极之间移动操控机器人作为中间路线正在快速发展在仓储物流、工厂巡检和医疗服务等场景中展现出实用价值。下表总结了当前主要具身智能平台的分类与代表平台类型代表产品自由度核心能力应用场景人形机器人Optimus, Figure 0240全能操作移动制造、服务、家庭移动操控Mobile ALOHA, Stretch7-15移动操作物流、服务、实验室桌面操作UR5e, Franka, xArm6-7精细操作工业、研究、医疗四足机器人Unitree Go2, Spot12-20全地形移动巡检、救援、娱乐灵巧手Shadow Hand, LEAP16-24精细操控研究、精密装配9.2 人形机器人平台9.2.1 特斯拉Optimus特斯拉Optimus也称Tesla Bot是当前最受关注的人形机器人项目。Optimus于2021年8月首次公布概念2022年9月展示原型机2023年底展示Gen-2版本。Optimus Gen-2身高约1.73米体重约57公斤具备28个自由度的身体和11个自由度的灵巧手行走速度可达8公里/小时。Optimus的核心技术特点包括基于特斯拉FSDFull Self-Driving的视觉感知系统——复用自动驾驶的视觉感知技术进行环境理解端到端神经网络控制——使用神经网络直接从传感器输入生成关节控制命令大规模数据训练——利用特斯拉工厂中的实际操作数据训练操作策略自研执行器——包括线性执行器和旋转执行器提供高力矩密度。2024年以来Optimus在特斯拉工厂中开始执行简单的物料搬运任务展示了从实验室到工厂的初步落地能力。马斯克预测Optimus将在2025年开始限量生产长期目标是年产数百万台售价降至2万美元以下。9.2.2 Figure AI系列Figure AI成立于2022年专注于人形机器人的开发。Figure 01于2023年发布2024年展示了与OpenAI合作的语言驱动操作能力——Figure 01能够理解自然语言指令推理任务步骤并执行操作。Figure 01的核心亮点是将大语言模型的推理能力与机器人控制结合实现了说做一致的交互体验。Figure 02于2024年8月发布在硬件和软件上全面升级。Figure 02的改进包括第四代灵巧手——16个自由度可承载25公斤改进的视觉系统——6个RGB摄像头提供360度视觉感知更长的电池续航——5小时运行时间更自然的运动——改进的步态控制和全身运动规划。Figure AI与BMW的合作标志着人形机器人进入汽车制造场景。Figure 02在BMW工厂中进行物料搬运和车身检查等任务的试点探索人形机器人在工业生产中的实际应用。9.2.3 宇树科技H1/G1宇树科技Unitree是中国人形机器人领域的领军企业。H1于2023年发布是国内首款实现全尺寸人形机器人后空翻的产品展示了强大的运动控制能力。H1身高约1.8米重量约47公斤具备360牛·米的膝关节力矩行走速度可达3.3米/秒。G1于2024年发布是H1的小型化版本身高约1.27米重量约35公斤售价9.9万元人民币起是目前最便宜的全功能人形机器人之一。G1的定位是科研和教育市场为学术界提供可负担的人形机器人研究平台。G1支持力位混合控制、全身运动规划和灵巧操作具备较强的二次开发能力。9.2.4 其他重要人形机器人Agility Robotics的Digit是专注于物流场景的双足机器人已在亚马逊仓库中进行试点。Digit的核心特点是下半身采用鸵鸟式腿设计提供出色的移动效率和稳定性上半身可执行搬运操作。Boston Dynamics的Atlas是运动能力最强的人形机器人2024年发布的电动版Atlas展示了前所未有的运动灵活性——能够从地面自主站立、执行复杂的全身运动和跌倒后恢复。Atlas目前主要作为研究平台尚未商业化。1X Technologies的NEO是面向家庭场景的人形机器人设计理念是安全、柔软和亲和——NEO的外壳采用软质材料运动速度受限避免对人类造成伤害。NEO的目标是成为家庭助手执行清洁、整理和陪伴等任务。Apptronik的Apollo是NASA衍生公司开发的人形机器人在汽车制造和物流场景中进行试点。Apollo的设计注重模块化和可维护性支持快速更换部件和升级。9.3 移动操控机器人平台9.3.1 Mobile ALOHAMobile ALOHAMobile A Low-cost Open-source Hardware System for Bimanual Teleoperation是Stanford于2024年发布的低成本移动双臂操作平台。Mobile ALOHA在ALOHA双臂操作平台的基础上增加了移动底盘使机器人能够在厨房、实验室等场景中移动并执行操作任务。Mobile ALOHA的核心特点包括低成本——整机成本约3.2万美元远低于商用移动操控机器人开源——硬件设计和软件代码完全开源支持社区复现和改进双臂协同——支持双臂协同操作执行复杂操作任务如烹饪、清洁移动操作——结合移动和操作能力在多位置执行任务。Mobile ALOHA使用ACTAction Chunking with Transformers进行模仿学习从人类远程操作数据中学习操作策略。实验表明Mobile ALOHA可以学习超过50种操作技能包括炒菜、洗碗、整理物品等家庭日常操作。9.3.2 Hello Robot StretchStretch是Hello Robot开发的低成本移动操控机器人专为家庭和研究场景设计。Stretch的核心特点是简洁——单臂设计、伸缩式躯干、小巧的移动底盘整机重量仅23公斤可以在家庭环境中灵活移动。Stretch RE22023年发布配备了1-DOF夹爪、RGB-D相机和激光雷达支持导航和操作任务。Stretch的开源ROS2软件栈和Python API使其易于编程和扩展。Stretch已被多个研究机构用于家庭服务机器人的研究。9.3.3 TIAGo系列PAL Robotics的TIAGo系列是学术和工业领域广泛使用的移动操控平台。TIAGoTake It And Go结合了移动底盘、7-DOF机械臂和可伸缩躯干支持导航、操作和人机交互等多种任务。TIAGo配备了双臂支持双臂协同操作。TIAGo的模块化设计允许用户根据需求选择不同的传感器和末端执行器配置。TIAGo在欧盟多个机器人研究项目中被使用是欧洲具身智能研究的主要平台之一。9.4 桌面操作机器人平台9.4.1 Franka Emika PandaFranka Emika Panda是具身智能研究中最流行的7-DOF机械臂之一以其力控能力和易用性著称。Panda支持7-DOF关节力矩控制可以执行柔顺操作和接触丰富的任务。Panda的ROS接口和Franka ROS包使其易于集成到具身智能系统中。Panda在学术研究中的使用量仅次于UR系列在操作学习、人机协作和灵巧操控等方向被广泛使用。Panda的力控能力使其特别适合需要力反馈的操作任务如插入、装配和柔顺操作。9.4.2 Universal Robots UR系列Universal Robots的UR系列UR3e、UR5e、UR10e、UR16e是工业协作机器人的市场领导者以其安全性和易用性著称。UR系列支持力控和碰撞检测可以在无围栏的环境中与人类协同工作。UR系列在具身智能研究中的主要用途是作为操作平台——许多VLA模型如RT-1、RT-2使用UR系列机械臂进行真实世界评估。UR5e是最常用的型号其5公斤的有效载荷覆盖了大多数桌面操作任务。9.4.3 低成本开源机械臂近年来低成本开源机械臂的发展降低了具身智能研究的硬件门槛。xArm系列UFACTORY提供了6-DOF和7-DOF版本价格从数千美元起支持ROS和Python控制。Koch Robotics的LEAP Hand是低成本灵巧手16个自由度价格约2000美元为灵巧操控研究提供了可负担的平台。9.5 灵巧手平台9.5.1 Shadow HandShadow Dexterous Hand是世界上最先进的仿人灵巧手具有24个自由度和20个可独立控制的关节。Shadow Hand的每个手指都有4个自由度3个弯曲1个外展拇指有5个自由度能够复现人类手的大部分运动能力。Shadow Hand在灵巧操控研究中被广泛使用OpenAI的Dactyl项目使用Shadow Hand实现了魔方操控。Shadow Hand的力/触觉传感器提供丰富的触觉信息支持基于触觉的操作研究。Shadow Hand的主要局限是成本高昂约10万美元和维护复杂。9.5.2 LEAP Hand与低成本灵巧手LEAP HandLow-cost, Efficient, Anthropomorphic, Programmable Hand是CMU开发的低成本灵巧手16个自由度使用业余舵机驱动成本约2000美元。LEAP Hand的设计目标是使灵巧操控研究不再受限于昂贵的硬件为学术界提供可负担的研究平台。LEAP Hand v2进一步改进了设计增加了力传感和更好的手指运动学。LEAP Hand在旋转笔、抛球和物体操控等任务上展示了接近Shadow Hand的操作能力但成本仅为后者的2%。9.5.3 特斯拉Optimus手与Figure手特斯拉Optimus Gen-2的灵巧手具有11个自由度采用腱绳驱动可承载约10公斤。Optimus手的设计注重实用性和可制造性目标是大规模生产而非极致性能。Figure 02的灵巧手具有16个自由度可承载25公斤。Figure手的设计注重力控精度和操作灵活性支持精细操作如使用工具和强力操作如搬运重物。9.6 具身智能软件系统9.6.1 机器人操作系统ROS/ROS2机器人操作系统Robot Operating System, ROS是具身智能最基础的软件平台提供了硬件抽象、设备驱动、进程间通信和软件包管理等功能。ROS22017年发布在ROS的基础上引入了实时性、安全性和分布式计算支持成为当前具身智能系统的标准软件框架。ROS2在具身智能中的核心作用包括硬件接口——通过驱动包连接各种传感器和执行器感知处理——通过感知包处理传感器数据导航框架——Nav2提供完整的导航解决方案运动规划——MoveIt2提供运动规划和碰撞检测仿真集成——与Gazebo、Isaac Sim等仿真器无缝集成。9.6.2 具身智能中间件具身智能中间件是连接高层AI决策和底层机器人控制的软件层负责将AI模型的输出转化为机器人可执行的控制命令。主要的具身智能中间件包括MoveIt2最流行的运动规划框架提供碰撞检测、运动规划和轨迹执行功能。MoveIt2支持多种规划算法如RRT、PRM、CHOMP和多种机器人平台。Nav2ROS2的标准导航框架提供全局路径规划、局部路径规划、代价地图和恢复行为等功能。Nav2支持多种规划器和控制器可适配不同场景。OpenRAVE开源的机器人规划框架提供运动规划、逆运动学和碰撞检测等功能。OpenRAVE在学术研究中被广泛使用特别是在操作规划领域。9.6.3 学习型控制框架学习型控制框架将深度学习模型集成到机器人控制流程中支持端到端的感知-决策-行动。主要的学习型控制框架包括RoboMimicNVIDIA开发的模仿学习框架支持BC、BC-RNN、HBC和IRL等多种模仿学习算法。RoboMimic与MuJoCo和Isaac Gym集成支持从仿真到真实的完整流程。Stable Baselines3强化学习的标准框架提供PPO、SAC、TD3等算法的高质量实现。Stable Baselines3与Gymnasium接口兼容支持各种具身AI环境。LeRobotHuggingFace开发的具身智能框架提供VLA模型训练、数据收集和部署的完整工具链。LeRobot支持ACT、Diffusion Policy等模仿学习方法与ALOHA等硬件平台集成。9.7 具身智能数据基础设施9.7.1 数据收集系统具身智能的数据收集是训练VLA模型和模仿学习策略的基础。当前的数据收集方式主要包括远程操作Teleoperation人类通过VR控制器、空间鼠标或主从臂远程操作机器人记录操作轨迹。ALOHA系统使用主从臂架构操作者移动主臂从臂跟随运动实现直觉式的远程操作。Kinesthetic Teaching人类直接握住机器人手臂引导运动机器人记录关节轨迹。这种方式简单直观但精度有限且需要力控能力。演示视频从人类操作视频中提取动作信息无需机器人参与。这种方式数据来源广泛但需要解决视角差异和动作提取的挑战。9.7.2 大规模数据集具身智能的大规模数据集正在快速发展为VLA模型和基础模型的训练提供数据支撑。主要的数据集包括Open X-EmbodimentOXE34个机构贡献的跨机器人操作数据集包含22个机器人平台的超过100万回合操作数据。OXE是目前最大的跨机器人操作数据集。DROIDDistributed Robot Interaction Dataset由多个机构协作收集的大规模操作数据集包含约76,000个回合的机器人操作数据覆盖多种任务和场景。Bridge Data V2大规模操作数据集包含约24,000个回合的桌面操作数据覆盖13个技能类别。Bridge Data V2使用 WidowX250 机械臂收集是VLA模型训练的重要数据源。9.7.3 数据标准化与共享具身智能数据的标准化和共享是加速领域发展的关键。RLDSReinforcement Learning Datasets格式定义了标准化的数据表示支持异构机器人数据的统一存储和访问。HuggingFace LeRobot平台提供了数据集托管和共享服务使研究者可以方便地上传、下载和使用操作数据集。具身智能平台与系统是连接算法与物理世界的桥梁。从特斯拉Optimus的通用愿景到Mobile ALOHA的开源实践从Shadow Hand的精密操控到LEAP Hand的低成本创新从ROS2的基础设施到LeRobot的学习型框架平台与系统的不断进步正在降低具身智能的研究门槛加速从实验室到应用的转化进程。
具身智能研究现状与未来前景(九):典型平台与系统——从人形机器人到具身智能操作系统的全景扫描
目录9.1 具身智能平台的分类与格局9.2 人形机器人平台9.2.1 特斯拉Optimus9.2.2 Figure AI系列9.2.3 宇树科技H1/G19.2.4 其他重要人形机器人9.3 移动操控机器人平台9.3.1 Mobile ALOHA9.3.2 Hello Robot Stretch9.3.3 TIAGo系列9.4 桌面操作机器人平台9.4.1 Franka Emika Panda9.4.2 Universal Robots UR系列9.4.3 低成本开源机械臂9.5 灵巧手平台9.5.1 Shadow Hand9.5.2 LEAP Hand与低成本灵巧手9.5.3 特斯拉Optimus手与Figure手9.6 具身智能软件系统9.6.1 机器人操作系统ROS/ROS29.6.2 具身智能中间件9.6.3 学习型控制框架9.7 具身智能数据基础设施9.7.1 数据收集系统9.7.2 大规模数据集9.7.3 数据标准化与共享博主智算菩萨专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术从零基础入门到高阶实战陪伴开发者共同成长。目前已开设五大技术专栏累计发布多篇原创技术文章深受读者好评。 专栏导航人工智能前沿知识已更144篇深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体Agent技术系统性解析AI核心技术体系与前沿趋势。Python基础小白编程已更232篇从零开始以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法配有大量实战代码与避坑指南真正做到学以致用。机器学习与深度学习125篇系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践覆盖从公式推导到代码实现的全链路内容。音频、图像与视频处理理论与实战81篇涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术从基础操作到高级应用一应俱全。UI窗体程序设计实战78篇深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧提供从配置到编码的完整解决方案。智算菩萨以代码为经以算法为纬在人工智能的星辰大海中做你前行路上最可靠的导航者。本人最常用的AI对话工具是AIGCBAR。9.1 具身智能平台的分类与格局具身智能平台是承载智能算法的物理或虚拟载体是具身智能从理论走向应用的关键基础设施。根据形态和功能的不同具身智能平台可以分为以下几类人形机器人——具有类人形态的全能型平台目标是替代人类执行各种物理任务移动操控机器人——结合移动底盘和机械臂的实用型平台适合物流和服务场景桌面操作机器人——固定基座的机械臂适合研究和工业应用四足/双足机器人——以运动能力见长的平台适合复杂地形和巡检场景灵巧手平台——以精细操作见长的平台适合研究和精密操作。当前具身智能平台的发展呈现出两极分化的趋势一极是以特斯拉Optimus为代表的人形机器人追求通用性和全能性另一极是以专业服务机器人为代表的专用平台追求特定场景的极致性能。两极之间移动操控机器人作为中间路线正在快速发展在仓储物流、工厂巡检和医疗服务等场景中展现出实用价值。下表总结了当前主要具身智能平台的分类与代表平台类型代表产品自由度核心能力应用场景人形机器人Optimus, Figure 0240全能操作移动制造、服务、家庭移动操控Mobile ALOHA, Stretch7-15移动操作物流、服务、实验室桌面操作UR5e, Franka, xArm6-7精细操作工业、研究、医疗四足机器人Unitree Go2, Spot12-20全地形移动巡检、救援、娱乐灵巧手Shadow Hand, LEAP16-24精细操控研究、精密装配9.2 人形机器人平台9.2.1 特斯拉Optimus特斯拉Optimus也称Tesla Bot是当前最受关注的人形机器人项目。Optimus于2021年8月首次公布概念2022年9月展示原型机2023年底展示Gen-2版本。Optimus Gen-2身高约1.73米体重约57公斤具备28个自由度的身体和11个自由度的灵巧手行走速度可达8公里/小时。Optimus的核心技术特点包括基于特斯拉FSDFull Self-Driving的视觉感知系统——复用自动驾驶的视觉感知技术进行环境理解端到端神经网络控制——使用神经网络直接从传感器输入生成关节控制命令大规模数据训练——利用特斯拉工厂中的实际操作数据训练操作策略自研执行器——包括线性执行器和旋转执行器提供高力矩密度。2024年以来Optimus在特斯拉工厂中开始执行简单的物料搬运任务展示了从实验室到工厂的初步落地能力。马斯克预测Optimus将在2025年开始限量生产长期目标是年产数百万台售价降至2万美元以下。9.2.2 Figure AI系列Figure AI成立于2022年专注于人形机器人的开发。Figure 01于2023年发布2024年展示了与OpenAI合作的语言驱动操作能力——Figure 01能够理解自然语言指令推理任务步骤并执行操作。Figure 01的核心亮点是将大语言模型的推理能力与机器人控制结合实现了说做一致的交互体验。Figure 02于2024年8月发布在硬件和软件上全面升级。Figure 02的改进包括第四代灵巧手——16个自由度可承载25公斤改进的视觉系统——6个RGB摄像头提供360度视觉感知更长的电池续航——5小时运行时间更自然的运动——改进的步态控制和全身运动规划。Figure AI与BMW的合作标志着人形机器人进入汽车制造场景。Figure 02在BMW工厂中进行物料搬运和车身检查等任务的试点探索人形机器人在工业生产中的实际应用。9.2.3 宇树科技H1/G1宇树科技Unitree是中国人形机器人领域的领军企业。H1于2023年发布是国内首款实现全尺寸人形机器人后空翻的产品展示了强大的运动控制能力。H1身高约1.8米重量约47公斤具备360牛·米的膝关节力矩行走速度可达3.3米/秒。G1于2024年发布是H1的小型化版本身高约1.27米重量约35公斤售价9.9万元人民币起是目前最便宜的全功能人形机器人之一。G1的定位是科研和教育市场为学术界提供可负担的人形机器人研究平台。G1支持力位混合控制、全身运动规划和灵巧操作具备较强的二次开发能力。9.2.4 其他重要人形机器人Agility Robotics的Digit是专注于物流场景的双足机器人已在亚马逊仓库中进行试点。Digit的核心特点是下半身采用鸵鸟式腿设计提供出色的移动效率和稳定性上半身可执行搬运操作。Boston Dynamics的Atlas是运动能力最强的人形机器人2024年发布的电动版Atlas展示了前所未有的运动灵活性——能够从地面自主站立、执行复杂的全身运动和跌倒后恢复。Atlas目前主要作为研究平台尚未商业化。1X Technologies的NEO是面向家庭场景的人形机器人设计理念是安全、柔软和亲和——NEO的外壳采用软质材料运动速度受限避免对人类造成伤害。NEO的目标是成为家庭助手执行清洁、整理和陪伴等任务。Apptronik的Apollo是NASA衍生公司开发的人形机器人在汽车制造和物流场景中进行试点。Apollo的设计注重模块化和可维护性支持快速更换部件和升级。9.3 移动操控机器人平台9.3.1 Mobile ALOHAMobile ALOHAMobile A Low-cost Open-source Hardware System for Bimanual Teleoperation是Stanford于2024年发布的低成本移动双臂操作平台。Mobile ALOHA在ALOHA双臂操作平台的基础上增加了移动底盘使机器人能够在厨房、实验室等场景中移动并执行操作任务。Mobile ALOHA的核心特点包括低成本——整机成本约3.2万美元远低于商用移动操控机器人开源——硬件设计和软件代码完全开源支持社区复现和改进双臂协同——支持双臂协同操作执行复杂操作任务如烹饪、清洁移动操作——结合移动和操作能力在多位置执行任务。Mobile ALOHA使用ACTAction Chunking with Transformers进行模仿学习从人类远程操作数据中学习操作策略。实验表明Mobile ALOHA可以学习超过50种操作技能包括炒菜、洗碗、整理物品等家庭日常操作。9.3.2 Hello Robot StretchStretch是Hello Robot开发的低成本移动操控机器人专为家庭和研究场景设计。Stretch的核心特点是简洁——单臂设计、伸缩式躯干、小巧的移动底盘整机重量仅23公斤可以在家庭环境中灵活移动。Stretch RE22023年发布配备了1-DOF夹爪、RGB-D相机和激光雷达支持导航和操作任务。Stretch的开源ROS2软件栈和Python API使其易于编程和扩展。Stretch已被多个研究机构用于家庭服务机器人的研究。9.3.3 TIAGo系列PAL Robotics的TIAGo系列是学术和工业领域广泛使用的移动操控平台。TIAGoTake It And Go结合了移动底盘、7-DOF机械臂和可伸缩躯干支持导航、操作和人机交互等多种任务。TIAGo配备了双臂支持双臂协同操作。TIAGo的模块化设计允许用户根据需求选择不同的传感器和末端执行器配置。TIAGo在欧盟多个机器人研究项目中被使用是欧洲具身智能研究的主要平台之一。9.4 桌面操作机器人平台9.4.1 Franka Emika PandaFranka Emika Panda是具身智能研究中最流行的7-DOF机械臂之一以其力控能力和易用性著称。Panda支持7-DOF关节力矩控制可以执行柔顺操作和接触丰富的任务。Panda的ROS接口和Franka ROS包使其易于集成到具身智能系统中。Panda在学术研究中的使用量仅次于UR系列在操作学习、人机协作和灵巧操控等方向被广泛使用。Panda的力控能力使其特别适合需要力反馈的操作任务如插入、装配和柔顺操作。9.4.2 Universal Robots UR系列Universal Robots的UR系列UR3e、UR5e、UR10e、UR16e是工业协作机器人的市场领导者以其安全性和易用性著称。UR系列支持力控和碰撞检测可以在无围栏的环境中与人类协同工作。UR系列在具身智能研究中的主要用途是作为操作平台——许多VLA模型如RT-1、RT-2使用UR系列机械臂进行真实世界评估。UR5e是最常用的型号其5公斤的有效载荷覆盖了大多数桌面操作任务。9.4.3 低成本开源机械臂近年来低成本开源机械臂的发展降低了具身智能研究的硬件门槛。xArm系列UFACTORY提供了6-DOF和7-DOF版本价格从数千美元起支持ROS和Python控制。Koch Robotics的LEAP Hand是低成本灵巧手16个自由度价格约2000美元为灵巧操控研究提供了可负担的平台。9.5 灵巧手平台9.5.1 Shadow HandShadow Dexterous Hand是世界上最先进的仿人灵巧手具有24个自由度和20个可独立控制的关节。Shadow Hand的每个手指都有4个自由度3个弯曲1个外展拇指有5个自由度能够复现人类手的大部分运动能力。Shadow Hand在灵巧操控研究中被广泛使用OpenAI的Dactyl项目使用Shadow Hand实现了魔方操控。Shadow Hand的力/触觉传感器提供丰富的触觉信息支持基于触觉的操作研究。Shadow Hand的主要局限是成本高昂约10万美元和维护复杂。9.5.2 LEAP Hand与低成本灵巧手LEAP HandLow-cost, Efficient, Anthropomorphic, Programmable Hand是CMU开发的低成本灵巧手16个自由度使用业余舵机驱动成本约2000美元。LEAP Hand的设计目标是使灵巧操控研究不再受限于昂贵的硬件为学术界提供可负担的研究平台。LEAP Hand v2进一步改进了设计增加了力传感和更好的手指运动学。LEAP Hand在旋转笔、抛球和物体操控等任务上展示了接近Shadow Hand的操作能力但成本仅为后者的2%。9.5.3 特斯拉Optimus手与Figure手特斯拉Optimus Gen-2的灵巧手具有11个自由度采用腱绳驱动可承载约10公斤。Optimus手的设计注重实用性和可制造性目标是大规模生产而非极致性能。Figure 02的灵巧手具有16个自由度可承载25公斤。Figure手的设计注重力控精度和操作灵活性支持精细操作如使用工具和强力操作如搬运重物。9.6 具身智能软件系统9.6.1 机器人操作系统ROS/ROS2机器人操作系统Robot Operating System, ROS是具身智能最基础的软件平台提供了硬件抽象、设备驱动、进程间通信和软件包管理等功能。ROS22017年发布在ROS的基础上引入了实时性、安全性和分布式计算支持成为当前具身智能系统的标准软件框架。ROS2在具身智能中的核心作用包括硬件接口——通过驱动包连接各种传感器和执行器感知处理——通过感知包处理传感器数据导航框架——Nav2提供完整的导航解决方案运动规划——MoveIt2提供运动规划和碰撞检测仿真集成——与Gazebo、Isaac Sim等仿真器无缝集成。9.6.2 具身智能中间件具身智能中间件是连接高层AI决策和底层机器人控制的软件层负责将AI模型的输出转化为机器人可执行的控制命令。主要的具身智能中间件包括MoveIt2最流行的运动规划框架提供碰撞检测、运动规划和轨迹执行功能。MoveIt2支持多种规划算法如RRT、PRM、CHOMP和多种机器人平台。Nav2ROS2的标准导航框架提供全局路径规划、局部路径规划、代价地图和恢复行为等功能。Nav2支持多种规划器和控制器可适配不同场景。OpenRAVE开源的机器人规划框架提供运动规划、逆运动学和碰撞检测等功能。OpenRAVE在学术研究中被广泛使用特别是在操作规划领域。9.6.3 学习型控制框架学习型控制框架将深度学习模型集成到机器人控制流程中支持端到端的感知-决策-行动。主要的学习型控制框架包括RoboMimicNVIDIA开发的模仿学习框架支持BC、BC-RNN、HBC和IRL等多种模仿学习算法。RoboMimic与MuJoCo和Isaac Gym集成支持从仿真到真实的完整流程。Stable Baselines3强化学习的标准框架提供PPO、SAC、TD3等算法的高质量实现。Stable Baselines3与Gymnasium接口兼容支持各种具身AI环境。LeRobotHuggingFace开发的具身智能框架提供VLA模型训练、数据收集和部署的完整工具链。LeRobot支持ACT、Diffusion Policy等模仿学习方法与ALOHA等硬件平台集成。9.7 具身智能数据基础设施9.7.1 数据收集系统具身智能的数据收集是训练VLA模型和模仿学习策略的基础。当前的数据收集方式主要包括远程操作Teleoperation人类通过VR控制器、空间鼠标或主从臂远程操作机器人记录操作轨迹。ALOHA系统使用主从臂架构操作者移动主臂从臂跟随运动实现直觉式的远程操作。Kinesthetic Teaching人类直接握住机器人手臂引导运动机器人记录关节轨迹。这种方式简单直观但精度有限且需要力控能力。演示视频从人类操作视频中提取动作信息无需机器人参与。这种方式数据来源广泛但需要解决视角差异和动作提取的挑战。9.7.2 大规模数据集具身智能的大规模数据集正在快速发展为VLA模型和基础模型的训练提供数据支撑。主要的数据集包括Open X-EmbodimentOXE34个机构贡献的跨机器人操作数据集包含22个机器人平台的超过100万回合操作数据。OXE是目前最大的跨机器人操作数据集。DROIDDistributed Robot Interaction Dataset由多个机构协作收集的大规模操作数据集包含约76,000个回合的机器人操作数据覆盖多种任务和场景。Bridge Data V2大规模操作数据集包含约24,000个回合的桌面操作数据覆盖13个技能类别。Bridge Data V2使用 WidowX250 机械臂收集是VLA模型训练的重要数据源。9.7.3 数据标准化与共享具身智能数据的标准化和共享是加速领域发展的关键。RLDSReinforcement Learning Datasets格式定义了标准化的数据表示支持异构机器人数据的统一存储和访问。HuggingFace LeRobot平台提供了数据集托管和共享服务使研究者可以方便地上传、下载和使用操作数据集。具身智能平台与系统是连接算法与物理世界的桥梁。从特斯拉Optimus的通用愿景到Mobile ALOHA的开源实践从Shadow Hand的精密操控到LEAP Hand的低成本创新从ROS2的基础设施到LeRobot的学习型框架平台与系统的不断进步正在降低具身智能的研究门槛加速从实验室到应用的转化进程。