2025_NIPS_Scaffolding Dexterous Manipulation with Vision-Language Models

发布时间：2026/6/23 7:45:16

2025_NIPS_Scaffolding Dexterous Manipulation with Vision-Language Models

文章主要内容总结该研究提出一种结合视觉语言模型（VLMs）与强化学习（RL）的灵巧机器人操作框架，核心是用VLM生成粗粒度运动轨迹（“支架”），指导低层级残差RL策略完成复杂操作任务。框架无需人工演示或手工设计奖励函数，通过自然语言指令和场景图像，让VLM识别任务相关关键点并生成3D轨迹，再由RL策略精准跟踪轨迹完成操作。在8个模拟任务（如移动苹果、开门、锤击等）中表现接近最优脚本方案，且成功实现从仿真到真实机器人的零样本迁移，3个真实场景任务成功率达65%-90%。核心创新点用VLM替代人工生成轨迹支架：借助VLM的空间语义推理能力，自动识别关键点并生成运动轨迹，解决传统方法依赖大量人工演示或复杂奖励函数的问题。残差RL与轨迹跟踪结合：低层级RL策略学习轨迹偏移量而非绝对动作，既保证轨迹遵循性，又能微调优化，提升操作精度。强泛化与零样本迁移：通过随机化初始条件和少样本提示优化，框架能适应新场景，且无需额外调优即可迁移到真实机器人。模块化设计：高层级VLM规划与低层级RL控制分离，兼顾语义理解与精细操作，可通过替换VLM或优化RL模块灵活扩展。翻译部分（Markdown格式）Abstract灵巧机器人手是执行复杂操作任务的关键，但由于演示数据收集困难和高维