文章主要内容总结该研究提出一种结合视觉语言模型(VLMs)与强化学习(RL)的灵巧机器人操作框架,核心是用VLM生成粗粒度运动轨迹(“支架”),指导低层级残差RL策略完成复杂操作任务。框架无需人工演示或手工设计奖励函数,通过自然语言指令和场景图像,让VLM识别任务相关关键点并生成3D轨迹,再由RL策略精准跟踪轨迹完成操作。在8个模拟任务(如移动苹果、开门、锤击等)中表现接近最优脚本方案,且成功实现从仿真到真实机器人的零样本迁移,3个真实场景任务成功率达65%-90%。核心创新点用VLM替代人工生成轨迹支架:借助VLM的空间语义推理能力,自动识别关键点并生成运动轨迹,解决传统方法依赖大量人工演示或复杂奖励函数的问题。残差RL与轨迹跟踪结合:低层级RL策略学习轨迹偏移量而非绝对动作,既保证轨迹遵循性,又能微调优化,提升操作精度。强泛化与零样本迁移:通过随机化初始条件和少样本提示优化,框架能适应新场景,且无需额外调优即可迁移到真实机器人。模块化设计:高层级VLM规划与低层级RL控制分离,兼顾语义理解与精细操作,可通过替换VLM或优化RL模块灵活扩展。翻译部分(Markdown格式)Abstract灵巧机器人手是执行复杂操作任务的关键,但由于演示数据收集困难和高维
2025_NIPS_Scaffolding Dexterous Manipulation with Vision-Language Models
文章主要内容总结该研究提出一种结合视觉语言模型(VLMs)与强化学习(RL)的灵巧机器人操作框架,核心是用VLM生成粗粒度运动轨迹(“支架”),指导低层级残差RL策略完成复杂操作任务。框架无需人工演示或手工设计奖励函数,通过自然语言指令和场景图像,让VLM识别任务相关关键点并生成3D轨迹,再由RL策略精准跟踪轨迹完成操作。在8个模拟任务(如移动苹果、开门、锤击等)中表现接近最优脚本方案,且成功实现从仿真到真实机器人的零样本迁移,3个真实场景任务成功率达65%-90%。核心创新点用VLM替代人工生成轨迹支架:借助VLM的空间语义推理能力,自动识别关键点并生成运动轨迹,解决传统方法依赖大量人工演示或复杂奖励函数的问题。残差RL与轨迹跟踪结合:低层级RL策略学习轨迹偏移量而非绝对动作,既保证轨迹遵循性,又能微调优化,提升操作精度。强泛化与零样本迁移:通过随机化初始条件和少样本提示优化,框架能适应新场景,且无需额外调优即可迁移到真实机器人。模块化设计:高层级VLM规划与低层级RL控制分离,兼顾语义理解与精细操作,可通过替换VLM或优化RL模块灵活扩展。翻译部分(Markdown格式)Abstract灵巧机器人手是执行复杂操作任务的关键,但由于演示数据收集困难和高维