在具身智能快速发展的浪潮中中国科研人员正发挥着日益关键的作用。国内各大高校与实验室各有所长、各具特色——有的专注于感知技术有的深耕端到端方案也有的聚焦仿真平台与环境构建。近期不少计划申请硕博的同学向「具身智能之心」咨询希望我们系统梳理国内具身智能领域的顶尖实验室并介绍其核心研究方向。为帮助大家更清晰地把握国内具身智能的学术格局具身智能之心特别推出『学界之星』系列专题带你走近那些默默推动行业进步的高校学者。无论你正在规划职业、确定研究方向还是准备申请硕博深造希望这些内容能为你提供有价值的参考。今天要介绍的是逐际动力创始人、南方科技大学长聘教授——张巍。原文链接具身智能学术之星逐际动力 张巍团队2025工作盘点求学与创业历程中张巍老师兼具顶尖学术积淀与前沿产业落地能力是具身智能领域少有的兼具工程深度与产业视野的学者型创业者本科毕业于中国科学技术大学自动化系后于美国普渡大学电气与计算机工程系获博士学位。博士毕业后他先后赴加州大学伯克利分校担任博士后研究员、斯坦福大学担任访问学者奠定了扎实的国际化学术根基。曾任职美国俄亥俄州立大学电气与计算机工程系并升任长聘副教授2019 年回国任南方科技大学教授深耕机器人领域科研与教学。2022 年张巍老师创立逐际动力率先发起对通用人形机器人的战略布局成功搭建起学术研究与产业应用的深度融合桥梁。作为全球足式人形机器人领域的早期核心领路人张巍老师在技术研发上极具前瞻性2018 年便发表全球首篇基于强化学习控制人形机器人的学术论文技术探索早于行业主流2021 年更实现全球首个端到端强化学习全尺寸人形机器人室外行走验证为行业技术路线奠定重要理论与实践基础。作为逐际动力创始人他带领团队打造出LimX COSA具身智能体系统构建了 “大小脑一体化” 的智能核心推出全球首款多形态双足机器人TRON 1、高性价比全尺寸通用人形机器人LimX Oli及多构型切换机器人TRON 2产品已销往全球 80 余个国家和地区成为具身智能产业化落地的标杆成果。学术与行业贡献上张巍老师成果斐然认可度颇高他长期深耕机器人运动控制、强化学习与具身智能方向曾出任IEEE Transactions on Control System Technology 等顶级期刊副主编为领域学术发展搭建专业平台。其个人先后斩获美国国家科学基金职业奖NSF CAREER Award、国家特聘专家青年、36 氪科创家、福布斯青年海归菁英等多项重磅荣誉学术与产业能力均获国内外高度认可。如果你对足式人形机器人运动控制、具身智能大小脑融合、机器人通用基座设计及具身智能产业化落地感兴趣张巍老师的研究与实践工作无疑是一个值得重点追踪的窗口。更多细节欢迎大家访问他的主页https://faculty.sustech.edu.cn/?tagidzhangw3go2。本文将着重介绍张巍老师在2025 年至今的一些已发表至顶会的研究成果。[RSS 2025] Debiasing 6-DOF IMU via Hierarchical Learning of Continuous Bias Dynamics提出机构南方科技大学、密歇根大学论文链接https://arxiv.org/abs/2504.09495v2项目主页https://github.com/UMich-CURLY/Debias_IMU.git研究背景惯性测量单元IMU是机器人状态估计的核心传感器为视觉-惯性里程计VIO等系统提供角速度和加速度测量但低成本 IMU 存在显著的噪声和时变偏差受温度、振动等因素影响直接导致姿态、速度和位置估计误差累积严重影响机器人导航和操作性能。现有 IMU 去偏方法存在局限模型基方法采用线性模型或布朗运动建模偏差难以捕捉复杂非线性动态数据驱动方法或隐式学习修正项易受运动模式干扰泛化性差显式建模偏差演化的方法则依赖难以获取的偏差真值数据需通过多传感器融合估计准确性受融合算法影响。如何在无需偏差真值的情况下显式建模偏差的连续动力学实现高效鲁棒的 IMU 去偏成为提升机器人状态估计精度的关键。论文内容为解决上述问题本文提出一种基于神经常微分方程NODE的 IMU 去偏框架通过分层学习偏差的连续动力学仅需姿态真值即可实现 6 自由度 IMU陀螺仪 加速度计去偏。首先建立 IMU 测量模型将偏差建模为确定性非线性动态而非传统的布朗运动陀螺仪和加速度计偏差的导数由神经网络建模输入包含原始 IMU 测量值及其导数确保模型捕捉偏差与测量的依赖关系其次采用 NODE 框架实现偏差动力学建模将离散 IMU 测量通过三次埃尔米特样条插值为连续控制输入扩展状态包含时间和偏差通过 ODE 求解器积分得到任意时刻的偏差估计无需显式存储历史数据再者设计分层训练策略利用 IMU 运动学中 “姿态与速度 / 位置解耦” 的特性先训练陀螺仪偏差模型仅优化姿态损失再固定其参数训练加速度计偏差模型优化速度和位置损失降低训练复杂度最后通过李代数转换解决 SO (3) 流形上的 ODE 求解问题将旋转动力学转换为欧氏空间中的 ξ 变量演化避免流形优化的复杂性。主要创新点提出无需偏差真值的损失构造方法通过姿态、速度和位置的真值直接优化偏差动力学模型规避了偏差真值难以获取的难题降低了数据收集门槛将偏差动力学建模为 NODE 框架下的向量场通过连续插值和 ODE 积分实现偏差的实时估计模型轻量化且物理意义明确优于传统离散时序模型设计分层训练策略利用 IMU 运动学特性分离陀螺仪和加速度计的训练过程提升了训练稳定性和收敛速度通过李代数转换解决了 SO (3) 流形上的 ODE 求解问题确保了旋转动力学建模的准确性为姿态估计精度提供了保障。关键实验结果EUROC 数据集上纯 IMU 积分的绝对姿态误差AOE降至 2.40°较原始 IMU 的 120.78° 和线性模型的 4.22° 显著降低相对姿态误差ROE0.71°优于 M.B. 方法的 0.89°TUM-VI 数据集上AOE 平均为 1.79°远低于线性模型的 9.19° 和 M.B. 方法的 17.53°VIO 系统集成去偏 IMU 后绝对位置误差APE降至 0.17m较原始 IMU 提升 60% 以上真实世界 FETCH 数据集上纯 IMU 积分的 AOE 为 1.96°APE 为 132.57m优于线性模型和 M.B. 方法验证了泛化能力消融实验表明分层训练使收敛速度提升 40%李代数转换使姿态估计误差降低 35%积分长度 N16 时性能最优平衡了精度与计算成本计算效率方面在 RTX4060 GPU 上每迭代训练时间约 573 秒推理时可满足 200Hz IMU 数据处理需求适用于实时状态估计系统。[CoRL 2025] Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion提出机构南方科技大学、圣母大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2506.11470v1项目主页https://multi-loco.github.io研究背景腿式机器人的形态多样性如双足、四足、人形、轮式双足导致 locomotion 策略难以泛化现有强化学习方法通常针对特定形态单独训练不仅需要重复投入大量计算资源还无法复用不同形态间的共性 locomotion 知识造成策略和数据集的 “孤岛效应”。跨形态学习在机器人操作任务中已取得一定突破但 locomotion 任务受机器人动力学特性和环境物理交互的影响更为显著且不同形态机器人的观测 / 动作维度差异巨大难以抽象出统一的特征表示导致跨形态泛化面临独特挑战。现有跨形态 locomotion 方法或依赖显式形态描述符或局限于固定自由度机器人 scalability 和灵活性不足亟需一种无需形态特异性输入、能自适应不同观测 / 动作空间的统一框架。论文内容为实现多形态腿式机器人的统一 locomotion 控制本文提出 Multi-Loco 框架整合形态无关的生成扩散模型与强化学习优化的共享残差策略。首先通过零填充技术对齐不同形态机器人的观测和动作空间将所有机器人的观测 / 动作向量填充至最大维度同时引入二进制掩码标记有效维度结合分位数归一化将特征映射至 [-1,1] 范围确保数据分布一致性其次采用 Elucidated Diffusion ModelEDM作为生成模型以轻量级扩散 TransformerDiT为骨干网络通过掩码去噪分数匹配训练仅关注有效动作维度捕捉跨形态的通用 locomotion 模式实现快速推理5 步采样即可生成动作先验再者设计共享残差策略以扩散模型生成的动作先验为基础预测动作修正量采用多评论家 PPO 框架训练为每种机器人形态配备专用评论家共享演员网络参数通过任务特定奖励、形态感知正则化项和残差惩罚项引导学习最后在四种代表性机器人点足双足、轮式双足、人形、四足上进行模拟和真实实验验证框架的跨形态泛化能力和 sim-to-real 迁移性能。主要创新点提出零填充 掩码去噪的统一表示方案无需显式形态信息即可处理不同机器人的观测 / 动作维度差异为跨形态策略学习提供了灵活的输入接口构建扩散模型与残差 RL 结合的混合架构扩散模型捕捉通用 locomotion 先验残差策略适配形态特异性动力学和实时环境反馈兼顾泛化性与任务性能设计多评论家 PPO 训练机制通过专用评论家解决不同形态的优化目标冲突共享演员网络确保知识复用避免形态特异性网络设计带来的 scalability 问题实现了真正意义上的 “一策多用”无需针对新形态重新训练或大幅微调仅需调整掩码即可适配为大规模多机器人系统控制提供了高效解决方案。关键实验结果模拟实验中相比形态特异性 PPO 基线Multi-LocoCR-DPRA平均回报提升 10.35%其中轮式双足任务提升 13.57%人形任务提升 10.97%跨形态数据训练的 CR-DP 相比单形态训练的 SR-DP平均性能提升 17.96%在四足和人形机器人上提升尤为显著分别为 20.47% 和 26.02%真实世界部署中统一策略成功控制四种机器人在草地、斜坡、楼梯、碎石等地形稳定 locomotion实时控制频率达 50Hz零-shot 迁移至未训练过的 Unitree Go2 机器人时Mean Episode Length 和速度跟踪奖励与训练过的四足机器人差异小于 3.2%验证了强大的泛化能力消融实验表明扩散模型先验和残差策略的结合是性能提升的关键掩码机制有效避免了无效维度的干扰。[CoRL 2025] Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-Top Manipulation提出机构南方科技大学、LimX Dynamics、香港大学论文链接https://arxiv.org/abs/2509.00361v1项目主页https://clearlab-sustech.github.io/gvf-tape/研究背景非结构化环境中的机器人桌面操作需要系统具备跨任务泛化能力和实时响应性但现有方法存在显著局限依赖动作标签的视频预训练方法需大量人工标注演示扩展性差无动作标签方法或依赖复杂的逆动力学建模或需要目标条件探索存在数据收集效率低、真实部署安全性不足等问题视觉预见方法虽能预测未来状态但大多依赖任务特定动作映射难以适配多样化操作任务。此外现有方法往往需要专用硬件如立体相机、机器人 CAD 模型或复杂校准流程实用性受限。如何构建一种无需动作标签、任务无关、部署简便的闭环操作框架成为机器人桌面操作泛化的核心挑战。论文内容为解决上述问题本文提出 GVF-TAPE 框架将生成视觉预见与任务无关姿态估计 decoupled实现端到端的机器人桌面操作。框架分为两大核心模块一是文本条件视觉预见模块采用整流流rectified flow作为生成模型以 3D U-Net 为骨干网络结合 CLIP 文本编码器处理任务描述基于单张侧视 RGB 图像预测未来 RGB-D 序列6 帧无需显式深度输入可利用 Video Depth Anything 模型生成深度图支持大规模 RGB 数据集预训练二是任务无关姿态估计模块采用双 ViT-Base 编码器分别处理 RGB 和深度图像通过多头部交叉注意力机制融合特征以深度 CLS token 为查询RGB 补丁 token 为键值输出末端执行器的 6-DoF 姿态3D 位置、四元数姿态、夹爪状态模型仅通过随机探索数据训练无需专家演示采样末端执行器姿态并由控制器驱动机器人移动自动收集 400k RGBD / 姿态对。框架采用闭环执行模式基于当前观测和任务描述生成未来视觉序列提取姿态轨迹并由低级别控制器执行完成后获取新观测重复流程实现实时自适应操作。主要创新点提出 “视觉预见 姿态提取” 的 decoupled 框架首次实现无需动作标签的闭环机器人操作通过生成模型预测视觉规划姿态估计模型转换为可执行动作规避了复杂的逆动力学建模设计任务无关的姿态估计方案仅依赖随机探索数据训练无需专家标注或机器人 CAD 模型降低了数据收集成本提升了跨机器人的适配性采用整流流实现高效 RGB-D 预测仅需 3 步即可生成高质量未来帧推理速度远超扩散模型满足实时操作需求融合文本条件与多模态视觉特征通过 CLIP 编码任务描述增强了框架对自然语言指令的理解能力支持多样化操作任务。关键实验结果LIBERO 基准测试中GVF-TAPE 在 LIBERO-Spatial 和 LIBERO-Object 套件上的成功率分别达 95.50% 和 86.70%较依赖动作标签的 SOTA 方法如 ATM分别提升 27.00% 和 18.70%整体平均成功率 83.00%超越所有基线 11.56%8 个 LIBERO-100 生活场景任务中平均成功率 79.4%较次优方法 V2A 提升 26.9%数据效率实验中仅用 20% 任务数据每任务 10 个演示即可达到 68% 成功率预训练后提升至 77%超越 ATM 5.43%真实世界实验中5 个操作任务含刚性、可变形物体平均成功率 56%经人类操作视频预训练后提升至 86%其中 “碗放微波炉”“碗放盘子” 任务成功率达 100%消融实验验证整流流较扩散模型推理速度提升 3 倍以上深度信息融合使整体性能提升 6.78%跨注意力融合架构优于 ResNet50 和单一 ViT 编码器。[Humanoids 2025] LIPM-Guided Reinforcement Learning for Stable and Perceptive Locomotion in Bipedal Robots提出机构南方科技大学、香港科技大学、香港大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2509.09106v2研究背景双足机器人凭借类人形态和运动模式在人机交互、复杂环境作业等场景中具有独特优势受到机器人领域的广泛关注。然而与四足机器人相比双足机器人存在固有的欠驱动动力学特性且地面接触点少导致稳定 locomotion 控制面临更大挑战。近年来强化学习已在腿式机器人 locomotion 领域取得显著进展实现了不平坦地形行走、视觉感知导航等功能但这些成果大多局限于结构化的实验室环境。当机器人部署到户外非结构化环境时会遭遇外感受传感器噪声、地面滑动、意外地形突变等问题现有方法往往因过度优先速度跟踪而牺牲稳定性难以实现可靠的感知 locomotion。线性倒立摆模型LIPM为双足机器人动态平衡提供了坚实的理论基础但其简化假设与真实环境的复杂性存在差距如何将其理论 insights 有效融入强化学习框架平衡速度跟踪与稳定性成为实现户外稳定 locomotion 的关键。论文内容为解决上述问题本文提出一种基于 LIPM 引导的强化学习方法结合视觉并发师生Vision-CTS学习框架实现点足双足机器人的稳定感知 locomotion。首先设计 LIPM 启发的稳定奖励函数通过约束质心CoM运动约束平面的截距与机器人直立高度一致同时强制执行质心周围零角动量假设最小化 CoM 跟踪误差、截距误差及滚转 / 俯仰角速度保障动态平衡其次基于奖励融合模块RFM提出稳定性感知速度跟踪机制将稳定奖励与速度跟踪奖励进行非线性融合确保稳定性优先于速度跟踪当机器人稳定性不足时自动减速或停止调整再者将速度跟踪解耦为方向跟踪采用余弦相似度度量和幅值跟踪采用ℓ2 范数差异度量避免低稳定性下速度跟踪性能退化最后采用双评论家架构分别评估稳定性奖励和 locomotion 奖励的期望回报提升训练效率和鲁棒性。训练在 IsaacLab 环境中进行采用 2048 个并行环境和领域随机化技术部署于 LimX Dynamic TRON1 机器人通过前端 Intel RealSense D435i 相机获取深度图像实现 50Hz 的实时控制。主要创新点首次将 LIPM 理论与强化学习深度融合设计了兼顾动态平衡与地形适应性的稳定奖励函数将抽象的平衡准则转化为可优化的奖励信号为双足机器人户外 locomotion 提供理论引导提出基于 RFM 的优先级融合机制和 decoupled 速度跟踪策略解决了传统加权求和奖励中稳定性与速度跟踪的冲突问题实现 “稳定优先、灵活跟踪” 的 locomotion 模式采用双评论家架构分离稳定性与 locomotion 目标的价值评估避免单一评论家因目标冲突导致的训练低效提升了政策学习的针对性和鲁棒性扩展 Vision-CTS 框架融入视觉感知输入通过特权估计器和高度图估计器实现多模态信息融合增强了机器人对复杂户外地形的感知能力。关键实验结果模拟实验中在楼梯、斜坡、离散障碍和粗糙地形四种场景下该方法的成功率均高于去除稳定奖励、去除稳定评论家及去除 RFM 的消融版本其中楼梯场景成功率达 80.30%显著优于无稳定奖励版本的 41.43%方向误差、角速度误差和高度图重建误差均低于基线展现出更优的动态平衡和地形感知能力不同速度指令下在重力主导地形如楼梯、斜坡中成功率优势尤为明显极端扰动实验中生存概率最高真实世界实验中机器人成功遍历草地、斜坡、碎石、台阶等多种户外地形面对落叶打滑、地形边界感知干扰等突发情况时能快速调整姿态维持稳定平均任务成功率达 85% 以上。[ICLR 2026] PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning提出机构香港科技大学、南方科技大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2602.01156v1项目主页https://policyflow2026.github.io/研究背景在强化学习领域策略梯度方法已在机器人控制、大语言模型对齐等复杂序贯决策任务中取得显著成功其中近端策略优化PPO凭借简洁性、数值稳定性和优异的实证性能成为行业标准广泛应用于复杂机器人控制和生成式策略微调。然而标准 PPO 依赖基于重要性比率的替代目标这要求对策略似然进行评估而现有 PPO 通常采用高斯分布建模策略虽计算简便但难以表示复杂、多模态或高度倾斜的动作分布限制了其在更复杂场景中的应用。近年来连续归一化流CNF又称流匹配模型等生成模型展现出捕捉复杂多模态分布的强大能力已成功应用于模仿学习等领域但这类模型计算重要性比率或似然时需进行迭代 ODE/SDE 模拟和路径反向传播不仅计算成本高昂还容易出现梯度爆炸或消失问题导致直接应用于 PPO 风格更新时训练速度慢、内存消耗大且稳定性差严重限制了其在高效在线强化学习中的实用性。论文内容为解决上述挑战本文提出 PolicyFlow一种新型在线强化学习算法将连续归一化流的表达能力与 PPO 风格的裁剪目标相结合实现高效稳定的策略优化。算法核心设计包括两部分一是 CNF 策略的重要性比率近似方法通过评估插值路径上 CNF 速度场的变化来近似重要性比率避免了昂贵的路径反向传播在不影响训练稳定性的前提下降低了计算开销二是布朗熵正则化器受布朗运动启发提出一种轻量级熵正则化器无需显式计算 CNF 策略的熵即可促进熵的单调增长有效缓解模式崩溃问题鼓励多样化的动作行为。为验证算法性能研究团队在 MultiGoal、PointMaze、IsaacLab 和 MuJoCo Playground 等多种环境的不同任务中进行了全面实验对比了采用高斯策略的 PPO 以及 FPO、DPPO 等基于流的基线方法。实验结果表明PolicyFlow 在多数任务中取得了具有竞争力或更优的性能尤其在 MultiGoal 任务中充分展现了其捕捉丰富多模态动作分布的能力能够实现更均衡的目标达成行为。主要创新点提出了一种针对 CNF 策略的重要性比率近似方案通过插值路径上的速度场变化替代完整流路径的似然评估既保持了 PPO 的训练稳定性又将计算效率维持在与高斯策略 PPO 相当的水平解决了生成模型在 PPO 中应用的计算瓶颈设计了布朗正则化器这一隐式熵正则化机制区别于传统显式计算熵或启发式注入噪声的方法该正则化器直接通过塑造速度场引导熵增长原理简洁且计算轻量化有效解决了流基策略熵正则化困难的问题在多环境、多任务的全面实验验证中PolicyFlow 展现出优于现有基线的泛化能力和性能表现尤其在多模态动作分布建模上的优势显著为强化学习与生成模型的融合提供了兼具实用性和表达力的统一框架理论分析证明插值路径近似带来的误差为一阶且可通过 PPO 的裁剪机制自然限制为算法的稳定性提供了坚实的理论支撑。关键实验结果在 MultiGoal 任务中PolicyFlow 结合布朗正则化器实现了对所有 6 个目标的均衡覆盖成功率和目标多样性显著优于仅用高斯熵正则化的版本及 FPO、DPPO 等基线MuJoCo Playground 环境中其收敛速度更快、样本效率更高多数任务性能超越 FPO 和 DPPO与 PPO 持平或更优IsaacLab 机器人基准测试中所有任务的渐近性能均匹配或超越 PPO且在 Navigation 等任务中统计显著优于基线计算效率方面PolicyFlow 每迭代训练时间仅比 PPO 增加不到 50%即使嵌入维度提升 8 倍计算成本仍控制在 PPO 的 2 倍以内验证了其实际部署可行性。写在最后若想深入了解更多研究细节或加入团队欢迎访问张巍教授个人主页https://faculty.sustech.edu.cn/?tagidzhangw3go2及相关项目主页持续追踪团队的最新动态。回望 2025 年至今的科研征程张巍教授团队以 “学术深耕 产业落地” 双轮驱动交出了一份兼具理论深度与实践价值的答卷。从 IMU 传感器去偏的底层技术突破到多形态机器人的统一 locomotion 框架构建再到机器人桌面操作的无标签泛化方案以及强化学习与生成模型融合的策略优化创新团队的研究覆盖了具身智能从感知、决策到控制的完整链路既聚焦核心技术瓶颈又紧扣产业实际需求。这些成果的背后是团队 “理论创新与工程实践并重” 的鲜明特色每一项算法突破都经过仿真与真实场景的双重验证既在RSS、CoRL、ICLR 等顶会展现学术影响力又能快速落地到逐际动力的机器人产品中形成 “科研反哺产业、产业滋养科研” 的良性循环。这种 “从实验室到市场” 的闭环能力正是具身智能领域最稀缺的核心竞争力。对于正在关注具身智能领域的学习者、科研爱好者以及计划申请硕博深造的同学而言张巍教授团队的研究方向兼具前沿性与实用性——**无论是足式机器人运动控制、多模态感知融合还是强化学习与生成模型的跨领域应用**都是当前行业的核心赛道。而团队依托南方科技大学 CLEAR 实验室的完备平台自研双足 / 四足机器人、机械臂等与逐际动力的产业资源更能为研究者提供 “将想法变为现实” 的绝佳土壤。在具身智能从技术探索走向规模化应用的关键阶段相信这样一支兼具学术高度与产业视野的团队未来还将持续产出更多引领行业发展的突破性成果为全球通用人形机器人的进步注入中国力量。重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等
具身智能学术之星|逐际动力 张巍团队2025工作盘点
在具身智能快速发展的浪潮中中国科研人员正发挥着日益关键的作用。国内各大高校与实验室各有所长、各具特色——有的专注于感知技术有的深耕端到端方案也有的聚焦仿真平台与环境构建。近期不少计划申请硕博的同学向「具身智能之心」咨询希望我们系统梳理国内具身智能领域的顶尖实验室并介绍其核心研究方向。为帮助大家更清晰地把握国内具身智能的学术格局具身智能之心特别推出『学界之星』系列专题带你走近那些默默推动行业进步的高校学者。无论你正在规划职业、确定研究方向还是准备申请硕博深造希望这些内容能为你提供有价值的参考。今天要介绍的是逐际动力创始人、南方科技大学长聘教授——张巍。原文链接具身智能学术之星逐际动力 张巍团队2025工作盘点求学与创业历程中张巍老师兼具顶尖学术积淀与前沿产业落地能力是具身智能领域少有的兼具工程深度与产业视野的学者型创业者本科毕业于中国科学技术大学自动化系后于美国普渡大学电气与计算机工程系获博士学位。博士毕业后他先后赴加州大学伯克利分校担任博士后研究员、斯坦福大学担任访问学者奠定了扎实的国际化学术根基。曾任职美国俄亥俄州立大学电气与计算机工程系并升任长聘副教授2019 年回国任南方科技大学教授深耕机器人领域科研与教学。2022 年张巍老师创立逐际动力率先发起对通用人形机器人的战略布局成功搭建起学术研究与产业应用的深度融合桥梁。作为全球足式人形机器人领域的早期核心领路人张巍老师在技术研发上极具前瞻性2018 年便发表全球首篇基于强化学习控制人形机器人的学术论文技术探索早于行业主流2021 年更实现全球首个端到端强化学习全尺寸人形机器人室外行走验证为行业技术路线奠定重要理论与实践基础。作为逐际动力创始人他带领团队打造出LimX COSA具身智能体系统构建了 “大小脑一体化” 的智能核心推出全球首款多形态双足机器人TRON 1、高性价比全尺寸通用人形机器人LimX Oli及多构型切换机器人TRON 2产品已销往全球 80 余个国家和地区成为具身智能产业化落地的标杆成果。学术与行业贡献上张巍老师成果斐然认可度颇高他长期深耕机器人运动控制、强化学习与具身智能方向曾出任IEEE Transactions on Control System Technology 等顶级期刊副主编为领域学术发展搭建专业平台。其个人先后斩获美国国家科学基金职业奖NSF CAREER Award、国家特聘专家青年、36 氪科创家、福布斯青年海归菁英等多项重磅荣誉学术与产业能力均获国内外高度认可。如果你对足式人形机器人运动控制、具身智能大小脑融合、机器人通用基座设计及具身智能产业化落地感兴趣张巍老师的研究与实践工作无疑是一个值得重点追踪的窗口。更多细节欢迎大家访问他的主页https://faculty.sustech.edu.cn/?tagidzhangw3go2。本文将着重介绍张巍老师在2025 年至今的一些已发表至顶会的研究成果。[RSS 2025] Debiasing 6-DOF IMU via Hierarchical Learning of Continuous Bias Dynamics提出机构南方科技大学、密歇根大学论文链接https://arxiv.org/abs/2504.09495v2项目主页https://github.com/UMich-CURLY/Debias_IMU.git研究背景惯性测量单元IMU是机器人状态估计的核心传感器为视觉-惯性里程计VIO等系统提供角速度和加速度测量但低成本 IMU 存在显著的噪声和时变偏差受温度、振动等因素影响直接导致姿态、速度和位置估计误差累积严重影响机器人导航和操作性能。现有 IMU 去偏方法存在局限模型基方法采用线性模型或布朗运动建模偏差难以捕捉复杂非线性动态数据驱动方法或隐式学习修正项易受运动模式干扰泛化性差显式建模偏差演化的方法则依赖难以获取的偏差真值数据需通过多传感器融合估计准确性受融合算法影响。如何在无需偏差真值的情况下显式建模偏差的连续动力学实现高效鲁棒的 IMU 去偏成为提升机器人状态估计精度的关键。论文内容为解决上述问题本文提出一种基于神经常微分方程NODE的 IMU 去偏框架通过分层学习偏差的连续动力学仅需姿态真值即可实现 6 自由度 IMU陀螺仪 加速度计去偏。首先建立 IMU 测量模型将偏差建模为确定性非线性动态而非传统的布朗运动陀螺仪和加速度计偏差的导数由神经网络建模输入包含原始 IMU 测量值及其导数确保模型捕捉偏差与测量的依赖关系其次采用 NODE 框架实现偏差动力学建模将离散 IMU 测量通过三次埃尔米特样条插值为连续控制输入扩展状态包含时间和偏差通过 ODE 求解器积分得到任意时刻的偏差估计无需显式存储历史数据再者设计分层训练策略利用 IMU 运动学中 “姿态与速度 / 位置解耦” 的特性先训练陀螺仪偏差模型仅优化姿态损失再固定其参数训练加速度计偏差模型优化速度和位置损失降低训练复杂度最后通过李代数转换解决 SO (3) 流形上的 ODE 求解问题将旋转动力学转换为欧氏空间中的 ξ 变量演化避免流形优化的复杂性。主要创新点提出无需偏差真值的损失构造方法通过姿态、速度和位置的真值直接优化偏差动力学模型规避了偏差真值难以获取的难题降低了数据收集门槛将偏差动力学建模为 NODE 框架下的向量场通过连续插值和 ODE 积分实现偏差的实时估计模型轻量化且物理意义明确优于传统离散时序模型设计分层训练策略利用 IMU 运动学特性分离陀螺仪和加速度计的训练过程提升了训练稳定性和收敛速度通过李代数转换解决了 SO (3) 流形上的 ODE 求解问题确保了旋转动力学建模的准确性为姿态估计精度提供了保障。关键实验结果EUROC 数据集上纯 IMU 积分的绝对姿态误差AOE降至 2.40°较原始 IMU 的 120.78° 和线性模型的 4.22° 显著降低相对姿态误差ROE0.71°优于 M.B. 方法的 0.89°TUM-VI 数据集上AOE 平均为 1.79°远低于线性模型的 9.19° 和 M.B. 方法的 17.53°VIO 系统集成去偏 IMU 后绝对位置误差APE降至 0.17m较原始 IMU 提升 60% 以上真实世界 FETCH 数据集上纯 IMU 积分的 AOE 为 1.96°APE 为 132.57m优于线性模型和 M.B. 方法验证了泛化能力消融实验表明分层训练使收敛速度提升 40%李代数转换使姿态估计误差降低 35%积分长度 N16 时性能最优平衡了精度与计算成本计算效率方面在 RTX4060 GPU 上每迭代训练时间约 573 秒推理时可满足 200Hz IMU 数据处理需求适用于实时状态估计系统。[CoRL 2025] Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion提出机构南方科技大学、圣母大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2506.11470v1项目主页https://multi-loco.github.io研究背景腿式机器人的形态多样性如双足、四足、人形、轮式双足导致 locomotion 策略难以泛化现有强化学习方法通常针对特定形态单独训练不仅需要重复投入大量计算资源还无法复用不同形态间的共性 locomotion 知识造成策略和数据集的 “孤岛效应”。跨形态学习在机器人操作任务中已取得一定突破但 locomotion 任务受机器人动力学特性和环境物理交互的影响更为显著且不同形态机器人的观测 / 动作维度差异巨大难以抽象出统一的特征表示导致跨形态泛化面临独特挑战。现有跨形态 locomotion 方法或依赖显式形态描述符或局限于固定自由度机器人 scalability 和灵活性不足亟需一种无需形态特异性输入、能自适应不同观测 / 动作空间的统一框架。论文内容为实现多形态腿式机器人的统一 locomotion 控制本文提出 Multi-Loco 框架整合形态无关的生成扩散模型与强化学习优化的共享残差策略。首先通过零填充技术对齐不同形态机器人的观测和动作空间将所有机器人的观测 / 动作向量填充至最大维度同时引入二进制掩码标记有效维度结合分位数归一化将特征映射至 [-1,1] 范围确保数据分布一致性其次采用 Elucidated Diffusion ModelEDM作为生成模型以轻量级扩散 TransformerDiT为骨干网络通过掩码去噪分数匹配训练仅关注有效动作维度捕捉跨形态的通用 locomotion 模式实现快速推理5 步采样即可生成动作先验再者设计共享残差策略以扩散模型生成的动作先验为基础预测动作修正量采用多评论家 PPO 框架训练为每种机器人形态配备专用评论家共享演员网络参数通过任务特定奖励、形态感知正则化项和残差惩罚项引导学习最后在四种代表性机器人点足双足、轮式双足、人形、四足上进行模拟和真实实验验证框架的跨形态泛化能力和 sim-to-real 迁移性能。主要创新点提出零填充 掩码去噪的统一表示方案无需显式形态信息即可处理不同机器人的观测 / 动作维度差异为跨形态策略学习提供了灵活的输入接口构建扩散模型与残差 RL 结合的混合架构扩散模型捕捉通用 locomotion 先验残差策略适配形态特异性动力学和实时环境反馈兼顾泛化性与任务性能设计多评论家 PPO 训练机制通过专用评论家解决不同形态的优化目标冲突共享演员网络确保知识复用避免形态特异性网络设计带来的 scalability 问题实现了真正意义上的 “一策多用”无需针对新形态重新训练或大幅微调仅需调整掩码即可适配为大规模多机器人系统控制提供了高效解决方案。关键实验结果模拟实验中相比形态特异性 PPO 基线Multi-LocoCR-DPRA平均回报提升 10.35%其中轮式双足任务提升 13.57%人形任务提升 10.97%跨形态数据训练的 CR-DP 相比单形态训练的 SR-DP平均性能提升 17.96%在四足和人形机器人上提升尤为显著分别为 20.47% 和 26.02%真实世界部署中统一策略成功控制四种机器人在草地、斜坡、楼梯、碎石等地形稳定 locomotion实时控制频率达 50Hz零-shot 迁移至未训练过的 Unitree Go2 机器人时Mean Episode Length 和速度跟踪奖励与训练过的四足机器人差异小于 3.2%验证了强大的泛化能力消融实验表明扩散模型先验和残差策略的结合是性能提升的关键掩码机制有效避免了无效维度的干扰。[CoRL 2025] Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-Top Manipulation提出机构南方科技大学、LimX Dynamics、香港大学论文链接https://arxiv.org/abs/2509.00361v1项目主页https://clearlab-sustech.github.io/gvf-tape/研究背景非结构化环境中的机器人桌面操作需要系统具备跨任务泛化能力和实时响应性但现有方法存在显著局限依赖动作标签的视频预训练方法需大量人工标注演示扩展性差无动作标签方法或依赖复杂的逆动力学建模或需要目标条件探索存在数据收集效率低、真实部署安全性不足等问题视觉预见方法虽能预测未来状态但大多依赖任务特定动作映射难以适配多样化操作任务。此外现有方法往往需要专用硬件如立体相机、机器人 CAD 模型或复杂校准流程实用性受限。如何构建一种无需动作标签、任务无关、部署简便的闭环操作框架成为机器人桌面操作泛化的核心挑战。论文内容为解决上述问题本文提出 GVF-TAPE 框架将生成视觉预见与任务无关姿态估计 decoupled实现端到端的机器人桌面操作。框架分为两大核心模块一是文本条件视觉预见模块采用整流流rectified flow作为生成模型以 3D U-Net 为骨干网络结合 CLIP 文本编码器处理任务描述基于单张侧视 RGB 图像预测未来 RGB-D 序列6 帧无需显式深度输入可利用 Video Depth Anything 模型生成深度图支持大规模 RGB 数据集预训练二是任务无关姿态估计模块采用双 ViT-Base 编码器分别处理 RGB 和深度图像通过多头部交叉注意力机制融合特征以深度 CLS token 为查询RGB 补丁 token 为键值输出末端执行器的 6-DoF 姿态3D 位置、四元数姿态、夹爪状态模型仅通过随机探索数据训练无需专家演示采样末端执行器姿态并由控制器驱动机器人移动自动收集 400k RGBD / 姿态对。框架采用闭环执行模式基于当前观测和任务描述生成未来视觉序列提取姿态轨迹并由低级别控制器执行完成后获取新观测重复流程实现实时自适应操作。主要创新点提出 “视觉预见 姿态提取” 的 decoupled 框架首次实现无需动作标签的闭环机器人操作通过生成模型预测视觉规划姿态估计模型转换为可执行动作规避了复杂的逆动力学建模设计任务无关的姿态估计方案仅依赖随机探索数据训练无需专家标注或机器人 CAD 模型降低了数据收集成本提升了跨机器人的适配性采用整流流实现高效 RGB-D 预测仅需 3 步即可生成高质量未来帧推理速度远超扩散模型满足实时操作需求融合文本条件与多模态视觉特征通过 CLIP 编码任务描述增强了框架对自然语言指令的理解能力支持多样化操作任务。关键实验结果LIBERO 基准测试中GVF-TAPE 在 LIBERO-Spatial 和 LIBERO-Object 套件上的成功率分别达 95.50% 和 86.70%较依赖动作标签的 SOTA 方法如 ATM分别提升 27.00% 和 18.70%整体平均成功率 83.00%超越所有基线 11.56%8 个 LIBERO-100 生活场景任务中平均成功率 79.4%较次优方法 V2A 提升 26.9%数据效率实验中仅用 20% 任务数据每任务 10 个演示即可达到 68% 成功率预训练后提升至 77%超越 ATM 5.43%真实世界实验中5 个操作任务含刚性、可变形物体平均成功率 56%经人类操作视频预训练后提升至 86%其中 “碗放微波炉”“碗放盘子” 任务成功率达 100%消融实验验证整流流较扩散模型推理速度提升 3 倍以上深度信息融合使整体性能提升 6.78%跨注意力融合架构优于 ResNet50 和单一 ViT 编码器。[Humanoids 2025] LIPM-Guided Reinforcement Learning for Stable and Perceptive Locomotion in Bipedal Robots提出机构南方科技大学、香港科技大学、香港大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2509.09106v2研究背景双足机器人凭借类人形态和运动模式在人机交互、复杂环境作业等场景中具有独特优势受到机器人领域的广泛关注。然而与四足机器人相比双足机器人存在固有的欠驱动动力学特性且地面接触点少导致稳定 locomotion 控制面临更大挑战。近年来强化学习已在腿式机器人 locomotion 领域取得显著进展实现了不平坦地形行走、视觉感知导航等功能但这些成果大多局限于结构化的实验室环境。当机器人部署到户外非结构化环境时会遭遇外感受传感器噪声、地面滑动、意外地形突变等问题现有方法往往因过度优先速度跟踪而牺牲稳定性难以实现可靠的感知 locomotion。线性倒立摆模型LIPM为双足机器人动态平衡提供了坚实的理论基础但其简化假设与真实环境的复杂性存在差距如何将其理论 insights 有效融入强化学习框架平衡速度跟踪与稳定性成为实现户外稳定 locomotion 的关键。论文内容为解决上述问题本文提出一种基于 LIPM 引导的强化学习方法结合视觉并发师生Vision-CTS学习框架实现点足双足机器人的稳定感知 locomotion。首先设计 LIPM 启发的稳定奖励函数通过约束质心CoM运动约束平面的截距与机器人直立高度一致同时强制执行质心周围零角动量假设最小化 CoM 跟踪误差、截距误差及滚转 / 俯仰角速度保障动态平衡其次基于奖励融合模块RFM提出稳定性感知速度跟踪机制将稳定奖励与速度跟踪奖励进行非线性融合确保稳定性优先于速度跟踪当机器人稳定性不足时自动减速或停止调整再者将速度跟踪解耦为方向跟踪采用余弦相似度度量和幅值跟踪采用ℓ2 范数差异度量避免低稳定性下速度跟踪性能退化最后采用双评论家架构分别评估稳定性奖励和 locomotion 奖励的期望回报提升训练效率和鲁棒性。训练在 IsaacLab 环境中进行采用 2048 个并行环境和领域随机化技术部署于 LimX Dynamic TRON1 机器人通过前端 Intel RealSense D435i 相机获取深度图像实现 50Hz 的实时控制。主要创新点首次将 LIPM 理论与强化学习深度融合设计了兼顾动态平衡与地形适应性的稳定奖励函数将抽象的平衡准则转化为可优化的奖励信号为双足机器人户外 locomotion 提供理论引导提出基于 RFM 的优先级融合机制和 decoupled 速度跟踪策略解决了传统加权求和奖励中稳定性与速度跟踪的冲突问题实现 “稳定优先、灵活跟踪” 的 locomotion 模式采用双评论家架构分离稳定性与 locomotion 目标的价值评估避免单一评论家因目标冲突导致的训练低效提升了政策学习的针对性和鲁棒性扩展 Vision-CTS 框架融入视觉感知输入通过特权估计器和高度图估计器实现多模态信息融合增强了机器人对复杂户外地形的感知能力。关键实验结果模拟实验中在楼梯、斜坡、离散障碍和粗糙地形四种场景下该方法的成功率均高于去除稳定奖励、去除稳定评论家及去除 RFM 的消融版本其中楼梯场景成功率达 80.30%显著优于无稳定奖励版本的 41.43%方向误差、角速度误差和高度图重建误差均低于基线展现出更优的动态平衡和地形感知能力不同速度指令下在重力主导地形如楼梯、斜坡中成功率优势尤为明显极端扰动实验中生存概率最高真实世界实验中机器人成功遍历草地、斜坡、碎石、台阶等多种户外地形面对落叶打滑、地形边界感知干扰等突发情况时能快速调整姿态维持稳定平均任务成功率达 85% 以上。[ICLR 2026] PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning提出机构香港科技大学、南方科技大学、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院、LimX Dynamics论文链接https://arxiv.org/abs/2602.01156v1项目主页https://policyflow2026.github.io/研究背景在强化学习领域策略梯度方法已在机器人控制、大语言模型对齐等复杂序贯决策任务中取得显著成功其中近端策略优化PPO凭借简洁性、数值稳定性和优异的实证性能成为行业标准广泛应用于复杂机器人控制和生成式策略微调。然而标准 PPO 依赖基于重要性比率的替代目标这要求对策略似然进行评估而现有 PPO 通常采用高斯分布建模策略虽计算简便但难以表示复杂、多模态或高度倾斜的动作分布限制了其在更复杂场景中的应用。近年来连续归一化流CNF又称流匹配模型等生成模型展现出捕捉复杂多模态分布的强大能力已成功应用于模仿学习等领域但这类模型计算重要性比率或似然时需进行迭代 ODE/SDE 模拟和路径反向传播不仅计算成本高昂还容易出现梯度爆炸或消失问题导致直接应用于 PPO 风格更新时训练速度慢、内存消耗大且稳定性差严重限制了其在高效在线强化学习中的实用性。论文内容为解决上述挑战本文提出 PolicyFlow一种新型在线强化学习算法将连续归一化流的表达能力与 PPO 风格的裁剪目标相结合实现高效稳定的策略优化。算法核心设计包括两部分一是 CNF 策略的重要性比率近似方法通过评估插值路径上 CNF 速度场的变化来近似重要性比率避免了昂贵的路径反向传播在不影响训练稳定性的前提下降低了计算开销二是布朗熵正则化器受布朗运动启发提出一种轻量级熵正则化器无需显式计算 CNF 策略的熵即可促进熵的单调增长有效缓解模式崩溃问题鼓励多样化的动作行为。为验证算法性能研究团队在 MultiGoal、PointMaze、IsaacLab 和 MuJoCo Playground 等多种环境的不同任务中进行了全面实验对比了采用高斯策略的 PPO 以及 FPO、DPPO 等基于流的基线方法。实验结果表明PolicyFlow 在多数任务中取得了具有竞争力或更优的性能尤其在 MultiGoal 任务中充分展现了其捕捉丰富多模态动作分布的能力能够实现更均衡的目标达成行为。主要创新点提出了一种针对 CNF 策略的重要性比率近似方案通过插值路径上的速度场变化替代完整流路径的似然评估既保持了 PPO 的训练稳定性又将计算效率维持在与高斯策略 PPO 相当的水平解决了生成模型在 PPO 中应用的计算瓶颈设计了布朗正则化器这一隐式熵正则化机制区别于传统显式计算熵或启发式注入噪声的方法该正则化器直接通过塑造速度场引导熵增长原理简洁且计算轻量化有效解决了流基策略熵正则化困难的问题在多环境、多任务的全面实验验证中PolicyFlow 展现出优于现有基线的泛化能力和性能表现尤其在多模态动作分布建模上的优势显著为强化学习与生成模型的融合提供了兼具实用性和表达力的统一框架理论分析证明插值路径近似带来的误差为一阶且可通过 PPO 的裁剪机制自然限制为算法的稳定性提供了坚实的理论支撑。关键实验结果在 MultiGoal 任务中PolicyFlow 结合布朗正则化器实现了对所有 6 个目标的均衡覆盖成功率和目标多样性显著优于仅用高斯熵正则化的版本及 FPO、DPPO 等基线MuJoCo Playground 环境中其收敛速度更快、样本效率更高多数任务性能超越 FPO 和 DPPO与 PPO 持平或更优IsaacLab 机器人基准测试中所有任务的渐近性能均匹配或超越 PPO且在 Navigation 等任务中统计显著优于基线计算效率方面PolicyFlow 每迭代训练时间仅比 PPO 增加不到 50%即使嵌入维度提升 8 倍计算成本仍控制在 PPO 的 2 倍以内验证了其实际部署可行性。写在最后若想深入了解更多研究细节或加入团队欢迎访问张巍教授个人主页https://faculty.sustech.edu.cn/?tagidzhangw3go2及相关项目主页持续追踪团队的最新动态。回望 2025 年至今的科研征程张巍教授团队以 “学术深耕 产业落地” 双轮驱动交出了一份兼具理论深度与实践价值的答卷。从 IMU 传感器去偏的底层技术突破到多形态机器人的统一 locomotion 框架构建再到机器人桌面操作的无标签泛化方案以及强化学习与生成模型融合的策略优化创新团队的研究覆盖了具身智能从感知、决策到控制的完整链路既聚焦核心技术瓶颈又紧扣产业实际需求。这些成果的背后是团队 “理论创新与工程实践并重” 的鲜明特色每一项算法突破都经过仿真与真实场景的双重验证既在RSS、CoRL、ICLR 等顶会展现学术影响力又能快速落地到逐际动力的机器人产品中形成 “科研反哺产业、产业滋养科研” 的良性循环。这种 “从实验室到市场” 的闭环能力正是具身智能领域最稀缺的核心竞争力。对于正在关注具身智能领域的学习者、科研爱好者以及计划申请硕博深造的同学而言张巍教授团队的研究方向兼具前沿性与实用性——**无论是足式机器人运动控制、多模态感知融合还是强化学习与生成模型的跨领域应用**都是当前行业的核心赛道。而团队依托南方科技大学 CLEAR 实验室的完备平台自研双足 / 四足机器人、机械臂等与逐际动力的产业资源更能为研究者提供 “将想法变为现实” 的绝佳土壤。在具身智能从技术探索走向规模化应用的关键阶段相信这样一支兼具学术高度与产业视野的团队未来还将持续产出更多引领行业发展的突破性成果为全球通用人形机器人的进步注入中国力量。重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等