导读在3D场景中让AI根据自然语言“把那个红色的马克杯”分割出对应物体是具身智能的关键能力。然而现有方法需要昂贵的每场景人工标注且不同视角生成的伪标签相互矛盾导致模型训练不稳定。本文提出的TrackRef3D首次实现全自动、无需人工标注的开放世界3D指代分割通过轨迹感知语义共识模块TSCM将多视角预测聚合成一致的规范语义身份并利用混合训练策略HTS联合优化粗粒度类别语义和细粒度指代线索。在Ref-LERF基准上TrackRef3D以38.8 mIoU超越此前SOTA29.2达9.6个百分点在LERF-OVS上达到63.2 mIoU在3D-OVS上达到95.2 mIoU。该方法为零样本、跨视角一致的3D场景理解提供了全新范式。文章信息标题TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting作者Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan机构华东师范大学、上海人工智能实验室、电子科技大学一、背景与挑战3D指代分割的“昂贵标注”与“视角矛盾”指代3D高斯泼溅R3DGS旨在通过自然语言从3D场景中分割出目标物体即使该物体在新视角下被遮挡或不可见。这对于机器人导航和自动驾驶至关重要。然而现有方法如ReferSplat存在三大瓶颈昂贵的人工标注每个场景都需要人工标注类别标签和指代描述无法规模化部署。多视角不一致利用2D基础模型逐视图生成伪掩码时由于遮挡和领域特定词汇同一物体在不同视角下可能得到互相矛盾的标签例如一碗拉面在一张图中被标为“ramen”另一张图中却被标为“bowl”。长查询过拟合训练时过度依赖长描述导致模型对用户常用的短查询泛化能力差。本文提出的TrackRef3D通过“追踪-标记”范式将物体发现与语义对齐解耦完全自动化地生成多视角一致的监督信号并利用混合训练策略同时适应长短查询。二、方法全自动的追踪-标记管道2.1 整体架构原文图3TrackRef3D包含三个阶段初始物体发现利用Florence-2进行开放词汇目标检测再用SAM-2生成逐视图像素级掩码。保留所有预测不提前过滤不一致。轨迹感知语义共识模块TSCM通过视频追踪将同一物体的掩码关联成轨迹再通过同义词聚类和轨迹内投票确定该物体的规范语义身份并基于可见性分数选择最佳关键帧生成指代描述。混合训练策略HTS将规范类别语义和生成的指代描述同时作为正样本使用多正例对比损失训练语言嵌入的3D高斯场。图片来源于原论文2.2 轨迹感知语义共识模块TSCM视频追踪使用DEVA追踪器将逐视图掩码关联成轨迹得到每个物体的跨视图轨迹 (T_i)。同义词聚类对轨迹内所有预测标签的文本嵌入进行层次聚类余弦距离阈值 (\tau_{\text{rem}}0.85)将同义标签如“ramen”和“bowl”如果语义相近合并为一个簇并选取最短表面形式作为簇身份。轨迹内投票对每个轨迹统计各簇身份的出现频率选取得票最多的作为该轨迹的规范语义身份(c_i^*)并传播到轨迹内所有视图确保跨视图标签完全一致。描述生成为避免从遮挡视图生成模糊描述设计可见性得分选择中等面积不特别大也不特别小的关键帧再用CogVLM2生成指代描述。2.3 混合训练策略HTS将轨迹的规范语义标签和生成的指代描述都视为同一物体的正样本使用多正例对比损失其中 包含所有与该物体相关的正描述类别名指代描述是批内所有描述作为负样本。此损失迫使同一物体的3D高斯嵌入与所有相关文本描述无论长短都保持高相似度从而提升对短查询的泛化能力。总损失 其中 为渲染掩码与TSCM伪掩码的二元交叉熵。三、实验结果3.1 基准与指标Ref-LERF4个真实场景人工标注指代描述评估mIoU。LERF-OVS / 3D-OVS开放词汇基准使用类别名查询。自采实验室场景1033视图训练10视图测试人工标注2D掩码作为真值。图片来源于原论文3.2 主要结果Ref-LERF方法RamenFigurinesTeawareKitchen平均SPIn-NeRF7.39.711.710.39.8LangSplat12.017.97.617.913.9GS-Grouping27.98.614.86.314.4Grounded SAM14.116.016.916.215.8GOI27.116.522.915.720.5ReferSplat35.225.731.324.429.2TrackRef3D45.734.241.733.638.8TrackRef3D平均提升9.6个百分点。3.3 自采实验室场景方法指代查询语义查询GS-Grouping28.936.1LangSplat13.641.2ReferSplat37.424.4TrackRef3D48.568.33.4 LERF-OVS 和 3D-OVS 基准方法LERF-OVS平均3D-OVS平均Feature-3DGS45.787.8GS-Grouping46.387.7GOI50.690.6LangSplat51.493.4ReferSplat55.494.1TrackRef3D63.295.2四、消融与深度分析4.1 模块贡献消融Ref-LERF配置TSCMHTSRamenKitchenBaseline××35.224.4TSCM✓×39.429.1HTS×✓37.726.3完整✓✓45.733.64.2 TSCM各组件分解配置RamenKitchenBaseline35.224.4(A) Florence-2SAM-223.113.7(B) (A)追踪23.113.7(C) (B)仅聚类31.722.8(D) (B)仅投票39.327.1完整TSCM45.733.64.3 同义词聚类阈值敏感性RamenKitchen0.7029.620.40.7533.124.70.8039.528.40.8545.733.60.9041.328.54.4 描述生成关键帧选择策略RamenKitchen最大面积19.412.0最小面积23.116.3随机35.926.4中位数40.329.2权重(σ50)39.829.4权重(σ100)45.733.6权重(σ125)43.631.3五、总结与展望核心贡献首个全自动开放世界3D指代分割管道无需人工标注仅需多视图RGB图像和重建的3D高斯场景。轨迹感知语义共识模块TSCM通过追踪、同义词聚类和轨迹内投票彻底解决多视角伪标签不一致问题。混合训练策略HTS将类别语义和指代描述同时作为正样本用多正例对比损失训练显著提升对短查询的泛化能力。SOTA性能在Ref-LERF上平均mIoU 38.89.6实验室场景指代48.5、语义68.3LERF-OVS 63.23D-OVS 95.2。局限与未来方向描述生成质量受限于VLM在特定场景下的表现极端小物体或罕见外观生成描述可能不准确。当前仅在中等规模场景验证更大规模、更动态的环境需进一步测试。TrackRef3D为实现零标注、跨视角一致的3D场景理解提供了可落地的技术路径有望推动具身智能在真实世界的部署。
上海 AI Lab联合发布无需人工标注的TrackRef3D:全自动3D指代分割,mIoU达38.8领跑SOTA
导读在3D场景中让AI根据自然语言“把那个红色的马克杯”分割出对应物体是具身智能的关键能力。然而现有方法需要昂贵的每场景人工标注且不同视角生成的伪标签相互矛盾导致模型训练不稳定。本文提出的TrackRef3D首次实现全自动、无需人工标注的开放世界3D指代分割通过轨迹感知语义共识模块TSCM将多视角预测聚合成一致的规范语义身份并利用混合训练策略HTS联合优化粗粒度类别语义和细粒度指代线索。在Ref-LERF基准上TrackRef3D以38.8 mIoU超越此前SOTA29.2达9.6个百分点在LERF-OVS上达到63.2 mIoU在3D-OVS上达到95.2 mIoU。该方法为零样本、跨视角一致的3D场景理解提供了全新范式。文章信息标题TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting作者Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan机构华东师范大学、上海人工智能实验室、电子科技大学一、背景与挑战3D指代分割的“昂贵标注”与“视角矛盾”指代3D高斯泼溅R3DGS旨在通过自然语言从3D场景中分割出目标物体即使该物体在新视角下被遮挡或不可见。这对于机器人导航和自动驾驶至关重要。然而现有方法如ReferSplat存在三大瓶颈昂贵的人工标注每个场景都需要人工标注类别标签和指代描述无法规模化部署。多视角不一致利用2D基础模型逐视图生成伪掩码时由于遮挡和领域特定词汇同一物体在不同视角下可能得到互相矛盾的标签例如一碗拉面在一张图中被标为“ramen”另一张图中却被标为“bowl”。长查询过拟合训练时过度依赖长描述导致模型对用户常用的短查询泛化能力差。本文提出的TrackRef3D通过“追踪-标记”范式将物体发现与语义对齐解耦完全自动化地生成多视角一致的监督信号并利用混合训练策略同时适应长短查询。二、方法全自动的追踪-标记管道2.1 整体架构原文图3TrackRef3D包含三个阶段初始物体发现利用Florence-2进行开放词汇目标检测再用SAM-2生成逐视图像素级掩码。保留所有预测不提前过滤不一致。轨迹感知语义共识模块TSCM通过视频追踪将同一物体的掩码关联成轨迹再通过同义词聚类和轨迹内投票确定该物体的规范语义身份并基于可见性分数选择最佳关键帧生成指代描述。混合训练策略HTS将规范类别语义和生成的指代描述同时作为正样本使用多正例对比损失训练语言嵌入的3D高斯场。图片来源于原论文2.2 轨迹感知语义共识模块TSCM视频追踪使用DEVA追踪器将逐视图掩码关联成轨迹得到每个物体的跨视图轨迹 (T_i)。同义词聚类对轨迹内所有预测标签的文本嵌入进行层次聚类余弦距离阈值 (\tau_{\text{rem}}0.85)将同义标签如“ramen”和“bowl”如果语义相近合并为一个簇并选取最短表面形式作为簇身份。轨迹内投票对每个轨迹统计各簇身份的出现频率选取得票最多的作为该轨迹的规范语义身份(c_i^*)并传播到轨迹内所有视图确保跨视图标签完全一致。描述生成为避免从遮挡视图生成模糊描述设计可见性得分选择中等面积不特别大也不特别小的关键帧再用CogVLM2生成指代描述。2.3 混合训练策略HTS将轨迹的规范语义标签和生成的指代描述都视为同一物体的正样本使用多正例对比损失其中 包含所有与该物体相关的正描述类别名指代描述是批内所有描述作为负样本。此损失迫使同一物体的3D高斯嵌入与所有相关文本描述无论长短都保持高相似度从而提升对短查询的泛化能力。总损失 其中 为渲染掩码与TSCM伪掩码的二元交叉熵。三、实验结果3.1 基准与指标Ref-LERF4个真实场景人工标注指代描述评估mIoU。LERF-OVS / 3D-OVS开放词汇基准使用类别名查询。自采实验室场景1033视图训练10视图测试人工标注2D掩码作为真值。图片来源于原论文3.2 主要结果Ref-LERF方法RamenFigurinesTeawareKitchen平均SPIn-NeRF7.39.711.710.39.8LangSplat12.017.97.617.913.9GS-Grouping27.98.614.86.314.4Grounded SAM14.116.016.916.215.8GOI27.116.522.915.720.5ReferSplat35.225.731.324.429.2TrackRef3D45.734.241.733.638.8TrackRef3D平均提升9.6个百分点。3.3 自采实验室场景方法指代查询语义查询GS-Grouping28.936.1LangSplat13.641.2ReferSplat37.424.4TrackRef3D48.568.33.4 LERF-OVS 和 3D-OVS 基准方法LERF-OVS平均3D-OVS平均Feature-3DGS45.787.8GS-Grouping46.387.7GOI50.690.6LangSplat51.493.4ReferSplat55.494.1TrackRef3D63.295.2四、消融与深度分析4.1 模块贡献消融Ref-LERF配置TSCMHTSRamenKitchenBaseline××35.224.4TSCM✓×39.429.1HTS×✓37.726.3完整✓✓45.733.64.2 TSCM各组件分解配置RamenKitchenBaseline35.224.4(A) Florence-2SAM-223.113.7(B) (A)追踪23.113.7(C) (B)仅聚类31.722.8(D) (B)仅投票39.327.1完整TSCM45.733.64.3 同义词聚类阈值敏感性RamenKitchen0.7029.620.40.7533.124.70.8039.528.40.8545.733.60.9041.328.54.4 描述生成关键帧选择策略RamenKitchen最大面积19.412.0最小面积23.116.3随机35.926.4中位数40.329.2权重(σ50)39.829.4权重(σ100)45.733.6权重(σ125)43.631.3五、总结与展望核心贡献首个全自动开放世界3D指代分割管道无需人工标注仅需多视图RGB图像和重建的3D高斯场景。轨迹感知语义共识模块TSCM通过追踪、同义词聚类和轨迹内投票彻底解决多视角伪标签不一致问题。混合训练策略HTS将类别语义和指代描述同时作为正样本用多正例对比损失训练显著提升对短查询的泛化能力。SOTA性能在Ref-LERF上平均mIoU 38.89.6实验室场景指代48.5、语义68.3LERF-OVS 63.23D-OVS 95.2。局限与未来方向描述生成质量受限于VLM在特定场景下的表现极端小物体或罕见外观生成描述可能不准确。当前仅在中等规模场景验证更大规模、更动态的环境需进一步测试。TrackRef3D为实现零标注、跨视角一致的3D场景理解提供了可落地的技术路径有望推动具身智能在真实世界的部署。