CVPR‘26 | LaS-Comp：20秒精准还原万物全貌！零样本3D补全提速3倍以上，精度暴涨27%-尧图企业网站定制

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文经授权发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入0.论文信息标题LaS-Comp:Zero-shot3DCompletionwithLatent–SpatialConsistency作者WeilongYan,HaipengLi,HaoXu,NianjinYe,YihaoAi,ShuaichengLiu,JingyuHu机构新加坡国立大学电子科技大学香港中文大学长虹智能机器人原文链接https://arxiv.org/pdf/2602.18735官方主页https://github.com/DavidYan2001/LaS-Comp?tabreadme-ov-file1.导读在3D视觉世界里我们经常面临“只有碎片没有全貌”的尴尬机器人扫到了椅子的一角雷达只拍到了汽车的半个屁股。传统的补全方法往往依赖海量的配对数据进行训练一旦遇到没见过的物体就容易“翻车”。本文介绍的LaS-Comp是一位全能的“补锅匠”它是一个零样本(Zero-shot)且与类别无关的3D形状补全框架。它不需任何针对性训练直接调动3D基础模型强大的几何“常识”就能脑补出完美的物体全貌。无论你是随机缺了一块还是只剩一个零件LaS-Comp都能在20秒内完成高质量修复速度比之前的方案快了3倍以上2.效果展示LaS-Comp的“想象力”不仅丰富而且非常听话。它支持多样化的残缺模式并且能通过文字精准控制补全结果。三种典型的补全模式从随机裁剪到单视角扫描甚至是缺失了核心部件比如没有腿的椅子或没有头的恐龙模型都能应对自如。图1展示了随机裁剪、单视角扫描和语义部件缺失三种场景下的完美补全文字引导的“变色龙”式补全给一段残缺的轮廓你可以告诉它“补成一辆跑车”或者“补成一个路边摊”它都能精准拿捏。图2在真实世界数据集Redwood上LaS-Comp的细节还原度远超前人方法3.引言补全3D形状不只是为了好看它是机器人抓取、自动驾驶和AR/VR的基石。虽然现在的3D大模型已经学会了“画”各种物体但在“修”物体时却面临一个巨大的鸿沟潜空间代沟(Latent-SpatialGap)。研究人员发现即便残缺点云和完整点云在对应部分有相同的几何它们被压缩到大模型的“潜空间”后编码也会有明显差异。如果你直接在大模型脑子里进行补全往往会发现补出来的东西和原有的部分“各长各的”接缝处充满了裂纹和伪影。LaS-Comp的核心任务就是架起一座桥梁让大模型的“脑补”能力与真实的“几何观测”完美同步。4.主要贡献真正的零样本补全第一个全面压榨潜在生成3D基础模型先验知识的框架完全不需要配对数据训练。双阶段“微创手术”通过显式替换(ERS)确保忠实原貌通过隐式对齐(IAS)确保过渡丝滑。效率极高每个物体的补全时间压缩到了20秒相比现有零样本方法提速300%。构建Omni-Comp基准推出了一个包含180个样本的挑战性测试集涵盖单视角扫描、随机裁剪、语意部件缺失等多样化的残缺模式。5.方法LaS-Comp的工作流程就像是一个严谨的雕塑修复过程(1)显式替换阶段(ERS)先把坑填上在生成过程中我们强行把“看到的部分”塞进模型的预测里。为了防止模型乱画我们还设计了一个部分感知噪声计划(PNS)让模型对已知区域保持“敬畏”少动对未知区域大胆“创作”多动从而在多样性和忠实度之间取得平衡。(2)隐式对齐阶段(IAS)再把缝磨平“硬塞”进去的部分难免会有接缝。IAS通过一个聪明的几何对齐损失函数在不改动模型参数的情况下微调当前的潜变量让生成的补全部分与原有的观测部分在边缘处完美融合消除所有的空洞和折痕。图3LaS-Comp框架概述。该过程从高斯噪声开始在部分输入Sp的指导下迭代细化潜在特征ΔXt。在每次迭代t中此细化分两个阶段进行显式替换阶段ERS和隐式对齐阶段IAS。ERS将Sp的已知几何结构显式注入到ΔXt中以产生更新后的潜在表示xt∗。然后IAS使用基于梯度的优化方法细化xt∗3精巧的“残缺感知噪声调度”对于已知区域应该保持稳定只添加极少量噪声对于未知区域则应鼓励探索可以注入更多随机性。具体实现上算法会用一个与时间相关的系数来混合预测噪声与高斯噪声已知区甚至直接使用纯高斯噪声未知区从而得到调整后的噪声潜在特征。图4ERS的具体过程包括显式替换和残缺感知噪声调度6.实验结果LaS-Comp在多个数据集(RedwoodSyntheticKITTIScanNetOmni-Comp)上都展现了统治力。指标起飞在Redwood数据集上LaS-Comp比之前的SOTA方法ComPC的错误率降低了27.2%比GenPC降低了18.4%。复杂情况通杀在包含30种不同类别的Omni-Comp挑战赛中LaS-Comp在各种残缺模式下都保持了极高的稳定性综合性能提升近50%。细节拉满无论是绿植细碎的叶片还是垃圾桶复杂的轮廓又或是盆栽的花朵LaS-Comp补出来的结果都显得既自然又真实。表1:Redwood真实世界数据测评结果表2:合成数据测评结果表3:提出的Omni-Comp测试基准测评结果图5多种残缺模式的补全效果对比图6真实世界极稀疏场景下的补全效果图7同样本输入的补全多样性效果消融实验研究者们通过系统的消融实验验证了各个组件的必要性移除显式替换阶段ERS性能下降最严重模型会完全忽略输入自己“幻想”出一个新形状保真度丧失。移除部分感知噪声调度PNS在已知与未知区域交界处会产生明显的条纹伪影。移除隐式对齐阶段IAS虽然大体结构正确但边界区域会出现小孔洞和不平滑的过渡。图8消融实验效果对比7.总结限制性LaS-Comp证明了3D基础模型不仅能“无中生有”更是“修旧如新”的好手。它打破了类别限制也摆脱了训练枷锁为3D视觉的应用打开了新大门。未来的挑战面对极其严重的噪声干扰模型有时会变得“迷茫”导致细小结构丢失。研究团队计划下一步引入更强的异常点剔除技术和置信度感知的精细调节让补全在极端环境下依然稳如泰山。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

相关新闻

文档转换自动化：Word to Markdown全流程实战指南

F5-TTS语音克隆：5分钟打造专业级多语言语音合成系统

RK3588 + FIT-485 V1.1 TTL转485模块 完整开发指南

从概念验证到生产部署：Multi-Agent项目实施的全生命周期方法论

基于大语言模型与提示词工程构建AI创业想法评估工具

【多智能体】基于多智能体多视角三维空间定位的神经动力学方法附Matlab代码

Transformer深度解析：揭秘AI 2.0时代的核心驱动力！

2000-2026年低空经济试点政策DID数据

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

容器化Nextcloud离线部署协作应用实战：以Collabora为例

草莓成熟度检测数据集VOC+YOLO格式1487张3类别有增强

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

RK3588 + FIT-485 V1.1 TTL转485模块完整开发指南

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势