TPAMI 2026 | 显著与伪装检测的通用解!VSCode-v2 凭动态提示实现全域性能提升

TPAMI 2026 | 显著与伪装检测的通用解!VSCode-v2 凭动态提示实现全域性能提升 点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域显著目标检测SOD和伪装目标检测COD是两大核心任务涵盖RGB、RGB-D、RGB-T、视频等多模态场景。但现有模型要么针对性过强、泛化性差要么多任务联合训练时易出现优化冲突难以兼顾不同任务的共性与特性。近期一篇题为VSCode-v2: Dynamic Prompt Learning for General Visual Salient and Camouflaged Object Detection With Two-Stage Optimization的论文提出了一套全新的通用检测框架通过动态提示学习和两阶段优化策略不仅在6项SOD/COD核心任务上实现性能均衡提升还具备零样本处理新模态任务的能力论文信息题目 VSCode-v2: Dynamic Prompt Learning for General Visual Salient and Camouflaged Object Detection With Two-Stage OptimizationVSCode-v2基于两阶段优化的动态提示学习通用视觉显著与伪装目标检测作者Ziyang Luo, Nian Liu, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Shahbaz Khan, Junwei Han一、研究背景SOD与COD的痛点待解SOD和COD虽同属二分图像分割任务但核心目标截然不同SOD找的是图像中最显眼、与背景差异大的物体而COD要揪出那些“伪装”在背景里、纹理/结构与环境高度相似的目标。随着研究深入这两个任务衍生出RGB、RGB-D、RGB-T、视频等多模态子任务如图1每个子任务都有专属的数据集和模型设计。图1SOD、COD及其多模态变体的双维度分类关系清晰展现不同输入模态领域和检测目标任务的关联现有方法的核心问题集中在两点一是模型“定制化”严重针对单一任务设计的架构换个模态或任务就性能骤降二是多任务联合训练时“学共性”和“学特性”的目标相互冲突优化难度大且固定的提示策略和特征融合方式让模型无法适配不同图像的分布差异也难以灵活处理多模态输入。二、VSCode-v2核心架构从静态到动态的全面升级为解决上述问题研究团队提出VSCode-v2框架整体架构如图2所示。该框架以VST纯Transformer分割模型为基础核心改进集中在“动态提示生成”“灵活模态融合”“两阶段训练”三大方向既保留了基础模型对跨任务共性的学习能力又强化了对领域/任务特性的捕获。图2VSCode-v2整体架构设计清晰展示两阶段训练流程、MoPE层融入方式及多模态融合逻辑1. 提示专家混合层MoPE让提示“适配每一张图”传统方法中同一任务的所有图像共享一组固定提示完全忽略了图像间的数据分布差异。VSCode-v2借鉴“专家混合MoE”思想设计了MoPE层如图4让模型能根据输入图像的特征动态选择并聚合最相关的提示“专家”。图4MoPE层工作机制实现领域/任务提示的动态选择与聚合具体来说研究团队预先构建了领域提示池覆盖RGB、深度、热成像、光流模态和任务提示池覆盖SOD、COD任务通过两个可学习的门控机制对输入图像特征进行处理后为每个“专家”打分筛选出Top-2最相关的领域和任务专家。最终的提示由这些高相关专家的输出加权求和得到实现了“一张图一套专属提示”大幅提升模型的自适应能力。消融实验证实领域和任务提示各设置5个专家、选择Top-2的配置能在模型容量和计算效率间达到最佳平衡比固定提示策略的性能更优。2. 灵活的多模态融合告别“固定MLP”适配任意模态此前的多模态融合依赖“通道拼接MLP降维”这种固定结构只能处理预设数量的模态新增模态就需要重新训练。VSCode-v2将其替换为“均值聚合”——对不同模态单独处理后的特征计算逐元素平均值无需修改参数或重新训练就能适配任意数量的输入模态为零样本泛化打下基础。3. 任务特定提示编码器解码器双维度强化SOD和COD虽有共性但特征关注点差异显著SOD需聚焦前景COD则要重视背景且伪装目标的边界更复杂需要更精细的解码过程。因此VSCode-v2在编码器中加入任务特定提示引导模型学习任务相关的语义特征在解码器中单独设计SOD/COD专属提示如图3为伪装目标的边界重建分配更多注意力解决了解码阶段任务特性捕捉不足的问题。图3任务特定提示在模型中的作用效果有效区分SOD和COD的特征学习重点三、两阶段训练对比学习优化效率与特征关联双提升1. 两阶段训练解耦“共性”与“特性”学习传统单阶段训练同时优化“跨任务共性”和“领域/任务特性”容易导致目标冲突。VSCode-v2将训练拆分为两个阶段第一阶段移除所有提示模块仅用基础模型联合训练所有任务专注学习跨任务的通用特征表示为后续学习打下基础第二阶段引入MoPE层和任务特定提示专门捕获领域/任务特性同时加入知识蒸馏损失借鉴初代VSCode模型的权重避免MoPE层引入的信息损失。实验表明两阶段训练比单阶段训练在多数任务上性能更优证明“先学共性、再学特性”的策略能有效降低优化难度。2. 对比损失数据增强强化提示与特征的关联为解决“提示与底层特征对应关系弱”的问题研究团队设计了带数据增强的对比学习机制数据增强将同一任务的两张图像垂直/水平拼接丰富特征表示的多样性对比损失以解码器输出的分割预测为依据分离前景和背景特征将前景特征与对应提示作为正样本背景特征作为负样本强制模型学习提示与图像语义的对应关系。此外还引入“提示判别损失”确保不同领域/任务的提示具有区分性避免提示信息纠缠进一步提升特征学习的有效性。四、实验验证6大任务性能均衡提升零样本泛化能力突出1. 实验设置研究团队在SOD/COD的全模态基准数据集上开展实验包括RGB SODDUTS、ECSSD等6个、RGB-D SODNJUD、NLPR等6个、RGB-T SODVT821等3个、VSODDAVIS等6个、RGB CODCOD10K等3个、VCODCAD等2个采用结构度量S_m、最大增强对齐度量E_m、最大F-measureF_m作为核心评估指标。训练过程中图像统一调整为384×384后随机裁剪至352×352使用Adam优化器分阶段调整学习率确保多任务训练的平衡性。2. 核心结果消融实验验证了各组件的有效性MoPE层引入后多数任务性能显著提升加入知识蒸馏和对比损失后性能进一步优化两阶段训练相比单阶段能更好地兼顾共性与特性与固定提示策略相比MoPE动态提示的设计在所有任务上均表现更优零样本泛化测试VSCode-v2无需修改参数就能处理RGB-D视频SOD这一三模态新任务证明了框架的通用适配能力。五、总结与展望VSCode-v2的核心贡献在于从“动态提示生成”和“优化策略重构”两个维度突破了通用视觉显著与伪装目标检测的瓶颈MoPE层实现了图像级的自适应提示生成解决了固定提示的适配性问题两阶段训练知识蒸馏解耦了多任务优化的冲突保留了模型的通用特征学习能力均值聚合的模态融合方式让模型具备任意模态的适配能力对比学习机制强化了提示与特征的关联提升了特征学习的有效性。该研究为多模态、多任务的通用视觉检测提供了全新思路不仅在SOD/COD任务上实现了性能突破也为其他计算机视觉多任务学习场景提供了参考。未来该框架有望进一步扩展到更多视觉任务中推动通用视觉模型的落地应用。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~