TPAMI 2026 | 武大 Mask-DiFuser:掩码扩散赋能,多模态图像融合实现无监督统一

TPAMI 2026 | 武大 Mask-DiFuser:掩码扩散赋能,多模态图像融合实现无监督统一 点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域图像融合一直是兼具挑战与价值的研究方向——红外与可见光图像融合助力夜间安防、医学图像融合辅助临床诊断、多曝光/多焦点融合提升日常摄影质量但一个核心难题始终制约着技术发展绝大多数融合任务中不存在能作为参考的“真实融合图像Ground Truth”。这不仅让模型训练缺乏可靠监督信号也让不同场景下的统一融合模型成为奢望。近期Linfeng Tang、Chunyu Li和Jiayi Ma团队提出的Mask-DiFuser为解决这一痛点带来了全新思路。该研究将掩码图像建模与扩散模型巧妙结合把无监督图像融合转化为自监督的双掩码图像重建任务打造出无需微调即可适配多场景的通用融合模型在红外-可见光、医学、多曝光、多焦点等融合任务中全面超越现有方法。论文信息题目 Mask-DiFuser: A Masked Diffusion Model for Unified Unsupervised Image Fusion掩码扩散模型一种用于统一无监督图像融合的掩码扩散模型作者Linfeng Tang, Chunyu Li, and Jiayi Ma一、图像融合的“卡脖子”难题单模态传感器只能捕捉场景的局部信息图像融合的核心是聚合多源图像的互补信息构建更完整的场景表征。但长期以来“无真实融合标签”的问题让研究陷入两难要么设计复杂的手工损失函数依赖人工先验难以适配复杂真实场景要么拆分特征提取、聚合、重建流程用手工规则聚合特征缺乏对数据内在融合模式的理解即便部分统一模型能处理多任务也需针对不同场景微调泛化性大打折扣。而Mask-DiFuser的核心思路是所有图像融合任务本质上都是要生成符合人类视觉感知的高质量图像——清晰的纹理、适宜的曝光、自然的色彩这一目标可作为多场景融合的统一标准而掩码图像建模MIM扩散模型的组合恰好能绕开“无真实标签”的壁垒。二、Mask-DiFuser核心框架从结构到细节1. 整体架构双掩码扩散模型的自监督闭环先来看Mask-DiFuser的整体方法框架图2这也是整个方案的核心逻辑整个模型以“双掩码图像重建”为核心将无监督融合任务转化为有明确监督的自监督任务首先通过双掩码方案对高质量源图像处理生成两幅互补的掩码图像再将这两幅图像输入掩码扩散模型模型学习从互补掩码图像中恢复原始高质量图像这个过程中自然掌握了互补信息聚合的能力最终在推理阶段预训练好的模型可直接接收多源融合任务的输入无需微调即可生成融合图像。2. 关键创新1嵌入退化的双掩码方案传统掩码方案仅通过简单的随机二值掩码生成互补图像既无法模拟真实场景的图像退化也易导致模型模式崩溃。而Mask-DiFuser设计的双掩码方案图3让掩码图像更贴近真实融合场景的特点该方案将掩码区域拆分为四部分除了保留部分原始高质量图像内容、纯色块外还引入高斯模糊、高斯噪声、伽马校正等随机退化操作生成两幅互补的掩码图像。这种设计有两大优势模拟真实融合场景的互补信息比如红外图像能捕捉热源、可见光图像保留纹理双掩码图像恰好复刻了这种“各有优劣、互为补充”的特征提供任务无关的监督信号原始高质量图像可直接作为重建任务的真实标签让模型训练有了可靠的监督依据同时退化操作还增强了模型对实际成像干扰的鲁棒性。3. 关键创新2融合局部全局的掩码扩散模型扩散模型本身具备强大的生成能力能学习高质量自然图像的生成先验而Mask-DiFuser对扩散模型做了针对性升级让其更适配融合任务内容编码器局部特征配备注意力并行特征混合器APFM能提取并整合两幅掩码图像的局部互补特征——比如纹理、边缘、局部对比度等细节信息为图像重建提供精细的局部指导语义编码器全局特征基于Transformer构建通过交叉注意力机制捕捉全局语义信息比如场景中的物体类别、空间布局等确保融合结果符合全局语义逻辑去噪U-Net将局部内容特征与全局语义特征整合在反向去噪过程中逐步从高斯噪声中恢复出高质量图像既保留细节又保证整体视觉效果。4. 损失函数兼顾重建精度与视觉感知为避免扩散模型训练出现色彩失真、结构模糊等问题模型除了基础的扩散损失外还引入了多维度的图像级一致性损失像素损失保证重建图像与原图的像素相似度SSIM损失保留结构相似性感知损失通过VGG网络约束深层特征一致性色彩一致性损失则专门防止色彩偏差让融合结果更符合人类视觉习惯。三、实验验证多场景碾压现有方法研究团队在6类典型融合任务、8个公开数据集上对Mask-DiFuser进行了全面验证对比了任务特定方法和统一融合方法结果展现出压倒性优势。1. 红外-可见光图像融合在MSRS、RoadScene数据集上Mask-DiFuser生成的融合图像能清晰突出行人等关键目标同时保留可见光图像的纹理细节还能有效纠正源图像的过曝光问题图4、图5、图6。定量指标上其在信息熵EN、平均梯度AG、标准差SD、感知指数PI等核心指标上均排名第一充分证明其在纹理保留、对比度增强上的优势。2. 近红外-可见光图像融合面对雾霾等退化场景现有方法易出现细节模糊、色彩暗淡的问题而Mask-DiFuser能充分利用近红外图像的纹理细节生成色彩自然、云纹清晰的融合结果图7在EN、AG、PI等指标上均领先。3. 医学图像融合在Harvard医学数据集上Mask-DiFuser能同时突出MRI图像的软组织细节和PET图像的功能信息边缘更锐利、伪影更少图9。相比专门的医学融合算法其在信息保留和视觉效果上实现了更好的平衡。4. 多曝光/多焦点融合多曝光场景中Mask-DiFuser能平衡不同曝光区域的亮度保留树叶、建筑、玻璃内物体等精细细节色彩饱和度更自然图10、图11多焦点融合任务中其能精准保留马鬃、缰绳纹理等细节不同焦点区域过渡自然无光晕伪影图12充分体现了模型对高质量图像生成先验的学习效果。四、总结图像融合的通用化新方向Mask-DiFuser的核心价值在于跳出了“依赖真实融合标签”的思维定式用掩码图像建模为无监督融合任务构建了可靠的自监督范式。其设计的双掩码方案既解决了监督信号问题又增强了模型鲁棒性而融合局部与全局特征的扩散模型保证了融合结果的视觉质量和场景适配性。更重要的是该模型无需针对特定任务微调就能适配多模态、多场景的图像融合需求为军事检测、智能医疗、辅助驾驶等实际应用提供了通用化的技术方案。这一研究不仅推动了图像融合领域的技术突破也为其他缺乏真实标签的生成类视觉任务提供了可借鉴的思路。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~