1. 项目概述当通用视觉模型遇上多模态图像融合在计算机视觉的实际应用中我们常常面临一个困境单一传感器获取的图像信息总是不完整的。比如在夜间安防监控中可见光摄像头一片漆黑而红外热像仪虽然能捕捉到人体的热辐射却丢失了丰富的纹理细节和背景环境信息。多模态图像融合技术特别是红外与可见光图像的融合就是为了解决这个“信息孤岛”问题而生的。它的目标很简单就是把来自不同“眼睛”看到的世界合成一张更清晰、信息更全面的“超级图像”。传统的融合方法无论是基于稀疏表示还是早期的深度学习网络大多聚焦于像素层面的“好看”——也就是追求更高的对比度、更清晰的边缘。这固然重要但对于自动驾驶、智能监控这类需要机器“理解”场景的高级任务来说仅仅“好看”是不够的。我们需要融合后的图像富含“语义”能让后续的检测、分割模型一眼就认出哪里是人、哪里是车。于是语义驱动的融合方法应运而生它们尝试将高级视觉任务如分割网络作为监督信号反向指导融合过程。然而这条路走起来并不轻松。现有的语义驱动方法通常面临两大痛点一是“专用性”太强为某个特定数据集比如某个城市的道路场景精心设计的融合-分割联合网络换到另一个数据集比如野外监控可能就效果大跌二是“训练”太复杂往往需要分阶段交替训练融合网络和任务网络流程繁琐像在走钢丝平衡不好就容易训崩。最近两年像CLIP和DINOv2这样的视觉基础模型Vision Foundation Models横空出世。它们在海量数据上预训练具备了令人惊叹的零样本泛化能力和对图像内容的深度理解。一个很自然的想法是能否请这些“通才”模型来帮忙解决我们融合任务中的泛化和语义难题这正是我们这次要深入探讨的GFFusion方法的核心思路。它不再从头训练复杂的专用网络而是巧妙地“借用”CLIP和DINOv2这两个已经非常强大的模型构建了一个更简洁、更通用的融合框架。简单来说就是让CLIP充当“语义信息提供者”让DINOv2充当“任务质量检验员”共同指导一个轻量级的融合网络进行学习。这种方法不仅简化了训练流程更重要的是它借助基础模型的泛化能力让融合网络学到的“融合之道”具备了更强的跨场景适应性。2. 核心思路拆解混合学习框架与通用特征的价值要理解GFFusion的创新之处我们得先看看它要解决什么问题以及它是如何巧妙利用现有“工具”的。2.1 现有语义驱动融合的范式与局限在GFFusion的论文中作者清晰地梳理了现有的两类主流语义驱动融合范式这有助于我们定位新方法的位置。第一类是级联学习Cascading Learning。你可以把它想象成一个流水线前端是融合网络FuNet后端直接接上一个分割网络SSNet。训练时分割任务的损失比如交叉熵损失会一路反向传播到融合网络迫使它生成对分割友好的图像。代表工作是SeAFusion。这种方法直观但有个明显问题融合网络产出的特征和分割网络期待的特征之间存在“语义鸿沟”。融合网络可能更关注像素级的纹理对齐而分割网络需要的是高级的物体轮廓和类别信息。直接用分割损失去指导融合有点像让一个画家融合网络直接去理解艺术评论家的抽象标准分割损失中间缺少一个有效的“翻译”过程指导效率有限。第二类是并行学习Parallel Learning。这种方法尝试引入一个“翻译官”即特征注入网络FINet。它先让分割网络在源图像红外和可见光上提取出语义特征然后通过FINet将这些特征“注入”到融合网络中显式地告诉融合网络“你生成图像时要重点照顾这些有语义信息的区域”。代表工作是DetFusion。这比级联学习更进了一步但问题在于这个分割网络本身是需要针对特定数据集训练的它提取的语义特征可能带有强烈的数据集偏见。当换到一个新场景时这个“翻译官”可能就不灵了整个系统又得重新训练。无论是级联还是并行它们都依赖于一个需要从头训练或精细调优的任务网络分割或检测网络。这导致了方法对数据集的依赖性高训练策略复杂常常需要多阶段交替优化泛化能力成为瓶颈。2.2 GFFusion的破局思路引入视觉基础模型GFFusion的核心洞察在于它发现并利用了CLIP和DINOv2这两个视觉基础模型的互补特性构建了一个混合学习Hybrid Learning框架。这个框架可以看作是并行学习和级联学习的优雅结合但关键组件被替换成了“冻结”的、通用的预训练模型。为什么是CLIP和DINOv2这基于一个关键的观察论文中也引用了相关研究CLIP和DINOv2虽然都是强大的视觉编码器但它们学到的特征侧重点不同。CLIP通过海量图像-文本对训练它的强项在于图像级别的语义理解。它更擅长回答“这张图片里有什么”这样的问题。因此CLIP的特征包含了丰富的、与物体类别和整体场景相关的语义信息同时也保留了不少关于物体形状和纹理的细节。你可以把它看作一个“见多识广的博物学家”。DINOv2通过自监督学习在大量图像上训练它的强项在于像素级别的细粒度定位。它对物体的边界、部件和几何结构非常敏感。因此DINOv2的特征非常适合需要精确定位的任务比如分割。你可以把它看作一个“目光如炬的测绘员”。GFFusion的巧妙设计就在于让CLIP提供语义信息“注入什么”让DINOv2提供任务约束“注入得好不好”。2.3 混合学习框架详解GFFusion的整体架构是一个精心设计的闭环特征提取与初步融合红外和可见光图像首先进入一个轻量级的卷积融合网络FuNet提取初步的空间特征并进行融合。这个网络负责基础的像素级信息整合。通用语义特征注入同时两幅源图像被送入冻结的CLIP视觉编码器。CLIP提取出多层特征这些特征蕴含了通用语义信息。然后通过一个特征注入网络FINet这些CLIP特征被巧妙地“注入”到FuNet的融合过程中。FINet的作用就像一个调节阀根据CLIP提供的语义“地图”告诉FuNet在哪些区域应该更强调红外信息比如热目标在哪些区域应该更强调可见光信息比如纹理背景。任务驱动的约束与对齐融合网络生成的图像会被送入一个基于冻结DINOv2的轻量级分割头SSNet进行语义分割。分割的损失预测结果与真实标签的差异会反向传播同时优化FuNet和FINet。这里的关键在于DINOv2作为一个强大的、通用的特征提取器为整个系统提供了一个稳定且高质量的“任务锚点”。它不需要从头训练只需要微调一个简单的线性分类头就能对融合图像的质量给出精准的“评价”。隐式特征对齐整个优化过程还有一个隐含的妙处为了让融合图像在DINOv2上取得好的分割效果FuNet和FINet被迫学习生成那些其深层特征能与DINOv2特征空间对齐的图像。而CLIP的特征通过FINet中的线性映射层也被间接地拉向与DINOv2特征兼容的方向。这就实现了一种隐式的特征对齐弥合了“融合特征”与“高级任务特征”之间的鸿沟。注意这里“冻结”二字至关重要。CLIP和DINOv2的权重在训练过程中是固定的不参与更新。我们只训练FuNet、FINet和DINOv2顶部的分割头。这极大地降低了训练复杂度避免了灾难性遗忘并最大程度地保留了基础模型的泛化能力。这个框架的优势是显而易见的它摆脱了对特定任务网络的依赖利用通用模型作为稳定的语义源和任务监督使得整个系统训练更简单联合优化无需交替并且有望获得更好的跨数据集泛化性能。3. 网络架构与核心模块深度解析理解了宏观框架我们深入到GFFusion网络的每一个核心模块看看它们是如何具体实现上述思想的。这部分是复现该方法的关键。3.1 融合网络FuNet的设计平衡效率与细节FuNet的主体是一个基于卷积神经网络CNN的编码器-解码器结构但其中嵌入了一个关键模块梯度残差密集块GRDB, Gradient Residual Dense Block。这个模块并非GFFusion首创但它对于融合任务至关重要。为什么用CNN而不是纯Transformer论文中提到选择CNN是为了在性能和效率之间取得平衡。ViT等纯Transformer架构虽然全局建模能力强但计算开销大对输入分辨率敏感。而融合任务通常需要处理高分辨率图像并保留精细的空间细节如边缘、纹理CNN在这方面具有天然优势。GRDB模块的奥秘 GRDB通常包含两个并行分支密集连接分支由多个卷积层构成层与层之间采用密集连接Dense Connection即每一层的输入都来自前面所有层的输出拼接。这极大地促进了特征重用增强了网络的信息流。梯度分支引入Sobel等梯度算子显式地提取图像的梯度信息边缘。这相当于给网络提供了一个“边缘先验”强迫它关注图像中结构变化剧烈的区域而这些区域往往包含了重要的信息如物体轮廓。两个分支的特征最后通过逐元素相加进行融合。这个设计确保了FuNet在融合时不仅能利用深层语义特征还能牢牢抓住浅层的纹理和边缘细节这是生成视觉质量高的融合图像的基础。实操要点 在实现时输入的红外和可见光图像会分别通过一个3x3卷积LeakyReLU激活层提取出基础特征。然后这些特征分别送入各自的GRDB进行增强。最后将增强后的红外和可见光特征在通道维度进行拼接形成初步的融合特征zf。这个zf已经包含了来自双模的、经过细节增强的空间信息等待语义信息的注入。3.2 多级语义特征提取与融合策略这是利用CLIP模型的核心环节。我们不是简单粗暴地使用CLIP的最后一层输出而是提取其所有Transformer层的特征。这是因为不同层捕获的信息不同浅层特征包含更多细节和纹理深层特征包含更多高级语义。步骤分解特征提取将配准好的红外图像I_ir和可见光图像I_rgb分别输入冻结的CLIP视觉编码器论文使用ViT-B/16。对于每一幅图像我们提取其所有L层例如11层的Patch Token特征。每一层的特征都是一个二维矩阵维度为[196, 768]196个图像块每个块768维特征。跨模态特征聚合对于每一层l我们得到了红外特征f_ir^l和可见光特征f_rgb^l。如何将它们合并为一个跨模态的语义特征f^l论文采用了逐元素取最大值Max操作。即对于特征图上的每一个位置每个token我们比较红外和可见光特征在该位置的值取较大的那个。其直觉是红外和可见光信息是互补的。一个物体可能在可见光下纹理清晰但在红外下不明显反之亦然。取最大值操作可以尽可能保留每个模态最显著的信息是一种简单高效的互补融合策略。多层特征合并现在我们有了L个跨模态语义特征[f^1, f^2, ..., f^L]。如何将它们合并为一个统一的语义特征zc供后续注入论文探索了三种策略均值Mean直接对所有层特征求平均。zc (f^1 f^2 ... f^L) / L。这种方法最简单但可能模糊了不同层次信息的特异性。加权求和Weighted-Sum为每一层特征学习一个可训练的权重ω^l然后加权求和。zc ω^1*f^1 ω^2*f^2 ... ω^L*f^L。这种方法让网络自己决定哪些层的特征更重要灵活性更高。分组卷积Group-Conv将L层特征分成N组每组内部先用分组卷积进行融合然后再对组间的输出进行加权求和。这是一种更复杂的融合方式能捕捉组内特征的交互。实验与选择 论文中的消融实验表明加权求和Weighted-Sum策略取得了最好的效果。这意味着网络自动学会了给那些对当前融合任务最有用的CLIP层可能是中高层兼顾语义和部分细节分配更高的权重。这个可学习的权重参数是FINet的一部分在训练中与整个网络一起优化。3.3 特征注入模块FINet的实现细节FINet是连接CLIP语义世界和FuNet像素世界的桥梁。它的任务是将CLIP提供的通用语义特征zc维度与图像块相关如[196, 768]有效地注入到FuNet的融合特征zf维度是[H, W, C]例如[64, 64, 96]中去。这里涉及两个关键操作空间维度对齐和特征调制。维度对齐zc是CLIP的Patch Token序列需要先通过一个线性层全连接层将其通道数从768投影到与zf的通道数C如96相匹配。接着需要将zc从序列形式[196, C]重塑Reshape并上采样Upsample到FuNet特征图的空间尺寸[H, W, C]。论文中使用了双线性插值上采样。门控注入机制 简单的相加或拼接可能不是最有效的方式。GFFusion采用了门控线性单元GLU的思想来实现一个软性的、自适应的注入。首先将对齐后的CLIP语义特征记为zc_aligned通过一个1x1卷积和Sigmoid激活函数生成一个空间和通道维度的注意力门控图Gating Map。这个图的值在0到1之间表示每个位置、每个通道的“开放”程度。然后将这个门控图与FuNet的融合特征zf进行逐元素相乘。zg zf ⊗ σ(Conv(zc_aligned))。这样做的意义门控机制允许网络动态决定在哪些区域、哪些特征通道上应该多大程度地采纳CLIP提供的语义信息。例如在背景纹理区域可能更信任FuNet自己的融合结果在潜在的目标物体区域则更大程度地引入CLIP的语义先验。残差连接与线性投影 为了稳定训练并进一步促进特征对齐论文还增加了两个设计残差连接将原始的zf直接加到门控调制后的特征zg上。这确保了语义注入过程不会破坏FuNet已经提取到的基础信息。线性投影相加将对齐后的CLIP特征zc_aligned再通过一个独立的线性层投影后与zg相加。z zg ⊕ Linear(zc_aligned)。论文指出这个额外的线性投影有助于更好地对齐CLIP特征和DINOv2特征的空间。最终经过FINet调制并融合了语义信息的特征z再经过几个卷积层和批归一化层就解码生成了最终的融合图像I_fus。3.4 基于DINOv2的语义分割头SSNet分割网络在这里的角色是“任务监督者”而不是“特征提取者”。因此它的设计极其轻量。骨干网络冻结使用预训练的DINOv2 ViT模型作为特征提取器并且冻结其所有权重。我们只利用它强大的、通用的特征表示能力。轻量级分割头在DINOv2输出的Patch Token特征之上仅仅叠加一个线性分类层Linear Layer。这个线性层将每个图像块的特征768维映射到类别数如MFNet数据集的9类的logits原始分类分数。上采样与输出将得到的低分辨率例如14x14的logits图通过双线性插值上采样到原始输入图像的分辨率再经过Softmax得到每个像素的类别概率即最终的分割结果I_seg。这种设计的优势非常明显极大地降低了训练复杂度。我们只需要训练一个参数极少的线性层而不是整个庞大的分割网络。同时冻结的DINOv2提供了一个稳定、高质量的特征空间确保了监督信号的有效性和泛化性。3.5 损失函数视觉保真与语义驱动的权衡GFFusion的损失函数由两部分组成分别对应两个目标生成视觉质量高的图像以及生成对分割任务有用的图像。1. 结构与纹理损失L_st 这部分损失确保融合图像在像素层面与源图像相似保留结构和纹理。结构相似性损失SSIM分别计算融合图像与可见光图像、融合图像与红外图像的SSIM指数。SSIM衡量亮度、对比度和结构的相似性。损失定义为(1 - SSIM)/2的和目的是最大化SSIM。纹理损失使用Sobel算子计算图像的梯度幅值衡量边缘和纹理的丰富程度。损失鼓励融合图像的梯度幅值至少不低于源图像中梯度幅值较大的那一个通过max操作实现。这有助于保留清晰的边缘。2. 语义分割损失L_ss 这就是标准的交叉熵损失。计算DINOv2分割头对融合图像的预测结果I_seg与真实分割标签I_gt之间的差异。总损失L_total L_st λ * L_ss其中λ是一个超参数用于平衡两项损失的重要性。在训练初期可以设置较小的λ让网络先专注于学习基本的图像融合。在训练一段时间后如论文中50个epoch后再逐步增大λ让语义分割任务的监督发挥更强的作用引导网络生成更具语义信息的融合结果。论文使用了余弦调度器来动态调整λ。4. 实验配置、训练技巧与结果分析理论再完美也需要实验的验证。这部分我们将拆解GFFusion的实现细节、训练流程并解读其性能表现。4.1 实验环境与数据集准备硬件与软件框架PyTorch。这是目前深度学习研究的主流选择生态丰富自定义层和训练循环编写灵活。GPUNVIDIA GeForce RTX 4090 24GB。处理图像融合任务尤其是训练时涉及CLIP、DINOv2等大模型的前向传播显存消耗较大。RTX 4090的大显存和高算力是顺利实验的保障。如果使用显存较小的卡可能需要减小批次大小batch size或使用梯度累积。数据集 论文在四个公开数据集上进行了评估覆盖了不同场景MFNet一个针对自动驾驶场景的多光谱可见光红外数据集包含1569对像素级标注的图像用于语义分割任务评估。这是验证“融合提升下游任务”的核心数据集。M3FD一个大规模多模态融合检测数据集包含4200对图像带有目标检测框。论文将其转换为分割掩码用于评估通过PCA对DINOv2特征聚类后阈值化生成前景目标掩码。RoadScene和TNO这两个是经典的纯图像融合评估数据集没有任务标签。主要用于评估融合图像的视觉质量和像素级信息保留度。实操心得数据预处理是关键。红外与可见光图像融合的前提是图像已经进行了严格的空间配准即两幅图像中的场景是完全对齐的。MFNet和M3FD提供了配准好的数据对。对于RoadScene和TNO也需要确保使用的数据对是配准的。通常需要将图像统一缩放到固定尺寸如256x256或512x512并进行归一化如像素值缩放到[0,1]或[-1,1]。4.2 训练策略与超参数设置GFFusion的训练流程相对简洁得益于其联合优化框架。以下是关键的训练步骤和参数设置初始化加载预训练的CLIPViT-B/16和DINOv2ViT-B模型权重并冻结它们的参数。随机初始化融合网络FuNet、特征注入网络FINet的参数。随机初始化DINOv2顶部的线性分割头参数。优化器与学习率FuNet和FINet使用Adam优化器初始学习率设置为1e-3。这两个网络是从头开始训练的需要较大的学习率进行快速收敛。SSNet分割头同样使用Adam优化器但初始学习率设置为1e-4。因为分割头是一个非常简单的线性层在强大的DINOv2特征之上进行微调过大的学习率容易导致震荡。论文中还提到每10个epoch将学习率乘以0.1进行衰减。联合训练流程前q个epoch论文中q50以较小的语义损失权重λ如0.2开始训练。此时主要优化L_st让网络先学会生成视觉上合理的融合图像。q个epoch之后启动余弦调度器逐步增大λ。同时开始更新分割头的参数θ_s。此时分割任务的监督信号逐渐增强引导融合网络生成更有利于分割的语义特征。整个过程中CLIP和DINOv2的骨干网络参数始终保持冻结。关键超参数λ平衡因子。初始值0.2后期通过余弦调度增加。这个值需要根据具体数据集进行调整如果分割任务非常关键可以初始设置得大一些。β纹理损失的权重。在结构损失SSIM和纹理损失之间取得平衡。N特征合并策略中分组卷积的组数论文中设置为1即退化为加权求和。避坑指南梯度爆炸/消失由于网络包含多个模块且存在跳跃连接需要注意梯度流。使用标准的权重初始化如Kaiming初始化、批归一化BatchNorm层有助于稳定训练。模式崩溃在训练初期如果语义损失λ*L_ss权重过大可能会迫使融合网络生成一些看似有利于分割但视觉上失真严重的图像。这就是为什么需要采用分阶段调整λ的策略让网络先打好像素融合的基础。显存管理同时前向传播CLIP、DINOv2和FuNet显存占用很高。如果遇到OOM内存溢出错误可以尝试1) 减小批次大小2) 使用梯度检查点Gradient Checkpointing技术以时间换空间3) 将CLIP和DINOv2的特征提取放在CPU上进行速度会慢很多。4.3 性能评估与结果解读论文从两个维度评估GFFusion图像融合质量和下游语义分割性能。图像融合质量评估 使用了三个无参考图像质量评价指标信息熵EN衡量图像中包含的信息量。EN越高表示融合图像信息越丰富。差异相关性之和SCD衡量融合图像从源图像中继承信息的程度。SCD越高说明融合图像与源图像的相关性越强融合效果越好。视觉信息保真度VIF衡量融合图像保留源图像视觉信息的程度。VIF越高视觉失真越小。在RoadScene和TNO数据集上的对比实验显示GFFusion在EN、SCD、VIF指标上均达到了与当前先进方法如SwinFusion, SeAFusion相当甚至更优的水平。这表明引入CLIP语义特征进行指导并没有牺牲像素级的融合质量反而因为有了更高层次的引导可能在某些细节上融合得更好。语义分割性能评估 在MFNet数据集上使用平均交并比mIoU作为评估指标。这是语义分割任务的核心指标。关键发现与专用融合方法对比将GFFusion生成的融合图像输入到不同的、训练好的语义分割模型如SegNeXt, SegFormer中其mIoU与使用SeAFusion、PSFusion等先进的语义驱动融合方法生成图像的结果相当。这证明了GFFusion生成的图像确实富含有效的语义信息。与自身对比消融实验混合学习的有效性对比级联学习、并行学习和本文的混合学习范式混合学习取得了最佳或接近最佳的融合与分割性能。这验证了“CLIP注入语义 DINOv2提供约束”框架的优越性。特征合并策略加权求和Weighted-Sum策略优于简单的均值Mean和分组卷积Group-Conv说明网络能够自适应地选择有用的CLIP特征层。特征可视化对融合图像分别用CLIP和DINOv2提取特征并进行可视化发现CLIP特征更关注整体物体区域而DINOv2特征能捕捉更精细的边界。这直观地解释了两者互补的作用CLIP告诉网络“这里有个物体”DINOv2则检验“这个物体的边界准不准”。定性结果分析 从论文提供的融合图像对比图可以看出GFFusion的结果在目标突出性和细节保留之间取得了很好的平衡。例如在夜间场景中它既能清晰地突出红外热目标如行人、车辆又能很好地保留可见光图像的背景纹理如道路、植被避免了某些方法产生的目标模糊或背景过暗的问题。5. 总结、局限与未来展望回顾整个GFFusion工作其核心贡献在于提出了一种简洁而有效的范式利用现成的、强大的视觉基础模型CLIP和DINOv2来解决多模态图像融合中的语义注入和泛化难题。它避免了为每个新任务、新数据集重新设计复杂网络和训练策略的麻烦提供了一种“即插即用”的思路。我个人在实际复现和思考这类方法时的体会是它的最大魅力不在于在某个特定指标上刷出新高而在于其设计理念的通用性和启发性。它告诉我们在当今基础模型百花齐放的时代很多视觉任务不必再从零开始。我们可以像搭积木一样将这些预训练的“能力模块”组合起来通过精巧的接口设计如FINet让它们协同工作解决更复杂的多模态问题。这大大降低了研究与应用的门槛。当然GFFusion也存在一些局限和可以改进的方向计算效率尽管训练时DINOv2和CLIP是冻结的但前向推理仍然需要运行这两个大型ViT模型计算开销和延迟对于实时性要求高的应用如自动驾驶仍然是一个挑战。未来的工作可以探索如何蒸馏Distill基础模型的知识到一个更轻量的融合网络中或者设计更高效的特征注入机制。任务单一性目前框架只集成了语义分割作为下游任务。论文也提到由于DINOv2本身在检测任务上的限制未能实现检测与分割的多任务统一监督。一个自然的扩展是引入像Mask DINO这样的统一感知模型同时提供检测和分割的监督信号让融合图像能同时服务于多种高级任务。特征注入的精细度目前的FINet采用全局的门控调制和相加。或许可以探索更精细的注入方式例如基于CLIP特征生成空间自适应滤波器Spatially Adaptive Filter或调制系数对FuNet的特征进行逐通道、逐位置的调制。扩展到更多模态本文聚焦红外与可见光。但框架具有很强的可扩展性。理论上只要能为新模态如SAR雷达图像、多光谱图像找到或训练一个合适的“CLIP-like”编码器能够提取该模态的语义特征就可以将其纳入这个融合框架。如何为缺乏大规模文本-图像对的其他模态构建通用的特征提取器是一个值得探索的问题。最后给想要复现或在此方向上进行探索的朋友一点建议可以从理解CLIP和DINOv2的特征特性开始尝试在简单的图像融合任务上手动提取这些特征并可视化直观感受它们所携带的信息。然后再动手搭建GFFusion的核心管道FuNet 特征提取 简单注入。不必一开始就追求完整的复现分模块验证、逐步集成是理解这类复杂系统的最佳路径。这个领域正在快速发展将基础模型的能力与传统的计算机视觉任务深度结合无疑是一个充满潜力的方向。
基于CLIP与DINOv2的语义驱动多模态图像融合方法GFFusion解析
1. 项目概述当通用视觉模型遇上多模态图像融合在计算机视觉的实际应用中我们常常面临一个困境单一传感器获取的图像信息总是不完整的。比如在夜间安防监控中可见光摄像头一片漆黑而红外热像仪虽然能捕捉到人体的热辐射却丢失了丰富的纹理细节和背景环境信息。多模态图像融合技术特别是红外与可见光图像的融合就是为了解决这个“信息孤岛”问题而生的。它的目标很简单就是把来自不同“眼睛”看到的世界合成一张更清晰、信息更全面的“超级图像”。传统的融合方法无论是基于稀疏表示还是早期的深度学习网络大多聚焦于像素层面的“好看”——也就是追求更高的对比度、更清晰的边缘。这固然重要但对于自动驾驶、智能监控这类需要机器“理解”场景的高级任务来说仅仅“好看”是不够的。我们需要融合后的图像富含“语义”能让后续的检测、分割模型一眼就认出哪里是人、哪里是车。于是语义驱动的融合方法应运而生它们尝试将高级视觉任务如分割网络作为监督信号反向指导融合过程。然而这条路走起来并不轻松。现有的语义驱动方法通常面临两大痛点一是“专用性”太强为某个特定数据集比如某个城市的道路场景精心设计的融合-分割联合网络换到另一个数据集比如野外监控可能就效果大跌二是“训练”太复杂往往需要分阶段交替训练融合网络和任务网络流程繁琐像在走钢丝平衡不好就容易训崩。最近两年像CLIP和DINOv2这样的视觉基础模型Vision Foundation Models横空出世。它们在海量数据上预训练具备了令人惊叹的零样本泛化能力和对图像内容的深度理解。一个很自然的想法是能否请这些“通才”模型来帮忙解决我们融合任务中的泛化和语义难题这正是我们这次要深入探讨的GFFusion方法的核心思路。它不再从头训练复杂的专用网络而是巧妙地“借用”CLIP和DINOv2这两个已经非常强大的模型构建了一个更简洁、更通用的融合框架。简单来说就是让CLIP充当“语义信息提供者”让DINOv2充当“任务质量检验员”共同指导一个轻量级的融合网络进行学习。这种方法不仅简化了训练流程更重要的是它借助基础模型的泛化能力让融合网络学到的“融合之道”具备了更强的跨场景适应性。2. 核心思路拆解混合学习框架与通用特征的价值要理解GFFusion的创新之处我们得先看看它要解决什么问题以及它是如何巧妙利用现有“工具”的。2.1 现有语义驱动融合的范式与局限在GFFusion的论文中作者清晰地梳理了现有的两类主流语义驱动融合范式这有助于我们定位新方法的位置。第一类是级联学习Cascading Learning。你可以把它想象成一个流水线前端是融合网络FuNet后端直接接上一个分割网络SSNet。训练时分割任务的损失比如交叉熵损失会一路反向传播到融合网络迫使它生成对分割友好的图像。代表工作是SeAFusion。这种方法直观但有个明显问题融合网络产出的特征和分割网络期待的特征之间存在“语义鸿沟”。融合网络可能更关注像素级的纹理对齐而分割网络需要的是高级的物体轮廓和类别信息。直接用分割损失去指导融合有点像让一个画家融合网络直接去理解艺术评论家的抽象标准分割损失中间缺少一个有效的“翻译”过程指导效率有限。第二类是并行学习Parallel Learning。这种方法尝试引入一个“翻译官”即特征注入网络FINet。它先让分割网络在源图像红外和可见光上提取出语义特征然后通过FINet将这些特征“注入”到融合网络中显式地告诉融合网络“你生成图像时要重点照顾这些有语义信息的区域”。代表工作是DetFusion。这比级联学习更进了一步但问题在于这个分割网络本身是需要针对特定数据集训练的它提取的语义特征可能带有强烈的数据集偏见。当换到一个新场景时这个“翻译官”可能就不灵了整个系统又得重新训练。无论是级联还是并行它们都依赖于一个需要从头训练或精细调优的任务网络分割或检测网络。这导致了方法对数据集的依赖性高训练策略复杂常常需要多阶段交替优化泛化能力成为瓶颈。2.2 GFFusion的破局思路引入视觉基础模型GFFusion的核心洞察在于它发现并利用了CLIP和DINOv2这两个视觉基础模型的互补特性构建了一个混合学习Hybrid Learning框架。这个框架可以看作是并行学习和级联学习的优雅结合但关键组件被替换成了“冻结”的、通用的预训练模型。为什么是CLIP和DINOv2这基于一个关键的观察论文中也引用了相关研究CLIP和DINOv2虽然都是强大的视觉编码器但它们学到的特征侧重点不同。CLIP通过海量图像-文本对训练它的强项在于图像级别的语义理解。它更擅长回答“这张图片里有什么”这样的问题。因此CLIP的特征包含了丰富的、与物体类别和整体场景相关的语义信息同时也保留了不少关于物体形状和纹理的细节。你可以把它看作一个“见多识广的博物学家”。DINOv2通过自监督学习在大量图像上训练它的强项在于像素级别的细粒度定位。它对物体的边界、部件和几何结构非常敏感。因此DINOv2的特征非常适合需要精确定位的任务比如分割。你可以把它看作一个“目光如炬的测绘员”。GFFusion的巧妙设计就在于让CLIP提供语义信息“注入什么”让DINOv2提供任务约束“注入得好不好”。2.3 混合学习框架详解GFFusion的整体架构是一个精心设计的闭环特征提取与初步融合红外和可见光图像首先进入一个轻量级的卷积融合网络FuNet提取初步的空间特征并进行融合。这个网络负责基础的像素级信息整合。通用语义特征注入同时两幅源图像被送入冻结的CLIP视觉编码器。CLIP提取出多层特征这些特征蕴含了通用语义信息。然后通过一个特征注入网络FINet这些CLIP特征被巧妙地“注入”到FuNet的融合过程中。FINet的作用就像一个调节阀根据CLIP提供的语义“地图”告诉FuNet在哪些区域应该更强调红外信息比如热目标在哪些区域应该更强调可见光信息比如纹理背景。任务驱动的约束与对齐融合网络生成的图像会被送入一个基于冻结DINOv2的轻量级分割头SSNet进行语义分割。分割的损失预测结果与真实标签的差异会反向传播同时优化FuNet和FINet。这里的关键在于DINOv2作为一个强大的、通用的特征提取器为整个系统提供了一个稳定且高质量的“任务锚点”。它不需要从头训练只需要微调一个简单的线性分类头就能对融合图像的质量给出精准的“评价”。隐式特征对齐整个优化过程还有一个隐含的妙处为了让融合图像在DINOv2上取得好的分割效果FuNet和FINet被迫学习生成那些其深层特征能与DINOv2特征空间对齐的图像。而CLIP的特征通过FINet中的线性映射层也被间接地拉向与DINOv2特征兼容的方向。这就实现了一种隐式的特征对齐弥合了“融合特征”与“高级任务特征”之间的鸿沟。注意这里“冻结”二字至关重要。CLIP和DINOv2的权重在训练过程中是固定的不参与更新。我们只训练FuNet、FINet和DINOv2顶部的分割头。这极大地降低了训练复杂度避免了灾难性遗忘并最大程度地保留了基础模型的泛化能力。这个框架的优势是显而易见的它摆脱了对特定任务网络的依赖利用通用模型作为稳定的语义源和任务监督使得整个系统训练更简单联合优化无需交替并且有望获得更好的跨数据集泛化性能。3. 网络架构与核心模块深度解析理解了宏观框架我们深入到GFFusion网络的每一个核心模块看看它们是如何具体实现上述思想的。这部分是复现该方法的关键。3.1 融合网络FuNet的设计平衡效率与细节FuNet的主体是一个基于卷积神经网络CNN的编码器-解码器结构但其中嵌入了一个关键模块梯度残差密集块GRDB, Gradient Residual Dense Block。这个模块并非GFFusion首创但它对于融合任务至关重要。为什么用CNN而不是纯Transformer论文中提到选择CNN是为了在性能和效率之间取得平衡。ViT等纯Transformer架构虽然全局建模能力强但计算开销大对输入分辨率敏感。而融合任务通常需要处理高分辨率图像并保留精细的空间细节如边缘、纹理CNN在这方面具有天然优势。GRDB模块的奥秘 GRDB通常包含两个并行分支密集连接分支由多个卷积层构成层与层之间采用密集连接Dense Connection即每一层的输入都来自前面所有层的输出拼接。这极大地促进了特征重用增强了网络的信息流。梯度分支引入Sobel等梯度算子显式地提取图像的梯度信息边缘。这相当于给网络提供了一个“边缘先验”强迫它关注图像中结构变化剧烈的区域而这些区域往往包含了重要的信息如物体轮廓。两个分支的特征最后通过逐元素相加进行融合。这个设计确保了FuNet在融合时不仅能利用深层语义特征还能牢牢抓住浅层的纹理和边缘细节这是生成视觉质量高的融合图像的基础。实操要点 在实现时输入的红外和可见光图像会分别通过一个3x3卷积LeakyReLU激活层提取出基础特征。然后这些特征分别送入各自的GRDB进行增强。最后将增强后的红外和可见光特征在通道维度进行拼接形成初步的融合特征zf。这个zf已经包含了来自双模的、经过细节增强的空间信息等待语义信息的注入。3.2 多级语义特征提取与融合策略这是利用CLIP模型的核心环节。我们不是简单粗暴地使用CLIP的最后一层输出而是提取其所有Transformer层的特征。这是因为不同层捕获的信息不同浅层特征包含更多细节和纹理深层特征包含更多高级语义。步骤分解特征提取将配准好的红外图像I_ir和可见光图像I_rgb分别输入冻结的CLIP视觉编码器论文使用ViT-B/16。对于每一幅图像我们提取其所有L层例如11层的Patch Token特征。每一层的特征都是一个二维矩阵维度为[196, 768]196个图像块每个块768维特征。跨模态特征聚合对于每一层l我们得到了红外特征f_ir^l和可见光特征f_rgb^l。如何将它们合并为一个跨模态的语义特征f^l论文采用了逐元素取最大值Max操作。即对于特征图上的每一个位置每个token我们比较红外和可见光特征在该位置的值取较大的那个。其直觉是红外和可见光信息是互补的。一个物体可能在可见光下纹理清晰但在红外下不明显反之亦然。取最大值操作可以尽可能保留每个模态最显著的信息是一种简单高效的互补融合策略。多层特征合并现在我们有了L个跨模态语义特征[f^1, f^2, ..., f^L]。如何将它们合并为一个统一的语义特征zc供后续注入论文探索了三种策略均值Mean直接对所有层特征求平均。zc (f^1 f^2 ... f^L) / L。这种方法最简单但可能模糊了不同层次信息的特异性。加权求和Weighted-Sum为每一层特征学习一个可训练的权重ω^l然后加权求和。zc ω^1*f^1 ω^2*f^2 ... ω^L*f^L。这种方法让网络自己决定哪些层的特征更重要灵活性更高。分组卷积Group-Conv将L层特征分成N组每组内部先用分组卷积进行融合然后再对组间的输出进行加权求和。这是一种更复杂的融合方式能捕捉组内特征的交互。实验与选择 论文中的消融实验表明加权求和Weighted-Sum策略取得了最好的效果。这意味着网络自动学会了给那些对当前融合任务最有用的CLIP层可能是中高层兼顾语义和部分细节分配更高的权重。这个可学习的权重参数是FINet的一部分在训练中与整个网络一起优化。3.3 特征注入模块FINet的实现细节FINet是连接CLIP语义世界和FuNet像素世界的桥梁。它的任务是将CLIP提供的通用语义特征zc维度与图像块相关如[196, 768]有效地注入到FuNet的融合特征zf维度是[H, W, C]例如[64, 64, 96]中去。这里涉及两个关键操作空间维度对齐和特征调制。维度对齐zc是CLIP的Patch Token序列需要先通过一个线性层全连接层将其通道数从768投影到与zf的通道数C如96相匹配。接着需要将zc从序列形式[196, C]重塑Reshape并上采样Upsample到FuNet特征图的空间尺寸[H, W, C]。论文中使用了双线性插值上采样。门控注入机制 简单的相加或拼接可能不是最有效的方式。GFFusion采用了门控线性单元GLU的思想来实现一个软性的、自适应的注入。首先将对齐后的CLIP语义特征记为zc_aligned通过一个1x1卷积和Sigmoid激活函数生成一个空间和通道维度的注意力门控图Gating Map。这个图的值在0到1之间表示每个位置、每个通道的“开放”程度。然后将这个门控图与FuNet的融合特征zf进行逐元素相乘。zg zf ⊗ σ(Conv(zc_aligned))。这样做的意义门控机制允许网络动态决定在哪些区域、哪些特征通道上应该多大程度地采纳CLIP提供的语义信息。例如在背景纹理区域可能更信任FuNet自己的融合结果在潜在的目标物体区域则更大程度地引入CLIP的语义先验。残差连接与线性投影 为了稳定训练并进一步促进特征对齐论文还增加了两个设计残差连接将原始的zf直接加到门控调制后的特征zg上。这确保了语义注入过程不会破坏FuNet已经提取到的基础信息。线性投影相加将对齐后的CLIP特征zc_aligned再通过一个独立的线性层投影后与zg相加。z zg ⊕ Linear(zc_aligned)。论文指出这个额外的线性投影有助于更好地对齐CLIP特征和DINOv2特征的空间。最终经过FINet调制并融合了语义信息的特征z再经过几个卷积层和批归一化层就解码生成了最终的融合图像I_fus。3.4 基于DINOv2的语义分割头SSNet分割网络在这里的角色是“任务监督者”而不是“特征提取者”。因此它的设计极其轻量。骨干网络冻结使用预训练的DINOv2 ViT模型作为特征提取器并且冻结其所有权重。我们只利用它强大的、通用的特征表示能力。轻量级分割头在DINOv2输出的Patch Token特征之上仅仅叠加一个线性分类层Linear Layer。这个线性层将每个图像块的特征768维映射到类别数如MFNet数据集的9类的logits原始分类分数。上采样与输出将得到的低分辨率例如14x14的logits图通过双线性插值上采样到原始输入图像的分辨率再经过Softmax得到每个像素的类别概率即最终的分割结果I_seg。这种设计的优势非常明显极大地降低了训练复杂度。我们只需要训练一个参数极少的线性层而不是整个庞大的分割网络。同时冻结的DINOv2提供了一个稳定、高质量的特征空间确保了监督信号的有效性和泛化性。3.5 损失函数视觉保真与语义驱动的权衡GFFusion的损失函数由两部分组成分别对应两个目标生成视觉质量高的图像以及生成对分割任务有用的图像。1. 结构与纹理损失L_st 这部分损失确保融合图像在像素层面与源图像相似保留结构和纹理。结构相似性损失SSIM分别计算融合图像与可见光图像、融合图像与红外图像的SSIM指数。SSIM衡量亮度、对比度和结构的相似性。损失定义为(1 - SSIM)/2的和目的是最大化SSIM。纹理损失使用Sobel算子计算图像的梯度幅值衡量边缘和纹理的丰富程度。损失鼓励融合图像的梯度幅值至少不低于源图像中梯度幅值较大的那一个通过max操作实现。这有助于保留清晰的边缘。2. 语义分割损失L_ss 这就是标准的交叉熵损失。计算DINOv2分割头对融合图像的预测结果I_seg与真实分割标签I_gt之间的差异。总损失L_total L_st λ * L_ss其中λ是一个超参数用于平衡两项损失的重要性。在训练初期可以设置较小的λ让网络先专注于学习基本的图像融合。在训练一段时间后如论文中50个epoch后再逐步增大λ让语义分割任务的监督发挥更强的作用引导网络生成更具语义信息的融合结果。论文使用了余弦调度器来动态调整λ。4. 实验配置、训练技巧与结果分析理论再完美也需要实验的验证。这部分我们将拆解GFFusion的实现细节、训练流程并解读其性能表现。4.1 实验环境与数据集准备硬件与软件框架PyTorch。这是目前深度学习研究的主流选择生态丰富自定义层和训练循环编写灵活。GPUNVIDIA GeForce RTX 4090 24GB。处理图像融合任务尤其是训练时涉及CLIP、DINOv2等大模型的前向传播显存消耗较大。RTX 4090的大显存和高算力是顺利实验的保障。如果使用显存较小的卡可能需要减小批次大小batch size或使用梯度累积。数据集 论文在四个公开数据集上进行了评估覆盖了不同场景MFNet一个针对自动驾驶场景的多光谱可见光红外数据集包含1569对像素级标注的图像用于语义分割任务评估。这是验证“融合提升下游任务”的核心数据集。M3FD一个大规模多模态融合检测数据集包含4200对图像带有目标检测框。论文将其转换为分割掩码用于评估通过PCA对DINOv2特征聚类后阈值化生成前景目标掩码。RoadScene和TNO这两个是经典的纯图像融合评估数据集没有任务标签。主要用于评估融合图像的视觉质量和像素级信息保留度。实操心得数据预处理是关键。红外与可见光图像融合的前提是图像已经进行了严格的空间配准即两幅图像中的场景是完全对齐的。MFNet和M3FD提供了配准好的数据对。对于RoadScene和TNO也需要确保使用的数据对是配准的。通常需要将图像统一缩放到固定尺寸如256x256或512x512并进行归一化如像素值缩放到[0,1]或[-1,1]。4.2 训练策略与超参数设置GFFusion的训练流程相对简洁得益于其联合优化框架。以下是关键的训练步骤和参数设置初始化加载预训练的CLIPViT-B/16和DINOv2ViT-B模型权重并冻结它们的参数。随机初始化融合网络FuNet、特征注入网络FINet的参数。随机初始化DINOv2顶部的线性分割头参数。优化器与学习率FuNet和FINet使用Adam优化器初始学习率设置为1e-3。这两个网络是从头开始训练的需要较大的学习率进行快速收敛。SSNet分割头同样使用Adam优化器但初始学习率设置为1e-4。因为分割头是一个非常简单的线性层在强大的DINOv2特征之上进行微调过大的学习率容易导致震荡。论文中还提到每10个epoch将学习率乘以0.1进行衰减。联合训练流程前q个epoch论文中q50以较小的语义损失权重λ如0.2开始训练。此时主要优化L_st让网络先学会生成视觉上合理的融合图像。q个epoch之后启动余弦调度器逐步增大λ。同时开始更新分割头的参数θ_s。此时分割任务的监督信号逐渐增强引导融合网络生成更有利于分割的语义特征。整个过程中CLIP和DINOv2的骨干网络参数始终保持冻结。关键超参数λ平衡因子。初始值0.2后期通过余弦调度增加。这个值需要根据具体数据集进行调整如果分割任务非常关键可以初始设置得大一些。β纹理损失的权重。在结构损失SSIM和纹理损失之间取得平衡。N特征合并策略中分组卷积的组数论文中设置为1即退化为加权求和。避坑指南梯度爆炸/消失由于网络包含多个模块且存在跳跃连接需要注意梯度流。使用标准的权重初始化如Kaiming初始化、批归一化BatchNorm层有助于稳定训练。模式崩溃在训练初期如果语义损失λ*L_ss权重过大可能会迫使融合网络生成一些看似有利于分割但视觉上失真严重的图像。这就是为什么需要采用分阶段调整λ的策略让网络先打好像素融合的基础。显存管理同时前向传播CLIP、DINOv2和FuNet显存占用很高。如果遇到OOM内存溢出错误可以尝试1) 减小批次大小2) 使用梯度检查点Gradient Checkpointing技术以时间换空间3) 将CLIP和DINOv2的特征提取放在CPU上进行速度会慢很多。4.3 性能评估与结果解读论文从两个维度评估GFFusion图像融合质量和下游语义分割性能。图像融合质量评估 使用了三个无参考图像质量评价指标信息熵EN衡量图像中包含的信息量。EN越高表示融合图像信息越丰富。差异相关性之和SCD衡量融合图像从源图像中继承信息的程度。SCD越高说明融合图像与源图像的相关性越强融合效果越好。视觉信息保真度VIF衡量融合图像保留源图像视觉信息的程度。VIF越高视觉失真越小。在RoadScene和TNO数据集上的对比实验显示GFFusion在EN、SCD、VIF指标上均达到了与当前先进方法如SwinFusion, SeAFusion相当甚至更优的水平。这表明引入CLIP语义特征进行指导并没有牺牲像素级的融合质量反而因为有了更高层次的引导可能在某些细节上融合得更好。语义分割性能评估 在MFNet数据集上使用平均交并比mIoU作为评估指标。这是语义分割任务的核心指标。关键发现与专用融合方法对比将GFFusion生成的融合图像输入到不同的、训练好的语义分割模型如SegNeXt, SegFormer中其mIoU与使用SeAFusion、PSFusion等先进的语义驱动融合方法生成图像的结果相当。这证明了GFFusion生成的图像确实富含有效的语义信息。与自身对比消融实验混合学习的有效性对比级联学习、并行学习和本文的混合学习范式混合学习取得了最佳或接近最佳的融合与分割性能。这验证了“CLIP注入语义 DINOv2提供约束”框架的优越性。特征合并策略加权求和Weighted-Sum策略优于简单的均值Mean和分组卷积Group-Conv说明网络能够自适应地选择有用的CLIP特征层。特征可视化对融合图像分别用CLIP和DINOv2提取特征并进行可视化发现CLIP特征更关注整体物体区域而DINOv2特征能捕捉更精细的边界。这直观地解释了两者互补的作用CLIP告诉网络“这里有个物体”DINOv2则检验“这个物体的边界准不准”。定性结果分析 从论文提供的融合图像对比图可以看出GFFusion的结果在目标突出性和细节保留之间取得了很好的平衡。例如在夜间场景中它既能清晰地突出红外热目标如行人、车辆又能很好地保留可见光图像的背景纹理如道路、植被避免了某些方法产生的目标模糊或背景过暗的问题。5. 总结、局限与未来展望回顾整个GFFusion工作其核心贡献在于提出了一种简洁而有效的范式利用现成的、强大的视觉基础模型CLIP和DINOv2来解决多模态图像融合中的语义注入和泛化难题。它避免了为每个新任务、新数据集重新设计复杂网络和训练策略的麻烦提供了一种“即插即用”的思路。我个人在实际复现和思考这类方法时的体会是它的最大魅力不在于在某个特定指标上刷出新高而在于其设计理念的通用性和启发性。它告诉我们在当今基础模型百花齐放的时代很多视觉任务不必再从零开始。我们可以像搭积木一样将这些预训练的“能力模块”组合起来通过精巧的接口设计如FINet让它们协同工作解决更复杂的多模态问题。这大大降低了研究与应用的门槛。当然GFFusion也存在一些局限和可以改进的方向计算效率尽管训练时DINOv2和CLIP是冻结的但前向推理仍然需要运行这两个大型ViT模型计算开销和延迟对于实时性要求高的应用如自动驾驶仍然是一个挑战。未来的工作可以探索如何蒸馏Distill基础模型的知识到一个更轻量的融合网络中或者设计更高效的特征注入机制。任务单一性目前框架只集成了语义分割作为下游任务。论文也提到由于DINOv2本身在检测任务上的限制未能实现检测与分割的多任务统一监督。一个自然的扩展是引入像Mask DINO这样的统一感知模型同时提供检测和分割的监督信号让融合图像能同时服务于多种高级任务。特征注入的精细度目前的FINet采用全局的门控调制和相加。或许可以探索更精细的注入方式例如基于CLIP特征生成空间自适应滤波器Spatially Adaptive Filter或调制系数对FuNet的特征进行逐通道、逐位置的调制。扩展到更多模态本文聚焦红外与可见光。但框架具有很强的可扩展性。理论上只要能为新模态如SAR雷达图像、多光谱图像找到或训练一个合适的“CLIP-like”编码器能够提取该模态的语义特征就可以将其纳入这个融合框架。如何为缺乏大规模文本-图像对的其他模态构建通用的特征提取器是一个值得探索的问题。最后给想要复现或在此方向上进行探索的朋友一点建议可以从理解CLIP和DINOv2的特征特性开始尝试在简单的图像融合任务上手动提取这些特征并可视化直观感受它们所携带的信息。然后再动手搭建GFFusion的核心管道FuNet 特征提取 简单注入。不必一开始就追求完整的复现分模块验证、逐步集成是理解这类复杂系统的最佳路径。这个领域正在快速发展将基础模型的能力与传统的计算机视觉任务深度结合无疑是一个充满潜力的方向。