【多模态解耦】DecAlign:用于解耦多模态表示学习的分层跨模态对齐

【多模态解耦】DecAlign:用于解耦多模态表示学习的分层跨模态对齐 论文总结1、多模态解耦提出了一种新型原型引导的最优运输对比策略利用高斯混合模型和多边际运输缓解了模态独特特征的分布差异。同时通过将潜在分布匹配和最大平均差异正则化对齐增强了各个模态之间的语义一致性。此外采用了多模态Transformer以增强高级语义特征融合进一步减少跨模态不一致。2、有开源代码 https://taco-group.github.io/DecAlign/。3、解耦这篇论文中用的是decouple但有的论文解耦是disentangle4、最优传输方法和核希尔伯特空间好像在音频、文本、视频、图像的融合中用的比较多之前还看到用最优传输Mamba实现多模态融合的摘要多模态表示学习旨在捕捉跨多种模态的共享和互补语义信息。这种多样模态的内在异质性为实现有效的跨模态协作与整合带来了重大挑战。为此我们引入了DecAlign一种新型的层级跨模态比对框架旨在将多模态表示解耦为模态唯一异质和模态共同同质特征。具体来说我们通过一种新型原型引导的最优运输比对策略利用高斯混合模型和多边际运输缓解了模态独特特征的分布差异。同时通过将潜在分布匹配与最大平均差异正则化对齐增强了各模态间的语义一致性。此外我们采用多模态变换器以增强高级语义特征融合进一步减少跨模态不一致。我们在四个广泛使用的多模态基准测试中进行了大量实验表明DecAlign在五项指标上始终优于最先进方法。这些结果凸显了DecAlign在改善跨模态比对和语义一致性方面的有效性同时保留了模态独特的特征标志着多模态表示学习场景中的重大进展。我们的项目页面在 https://taco-group.github.io/DecAlign/。引言多模态表示学习旨在通过捕捉它们共享的语义同时保留模态独特的特性有效地整合它们。这一目标已在多个领域被追求包括多模态情感分析Lian 等2023;Das Singh2023年;Wang 等2024a推荐系统Liu 等2024a;2022自动驾驶Yuan 等2025a;Xing 等2024b;马等2025;Xing 等2024a分布外检测Dong 等2024;Li 等2024c以及一般视觉理解与推理Xing 等2025;Wang 等2024b;Cui 等2023;Wang 等2022b;Liang 等2025。尽管取得了重大进展模态间的固有异质性——主要由于数据分布差异、表示尺度不同和语义粒度——仍然是阻碍有效跨模态整合的关键障碍。图1DecAlign在多个多模态基准测试中相较于最先进方法实现了更优的性能。气泡大小代表模型的相对性能展示了Acc-2与二元F1分数之间的权衡动机。这一挑战因模态独特异构模式与跨模态共同同质语义的复杂纠缠而进一步加剧。传统的多模融合方法通常通过简单的连接或线性变换将原始多模数据投影到统一空间中来简化问题Han 等2022;Zhang等2023。然而这种无差别融合常常将模态独特特征与全局共享语义纠缠在一起导致语义干扰其中详细的单模特征可能破坏全局跨模态关系Liang 等2024a;Xu 等2023。这种现象在处理维度不匹配时尤为明显例如高维空间相关的图像特征与低维且时间相关的文本特征Wei 等2025;2024;Zhu 等2024。这些尺寸不匹配常导致对齐不优导致信息冗余或聚变过程中临界损失。图2我们提出的DecAlign方法框架在多模态环境中展示包含视觉、音频和语言输入。模态特征编码器首先提取单模嵌入然后通过模态唯一/通用编码器将其解耦为模态异构和齐次分量。异构特征通过基于最优传输的跨模态原型进行比对齐一语义通过潜空间语义和基于最大均值差差的分布匹配对齐。异构特征通过多模态变换器细化以捕捉更细粒度的跨模态交互然后与齐次特征串接经过全连通层进行后续任务。我们的方法。为克服这些局限我们提出了DecAlign一种用于多模态表示学习的分层跨模态对齐框架。如图2所示DecAlign首先通过专用编码器明确解耦异质和齐一特征。然后利用双流跨模态比对机制DecAlign 单独处理不同粒度下的模态特征❶ 对于异质性我们提出了基于原型的最优输运比对Peyré 和 Cuturi2019采用高斯混合建模GMMBishop2006和多边际输运计划Pass2015有效减轻分布差异并限制模态唯一干扰。此外我们通过多模态变换器增强语义对齐和稳健性该变换器采用跨模态注意力机制弥合高层语义不一致。❷ 对于均匀性DecAlign通过与最大平均差异MMD正则化匹配的潜在分布实现语义一致性。最后我们将对齐的模态独特特征与模态共同特征串接通过可学习的投影器进行后续任务。我们的主要贡献总结如下• 模态解耦。我们提出了DecAlign一种新型分层跨模态比对框架将多模态特征解耦为模态异质和模态同质成分允许定制策略既捕捉模态独特特征又能实现共享语义。• 层级对齐策略。我们开发了一种双流比对机制结合了原型引导的最优传输和跨模态变换器处理模态异质性同时应用潜在空间统计匹配解决同质性问题显著提升了跨模态语义整合。• 实证评估。在四个广泛使用的基准数据集上进行的大量实验表明DecAlign 持续优于13种最先进方法验证了其在多模态表示学习中的有效性和可推广性相关工作扩展版见附录A多模态表示学习。该领域将异质模态整合为统一表示捕捉互补语义Qian 等2025b;Liang 等2024b;Bayoudh2024;Wang 等2025。进展包括对比建模和掩蔽建模Self-MM以及层次图对比学习HGraph-CLYu 等2021;Lin 等2022。然而异质性和互补性的纠缠阻碍了两者的利用。为此MISA 解开了不变特征和唯一特征而 DMD 则应用图知识蒸馏Hazarika 等2020;Li 等2023。然而全局建模占主导地位常常忽视令牌层面的不一致。我们的DecAlign引入了层级对齐从局部到全局从异质到同质实现精确且一致的整合。跨模态对齐。多模态学习的核心挑战是结构、分布和语义异质性这限制了特征协同Zhu 等2024。主要方法包括❶ 共享表示。学习一个统一的潜在空间以实现语义一致性。CLIP 通过大规模对比学习对比图像-文本对齐Radford 等2021;Gao 等2024而 Uni-Code 使用解缠和指数移动平均来实现稳定对齐Xia 等2024b。❷ 基于变换器的交叉注意力。交叉注意动态捕捉跨模态信息如多模态变换器中解缠或层次融合Tsai 等2019;Yang 等2022;Hu 等2024。❸ 模态翻译。翻译方法通过跨模态生成或重建构建映射明确建模依赖关系Liu 等2024b;Zeng 等2024;Tian 等2022。❹ 知识蒸馏。蒸馏通过传递知识平衡模态间贡献。DMD 采用图提纯进行相关建模UMDF 使用统一自蒸馏进行稳健表示学习Li 等2023;2024b。与可能过度对齐和模态特异性状丧失的方法相比我们的框架结合了表征解耦和层次比对以保持单模态唯一性同时确保语义一致性。方法动机与概述。多模态表示学习的根本挑战在于有效解决模态唯一特征与跨模态语义一致性之间的固有冲突。出现了两个关键问题❶ 异质性指固有的表征焦点和模态间的分布差异阻碍跨模态语义对齐;❷ 同质性强调尽管模态本身存在差异仍必须捕捉共享语义。为克服这些局限我们提出了DecAlign一种层级跨模态比对框架明确处理模态独特性和模态共同特征并采用特定的比对策略。如图2所示DecAlign首先将多模态表示解耦为模态唯一异质和模态共同同质特征第3.1节。随后采用了分层比对机制结合原型引导的多边际最优传输和跨模态变换器实现异构比对第3.2节以及潜空间语义一致性与MMD正则化以实现齐次比对第3.3节确保模态唯一信息的语义一致性和跨模态的共性。多模态特征解耦给定一个具有M个模态的多模态数据集每个模态m都提供了其独特的时间长度Tm和特征维度dm的特征。由于模态间固有的差异我们应用了模态唯一的一维时间卷积层聚合局部时间模式并将所有特征变换为相同的时间长度Ts和特征维度d。结果单模态特征表达为̃Xm ∈ RTs×ds。多模态任务的主要挑战在于模态间固有的异质性阻碍了同质特征的整合。为此我们将多模态表示解耦为模态-共同特征强调各模态语义一致性以及模态唯一特征捕捉模态唯一特征并带有冗余。基于此我们使用三个模态唯一编码器 Em uni 和模态共享编码器 Ecom提取异质特征Fm uni Em uni ̃Xm提取跨模态同质特征F m com Ecom ̃Xm。考虑到模态间固有的异质性和潜在冗余性我们通过显式分离模态唯一特征和模态共同特征来细化解耦过程。所有编码器都设计为产生具有相同维度的表示以确保兼容性。我们不使用计算成本高的分布建模或计算可能较为昂贵的互信息而是使用余弦相似度来量化它们潜在的重叠。因此解耦过程的丧失正式定义为异质性对齐在多模态任务中模态独特特征捕捉了每种模态特有的独特特征。然而这些特征在空间结构、尺度、噪声水平和密度上通常存在显著差异使得跨模态的直接点对点对齐既不可靠又计算成本高昂。此外尽管这些特征形式各异但当指向同一底层概念或宾体类别时它们通常带有语义对齐的信息。为了有效弥合模态独特的特征差异同时保持共享语义结构我们引入了类别原型作为跨模态的语义锚点。这些原型代表了不同模态特定表征背后的一致语义模式并作为指导对齐的参考点。基于此我们采用原型引导的多边际最优运输框架实现跨异构特征空间的自适应且细粒度的比对。 原型生成。为了灵活捕捉多模态数据中的复杂分布和潜在相关性我们采用高斯混合模型GMM该模型利用其软分配机制和高斯分布假设更准确地表示不同模态特征的原型结构。GMM采用标准的期望-最大化算法拟合该算法通过迭代估计混合系数、均值和协方差以最大化模态独特特征的概然。我们首先用GMM建模模态独特特征原型用高斯分布的均值和协方差表示原型指导的最优运输。不同模态的模态独特特征通常存在于具有显著分布差异的特征空间中传统的点对点比对方法难以同时捕捉全局和局部关系。为应对多模态场景中的这一挑战我们引入了多边际最优传输方法以建不同分布之间的匹配。跨模态原型匹配成本矩阵定义为其中νiji表示模态mi在其原型上的边际分布。结合通过最优传输实现全局比对和样品到原型校准实现局部比对整体异质比对损失定义为第一个项LOT 用于对齐原型在不同模态上的分布确保一致性。第二项LP旋转通过最小化源模态i中样本xn i与目标模态j中原型之间的加权距离确保细粒度比对。通过结合LOT和LP旋转这种异质比对丢失同时捕捉了全局和局部关系提供了在统一特征空间中对齐异质模态的稳健机制。一致性对齐虽然不同的模态在表示上表现出独特的特征但它们也共享传达相同语义信息的共同元素。为了有效揭示并对齐这些共享特征必须解决模态独特变异及其分布中残留不一致所带来的固有挑战。 潜在空间语义对齐。为了解决模态-共同特征的全局偏移和语义不一致并减轻特征融合过程中的信息扭曲我们用高斯分布对模态特征分布进行了建模。通过将表示映射到潜在空间我们通过均值、协方差和偏态量化位置、形状和对称性的差异其中倾斜进一步被纳入以捕捉模态-共同特征分布中的不对称使比对能够考虑非高斯语义变异并提升跨模态一致性。具体来说对于模态-共同特征其分布近似为Zcmoim ∼ Nμcmoim Σcmoim Γcmoim其中μcmoim、Σcmoim和Γcmoim分别代表模态特征mi的共同特征的均值、协方差和偏态。其详细公式见附录B.6。为确保各模态间语义一致我们定义潜在空间语义比对丢失为跨模态分布比对。为了灵活地建模由共享编码器提取的模态同质特征的潜在分布空间而无需依赖先验知识我们使用概率分布编码器PDE用于编码潜空间中的特征分布。概率分布编码器输出通过最大均值差异MMD指标进行比较该指标通过将分布映射到重现核希尔伯特空间RKHS并测量其平均嵌入之间的差值来评估分布之间的距离。这种基于核的表述支持非参数建模并在统一空间中捕捉高阶统计属性。跨模态分布的差异随后被量化为通过进行潜空间语义比对并基于MMD的分布修正我们建立了一种层级同质性比对机制有效实现模态-共同特征的语义和分布一致性。均匀比对的总体损失为Lhomo Lsem LMMD。多模态融合与预测我们认识到多模态异构表示的独特特性——如语言中的句法结构、视觉中的空间布局以及音频中的时间模式——我们采用了模态特异性变换器Tsai 等2019以增强全局时间和上下文建模。虽然先前的比对将模态独特特征置于语义一致的空间中但这些表示仍包含丰富的模态内信息需进一步细化。使用每个模态的不同变换器不会破坏比对因为表示空间已被比对损耗正则化。相反变压器作为模态感知的精炼器。它们的输出与模态共同特征串联使共享语义和模态特定线索共同形成最终预测最终预测由完全连通的层生成。我们框架的整体优化目标定义为其中Ltask表示任务特定的损失例如分类任务中的交叉熵或回归的均方误差。α和β是异质和均匀比对损失的权衡超参数其灵敏度见第4.3节分析。实验数据集与指标描述。我们在四个常见多模态数据集上评估DecAlignCMU-MOSIZadeh 等2016、CMU-MOSEIZadeh 等2018、CH-SIMSYu 等2020和 IEMOCAPBusso 等2008。对于CMU-MOSI和CMU-MOSEI遵循之前的研究梁等2021;Li 等2023;Zhou 等2025我们使用二进制准确率Acc-2、七类准确率Acc-7和二进制 F1 评分来评估性能。Acc-2 反映样本是否被预测为负值而情绪强度预测则通过平均绝对误差MAE和皮尔逊相关Corr进一步评估以捕捉偏差和线性性。对于CH-SIMS我们采用MAE和F1评分。IEMOCAP如下Lian等2023;Fu 等2024;Zhang 等人2024采用加权准确率WAcc和加权平均 F1 分数WAF1以考虑类别分布不平衡。详细的数据集和度量描述见附录B。实施细节。与以往研究一致Li 等2023;我们使用MMSA-FET工具包Yu等2021在除IEMOCAP数据集外的所有数据集上进行特征提取IEMOCAP遵循先前代表性工作中描述的预处理程序Lian等2023。我们用 Adam 优化器在 NVIDIA A6000 上训练 50 个纪元的 DecAlign批次大小为 32。关于超参数设置的更多细节见附录B.3特征提取详见附录B.4。对比分析扩展版见附录C我们将DecAlign与一系列最先进的方法在统一的实验环境和一致的数据集分割下进行比较。这些基线包括MFMTsai等2018、MulTTsai等2019、PMRFan等2023、CubeMLPSun等2022、MUTA-NetTang等2023、MISAHazarika等2020、CENetWang等2022a、Self-MMYu等2021、FDMERYang等2022、AOBERTKim 和Park2023、DMDLi等 2022 2023年、ReconBoostHua 等2024年和CGGMGuo 等2025年。表1、5、6、7连同图1全面比较了我们的DecAlign框架与四个广泛使用数据集上13种最先进方法。为了考虑统计显著性并减少随机性的影响DecAlign报告的表现在五次独立运行中进行平均值。比较显示DecAlign在捕捉连续目标值的细微变化方面表现出更强的能力并且在离散类别之间能更精确地区分。其在多样化数据集中的稳定表现表明其在多模态数据中建模连续和分类模式的能力增强反映了对复杂跨模态交互的更全面理解。基于Transformer的方法。与依赖交叉注意力机制实现全局特征融合的基于Transformer的方法如MulTTsai等2019、Self-MMYu等2021、PMRFan等2023和MUTA-NetTang等2023相比DecAlign克服了模态唯一干扰和局部语义不一致的问题。基于Transformer的模型假设存在共享的潜在空间常常导致主导模态压倒较弱模态导致信息丢失。相比之下DecAlign 明确区分模态异质和模态同质特征利用基于原型的最优运输实现细粒度比对和潜空间语义比对并结合 MMD 正则化实现全局一致性。这减少了模态干扰降低了MAE并改善了Corr同时提升了分类性能。基于解耦的特征方法。虽然多模态特征解耦方法如MISAHazarika等2020、FDMERYang等2022和DMDLi等2023缓解了模态干扰但它们主要关注全局对齐常忽略令牌层级的不一致。这一限制阻碍了细粒度多模态集成尤其是在需要精确语义融合的任务中。DecAlign通过双流层级对齐策略克服了这一挑战将基于原型的传输用于局部对齐同时通过语义一致性约束实现稳健的全局整合。这使得多模态表示更具表现力从而在回归和分类指标上实现更优异的性能。混淆矩阵分析。为了进一步证明我们性能的优越性并验证所提方法的有效性我们分析了DecAlign的混淆矩阵与多模态情感分析领域的代表性研究包括MulTTsai等2019、MISAHazarika等2020和DMDLi等2023。如图3所示DecAlign在不同情感强度层级下实现了更平衡和准确的情感分类显著减少了误认错误尤其是在区分细微情绪差异方面。 与其他方法相比DecAlign表现出更强的对角线优势反映出更高的情感分类准确性。值得注意的是在极端情感类别-3和3中现有模型常常误分类样本DecAlign显著减少了与相邻情感层级的混淆。在中等情绪类别-1、0和1中正确预测样本的较高集中度进一步展示了其捕捉细致情感差异的能力从而减轻对中性或极端标签的偏见。此外与MulT、MISA和DMD在负向中性误识别问题上难以应对不同DecAlign实现了情感类别间更清晰的分离确保预测更稳健且可理解。这一改进在-2和2类中尤为明显DecAlign最大限度地减少了对相邻类别的误认验证了其层级对齐策略在捕捉模态独特细微差别和共享语义模式方面的有效性。消融研究为进一步评估DecAlign中各成分的贡献我们在MOSI和MOSEI数据集上进行消融研究其他基准测试的结果见附录。第一项研究考察了关键模型组件的影响而第二项则关注特定对齐策略的有效性。 关键组成部分的影响。我们评估了多模态特征解耦MFD、异质Hete和同质Homo比对对模型性能的影响利用MAE进行分析以及二元F1评分见表2。完整模型能获得最佳结果证实层级对齐的重要性。去除同质比对略微增加MAE并降低Acc-2表明模态内一致性的重要性。消除异质比对会导致更大的下降表明模态唯一干扰会影响特征整合。缺乏这两种比对会导致性能大幅下降凸显了需要区分模态同质和模态异质特征。 此外图4a-d可视化了不同情感类别的消融结果展示了异质和均质对齐模块冻结时性能差异。跨情感类别的退化进一步验证了层级对齐策略在多样情绪表达中保持强劲表现的必要性。值得注意的是即使禁用任何单一比对模块F1 分数仍高于包括FDMER、AOBERT和DMD在内的多种先进方法展示了我们提出的比对方法在异质和同质视角下的有效性。最严重的性能下降发生在移除MFD时这表明在融合前保持模态独特信息至关重要。这凸显了整合异质和同质表示以实现更好情感分析的有效性。特定对齐策略的影响。我们还进一步评估基于原型的最优传输Proto-OT、对比训练CT、语义一致性Sem和最大平均差MMD正则化对DecAlign性能的贡献如表2所示。去除MMD正则化会导致性能略有下降凸显其在全局潜空间对齐和特征一致性中的作用。语义一致性的排除进一步降低了性能表明强制语义对齐增强了多模态特征的整合。当对比训练被移除时下降最显著显示出其在学习判别性多模态表示中的关键作用。同样消除原始OT会导致回归和分类指标显著下降表明通过最优传输实现细粒度比对显著提升多模协作预测性能。 模态差距分析。图4e-h展示了视觉和语言模态的案例研究展示了DecAlign如何缩小模态差距以提升对齐。无异质或均质比对的模型间隙显著较大阻碍跨模态融合。这些结果进一步验证了我们分层对齐策略的有效性。扩展分析内容见附录C.4。参数敏感性分析为分析超参数α和β对DecAlign的影响我们进行了广泛的网格搜索并评估模型在MOSI和MOSEI数据集上不同参数设置下的二元F1评分。图5展示了结果的热图可视化深色表示性能较高。最优设置为α 0.05β 0.05实现两个数据集中最高的性能。较大的数值会导致性能急剧下降表明过度的对齐约束会阻碍有效的融合。较小的α值和适中的β能带来强劲的性能凸显了基于原型的对齐与语义一致性之间的平衡对于实现最佳多模态学习的重要性。总结我们介绍了DecAlign一种用于解耦多模态表示学习的分层框架能够分别对齐模态独特和模态共同特征。通过原型引导的最优传输和潜在语义比对我们的方法捕捉了不同模态的全局分布和局部语义。多个基准测试验证了其有效性。