Multimodal Fusion on Low-quality Data: A Comprehensive Survey 中文版

发布于:2025-08-01 ⋅ 阅读:(15) ⋅ 点赞:(0)

文章汉化系列目录


文章目录


摘要

多模态融合旨在整合来自多个模态的信息,以实现更准确的预测,并在包括自动驾驶和医学诊断在内的广泛场景中取得了显著进展。然而,尤其在低质量数据的情况下,多模态融合的可靠性仍然没有得到充分的探索。本文综述了在真实环境中进行多模态融合时面临的常见挑战和最新进展,并将其呈现为一个综合的分类体系。从数据中心的视角出发,我们识别出了多模态融合在低质量数据中的四个主要挑战,即:(1) 含有异质噪声的噪声多模态数据;(2) 部分模态缺失的多模态数据;(3) 不同模态的质量或属性差异显著的不平衡多模态数据;(4) 各模态的质量根据不同样本动态变化的质量变化多模态数据。这个新的分类体系将帮助研究人员理解该领域的现状,并识别若干潜在的研究方向。我们还讨论了该领域的开放问题,并提出了有趣的未来研究方向。

引言

我们的世界感知基于多种感官模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类仍能从不完美的多模态输入中提取有用的线索,进一步拼凑出发生事件的完整场景【1】。随着传感技术的发展,我们可以轻松地收集多种形式的数据进行分析。为了充分发挥每种模态的价值,多模态融合作为一种有前景的范式,通过整合所有可用的线索来获得精确可靠的预测,应用于下游分析任务,如医学图像分析、自动驾驶【2】【3】和情感识别【4】【5】【6】。直观地,融合来自不同模态的信息为探索跨模态的相关性并获得更好的性能提供了可能。然而,越来越多的认识到,广泛使用的人工智能模型在低质量数据中往往会受到虚假相关性和偏见的误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常会有所不同。一些近期研究已经在理论和实证上表明,传统的多模态融合在低质量多模态数据下可能会失败,例如不平衡的【7】【8】【9】【10】、噪声的【11】甚至损坏的【12】多模态数据。为了克服这一局限,并推动现实世界中强大且广泛适用的多模态学习,我们识别了低质量多模态数据的特性,并聚焦于在现实世界环境中进行多模态机器融合时面临的一些独特挑战。我们还强调了可能帮助使多模态融合在开放环境中更加可靠和可信的技术进展。本文中,我们识别并探讨了围绕低质量多模态数据的多模态融合的四个核心技术挑战,具体总结如下:
(1)噪声多模态数据。第一个基本挑战是学习如何减少多模态数据中任意噪声的影响。高维多模态数据通常包含复杂的噪声。多模态数据的异质性使得这一挑战更加复杂,但也提供了通过探索不同模态之间的相关性来识别和减少潜在噪声的机会。

(2)不完整的多模态数据。第二个基本挑战是如何处理不完整的多模态数据。例如,在医学领域,尽管患者可能患有相同的疾病,但他们选择的医学检查不同,这就导致了不完整的多模态数据。开发灵活且可靠的多模态学习方法,能够处理不完整的多模态数据,是一个具有挑战性但前景广阔的研究方向。

(3)不平衡的多模态数据。第三个基本挑战是如何减轻模态之间偏差和差异的影响。例如,视觉模态在整体上比音频模态更有效,这会导致模型走捷径,忽视音频模态。尽管现有的融合方法展现出良好的性能,但在某些以某一模态为主的应用中,它们可能无法比单一模态的主导模型表现得更好。

(4)质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据质量动态变化的特性。在实际应用中,由于不可预测的环境因素或传感器问题,一个模态的质量常常会因样本的不同而变化。例如,在低光或逆光条件下,RGB图像提供的信息可能不如热成像模态有用。因此,必须在实际应用中动态地集成多模态数据,并考虑不同模态质量的变化。

为了应对这些日益重要的多模态融合问题,本研究通过多个分类法系统地组织了关键挑战。与以往的相关工作讨论各种多模态学习任务不同【13】【14】,本综述主要聚焦于多模态融合,这是多模态学习中的最基本问题,以及低质量多模态数据在下游任务(如聚类、分类、目标检测和语义分割)中带来的独特挑战。在接下来的章节中,我们详细介绍了该领域的最新进展和多模态融合面临的技术挑战,特别是在低质量数据下的挑战:学习噪声多模态数据(第2节)、缺失模态填补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节为讨论部分,并给出了结论。

在这里插入图片描述
这段文字描述的是图1中展示的低质量多模态数据的挑战,具体包括以下几个方面:

蓝色和金色代表不同的模态,颜色越深表示质量越高。假设我们有N个多模态样本,每个样本包含M种不同的模态,每种模态的维度是 D D D q ( x ) q(x) q(x)表示多模态输入的质量,即从 x x x 收集的信息,能够支持下游任务。

(a) 噪声多模态数据的质量受到不可预见的环境因素的随机影响。

(b) 不完整的多模态数据中的某些模态质量为零(没有提供任何有用信息)。

( c ) 不平衡的多模态数据中,模态的预期质量是不同的。

(d) 不同样本中,各模态的质量是变化的。

这四个情境展示了在低质量数据环境下,多模态学习面临的不同挑战。

4、平衡的多模态学习

不同的模态是紧密相关的,因为它们从不同的视角描绘了相同的概念。这一特性促使了多模态学习的蓬勃发展,在这种学习中,多个模态被整合在一起,预计能够增强对相关事件或物体的理解。然而,尽管存在自然的跨模态相关性,每个模态都有不同的数据源和形式。例如,音频数据通常表示为一维波形,而视觉数据则由像素组成的图像构成。一方面,这种差异赋予了每个模态不同的特性,如收敛速度,从而使得同时处理和学习所有模态变得困难,给联合多模态学习带来了挑战。另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态描绘了相同的概念,它们与目标事件或物体相关的信息量却不同。例如,在一个音频-视觉样本中,视觉数据明显展示了会议的视觉内容,容易识别(见图1c),而对应的音频数据则是嘈杂的街车声音,很难与“会议”标签建立关联。显然,视觉模态的信息量远大于音频模态。由于深度神经网络的贪婪特性【9】,多模态模型往往会倾向于依赖仅仅是高质量模态且信息充分的模态,而忽略其他模态,导致其他模态的欠拟合。为了解决这些挑战并提高多模态模型的效果,最近的研究集中在平衡模态间差异的策略上,以增强模型的整体性能。

4.1 属性差异方法

在大多数多模态模型中,不同模态通常通过统一的学习目标进行联合训练。尽管这种联合训练策略在实践中已被广泛证明是有效的,但多模态数据在来源和形式上的差异仍可能带来一定的风险。这些差异导致每种模态具有其独特的学习属性。

例如,如图3所示,在包含音频和视觉模态的动作识别数据集 Kinetics [110] 中,音频数据在模型开始过拟合之前通常需要的训练步数少于视觉数据 [111], [112]。而广泛使用的联合训练多模态框架往往忽略了这种单一模态数据固有的学习属性差异,这可能会对模型性能产生负面影响。

更重要的是,根据最近的一项研究 [7],联合训练的多模态模型甚至可能被性能最优的单模态模型超越。因此,为了提升模型性能,考虑各模态之间学习属性的差异是十分必要的。

为了解决这一问题并平衡学习属性上的差异,一些研究从不同角度提出了解决方案,包括基于学习目标的方法、基于优化的方法和基于架构的方法。

4.1.1 基于学习目标的方法

由于联合训练的多模态框架通常仅采用一个统一的损失函数,用以整合所有模态的信息,因此很难单独观察或控制各模态的学习过程。基于学习目标的方法通过引入单模态损失项,使得能够有针对性地调节各模态的训练过程:

L = α m m L m m + ∑ i = 1 n α i L i (6) L = \alpha_{mm} L_{mm} + \sum_{i=1}^{n} \alpha_i L_i \tag{6} L=αmmLmm+i=1nαiLi(6)

其中, α m m \alpha_{mm} αmm α i \alpha_i αi 分别是多模态损失和第 i i i 个模态损失的权重, n n n 表示模态数量。由于损失函数的权重决定了该损失在参数更新中的影响程度,因此其选择对于控制各模态的训练过程至关重要。

Wang 等人 [7] 提出通过衡量“过拟合-泛化比”(overfitting-to-generalization ratio)来确定最优的损失权重,从而能够全面考虑并平衡各模态在收敛速度上的差异。

4.1.2 基于优化的方法

不同于直接引入单模态损失的基于学习目标的方法,基于优化的方法关注的是反向传播阶段。考虑到各模态在学习属性上的差异,基于优化的方法提出通过动态平衡各模态的学习率来控制单模态参数的更新过程 [113]:

θ ( t + 1 ) i = θ i ( t ) − λ i g i ( t ) (7) \theta^i_{(t+1)} = \theta_i^{(t)} - \lambda_i g_i^{(t)} \tag{7} θ(t+1)i=θi(t)λigi(t)(7)

其中, λ i \lambda_i λi 是第 i i i 个模态参数的学习率, g i ( t ) g_i^{(t)} gi(t) 是其对应的梯度。通过这种方式,可以对每个模态执行具有模态特异性的优化过程。

具体来说,Sun 等人 [113] 提出对更接近收敛的模态分配更低的学习率,从而平衡不同模态的优化进度。

4.1.3 基于架构的方法

除了上述关注学习目标和优化的架构无关方法外,还有一些方法从模型架构的角度考虑学习属性差异的问题。在融合阶段,Xiao 等人 [112] 提出了通过一定概率随机丢弃收敛速度较快的模态的网络路径。通过这种方式,可以减缓对应模态的训练过程,并确保其学习动态与其他单模态的学习过程更加兼容。

除了晚期融合架构外,还有研究提出利用低层次的跨模态融合来增强多模态联合学习。Zhou 等人 [114] 通过利用中心连接将视频和音频流的低层特征连接起来,捕捉空间(针对视频帧)和时间信息,从而实现高层语义表示,并提高多模态联合学习的效果。

4.2 质量差异方法

除了单模态学习属性差异的问题之外,尽管所有模态传达的是相同的概念,但它们包含的与目标事件或对象相关的信息量不同,从而导致单模态数据质量上的差异。鉴于深度神经网络固有的贪婪特性,最近的研究进一步揭示,多模态模型往往依赖于提供足够目标相关信息的高质量模态,而忽视其他模态,导致它们的优化不足 [8], [10]。

如图4所示,Peng 等人 [8], [128] 实证验证了,在多模态模型中,尽管整体性能优于单模态模型,但单模态表示的质量却不如相应的单模态模型。此外,每个模态的优化不足是不平衡的,质量较高的模态优化较少受到影响。他们认为,这种不平衡问题是由模型偏向性能更好的高质量模态(即主导模态)所导致的。例如,在精心挑选的以声音为主的数据集 VGGSound [129] 中,音频模态相比视觉模态的优化不足更少。Huang 等人 [10] 进行的理论分析进一步证实,对于联合训练的多模态晚期融合框架,编码器网络只能学习部分模态,其他模态可能无法很好地被发现。这一发现与实证观察一致,表明在多模态学习中需要解决不同模态之间不平衡偏好的问题。

为了解决由单模态数据质量差异带来的这一问题,一系列研究已经提出,包括基于学习目标的方法、基于优化的方法、基于架构的方法和基于数据增强的方法。

4.2.1 基于学习目标的方法

考虑到多模态模型对高质量模态的偏好,一些方法提出在常规联合学习损失之外引入额外的学习目标。这类方法通常通过附加的损失函数来打破多模态模型对特定模态的依赖倾向:

L = L m m + L u n i (8) L = L_{mm} + L_{uni} \tag{8} L=Lmm+Luni(8)

其中, L m m L_{mm} Lmm 是多模态的主损失函数, L u n i L_{uni} Luni 是专门设计用于提升单模态(尤其是质量较低模态)学习表现的损失函数。

具体而言:

  • Yang 等人 [115] 引入了多模态对比学习损失,将音频和视觉模态在语义空间中约束得尽可能接近,从而促进各模态信息的充分利用。

  • Ma 等人 [130] 同样关注多模态语义空间,提出了一种新的正则化方法——Calibrating Multimodal Learning,通过保持预测置信度与使用模态数量的一致性,避免模型过度依赖某些模态。

  • 除了语义空间中的方法外,还有一些方法引入了知识蒸馏的学习目标:

    • Du 等人 [116] 提出将预训练的单模态特征蒸馏到多模态晚期融合模型的对应部分,防止模型学习过程中对某一模态的偏倚。
    • Liu 等人 [117] 则设计了一种自蒸馏训练策略,通过由优化较好的模态自动“教学”优化较差的模态,从而实现模态间的互助提升。
  • 对于更高区分性需求的任务,Xu 等人 [118] 针对音视频细粒度分类任务提出了多模态余弦损失(MMCosine),通过对特征和权重进行模态级别的 L2 归一化,实现了更均衡、更优的多模态细粒度学习。

  • 除了泛化性能外,Yang 等人 [119] 关注多模态模型的鲁棒性。他们指出多模态模型容易受到特定模态攻击的影响,因此引入基于间隔的正则化方法,以增强模型在多模态条件下的安全性。

4.2.2 基于优化的方法

基于优化的方法关注反向传播阶段,分别从单模态梯度的大小与方向两个角度入手,提升低质量模态的学习效果。

为了减缓模型对高质量主导模态的学习速度,并将更多训练资源分配给其他模态,Peng 和 Wei 等人 [8], [128] 提出了动态梯度调控策略(on-the-fly gradient modulation),该方法在训练过程中实时监测不同模态对最终预测的贡献差异,并衰减主导模态的梯度幅度,从而使训练更关注其他模态。

受该策略启发:

  • Sun 等人 [121] 将该思想扩展到用于谣言检测任务的图模型中,自适应地调整梯度幅度,缓解模型对高质量模态的偏倚。
  • Fu 等人 [122] 则将该思想应用于音视频解析任务中,并进一步提出模态分离决策单元,用于在高度交互的音视频解析框架中更有效地评估单模态预测。

除了梯度大小,研究者也关注梯度方向的问题。
Fan 等人 [120] 指出,慢学习模态的梯度方向往往被高质量模态干扰,导致其学习困难。为此,他们引入原型(prototypes)——表示空间中各类别的质心,用以修正更新方向,从而改善单模态性能。


4.2.3 基于架构的方法

基于架构的方法通过设计更优的单模态表示学习模块,来平衡不同质量模态的训练过程。

  • He 等人 [123] 设计了一个多模态时间注意力模块(Multimodal Temporal Attention),该模块考虑所有模态在时间维度上对各单模态分支的影响,增强模态间的交互,实现自适应的模态平衡。
  • Su 等人 [124] 聚焦于生成任务,提出了一个协调特征空间,命名为Coordinated Knowledge Mining,利用高质量模态的引导来提升低质量模态的表现。
  • Lin 等人 [125] 提出了新颖的变分特征融合模块(Variational Feature Fusion Module),将融合特征视为随机变量,以获得在不同类别和模态之间更加平衡的分割性能。

4.2.4 基于数据增强的方法

基于数据增强的方法的核心思想是在数据输入阶段增强低质量模态。其基本直觉是:仅进行单模态训练可以避免其他模态的干扰。

这类方法主要包括两种策略:

  1. 对低质量模态进行额外训练
  2. 移除高质量模态的数据

针对第一种方法

  • Wu 等人 [9] 首先测量模型在不同模态上的学习速度差异,然后引入“再平衡步骤”(re-balancing steps),有意识地更新训练不足的单模态分支,加速模型对该模态的学习。

针对第二种方法

  • Zhou 等人 [126] 建议自适应地屏蔽学习较充分的模态的数据输入,从而促进模型更好地拟合其他模态。

然而,大多数不平衡多模态学习方法忽视了细粒度模态差异,即在现实场景中,主导模态可能会因样本而异。

对此,Wei 等人 [127] 提出了一种基于 Shapley 值的样本级模态贡献度评估指标,用于在每个样本的预测过程中观察各模态的贡献,并据此动态重新采样低贡献模态,从而实现细粒度的多模态协同训练

第 5 章 动态多模态融合(Dynamic Multimodal Fusion)

由于不可预见的环境因素和传感器问题,一些模态在某些场景下可能会表现出较差的可靠性,或缺乏与任务相关的信息。此外,不同模态的质量在不同情境中也会动态变化

我们借用 [131] 中的一个案例(如图 5 所示):在夜间,热成像模态相比 RGB 模态通常能提供更多与任务相关的信息;而在白天,情况则正好相反。
在这里插入图片描述

这种现象激发了一个新的多模态学习范式:动态多模态融合(Dynamic Multimodal Fusion)。该范式旨在根据多模态数据质量的动态变化,自适应地整合任务相关信息

本节将围绕动态多模态融合的挑战展开讨论,并将当前的研究进展分为三大类:

  1. 启发式动态融合(Heuristic Dynamic Fusion)
  2. 基于注意力的动态融合(Attention-based Dynamic Fusion)
  3. 不确定性感知动态融合(Uncertainty-aware Dynamic Fusion)

5.1 启发式动态融合(Heuristic Dynamic Fusion)

为了实现鲁棒的多模态融合,早期研究通常基于人类经验和领域知识,启发式地设计动态融合策略。这类方法往往借助于任务属性和应用场景中的先验知识(例如:“夜间热成像模态通常比 RGB 更可靠”)来决定融合方式。

🌗 典型案例:基于光照条件的动态融合 (作为一个具体的例子,照明条件可以作为一个标准,引入动态融合。)

全天候应用中,已有研究发现,在多光谱行人检测任务中,RGB 与热成像模态的质量随时间变化而不同 [131]:

  • 正常光照下,RGB 模态往往包含更多有效信息;
  • 弱光或夜间条件下,热成像模态的可靠性优于 RGB。

基于此观察,作者提出了一种光照感知融合模块(illumination-aware fusion module),用于根据环境光照自适应地融合 RGB 与热成像模态的特征。

类似地,Guan 等人 [132] 提出了一种光照感知加权机制(illumination-aware weighting mechanism),对每个输入场景进行光照评估,并使用相应的加权策略来动态整合用于白天与夜晚检测分割的子网络输出。该方法可扩展应用于安防监控自动驾驶系统中的行人检测。

原文:为了实现稳健的多模态融合,先前的研究采用了启发式的动态融合策略。这些动态融合方法是根据人类的经验和知识(例如,在夜间热成像模态比RGB更可靠)来制定的,针对具体的任务和应用场景。例如,照明条件可以作为引入动态融合的标准。在全天候应用中,先前的研究发现,RGB和热成像模态在多光谱行人检测任务中质量是随时间变化的 [131]。在正常照明条件下,RGB模态通常包含比热成像模态更多的有用信息,但在低光或夜间条件下,这一关系可能会发生逆转,热成像模态比RGB更加可靠。基于这一观察,作者提出了利用照明感知融合模块,自适应地融合两种模态的特征。类似地,为了适应不同的照明条件,Guan等人[132]提出了一种照明感知加权机制,用于评估每个输入场景的照明情况。这些照明权重被用来动态地整合专门针对白天和夜间检测与分割的子网络输出。该方法还可以进一步应用于安全监控和自动驾驶系统中的行人检测。


🧠 基于网络行为的启发式融合

除了环境因素,研究者还从神经网络本身的属性出发,设计动态融合策略:

  • 在视觉模型中,特征图的激活水平BatchNorm 层的缩放因子可反映输入模态的信息丰富程度。

  • 受此启发,Li 等人 [133] 提出了一种编码器-解码器式网络结构,其中:

    • 计算特征图的 L1 范数以评估通道重要性;
    • 将其归一化形成权重向量;
    • 用于选择性地强调每个模态中更具信息量的特征

Wang 等人 [111] 进一步提出了 通道交换网络(Channel Exchanging Networks, CEN),通过 BatchNorm 层的缩放因子评估通道重要性,并在模态特定区域内动态地进行通道信息交换。通过共享卷积核和通道选择,CEN 实现了单模态特征学习与多模态融合之间的动态平衡

原文:除了照明等环境因素外,动态融合的标准还可以根据神经网络的属性知识来制定。在涉及视觉模型时,特征图的激活水平和批量归一化层中的缩放因子可以指示输入信息的有效性。受到此启发,Li等人[133]提出了一种带有动态融合策略的编码器-解码器风格网络。在他们的实现中,计算特征图的L1范数作为通道重要性,然后对其进行归一化,形成一个加权向量,选择性地强调每种模态中信息量大的特征。Wang等人[111]提出了通道交换网络(CEN),该网络基于批量归一化层的缩放因子评估通道重要性,动态交换模态子网络之间的信息。通过在特定模态的区域内进行通道交换并共享卷积滤波器,CEN动态平衡了单模态特征学习和多模态融合。


🎥 面向任务的动态选择模块

还有一些工作采用任务专属模块来实现动态融合:

  • Panda 等人 [134] 提出 AdaMML,一种面向高效视频识别的自适应多模态学习方法。其核心思想是:

    • 为每个视频片段动态选择最优输入模态
    • 设计轻量级策略网络,根据数据片段特征选择模态输入;
    • 采用 Gumbel-Softmax 采样 以实现可微分的离散决策训练。
  • 类似地,Xue 等人 [136] 提出了 DynMM,一种新颖的动态多模态融合方法:

    • 引入模态级和融合级两类决策;
    • 实现基于数据特征的自适应输入模8态选择与融合策略切换;
    • 达成更灵活的数据驱动融合过程。

原文:一些相关的工作还利用任务特定模块来实现动态融合。举几个例子,Panda等人[134]提出了AdaMML,一种用于高效视频识别的自适应多模态学习。通过动态选择每个视频片段的最佳输入模态,这项工作为高效视频识别提供了数据依赖的多模态选择。在这项工作中,设计了一个轻量级策略网络,用于动态选择每个视频片段的最佳输入模态。AdaMML利用Gumbel-Softmax采样来进行离散决策的可微训练。类似地,Xue等人[136]提出了DynMM,这是一种新的动态多模态融合方法。它引入了模态级别和融合级别的决策,允许根据数据特征自适应选择输入模态和融合操作。


✅ 总结:启发式动态融合方法通过引入先验知识、模型内部指标或任务感知机制,提供了直观且高效的融合策略,适用于特定应用场景和需求。接下来可继续介绍 5.2 基于注意力的动态融合,如需翻译请告知。

5.2 基于注意力的动态融合(Attention-based Dynamic Fusion)

动态融合的核心挑战之一在于如何设计动态机制来学习合理的融合准则。为应对这一挑战,另一类方法引入了注意力机制,以实现对多模态信息的动态融合。

本小节将基于不同类型的注意力机制,对现有方法进行分类和介绍,包括:自注意力(Self-Attention)通道注意力(Channel Attention)空间注意力(Spatial Attention) 以及 Transformer 架构


1️⃣ 自注意力(Self-Attention)

自注意力机制通过允许输入序列中的每个元素彼此交互,从而建模序列内部的依赖关系。

多模态情感识别任务(通常涉及文本与音频模态)中,音频模态常能提供更具任务相关性的特征(如语调),但也更容易受到背景噪声影响,导致模态质量随样本变化。

  • Sun 等人 [137] 提出了多模态交叉与自注意力网络(MCSAN),用于语音情感识别,能够动态地突出文本与音频模态中的关键信息。
  • Hazarika 等人 [156] 同样基于自注意力,设计了一种融合策略,用于适应情感识别中模态质量的变化。该方法在特征层对模态进行加权,从而增强对噪声输入的鲁棒性。

2️⃣ 通道注意力(Channel Attention)

通道注意力机制主要用于视觉任务中,能够动态评估不同通道的重要性,从而加强关键特征的表达。

  • Hamid 等人 [139] 提出了多模态迁移模块(MMTM),适用于中间融合阶段,可插入至不同层级的特征提取过程中。
    MMTM 通过压缩激活(squeeze)与激励(excitation)操作,生成联合表示与激励权重,用于自适应地重标定低质量模态的通道特征,提升整体性能。

3️⃣ 空间注意力(Spatial Attention)

空间注意力的目标是从空间维度上评估特征图中不同位置的重要性。

  • Cao 等人 [138] 提出了一个轻量级融合模块,称为通道切换与空间注意力(CSSA),用于多模态目标检测任务。
    该模块通过最大池化与平均池化机制增强空间注意力,同时保留模态的独特特征,并实现高效融合。

4️⃣ Transformer 机制(基于多头注意力的融合)

Transformer 是基于多头自注意力机制的高级变体,近年来被广泛应用于多模态融合任务中,以增强模型的表达能力。

  • Nagrani 等人 [140] 提出了 Fusion Bottlenecks,一种新型 Transformer 架构,其通过瓶颈 token限制模态之间的交互,仅在中后期融合层进行跨模态通信,从而避免冗余的全模态两两注意力操作,提高效率。

  • Girdhar 等人 [141] 提出了一个参数共享的 Transformer 架构,可处理图像、视频和单视角 3D 数据等多种视觉模态。其关键思想是利用自注意力机制建模模态之间的时空关系,并融合为共享嵌入表示。

  • Wang 等人 [142] 指出,现有 Transformer 结构中可能出现注意力权重在模态间被稀释的问题,导致整体性能下降。为此,他们提出一种动态机制,能够识别信息无效的 token,并用其他模态的聚合特征替换,以实现更有效的融合。

  • 与以训练阶段为主的多数方法不同,Yang 等人 [157] 关注的是测试阶段的模态损坏问题。他们设计了基于置信度的损失函数(confidence-aware loss),在测试时通过注意力机制处理损坏模态,提升预测可信度,降低噪声影响。


✅ 总结:基于注意力的动态融合方法通过不同维度(序列、通道、空间或多头结构)识别与强调有价值的信息通路,是当前最具代表性和发展潜力的融合策略之一。如需继续翻译 5.3 不确定性感知动态融合(Uncertainty-aware Dynamic Fusion),请继续告知。

5.3 不确定性感知动态融合(Uncertainty-aware Dynamic Fusion)

与基于直觉假设的启发式多模态学习方法不同,不确定性感知的多模态融合方法近年作为一种更通用且原理更坚实的方案逐渐兴起。它通常基于概率分布或信息论等严谨基础,致力于实现更加可靠的多模态融合


🔢 Subjective Logic 与 Dirichlet 分布

Subjective Logic(主观逻辑) 是一种在分类任务中常用的不确定性估计方法,其将 Dirichlet 分布参数信念分布(belief distribution) 联系起来:

  • Dirichlet 分布可视为类别分布的共轭先验分布;
  • SL 提供了一种在不完整或不确定信息下进行推理与决策的强大工具

受主观逻辑启发,研究者提出了 TMC(Trustworthy Multimodal Classification)[147] 方法,结合主观逻辑与 证据理论(Dempster-Shafer Theory),实现了模态间的动态整合。

以双模态场景为例,其融合形式为:

M = M 1 ⊕ M 2 (9) M = M_1 \oplus M_2 \tag{9} M=M1M2(9)

其中:

  • M = { { b k } k = 1 K , u } M = \{ \{b_k\}_{k=1}^K, u \} M={{bk}k=1K,u} 为多模态信念质量;
  • M 1 = { { b k 1 } k = 1 K , u 1 } , M 2 = { { b k 2 } k = 1 K , u 2 } M_1 = \{ \{b^1_k\}_{k=1}^K, u_1 \}, M_2 = \{ \{b^2_k\}_{k=1}^K, u_2 \} M1={{bk1}k=1K,u1},M2={{bk2}k=1K,u2} 为两模态的信念质量;
  • b k 1 , b k 2 b^1_k, b^2_k bk1,bk2 表示每个模态对第 k k k 类的信念质量;
  • u 1 , u 2 , u u_1, u_2, u u1,u2,u 分别为单模态与融合后的不确定性。

借助 D-S 理论,最终的预测更依赖于不确定性较低的模态,因此显著提升分类鲁棒性。


🧪 TMC 的拓展应用与改进

TMC 架构已被广泛应用于:

  • 医学图像分类 [149];
  • 目标检测 [148], [158];
  • 语义分割 [2] 等任务中。

例如,在全视野医学图像分类任务中,通过融合多尺度模态证据信息,TMC 显著提高了自身免疫疾病检测和纤维瘤分类的准确性。

  • Chen 等人 [159] 同样利用 Dirichlet 分布对多模态表示的不确定性建模,并在语义分割与分类中自适应融合表示信息。

然而,Liu 等人 [150] 指出 TMC 仍存在如下问题:

  1. 无法保证融合后整体不确定性减少;
  2. 忽略了各视角间的一致性问题。

为此,他们提出了一个改进的观点聚合框架(opinion aggregation framework),旨在确保模态间一致性,并获得更可靠的预测结果。


📉 信息熵为基础的不确定性建模

**熵(Entropy)**是衡量模态不确定性最自然直接的方式。

  • Tian 等人 [144] 提出了一种基于熵的不确定性融合方法,称为 UNO(Uncertainty-aware Noisy-Or Multimodal Fusion)

UNO 方法包括以下步骤:

  1. 引入多种不确定性度量:

    • 预测熵(Predictive Entropy);
    • 基于 Monte Carlo Dropout 的互信息;
    • 确定性熵等;
  2. 选取最保守(即不确定性最高)的指标进行融合;

  3. 对各模态输出进行加权;

  4. 最终采用noisy-or 融合机制来整合多个模态的决策。

多模态语义分割任务中,UNO 可有效提升模型在面对未知输入退化(如遮挡、模糊)时的鲁棒性。

  • 类似地,Zhang 等人 [143] 提出利用预测熵衡量模态重要性,并在测试阶段引入动态融合机制,自适应地加权和融合单模态预测。该机制使模型能够感知不同模态质量变化带来的不确定性,从而提升融合效果。

总结:不确定性感知融合方法相比传统融合方式更具适应性与理论支持,尤其适合模态质量动态波动或部分模态受损的复杂场景。它推动多模态学习从“经验融合”走向“可信决策”。

如你需要,我可以为第 6 章或全文结构提供总结或图示。

补充:基于高斯分布的不确定性感知动态融合

除了主观逻辑与熵,不确定性也可通过**高斯分布(Gaussian distributions)进行建模。典型地,一个多元正态分布(Multivariate Normal Distribution)可用于建模多模态特征的分布,其中方差(variance)**可以有效表示各模态的不确定性。


📌 DUA-Net:动态不确定性感知网络
  • Geng 等人 [151] 提出了一种新颖的无监督多模态学习方法DUA-Net(Dynamic Uncertainty-Aware Network)

  • 在无监督设置中整合多模态噪声数据是一项挑战,传统方法要么:

    • 平等对待所有模态;
    • 要么使用固定权重调节模态重要性;
    • 但两者都无法动态反映模态不确定性的变化

DUA-Net 的核心思想

  • 生成视角出发,利用不确定性估计引导多模态信息融合;
  • 为每个样本中每个模态动态赋权,强调高质量模态,抑制噪声模态;
  • 最终获得更鲁棒的无噪声表示,适用于多种无监督学习任务。

📌 COLD:用于音视频情感识别的不确定性建模
  • Tellamekala 等人 [152] 提出 COLD(Calibrated and Ordinal Latent Distributions) 方法用于音视频情感识别任务。
  • 该方法通过学习每个模态高维潜在表示的方差,来衡量其不确定性;
  • 模态不确定性被用于调整表示质量,实现更稳定和泛化性更强的情感识别。

📌 ProbEnsemble:多模态目标检测的概率集成方法
  • 在目标检测任务中,前人工作 [146] 提出了一种名为 ProbEnsemble概率集成框架

  • 方法核心:

    • 每个模态单独采用不同架构进行预测,且预测结果建模为具有单一方差的高斯分布
    • 然后依据贝叶斯法则(Bayes’ Rule),将各模态的检测结果进行概率融合
    • 可计算每个候选框的置信度,再融合为更准确、鲁棒的检测结果。

📌 NIG混合模型:多模态回归中的高阶不确定性建模
  • 最新研究 [153] 在多模态回归任务中提出一种基于 Normal-Inverse Gamma(NIG)分布混合模型 的融合方法:

    • NIG 分布可以层次化地建模不确定性,包括:

      • 认知不确定性(Epistemic Uncertainty, EU)
      • 固有不确定性(Aleatoric Uncertainty, AU)
    • 不同模态各自的 NIG 分布通过专家决策机制融合,输出整体预测结果及其不确定性。

优势:

  • 支持动态调整模态对预测的贡献;
  • 同时兼顾预测准确性与不确定性估计质量;
  • 在多模态回归任务中取得了显著性能提升。

小结

方法名 核心机制 优势 应用方向
DUA-Net 高斯建模 + 无监督多模态融合 动态权重,消除模态噪声 无监督学习、表示学习
COLD 潜在表示方差建模 高维潜空间建模模态不确定性 情感识别(音频 + 文本)
ProbEnsemble 高斯+贝叶斯集成 多模态目标检测鲁棒性高 多模态目标检测
NIG混合模型 分布层次结构建模 EU + AU 精细不确定性建模,适应性强 多模态回归

这些方法展示了高斯家族分布在建模模态不确定性方面的强大能力,为多模态学习提供了更加可靠与可解释的融合路径。

如你需要,我还可以进一步总结 整个第五章(动态多模态融合) 的技术发展脉络与对比表。

预测置信度方法与不确定性感知融合的理论分析

预测置信度方法旨在直接输出模型对预测结果的信心。与通过建模未知数据分布的不确定性估计方法不同,置信度校准方法无需建模数据分布,而是直接基于分类结果进行校准以获得置信度。


🔹 基线方法:最大类别概率(MCP)
  • 最大类别概率(Maximum Class Probability, MCP) [160] 可视为最基础的置信度获取方法,即将预测概率最高的类别的概率作为模型的置信度。
  • 然而,虽然 MCP 在分类任务中有效,但对错误预测结果容易过于自信

🔹 改进方法:真实类别概率(TCP)
  • 为了获得更可靠的置信度,真实类别概率(True-Class Probability, TCP) [161] 被提出,用于替代 MCP,改善模型在实际预测中置信度偏高的问题。

🔹 多模态动态融合方法(Multimodal Dynamics)
  • Han 等人 [154] 提出了一种多模态分类方法,名为 Multimodal Dynamics,旨在从特征层级和模态层级同时评估信息量,并实现可信融合。

  • 核心机制包括:

    • 稀疏门控策略
    • 真实类别置信度估计

具体的模态级融合策略如下:

h = [ conf 1 ⋅ h 1 , ⋯   , conf M ⋅ h M ] (10) \mathbf{h} = [\text{conf}_1 \cdot \mathbf{h}_1, \cdots, \text{conf}_M \cdot \mathbf{h}_M] \tag{10} h=[conf1h1,,confMhM](10)

其中:

  • [ ⋅ , ⋅ ] [\cdot, \cdot] [,] 表示拼接操作;
  • h 1 , ⋯   , h M \mathbf{h}_1, \cdots, \mathbf{h}_M h1,,hM 为单模态特征;
  • h \mathbf{h} h 为融合后多模态特征;
  • conf m \text{conf}_m confm 表示第 m m m 个模态的预测置信度,用于衡量其信息量。

🔹 RGB-热成像融合中的置信度感知方法
  • Zhang 等人 [26] 提出一种置信度感知融合方法,用于多光谱行人检测任务中融合 RGB 与热成像模态:

    • 首先预测每个模态的分类置信度;
    • 然后基于置信度进行特征重加权;
    • 强调更可靠模态的特征,同时抑制噪声模态。

✨ 理论视角:不确定性感知融合的推广能力

已有理论工作指出,从泛化能力的角度来看,多模态学习在理论上优于单模态学习 [162]。

  • 最新研究 [145] 进一步提出:不确定性感知的动态融合方法相较于传统静态融合方法,能够获得更紧的泛化误差界(generalization error bound)

结合 集成式的晚期决策融合策略,我们可在决策层执行如下不确定性感知加权融合

f ( x ) = ∑ m = 1 M w m ( x ) ⋅ f m ( x ) (11) f(x) = \sum_{m=1}^{M} w_m(x) \cdot f_m(x) \tag{11} f(x)=m=1Mwm(x)fm(x)(11)

其中:

  • f m ( x ) f_m(x) fm(x):第 m m m 个模态的单模态预测;
  • w m ( x ) w_m(x) wm(x):融合权重,由不确定性感知机制决定。

该策略的泛化误差上界为:

GError ( f ) ≤ ∑ m = 1 M E ( w m ) E ( f m ) ⏟ 单模态加权损失 + ∑ m = 1 M Cov ( w m , ℓ m ) ⏟ 不确定性感知能力 + ϵ (12) \text{GError}(f) \leq \underbrace{\sum_{m=1}^{M} \mathbb{E}(w_m)\mathbb{E}(f_m)}_{\text{单模态加权损失}} + \underbrace{\sum_{m=1}^{M} \text{Cov}(w_m, \ell_m)}_{\text{不确定性感知能力}} + \epsilon \tag{12} GError(f)单模态加权损失 m=1ME(wm)E(fm)+不确定性感知能力 m=1MCov(wm,m)+ϵ(12)

解释如下:

  • 第一个项表示加权后的单模态经验损失;

  • 第二个项是权重与损失之间的协方差,表示融合策略的不确定性感知能力

    • 若使用了有效的不确定性估计器,该协方差应为负值
  • ϵ \epsilon ϵ 是误差上限的微小扰动项。


结论:
该定理说明,不确定性感知的动态融合方法具备更强的泛化能力。这一理论不仅验证了该方法的有效性,还为设计新型动态多模态融合算法提供了原则性指导

5.4 讨论(Discussion)

动态多模态学习方法关注的是模态质量在样本、时间或空间维度上的变化,这类变化广泛存在但常常被忽视。

目前的动态融合策略主要包括三类:

  • 启发式方法:通常针对特定应用场景定制;
  • 基于注意力的方法:主要用于特征层的融合;
  • 不确定性感知方法:通过建模模态级或样本级不确定性进行融合。

✅ 动态多模态学习的潜力:
  1. 与主流模型的结合潜力
    动态融合思想可扩展应用于当前最先进的多模态模型(如 CLIP),用于增强模型在不同场景中的适应性与鲁棒性。

  2. 现实应用中的动态场景广泛存在
    现实世界中的许多场景本身就具备动态性质,例如:

    • 自动驾驶:感知模态(如摄像头、雷达)在不同天气/光照条件下质量不一致;
    • 医学图像融合:不同成像模态(如 MRI、CT)在不同解剖部位或病灶区的重要性不同。
  3. 设计任务定制的动态融合策略具有研究价值
    尤其在医学图像分析中,我们可以进行更细粒度的动态融合,例如:

    • 在“病理路径级别(path-level)”动态融合多模态图像;
    • 可提供更强的灵活性与可解释性,助力临床决策支持系统的发展。

🔚 总结
动态多模态学习提供了一种适应模态差异、提升泛化能力与鲁棒性的新范式。未来值得深入研究的问题包括:

  • 如何将动态策略有效嵌入主流预训练多模态模型;
  • 如何结合领域知识进行任务特定的动态策略设计;
  • 如何平衡效率与准确性,在实际系统中落地部署。

6 结论

在本次综述中,我们全面探讨了实际环境中多模态学习面临的主要挑战:噪声、部分缺失、不平衡和质量变化的多模态数据。其中,噪声多模态数据等问题已经研究了很长时间,但近年来对表示学习翻译任务的兴趣激增,带来了大量新的多模态算法和令人兴奋的多模态应用。例如:

  1. 低质量多模态数据对于基础模型(如 CLIP);
  2. 低质量多模态数据在融合以外的任务中(如对齐、检索);
  3. 噪声、部分缺失、不平衡和动态等低质量数据的其他形式(如对抗性数据)。

我们相信,本综述将有助于归档未来的研究论文,并更好地理解多模态机器学习中尚未解决的问题。