Contribution:
CM-EMD (跨模态推土机距离)选择最佳传输策略,并为具有较小身份内变化的对分配高权重,通过这种方式,模型将专注于减少模态间的差异,较少关注身份内部的变化,导致更有效的模态对齐。
EMD:推土机距离:是估计两个分布之间距离的度量,这是线性优化中运输问题的一个特例。用于衡量两种分布差异特别大的概率分布。
同时引入两种技术提高CM-EMD的优势:
1.CM-DL(由于 CM-EMD 主要侧重于对齐交叉模态分布,这将不可避免地降低表示的辨别能力,因为降低对模态内分布的关注):跨模态判别学习(CM-DL)旨在克服模态对齐引起的判别退化问题,通过降低身份内和身份间差异的比率,CMDL引导模型学习更多的区别性表示。
2. 构建多粒度结构(MGS)(局部信息很重要,执行更细的模态对齐),使我们能够从粗粒度和细粒度两个层次将模态与提出的CM-EMD结合起来
(a)以往以往缺陷,同一身份下图像对之间的模态对齐,没有考虑由不同姿态引起的模态内部的差异,当跨模态差异减少到一定程度并且不占优势时,该模型将转向减少不适合通过分布对齐函数进行优化的身份内变化。
解决方案:
在我们的直觉中,如果我们可以选择具有较少身份内变化的跨模态对,模态对齐过程可以主要集中在减少由所选对引起的模态差异。
我们提出了一种新的 VT-ReID 分布对齐方法,称为跨模态推土机距离(CM-EMD),它可以在很大程度上减轻模态对齐过程中身份内变化的影响。
具体来说,,CM-EMD 利用 EMD 来选择跨两种模式的最佳传输策略,该策略在具有较小身份内变化的两个跨模式样本之间分配较大的传输权重(图 1 (b) )该模型可以专注于减少模态差异而不是身份内变化,从而实现有效的模态对齐。
CM-DL),可以通过降低身份内和身份间方差之间的比率来提高辨别力
MGS 中,我们首先提取基于部分的局部特征和全局特征,然后分别对它们应用 CM-EMD,使我们能够减少粗粒度和细粒度特征级别的模态差距。
框架介绍:
提取两种模态下:所提出方法的框架。在浅层中,我们对可见模态和热模态使用不同的参数。浅层是 ResNet50 [39] 的第一个卷积层、第 1 个残差块和第 2 个残差块。在浅层之后,我们设计了两个流来提取基于全局的特征和基于局部的特征。每个流包括 ResNet-50 [39] 的第 3 和第 4 残差块,它们由两种模式共享。两个流的参数不同。给定输入,我们首先使用我们的多粒度结构 (MGS) 提取全局特征、局部特征和累积的局部特征。
身份分类的损失旨在学习基本表示。 CM-EMD 的损失旨在有效减少模态差异。 CM-DL 的损失集中在学习更具判别性的表示上。
Cross-Modality Earth Mover’s Distance:
EMD [7] 是两个分布之间距离的度量,可以通过最小化将一个分布传输到另一个分布的成本来解决,两个更相似的样本将具有较高的连接权重,否则将具有较低的连接权重。CM-EMD 可以根据样本的相似性在样本之间自动分配权重,
CM-EMD :
M (f v, f t) 是成本函数,采用欧几里得距离计算。
CM-EMD能够减少模态差异,CM-DL能够增加辨别性特征,增加基于ID特征的辨识性
CM-DL :
模态对齐的一个缺点是优化过程可能会降低模型的辨别能力, 类方差可以很好地表示身份分布。如果模型能够很好地区分不同身份的样本,那么类内方差应该小,而类间方差应该大,通过约束跨模态类内方差和跨模态类间方差之间的关系来实现的。
每个模态计算平均特征:
每个模态下计算类别特征的均值:
其中Nvc 和Ntc 表示第c类的样本数。
跨模态类内方差定义为:
跨模态类间方差:
Lcm-dl:
优化目标,减小类内距离,增大类间距离。
MGS:多粒度结构:
全局特征,restnet输出 直接Gem pooling 和 batch Normal
局部特征,切成K个部分,每个部分Gem pooling 和 batch Normal
累积特征, 连接不同个数的局部特征,1:2 1:3 1:4 。。。。。1:K
对全局 局部 累积局部 计算总体 推土机损失。
连接加权的局部特征以产生整体特征,
ω1, ...,ωK 是可训练的权重,由 SoftMax 函数归一化。
对整体特征 计算CM-DL: