【论文笔记】MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection

发布于:2022-11-08 ⋅ 阅读:(1005) ⋅ 点赞:(0)

发布于TPAMI2022
原文链接:https://arxiv.org/pdf/2112.08935v3.pdf
源码链接:https://github.com/dong03/MVSS-Net
本文只对于和MVSS不同的部分进行介绍,具体MVSS的内容见另一篇博客:https://blog.csdn.net/weixin_45366180/article/details/127643547?spm=1001.2014.3001.5501

主要贡献

  • 为了将像素级操纵检测转换为图像级预测,我们提出了一种名为卷积广义平均池化(ConvGem) 的新模块代替之前使用的global max pooling (GMP),新模块有效地克服了 GMP 的两个缺点,即反向传播图像尺度损失的瓶颈以及缺乏考虑积极响应的数量和空间分布的能力。提出了更好的模型 MVSS-Net++。
  • 对当前模型如何对通过屏幕截图重新捕获的操纵图像做出反应进行了初步研究,这是图像在互联网上传播时的常见操作。测试其鲁棒性。

提出的模型

下图是MVSS模型。
在这里插入图片描述
下图是MVSS++模型。
在这里插入图片描述
本文的目的是训练一个多头的神经网络G(即不仅确定图像是否被操纵,而且确定其被操纵的像素)。

  • 语义分割头 G s e g G_{seg} Gseg:像素级操作的概率S(x)。
  • 图像分类头 G c l f G_{clf} Gclf:图像被操纵的概率C(x),根据像素级的证据,我们从分割图中得到C(x)。
    在这里插入图片描述

为了提取可推广的操作检测特征,G被设计成同时接受输入图像的原始RGB视图和额外噪声视图。 为了在检测灵敏度和特异性之间取得适当的平衡,多视点特征学习过程由像素、边缘和图像三个尺度的标注共同监督。 这就产生了多视图多尺度监督网络(MVSS-NET)。

用于图像级预测的ConvGeM

Global Max Pooling (GMP)将 S(x) 的最大值作为 C(x),即C(x) = S i ∗ , j ∗ S_{i∗,j∗} Si,j(x) ,虽然 GMP 将 C(x) 直接链接到 S(x),但由于以下两个缺点:

  • 由于图像分类损失实际上是基于 S i ∗ , j ∗ S_{i∗,j∗} Si,j(x) 计算的,梯度损失仅通过唯一点 (i*, j*) 反向传播。这样的瓶颈不仅会减慢分类头的训练速度,还会阻碍头对整个网络的指导。
  • GMP 对于积极响应的数量以及它们在空间上的分布方式是不变的。然而,这两个属性对于像素级检测结果是否有意义都很重要。根据格式塔理论,人类感知的视觉模式与他们的空间环境有关。根据这个理论,为了有效的欺骗,给定图像中的一定量的像素必须用一定的配置同时操作。 因此,零星出现的积极反应比它们在空间上分组的对应反应更有可能是噪声。 GMP并不能区分它们。

对于第一个缺点:
注意到,最初为图像检索而提出的广义平均池化(GeM)可以用来克服GMP的第一个缺点。如公式所示 GeM使用一个可训练的正参数p来在全局平均池化(p=1)和全局最大池化GMP(比如100的大p值)之间取得平衡:
在这里插入图片描述
由于更多的像素对C(x)的贡献,GeM有效地打破了GMP在反向传播中的瓶颈。 我们的经验观察到,用GeM代替GMP大约节省了10个训练周期。 尽管如此,GEM对正反应的空间分布仍然不变。
对于第二个缺点:
由于卷积自然地捕捉像素之间的空间相关性,可以考虑在GeM之前添加一个的卷积块,用conv(S(x))表示。注意到神经网络在早期训练的时候,特别是它的分割头 G s e g G_{seg} Gseg得不到很好地训练,因此、产生了很多无意义地S(x)。这种对 G c l f G_{clf} Gclf的噪声输入会被conv进一步夸大,使得分类头和整个网络难以训练。 为了抑制这种负面影响,我们通过一个由非负超参数λ作为加权的衰减跳跃连接将GeM(s(x))添加到C(x)中。
在这里插入图片描述
其中 λ 被初始化为接近1的值,并且随着epoch的数目增大非线性地衰减。如图6所示,使用接近1的λ可以让 G c l f G_{clf} Gclf在早期训练阶段暂时忽略conv块。 然后,随着 G s e g G_{seg} Gseg不断改进以提供更准确、更可靠的S(x),λ迅速减小以使 G c l f G_{clf} Gclf更多地依靠conv来充分利用S(x)。 公式6表明,GeM和GeM(conv)在训练过程中权重动态确定的凸组合有效地解决了GMP的缺陷。
在这里插入图片描述

多尺度监督

图像级损失:使用的二进制交叉熵(BCE)损失。
在这里插入图片描述
值得指出的是, l o s s c l f loss_{clf} lossclf的有用性并不局限于提高模型特异性。 通过ConvGeM,图像尺度监督现在可以比我们以前使用的GMP更有效地反向传播,以改善特征学习。

消融实验

语义分割主干网络的影响

下表3是不同语义分割骨干的性能比较,只用分割损失进行训练。 F1成绩以百分比表示。
在这里插入图片描述

G c l f G_{clf} Gclf的影响

我们比较了 G c l f G_{clf} Gclf的三种不同实现,即GMP、GeM和建议的ConvGeM,它们的性能如表4的最后三行所示。与GMP相比,GeM获得了更高的像素级别F1,表明可以更有效地使用图像尺度监督来改善分割网络。然而,GeM对像素上的响应进行平均,尽管以非线性方式,使得它不太敏感,并且因此导致图像级检测灵敏度的急剧下降 (从79.7到63.1)。它在像素级任务上的增益和在图像级任务上的损失相互抵消,使Com-F1与GMP相比基本上没有变化。相比之下,ConvGeM在两项任务之间取得了最佳平衡,将Com-F1从64.3提高到66.3。

边缘分割与边界框回归的比较

学习被操纵区域周围边界伪影的两种策略分别是边缘分割将篡改定位视为边界框回归任务。用目标检测损失训练的 MVSS-Net 的性能显示在表 4 的倒数第二行,在像素级和图像级操作检测方面,它的分数相对低于 Setup #9,这表明边缘分割损失更适合学习边界伪影特征。
在这里插入图片描述

本文含有隐藏内容,请 开通VIP 后查看