Abstract
本文提出了一种针对 Tiny Object Detection(TOD)任务的新型方法——Spectral Enhancement for Tiny object detection(SET)。通过对特征编码后的小物体进行频域分析,发现高频信息对小物体识别造成了干扰,因而设计了通过抑制背景中的高频信息来增强小物体检测性能的方法。具体地,SET 包含两个模块:层次化的背景平滑(HBS)模块和对抗扰动注入(API)模块。HBS 模块通过自适应降噪操作来抑制背景中的高频噪声,而 API 模块则利用对抗性扰动增加关键区域的特征显著性,并通过训练提升模型对小物体特征的识别能力。实验结果表明,SET 在多个基准数据集上均能有效提高小物体的检测精度,特别是在 AI-TOD 数据集上相对于基线方法提升了 3.2% 的 AP。此外,文章还进行了详细的组件效果分析、超参数选择以及对增益机制的解释,充分验证了 SET 方法的有效性和通用性。
Introduction
深度神经网络(DNN)的最新进展[14, 60]极大地推动了目标检测领域的发展[11, 22]。尽管取得了这些进步,但微小目标检测(TOD)仍然是一个具有挑战性的问题。微小目标的特点是像素输入非常有限,其占据的面积等于或小于 16×16 像素[44]。与传统目标检测[10, 21]相比,通用目标检测器在微小目标检测任务中往往表现不佳。例如,DINO [60] 是最具代表性的基于 Transformer 的目标检测器之一,在 AITOD [44] 基准测试中,其对中等大小物体的平均精度(AP)为 37.6%,但对极小物体的平均精度仅为 9.9%。此外,原始的 FCOS [39] 在 AITOD [44] 上对极小物体的平均精度仅为 2.5%,这远远不能满足诸如自动驾驶、海上救援和交通管理等实际应用的需求。
由于分辨率天生较低这一限制因素,目标检测(TOD)中的一个关键挑战在于提取具有区分性的前景特征[7],尤其是在经过下采样后的检测架构的高级特征中。同时,从嘈杂且占主导地位的背景杂乱中学习到微小物体的信息也是困难的[54]。大多数现有的研究[1, 3, 30, 54]都集中在增强微小物体在空间域中的特征表示上。我们提供了一种新的分析方法,并从频谱角度来解决这一挑战。
受基于遮挡的归因分析方法的启发[33, 45],我们对中间的特征金字塔网络(FPN)特征进行了基于遮挡的分析,以研究遮蔽特定频段对不同物体尺度下的检测性能的影响。具体而言,我们使用一维快速傅里叶变换(FFT)[31] 将特征转换到频域,并对振幅谱应用静态滤波器,然后将这些滤波后的振幅谱与相位谱一起输入到逆快速傅里叶变换(IFFT)中,以生成被遮蔽的空间特征。图 1 中的高频掩码结果表明,直接去除高频特征对非常小和较小的物体有积极影响,但对较大物体的检测则有负面影响。这种差异可归因于在特征编码后,小物体变得不那么清晰,呈现出弱的高频成分(图 2 中的示例(b)),并且在杂乱的背景中具有极其模糊的频率特征(图 2 中的示例(c))。因此,它们更有可能受到高频噪声的影响,并从直接去除高频信息中受益。相比之下,较大的物体具有明显的高频特征(图 2 中的示例(a)),并且对高频信息的依赖性更高。基于这些观察结果,我们研究了一种明确的措施,以通过去除背景中的高频信息来增强小物体的频率特征。背景(BG)高频掩码测试结果表明,该方法在所有三个物体尺度上均提升了检测性能,分别提高了 15%、8% 和 4%,为极小和小型物体带来了显著的提升,同时并未影响到大型物体。
基于上述分析,我们提出了一种通用的光谱增强(SET)方法,用于利用异构架构对前景和背景特征进行细化,以增强微小物体的频率特征。该方法包含两个模块。如图 3 所示,第一个分层背景平滑(HBS)模块通过自适应平滑操作抑制背景中的高频信息,同时保留前景细节,从而突出微小物体的频率特征。第二个对抗性扰动注入(API)模块利用对抗性扰动来提高关键区域的特征显著性,并在训练过程中促使对象特征的细化。此外,API 通过对抗训练促进了稳健的特征表示。SET 简单而有效,可以在训练过程中轻松地安装在现有的检测器上,同时对推理过程没有额外的负担。
我们在本文中的主要贡献总结如下:
- 从频谱角度出发,基于特征层面的遮挡分析被用于研究微小物体检测(TOD)难题,结果表明微小物体更易受到高频噪声的影响。我们为微小物体检测引入了一种频谱增强方案(SET),该方案通过设计一种针对前景和背景特征细化的异构架构来实现。
- 为 TOD 任务设计了两个新的模块。HBS 模块通过自适应平滑操作来抑制背景中的高频噪声。API 模块利用对抗性扰动来增强关键区域的特征显著性,并在训练过程中促进对象特征的细化。
- 大量的研究结果表明,我们的方法在很大程度上超越了现有的基准标准和已有的研究成果。
Related Work
Tiny Object Detection
目前针对微小物体检测(TOD)的大多数方法可以分为四大类:数据增强、多尺度特征学习、标签分配以及微小物体特征增强策略。一些数据增强策略[6, 37]通过促使检测器在训练过程中专注于特定尺度的实例来针对微小物体。传统的方法还利用多尺度特征学习[23, 26, 62]。另一条方法路线则从标签分配和提议细化的角度来改善微小物体的检测性能[52, 58]。各种研究旨在增强微小物体的特征表示。袁等人[58]提出了一种特征模仿(FI)机制,将区域提议(RoI)特征与嵌入空间中范例特征集中的对应特征进行对齐。最新的 TOD 方法提出了辅助的自重建分支,以增强微小物体的弱特征表示[3, 54]。不同的是,我们提出的这种方法从频率角度增强了对微小物体的辨别能力,从而在训练过程中优化了物体特征,而无需给推理过程增加任何额外的负担。
Adversarial Training for Object Detection
针对目标检测器设计的许多有效攻击方法已被提出,其中大多数是在图像层面生成对抗样本的[28, 38, 48]。抵御这些攻击最常见的方法是对抗训练[20, 29, 40],这涉及在训练数据集中加入对抗样本以进行扩充。对于目标检测,[59] 利用来自分类和定位领域的攻击情景,将对抗训练扩展到目标检测的场景中。与上述方法不同,我们引入了特征级的对抗扰动,以在分支之间平衡检测语义,从而实现更小目标的更清晰检测,并提高模型的鲁棒性。
Conclusion
本文提出了一种增强小目标检测的方法SET,SET方法包括背景平滑模块和注入对抗性扰动模块。背景平滑模块通过适应性平滑操作抑制高频率噪声,增强小目标特征。注入对抗性扰动模块利用对抗性训练提高模型鲁棒性和特征表示能力。实验结果表明,SET方法能够显著提高小目标检测性能。