摘要
近年来,多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大 的目标检测系统,本文提出了一个新的大规模基准数据集,称为 BigDetection。我们的目标是 整合现有数据集(LVIS、OpenImages 和 Object365)的训练数据,并遵循精心设计的原则,构建一个更大规模的数据集,以 提升检测器的预训练效果。具体而言,我们重新定义了一个新的类别体系,统一了来自不同数据源的异构标签空间。BigDetection 数据集包含 600 个物体类别,超过 340 万张训练图像,标注有 3600 万个边界框,在多个维度上都远超现有的目标检测基准数据集,既提供了 机遇,也带来了 挑战。大量实验表明,BigDetection 作为目标检测方法的评测基准具有较高的有效性,同时作为预训练数据集也展现出了显著的提升效果。代码与模型开源地址:https://github.com/amazonresearch/bigdetection。
1. 引言
回顾 2014 年,Microsoft COCO 数据集 [33] 曾是极具挑战性的目标检测基准,当时的最佳检测方法在80类物体上的 平均精度(AP) 甚至 低于20。如今,最先进的检测器 [10, 62] 已能在 COCO test-dev 上达到 60+ AP。作为目标检测的黄金标准,COCO 数据集催生了众多流行的目标检测算法。
为了构建 更鲁棒、更通用的目标检测系统,近年来发布了多个 大规模目标检测数据集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每个数据集 都有其局限性和挑战:
OpenImages 约 10% 的边界框标注由机器生成,可能导致标签错误或边界框重叠(图 1 顶部)。
LVIS 旨在覆盖 1200+ 类密集标注类别,但存在 无效标注、严重的长尾分布 等问题(图 1 底部)。
Objects365 词汇量相对较小,可能遗漏某些常见类别(如昆虫)。
BigDetection 数据集
为解决上述问题,我们提出了一个 新的大规模目标检测基准数据集,称为 BigDetection。
我们的目标是整合现有数据集(LVIS、OpenImages 和 Objects365),遵循精心设计的标注原则,构建一个更适合 目标检测器预训练 的大规模数据集。
与现有的 多数据集训练 方法 [59, 67, 70] 不同,我们使用语言模型构建初始的统一标签空间,并手动验证 以 获得最终的类别体系。
BigDetection 数据集 具有 600 个物体类别,包含 340 万张训练图像,3600 万个边界框。表 1 对比了 BigDetection 与其他数据集的统计信息。
此外,我们进行了 多种实验,以验证 BigDetection 作为新基准的有效性,以及其作为预训练数据集的提升效果。
特别地,如表 3 所示,使用 Swin-Base 作为主干网络的 CBNetV2 [31],在 BigDetection 预训练后,在 COCO test-dev 上达到 59.8 AP。令人惊讶的是,这一性能甚至可以媲美未在 BigDetection 预训练的 Swin-Large(Swin-Large 的计算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分标注数据设置 [48] 下,BigDetection 预训练展现了极高的数据效率,例如,在仅使用 1% 的 COCO 训练数据 时,即可在 COCO 验证集 上达到 25.3 AP。
主要贡献
我们的贡献可总结如下:
提出了一个新的目标检测数据集 BigDetection,其规模在多个维度上远超现有基准,可作为更具挑战性的 目标检测评测基准。
验证了 BigDetection 作为预训练数据集的有效性,在 COCO 验证集和 test-dev 集 上取得了 最先进的检测结果,同时在 数据效率设定下 也表现出色。
进行了广泛的消融实验,提供了在大规模数据集上训练目标检测器的最佳实践。
相关工作
数据集在目标检测中的作用
大规模、高质量标注的数据集对于推动更优秀的计算机视觉模型至关重要。在目标检测领域,PASCAL VOC [16] 是早期的基准数据集之一,包含 20 个类别、约 1.7 万张图像。尽管与当今的数据集相比规模较小,PASCAL VOC 却培养了许多经典的目标检测器 [18, 60] 和基于深度学习的检测器 [22, 23, 25]。随后,微软在 2014 年推出了 Microsoft COCO [33],至今已成为最广泛使用的目标检测基准。COCO 包含 11.8 万张图像、86 万个实例标注,覆盖 80 个类别。得益于其大规模和高标注质量,COCO 与深度学习一起彻底改变了计算机视觉的格局。最近,随着大量高质量标注工作的推进,更大规模的数据集如 LVIS [24]、OpenImages [26] 和 Objects365 [44] 相继问世,拥有数百万级的实例标注。它们不仅使我们能够学习更多样化、细粒度的物体概念,还为新场景上的少样本/零样本学习提供了可能。此外,还有许多针对特定领域的目标检测数据集(如 [9, 20, 40, 45, 49, 54]),以支持各种实际应用。
多数据集检测器训练
由于完全依赖人工标注的方式无法扩展到超大规模数据集,近期有研究开始探索多数据集联合训练策略,目标是在现有数据集上利用更多标注数据来学习更好的特征表示。
早期的一项工作 [59] 提出在多个数据集上训