Borji A, Iranmanesh S M. Empirical upper bound in object detection and more[J]. arXiv preprint arXiv:1911.12451, 2019.
arXiv-2019
文章目录
1、Background and Motivation
背景
目标检测是计算机视觉领域中的一个重要且具有挑战性的问题。尽管近年来深度学习技术在目标检测方面取得了显著进展,但现代目标检测器在流行基准测试集上的性能开始趋于饱和,这引发了关于深度学习工具和方法在目标检测领域潜力的疑问。具体来说,研究人员开始探讨在现有路径下,目标检测的性能还能提升多少,以及阻碍性能进一步提升的主要因素是什么。
动机
本文的动机在于通过系统分析,揭示目标检测中的经验上限(Empirical Upper Bound, EUB),即在当前技术条件下,目标检测器可能达到的最佳性能。此外,作者还希望识别目标检测器中的瓶颈,为未来目标检测模型的设计和优化提供见解。
2、Related Work
works that strive to understand detection approaches, identify their shortcomings, and pinpoint where
more research is needed.- person detectors、PASCAL datasets、ImageNet
comparing object detection models
- Some works have analyzed and reported statistics and performances over benchmark datasets such PASCAL VOC, MSCOCO, CityScapes, and open images.
- alternative or complementary evaluation measures
role of context in object detection and recognition
3、Advantages / Contributions
经验上限的确定:作者通过分析两个最新的目标检测基准测试集和四个大规模数据集上的15个模型,首次系统地确定了目标检测中的经验上限AP(Upper Bound AP, UAP)。这一上限为评估现有模型性能提供了基准,并揭示了当前模型与理论上限之间的差距。
错误类型的诊断:作者以一种新颖且直观的方式表征了目标检测器中的错误来源,发现分类错误(包括与其他类别的混淆和漏检)是主要的错误类型,其影响超过定位错误和重复检测错误。
不变性分析:作者研究了模型在不同变换下的不变性特性,包括去除目标周围上下文、将目标放置在不一致的背景中、图像模糊和垂直翻转等。这些分析揭示了模型在应对这些变换时的脆弱性,并为提高模型的鲁棒性提供了方向。
4、Experimental Setup
4.1、Benchmarks Datasets and Metrics
Benchmarks
- MMDetection
- Detectron2
Datasets
- 4 datasets including PASCAL VOC,our home-brewed FASHION dataset, MSCOCO, and OpenImages
Our FASHION dataset covers 40 categories of clothing items (39 + humans). Trainval, and test sets for this dataset contain 206,530 images (776,172 boxes) and 51,650 images (193,689 boxes), respectively
Metrics
用的是 COCO API 中的评价指标
4.2、Characterizing the Empirical Upper Bound
assume that the localization problem is solved and what remains is only object recognition
(1) Utility of the surrounding context
仅用目标区域做为识别的输入效果最好
(2) Searching for the best label
strategy1 和 strategy2 是用来获取 UAP 的
Strategy 1
使用最佳分类器直接对目标框进行分类
- 首先,使用一个经过训练的最佳分类器(在这个研究中是ResNet152)对目标框(ground truth bounding boxes)进行分类。
- 分类器的分类得分直接作为检测得分,从而计算AP。
- 由于使用的是目标框的真实标签,因此这种方法实际上假设了定位问题已经解决,只关注于对象识别。
特点:
- UAP 值在所有 IOU 阈值下都是相同的,因为检测框就是目标框本身。
- 这种方法给出了一个理论上的上限,即如果定位完全准确,仅通过对象识别能达到的最佳AP。
Strategy 2
在目标框附近采样候选框并选择最佳分类(采样方式为图 3):
- 在目标框周围采样多个候选框(IOU高于某个阈值γ),并使用相同的分类器对这些候选框进行分类。
- 选择分类得分最高的候选框的标签和置信度作为目标框的标签和置信度,或者选择出现频率最高的标签。
- 通过这种方式,尝试在低于完美IOU的情况下找到更好的分类结果。
特点:
- 理论上,这种方法有可能在低于完美IOU的情况下提高AP,因为通过搜索周围的候选框,可能找到更容易分类的框。
然而,在实际实验中,这种方法并没有显著提高UAP值,除了在少数情况下(如FASHION数据集上的中等和小物体,以及COCO数据集上的小物体)。 - 作者将策略2的失败归因于周围候选框可能包含额外的视觉内容,这些内容可能引入标签噪声,从而降低分类准确性。
Sampling boxes with IOU above a threshold
图 3 A) GT 是黑框,R2 是 GT 的面积,R1 是 Sampling boxes 与 GT 的交集
IOU 的计算分母为什么是两倍的 R2,因为作者做了如下的假设
we assume all boxes have the same width and height as the target box(sampling boxes 红色虚线框与 GT 黑色实线框的面积是一样的)
进一步推导可以得知
图 3 B)不同颜色区域对应的横纵坐标
(3)Upper bound results
UAP(红色虚线) 是一条横线的应该是 strategy 1,有波动的是 strategy 2
第一行前两列应该是 PASCAL VOC 数据集,第一行后面两列应该是 FASHION 数据集
第二行前两列是 MSCOCO 数据集,后两列在前两列基础上引入了 HTC
其他颜色的线段应该就是网络训练得到的正常结果,VOC 和 FASHION 数据集用的是 FCOS 框架,COCO 数据集用的是 Mask R-CNN 的框架
Chen K, Pang J, Wang J, et al. Hybrid task cascade for instance segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4974-4983.
发现 strategy2 一般,后续讨论 strategy1
VOC
VOC 数据集的 UAP,左图是 VOC 的评价指标,右图是 COCO 的评价指标
右图评价指标下最好的模型 FCOS 的 AP 才 47.9,与 UAP 91.6 差距是相当的大
FASHION
FASHION 数据集下的 UAP
The gap between UAP and model AP here, however, is much smaller than VOC.
AP50 下 FASION 的 AP 快接近 UAP 了
UAPs of 5 FASHION categories fall below the best model AP(倒反天罡)——Looking at the classification scores, we find that they have a low accuracy.——也就是所谓的最佳分类器(GT 作为输入),没有直接 train 出来的分类器效果好
注意这里的 UAP strategy1 求出来的,这么说呢,相当于武状元苏乞儿比武,什么都给你准备好了,最后上场发挥还是败了,哈哈
COCO
第一行是 AP 阈值,第二行是 AP 尺寸
The gap between the best model AP and UAP is above 30
The gap is much smaller for AP at IOU=0.5 which is about 10
The UAP is much lower over small objects than UAP over large objects
这张图用的是 Detectron2 benchmark 的结果
OpenImages 数据集
achieve 58.9 UAP
We are not aware of any model scores on this set of OpenImages V4.
(4)AP vs. classification accuracy
We found that there is a linear positive correlation (R2 = 0.81 on COCO) between the UAP and the classification accuracy
The higher the ACC.,the better the UAP 是合理的,因为用的是 strategy 1,作者发现了是呈线性关系(好像在策略1的假设下也没有其他项来干扰了吧)
4.3、Error Diagnosis
定义了四种错误类型
分类错误有两种
- confusion with the background (Type I)——误检,也可把类别混淆归于 Type I
- misses (Type II)——漏检
定位错误,重复错误,作者一一修复这些错误,使得 AP 为 1,来看看每种错误类型对 AP 的影响
we argue that correcting the mislocalized predictions is more effective than removing them because it can reveal other sources of weakness in a model.(区别于 Hoeim et al. 的方法,图 10)
Confusion with the background (and other classes;see above) has the highest contribution to the overall error, across all models.
误检最严重
The second most important error type is misses.
其次是误检
作者也采用了 Hoiem 的方法进行了分析
Hoiem, Derek, Yodsawalai Chodpathumwan, and Qieyun Dai. “Diagnosing error in object detectors.” European conference on computer vision. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012.
that classification error Type I (Sim, Oth, and BG in Fig. 10) accounts for the largest fraction of errors, followed by misses (FN) and localization (Loc) errors——红绿紫占多数
4.4、Invariance Analysis
(1)Analysis of context
加白背景和 noise背景没有 objects only 好
They are hindered much more on small objects than medium or large ones, which shows how critical context is for recognition and detection of small objects
不同模型在去除上下文信息后的表现差异表明,某些模型(如FCOS)对上下文信息的依赖较小,而另一些模型(如FasterRCNN和SSD512)则可能更依赖于上下文信息来进行准确检测。
应该把原始结果也贴上,这样好直观的对比与原图的效果如何,FCOS 好像用 object only 时的效果比原图还好
shows the difference in distribution of predicted boxes and distribution of ground truth boxes.
看的不是特别明白,给人的感觉 MaskRCNN 饱和式攻击,命中率低,FCOS 神枪手,命中率高
图五试验了下 incongruent contexts 在不同模型上的影响
这个表也是,最好贴上原图输入的结果,多一个对比试验
(2)Robustness to image transformations
Poor performance here demonstrates how sensitive models are to object scale and that they lack robustness to object appearance.
很难识别 crop 出来的图片,特别是小目标
RetinaNet and FCOS outperform other models here.
(3)Analysis of errors
Gaussian blur 和 vertical flip 中漏检最多
objects only 中类别混淆很小,因为没有背景干扰
5、Conclusion(own) / Future work
- 参考 https://zhuanlan.zhihu.com/p/94990078
- upper bound AP (UAP)
- 感觉 Characterizing the Empirical Upper Bound 这小节应该放在 Error Diagnosis 小节之后,不然一上来的假设 location 没问题让人很懵圈,应该是先分析出 location 没有 recognition 错误占比那么大再假设 location 是 GT 逻辑上就通顺一些
- 作者所谓的 UAP,就是当前分类器的上限了(要不然 GT 就是 100%),目标检测器中的分类分支提升空间还很大
- 上下文信息对小目标的重要性再次得到了验证
- We did not find a significant contribution from the surrounding context of a target or its nearby overlapping boxes to better
classify it. - To evaluate the recognition component of a model, one can feed the target boxes to a model and collect its decisions on them
- classification remains as the major bottleneck
- classification error (confusion with other classes and misses) weighs more than localization and duplicate errors
- 作者在目标检测上做了分析,同样的分析方法可以迁移到 semantic and instance segmentation.
更多论文解读,请参考 【Paper Reading】