Finding Tiny Faces(CVPR 2017)
论文链接:论文链接
matlab代码:matlab代码
pytorch代码:pytorch代码
作者主页:Peiyun Hu
- 阅读这篇文章的动机是为了看它的context model
- 人类在看东西的时候,只看某个东西的周围就能知道这个位置是什么
- 这篇文章我没有看懂,主要不知道它那个template是怎么实现的
动机
- 小目标检测
- 文章从以下三个方面来讲:
- scale invariance(尺度不变性)
- image resolution(图像分辨率)
- contextual reasoning(上下文推理)
解决方案
尺度不变性
- 这篇文章中的template指的其实就是anchor box或者说是prior;在图中表示为每一个图像金字塔旁边的模糊人脸
- 最后面的foveal descriptor指的就是特征融合,把浅层和深层特征图进行融合
上下文推理
- 在FPN的不同特征图上使用相同的像素大小来获取context,而不是像SOD R-CNN一样仅仅在原图的周围取一圈的像素作为context
图像分辨率
- Figure 7里面的(50, 40, 2)表示(h, w, ω),(h/ω, w/ω)表示原图的尺度
- 由于在数据集中,中等大小的图片数量最多,因此检测器在该大小上的检测性能最好;因此,我们可以把小物体放大或大物体缩小到中等物体的大小,这样可以显著提高性能(使用中等物体来检测小物体是一个好思路啊)
网络结构
结果
问题
- 这篇文章看个屁,用词写法和其他的文章差别好大,看的有点蒙
- 光线很暗的情况下如何识别?
- 人类看脸是先看到一个人,再看到这个人的头,最后再看到这个人的脸,计算机能不能也按照这个过程来?