论文笔记1——Detection and tracking of infrared small target by jointly using SSD

发布于:2022-12-10 ⋅ 阅读:(400) ⋅ 点赞:(0)

##《Detection and tracking of infrared small target by jointly using SSD and pipeline filter》—— 文献阅读笔记

一些abstract

​ 在本文中,作者提出了一种基于深度学习的红外小目标检测和追踪方法。本文通过降低低层分辨率和增强高层分辨率,改进了SSD的网络结构,提出了一种用于检测红外小目标的网络结构SSD-ST。并且通过设计时间相关性和运动信息的自适应管道滤波器对检测结果进行校正,以此来降低虚警率。在包含16177张红外图像和30条轨迹的数据集上进行验证,证明该网络具有不低于90%的召回率和不低于95%的准确度,并且具有很好地鲁棒性。

summary:一个基于红外小目标检测的方法——SSD-ST

​ 一个新的自适应管道滤波器——APF,用于自适应校正

​ 一个新的两阶段检测算法( 单帧检测和多帧滤波 \color{red}{单帧检测和多帧滤波} 单帧检测和多帧滤波),可实现precision rate>95% 召回率>90%

一些简单的introduction

1.红外小目标检测和追踪存在的问题:
  • 视场中的红外目标通常很小,缺乏形状特征和纹理特征( 这导致很多基于纹理或基于特征的目标检测算法失效 \color{red}{这导致很多基于纹理或基于特征的目标检测算法失效} 这导致很多基于纹理或基于特征的目标检测算法失效),所以用红外摄像机检查仍然非常困难。
  • 红外小目标易受天气云辐射和成像噪声的影响,会导致相对较低的信噪比
2.目前红外小目标检测算法分类( 目前主要算法有两种分类 \color{green}{目前主要算法有两种分类} 目前主要算法有两种分类)
  1. 序列检测方法

受环境影响较小,具有较高的信噪比( 但是目标移动速度很慢时检测性能低下 \color{red}{但是目标移动速度很慢时检测性能低下} 但是目标移动速度很慢时检测性能低下)

  1. 单帧检测方法( 目前常用 \color{red}{目前常用} 目前常用)

      • 传统的单帧算法主要是使用一系列滤波器实现( 中值减法滤波器、最大均值和最大中值滤波器、形态学顶帽滤波器 \color{red}{中值减法滤波器、最大均值和最大中值滤波器、形态学顶帽滤波器} 中值减法滤波器、最大均值和最大中值滤波器、形态学顶帽滤波器),但是由于这些滤波器很多参数需要手动调整,所以它的鲁棒性和准确率都非常低。

      • 基于对比机制的算法:受人眼视觉系统的启发,KIM等人于2009年提出了基于对比机制的算法,该算法通过调整和最大化拉普拉斯空间中的信号-杂波比来实现目标增强和背景杂波削弱,Chen 等人于2014提出了基于对比机制的算法LCM(local contrast measure),它通过LCM获得输入图像的局部对比图,然后通过自适应阈值来对目标进行切割。后来又发展出了(ILCM NLCM WLCM等)( 与传统算法想比, L C M 算法确实提高了准确度,但是当背景变复杂时,基于对比机制的检测算法性能下降明显 \color{red}{与传统算法想比,LCM算法确实提高了准确度,但是当背景变复杂时,基于对比机制的检测算法性能下降明显} 与传统算法想比,LCM算法确实提高了准确度,但是当背景变复杂时,基于对比机制的检测算法性能下降明显)

      • 基于深度学习的算法(分为两类)

        今年在可见光领域提出了两种类型的方法:two-stage目标检测技术( R − C N N , F a s t R − C N N , F a s t e r R − C N N \color{red}{R-CNN,Fast R-CNN,Faster R-CNN} RCNN,FastRCNN,FasterRCNN)、single-stage 目标检测技术( S S D , Y O L O \color{red}{SSD,YOLO} SSD,YOLO)

        Du1等人于2017年提出了两阶段的红外目标检测算法,他们利用CNN提取图片特征,然后用SVM分类来实现目标检测。

        Sommer2等人也提出基于深度学习的两阶段的深度学习算法。 他们利用Faster-RCNN中提出的RPN(区域提案网络)产生目标候选区域,然后利用CNN对目标候选区域进行分类来确定是否含有目标。YOLO也被用于红外目标检测,相比于传统方法,深度学习的方法精确度更好,但是当目标很小的时候,虚警率仍然很高。

令人头大的方法:

对于像素<20的小目标,神经网络的识别效果下降显著。红外小目标尤甚。SSD网络中的基本结构VGG要比YOLO中的暗网结构简单些,更容易与其他检测网络结合。

为检测不同尺度的特征,传统的SSD网络设计金字塔形的特征结构产生不同结构的检测层,每个层负责检测不同尺度的目标。但是( ( 红外小目标是非常小的,这样会导致 S S D 在检测性能上大大降低——太全面,) \color{red}(红外小目标是非常小的,这样会导致SSD在检测性能上大大降低——太全面,) (红外小目标是非常小的,这样会导致SSD在检测性能上大大降低——太全面,))

作者提出的SSD-ST和传统SSD对比图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DxxVOfYU-1663834373507)(D:\Typora\file\SSD-St.png)]

  • SSD-ST:
    1. 网络结构:

    与SSD相比SSD-ST去掉了网络结构中深层的分辨率低的网络层,增加了浅层中分辨率高的网络层,提高了网络结构分辨率,用于检测红外小目标。

    C0层语义太浅,虽然分辨率高但是无法提取出深层的语义信息去提取目标,所以对C0层进行增强,利用扩张卷积在不改变分辨率的情况下改善接受域。 ( 采用膨胀卷积和特征融合对 C 0 进行处理) \color{red}(采用膨胀卷积和特征融合对C0进行处理) (采用膨胀卷积和特征融合对C0进行处理)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BN8Jmh3J-1663834373509)(D:\Typora\file\structure.png)]

    1. 锚点机制

      根据数据集重新设置了锚框大小

    2. 损失函数

      损失函数由两部分构成,在这里作者将损失函数由置信度损失和回归损失两部分结合,公式:
      L ( x , c , l , g ) = 1 N ( L c o n f + α L l o c ( x , l , g ) ) L(x,c,l,g)=\frac{1}{N}(L_{conf}+\alpha L_{loc}(x,l,g)) L(x,c,l,g)=N1(Lconf+αLloc(x,l,g))
      其中对于置信损失函数是多类置信度C的softmax损失,回归损失 L l o c L_{loc} Lloc是预测值 l l l和真实值 g g g之间的平滑损失, x ∈ ( 0 , 1 ) x ∈{(0,1)} x01 是确定锚框是否框住了目标,g为ground truth。N为匹配锚点数量。

    3. 自适应管道滤波器(APF)

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BAt55JQ7-1663834373511)(D:\Typora\file\APF.png)]

      • 采用FIFO结构,C表示根据历史帧检测结果而预测的检测结果,R表示包含相对于管道中心的有效检测结果的检测范围。如果当前帧检测结果的位置和管道中心的范围大于R,则该检测结果可能是背景噪声,应该丢弃,R的大小更具检测结果实时调整。如果目标的空间位置在相邻帧之间的变化剧烈,R调大,如果变化不大,则R调小。利用历史帧的检测结果的方差来测量目标的运动位置。方差越大,表示相邻帧之间的变化越大,R应该调大( 防止目标被当作噪声排除 \color{red}{防止目标被当作噪声排除} 防止目标被当作噪声排除),反之则反。
      • R = R 0 + k σ 2 R=R_0+k\sigma^2 R=R0+kσ2 R的自适应调整公式,其中 σ 2 \sigma^2 σ2表示在历史帧检测结果的空间位置的方差,K表示方法方差的系数。
      • APF算法流程

      ​ [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QYSW739O-1663834373516)(D:\Typora\file\APF algorithm.png)]

最终验证的实验

  • 数据集

    ​在最后的实验过程中作者采用的数据集是来自国防科技大学的ATR实验室,该数据集包含20个轨道,16177个图片和16944个目标,每个目标对应一个标记点,每个图片对应一个label

  • 数据处理:

    本文利用平均方差加权信息熵来处理图片,根据图片背景复杂度将图片分为两种类型。对图片处理分为三步:

    1. 将图片分成几个小块
    2. 对每个小块进行平均方差加权信息熵求取
    3. 对所有小块计算的平均方差加权信息熵求平均值
    4. 对所有图像进行计算,最后更具平均方差加权信息熵将图像分为两类。

评价系统设计

  • 因为测得的数据为目标中心的坐标位置,所以验证精确度为检测目标中心坐标和实际目标中心坐标的距离( 中心坐标位置是数据集本身给出的 \color{red}{中心坐标位置是数据集本身给出的} 中心坐标位置是数据集本身给出的)

  • 采用文献3提出的方法设计一套评价系统,对离实际目标中心位置不同的距离做一个划分,分为四部分,CD:在3*3领域内检测到一个结果,精确分数记为1;IA:在3×3领域外检测到一个结果,但在9×9领域内,分数记为0;MD:在9×9领域内未检测到结果,分数几位-1;FD:在9×9领域外检测到结果,或者在领域内检测到多个结果,分数即为-2.

    ​ 评价公式:

    S c o r e = 1 ∗ C D + 0 ∗ I A − 1 ∗ M D − 2 ∗ F D Score = 1 ∗ CD + 0 ∗ IA − 1 ∗ MD − 2 ∗ FD Score=1CD+0IA1MD2FD

实验结果对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6eLhBMb4-1663834373518)(D:\Typora\file\result.png)]

文章总结分析

这篇文章提出了一种基于改进SSD算法的红外小目标追踪和识别算法,在该算法中,为适应红外小目标的特性,作者将SSD基本网络结构VGG的浅层高分辨率层进行了增强,通过对浅层进行扩张卷积来增强语义而不改变网络层的分辨率。然后再对处理后的浅层 C 0 C_0 C0进行特征融合,将 C 0 C_0 C0 C 1 C_1 C1进行特征融合,得到最终加强的C0层。再对深层低分辨率层进行去除,最后得到改进版的SSD_ST网络结构,然后设计了自适应管道滤波器APF( A P F 会对 S S D S T 输出结果滤波,但是也会轻微降低实验的召回率 \color{red}{APF会对SSD_ST输出结果滤波,但是也会轻微降低实验的召回率} APF会对SSDST输出结果滤波,但是也会轻微降低实验的召回率对SSD_ST处理结果进行滤波。两者相级联,最终的到最后的输出结果,整个网络结构最后实现可达到召回率90%,准确率95%。


  1. L. Du, C. Gao, Q. Feng, C. Wang, J. Liu, Small UAV detection in videos froma single moving camera, in: Computer Vision, Springer Singapore, Singapore,2017, pp. 187–197. ↩︎

  2. L. Sommer, A. Schumann, T. Müller, T. Schuchert, J. Beyerer, Flying object detection for automatic UAV recognition, in: 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2017, pp ↩︎

  3. B. Hui, Z. Song, H. Fan, P. Zhong, W. Hu, A dataset for dim-small target detection and tracking of aircraft in infrared image sequences, http://csdata.org/p/5/387/, 2019, 10.11922/csdata.2019.0074.zh. ↩︎

本文含有隐藏内容,请 开通VIP 后查看