Anti-UAV数据集是在2021年公开的专用于无人机跟踪的数据集,该数据集采用RGB-T图像对的形式来克服单个类型视频的缺点,包含了318个视频对,并提出了相应的评估标准(the state accurancy, SA)。
文章链接:https://arxiv.org/abs/2101.08466https://arxiv.org/abs/2101.08466
数据集链接:
目录
Inspection and Correction(检验与修正)
1.数据收集
Anti-UAV数据集包含318个RGB-T的视频对,每个视频对都包含一个RGB视频和一个TIR视频,正如本篇最开始介绍的一样。
该数据集包含了各种飞行场景,使用的无人机主要是DJI和Parrot,如下图所示。视频的场景包含白天和夜晚(光线强度不同),红外和可见光(光线形式不一样)以及各种各样的飞行背景(建筑,云雾,树林等)。每个视频是都是25FPS,并以MP4格式储存。
2.数据标注
原作者采用三个阶段来处理数据标注:
coarse annotation(粗糙标注)
这个阶段标注了每个视频的属性和飞行场景,例如UAV的尺寸,可能错误识别的目标等;同时,是对每一帧都进行了标注,如果当前帧出现了目标,则将flag设定为1,否则就设为0,真实框以[x1, y1, x2, y2]的形式给出一个大概的矩形框标注。
Fine Annotation(精细标注)
选择视频复杂度排名前10 的视频进行进一步标注,剩下的视频对根据第一步的粗糙标注再进行细节标注。
Inspection and Correction(检验与修正)
前两阶段结束后,视频标注可能还存在问题,譬如光线模糊以及无人机的快速一定导致的帧变形等,针对可能还存在的问题再进一步细化。最后,将标注后的视频每隔1000帧进行序列划分。
3.数据细节
Dataset Splitting(数据集分割)
根据深度学习网络的一般标注,数据集包括训练集(training set),测试集(test set)和验证集(validation set)。Anti-UAV数据集中的训练集和验证集来自同一个视频的非重叠部分,而测试集则完全独立于训练集和验证集。其中,训练集包含160个视频对,验证集包含67个视频对,测试集包含 91个视频对(并且该集合相较于验证集更为复杂)。
Position Distribution(位置分布)
如下图所示,边界框的位置大部分都位于图像的中心位置,也就是说无人机的水平运动占多数。并且在测试集中,无人机的尺寸变化幅度更大。
Scale Distribution(尺寸分布)
数据集中的无人机尺寸变化幅度较大,无人机的尺寸计算可由以下公式计算得到:
数据集中无人机的尺寸分布如下图所示,显然,三个集合中的尺寸分布都是差不多的,不过,三个集合中的平均目标尺寸都是小于40像素的(也就是说,该数据集可以用来衡量一个跟踪器跟踪微小目标的能力)。
4.数据属性
目标跟踪的难点就是存在如下表所示的7项,包括目标消失(OV)、部分遮挡(OC)、快速移动(FM)、尺寸变换(SV)、光线偏弱(LI)、热度交叉(TC)以及低分辨率(LR)。
下图是从Anti-UAV数据集中截取的图片,都是以红外和可见光视频对呈现的。原文写道:“The challenging attributes are helpful to analyze the shortcomings and advantages of trackers from all aspects. ”(具有挑战性的属性有助于从各个方面分析跟踪器的缺点和优势。)
下图是Anti-UAV数据集不同集合中的不同属性的序列数量的可视化柱状图,数据的分布十分清晰了,博主就不在这里赘述了~
5.衡量标准
Anti-UAV标注信息包括边界框、属性以及目标是否存在的标志。因此,原文作者将存在标志引入了评估标准,提出了SA(the state accuracy)的评估标准,该标准的计算公式如下:
其中,IOUt是每个跟踪的边界框与真实边界框的IoU分数(不了解IoU的uu可以参考【目标检测】IOU介绍-CSDN博客),vt是前面提到的存在标志,p用来衡量状态精度。
最终得到的SA分数是所有视频序列得到的SA分数的平均值,同时也使用Precision and success来衡量跟踪器的性能。
论文中还提出了三个协议,因为博主懒惰,直接贴图在下面了,大家感兴趣可以深入了解。