RPT: Learning Point Set Representation for Siamese Visual Tracking

发布于：2025-02-11 ⋅ 阅读:(37) ⋅ 点赞:(0)

简介：

时间：2020

会议：ECCV

作者：Ziang Ma, Linyuan Wang, Haitao Zhang, Wei Lu, and Jun Yin

摘要：

①以更精细的表示作为一组代表点来准确估计目标状态

②进一步提出了一种多级聚合策略，通过融合分层卷积层来获取详细的结构信息

创新点：

①点集表示，使用一组代表性点来描述目标

②提出一种多级聚合策略，通过融合不同层次的卷积层特征来提高目标定位的准确性

③设计在线训练的分类器，提高对干扰物的鲁棒性

④提出从点集表示生成伪边界框的方法，使得点集表示可与边界框注释兼容

对比：

对比边界框：

边界框只能提供目标的粗略空间范围，缺乏对目标几何变换的建模能力，这限制了定位精度。RPT通过使用一组代表性点来更精细地表示目标状态，这些点在训练过程中学习以指示目标区域的语义和几何显著位置。

对比RepPoints：

RepPoints：一种用于目标检测的点集表示方法，它通过一组点来表示目标的边界

RepPoints流程：

①使用卷积神经网络从图像中提取特征

②在目标周围定义一组初始点

③通过回归头预测偏移量，调整初始点位置以贴合目标边界

④使用分类头确定点是否属于目标，并通过损失函数进行训练

⑤根据预测的点集确定目标的精确边界

RPT：借鉴RepPoints的思想，将点集表示应用于视觉跟踪领域，以此来提高目标跟踪的准确性和鲁棒性

RPT 框架由两个并行分支构建，一个主要利用点集表示进行目标估计，另一个在线训练以提供针对干扰因素的高鲁棒性。

RPT：

网络框架：

RPT 由一个用于特征提取的共享主干网络和两个分别负责目标估计和在线分类的并行子网构成

采用ResNet-50作为主干网络，并从最后三个残差块中提取分层卷积特征以进行多级预测

目标估计子网：由更精细的对象表示作为点集驱动

在线分类子网：专门在线训练，以增强存在干扰的情况下的判别能力

流程：

目标估计子网：

模板（template）提取：从参考图像中提取目标模板特征

搜索区域（search patch）提取：从搜索区域中提取特征，搜索区域特征将与模板特征比较

孪生网络：共享权重和共享特征，提取特征表示，将search patch投影到template上

多级聚合：在不同层次上整合特征，以获取更丰富的信息

RP Head：通过RP Head（代表性点头）处理特征，预测一组代表性点，这些点在离线训练的嵌入空间中表示目标的空间范围

输出代表性点集（ $R_{est-all}$ ）：将搜索区域的特征通过多级聚合后，输出最终的代表性点集，用于目标的精确定位

在线分类子网：

共享骨干网络：使用与目标估计子网相同的骨干网络来提取特征

多级聚合：在不同层次上整合特征，以增强对目标外观的区分能力

分类器：通过多个分类器对特征进行处理，以区分目标外观与干扰物和背景

输出分类结果（ $R_{cls-all}$ ）：在线分类子网输出分类结果，用于指导目标跟踪过程中的在线更新

使用点集表示的目标估计：

通过深度互相关获得目标块和搜索块之间的相关图

在相关图上设计了一个分类头和一个两阶段回归头

对于每个候选，回归头输出一组偏移量以细化样本点的分布，而分类头输出两个通道用于前景-背景分类

类似于RepPoints中的公式：

$\left \{ \Delta x_{k}, \Delta y_{k}\right \}_{k=1}^{n}$ 为预测偏移量

为了利用边界框注释进行监督，对点集执行 $max-min$ 操作，获得伪框，如下所示：

在线分类：

用在线训练的分类器来补充目标估计管道，以提供针对干扰因素的高鲁棒性

多级聚合：

采用分层卷积层来促进在线分类和目标估计的推理

从每个分类器获得的目标存在的每像素置信度通过加权融合层组合为：

最后三个残差块的输出共享相同的空间分辨率，因此以像素方式实现加权和

利用更大的点集作为目标状态表示，稠密点集简单地构造为每个头获得的代表点的集合

对比其他，RPT的优势

实验与结论：

数据集：OTB2015、VOT2018、VOT2019和GOT-10k

作者提供了定量和定性的结果，证明了RPT在跟踪精度和鲁棒性方面的优势

总结了RPT的主要贡献，并强调了其在视觉跟踪任务中的有效性。作者指出，RPT通过点集表示和多级聚合提供了更精细的目标定位和结构信息，从而在多个基准测试中取得了优异的性能