ViTAR: Vision Transformer with Any Resolution

发布于:2024-03-28 ⋅ 阅读:(33) ⋅ 点赞:(0)

ViTAR: Vision Transformer with Any Resolution

相关链接:arxiv
关键字:Vision TransformerResolution AdaptabilityAdaptive Token MergerFuzzy Positional EncodingHigh-Resolution Image Processing

摘要

本文解决了视觉Transformer(ViTs)面临的一个重大挑战:在不同图像分辨率下的可扩展性受限。通常,ViTs在处理训练时未见过的分辨率时,性能会下降。我们的工作引入了两个关键创新来解决这个问题。首先,我们提出了一个动态分辨率调整的新颖模块,设计了一个单一的Transformer块,专门用于实现高效的增量令牌整合。其次,我们在视觉Transformer中引入了模糊位置编码,以在多个分辨率下提供一致的位置感知,从而防止对任何单一训练分辨率的过拟合。我们得到的模型ViTAR(Vision Transformer with Any Resolution)展示了令人印象深刻的适应性,在1120x1120分辨率下达到83.3%的top-1准确率,在4032x4032分辨率下达到80.4%的准确率,同时降低了计算成本。ViTAR在下游任务,如实例和语义分割中也表现出强大的性能,并且可以轻松地与自监督学习技术,如Masked AutoEncoder结合。我们的工作为提高ViTs的分辨率可扩展性提供了一种成本效益高的解决方案,为更通用和高效的高分辨率图像处理铺平了道路。

核心方法

image.png

  1. 自适应令牌合并器(ATM):ATM模块接收经过补丁嵌入处理的令牌作为输入。我们预设了Gh × Gw作为最终目标令牌的数量。ATM将令牌划分为大小为Gth × Gtw的网格。在实际使用中,通常设置H Gth为1或2,W Gtw也是如此。ATM通过GridAttention过程逐步合并每个网格内的令牌,最终将所有令牌映射到一个固定形状的网格上。

  2. 模糊位置编码(FPE):FPE引入了一定程度的位置扰动,将精确的位置感知转变为带有随机噪声的模糊感知。这种措施防止模型对特定分辨率的位置过度拟合,从而增强了模型对不同分辨率输入的适应性。同时,FPE可以被视为一种隐式数据增强,使模型能够学习更强大的位置信息并取得更好的性能。

实验说明

实验结果如下表所示,展示了不同模型在不同分辨率下的top-1准确率和计算复杂度(FLOPs):

模型 分辨率 FLOPs(G) Top1-acc(%)
DeiT-S 224 5 79.8
ResFormer-S 224 5 82.2
ViTAR-S 224 5 80.3

数据来源是ImageNet-1K、COCO和ADE20K等标准数据集。实验中使用了多种数据增强和正则化技术,如RandAugment、Mixup、CutMix和Random Erasing等。此外,还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

在本文中,我们提出了一种新的架构:ViTAR(Vision Transformer with Any Resolution)。ViTAR中的自适应令牌合并器使得模型能够适应性地处理可变分辨率的图像输入,通过逐步合并令牌到固定大小,极大地增强了模型的分辨率泛化能力,并在处理高分辨率输入时降低了计算成本。此外,ViTAR还包含了模糊位置编码,允许模型学习强大的位置信息并处理训练中未遇到的高分辨率输入。我们的ViTAR还与现有的基于MAE的自监督学习框架兼容,表明其在大规模未标记数据集上的应用潜力。在需要高分辨率输入的实例分割和语义分割任务中,ViTAR显著降低了计算成本,几乎不影响模型性能。我们希望这项研究能够激发后续对高分辨率或可变分辨率图像处理的研究方向。

本文含有隐藏内容,请 开通VIP 后查看