潮流之言:
Meta近日发布了全新的开源视觉模型DINOv3 。该模型套件包含12款基于Transformer的视觉基础模型,支持商业应用 。DINOv3采用自监督学习方法,无需人工标注数据,仅利用17亿张图像进行训练,模型参数规模达到70亿 。这一成果首次证明了自监督学习模型能够在广泛的任务中超越弱监督学习模型 。DINOv3旨在成为一个通用的视觉基础模型,能够从海量、多源的原始图像中学习,适用于数据标注稀缺、成本高昂或无法获取的应用场景 。相比前代模型,其训练数据和模型规模均有显著扩大 。
DINOv3在多个关键方面展现出卓越性能:不仅在标注数据稀缺或跨领域(如网络图像与卫星影像)的应用场景中遥遥领先,更在计算机视觉的三大核心任务——图像分类、目标检测和语义分割上均达到了当前最先进的水平(SOTA)。
1:自监督学习在计算机视觉中的关键作用
计算机视觉的发展历程中,李飞飞教授推动的ImageNet项目及其依赖的大规模标注数据集曾起到关键作用。然而,随着数据规模的持续增长和应用场景的日益广泛,高昂的标注成本与数据获取难度逐渐成为制约模型通用性的瓶颈。
针对这一挑战,DINOv3采用创新的自监督学习范式,摒弃对标注数据的依赖,专注于从海量无标签图像中学习高质量、高分辨率的视觉特征,从而为各类下游视觉任务提供强大的通用骨干网络(backbone)。
基于这一方法,DINOv3首次证明,一个单一的、冻结的视觉骨干网络(Single Frozen Vision Backbone)无需微调,即可在多种密集预测任务(Dense Prediction Tasks)中超越传统针对特定任务设计的专门化模型,展现出卓越的泛化能力与性能优势。
1.1 DINOv3是如何实现的?
DINOv3的训练过程主要分为两个阶段:
首先,DINOv3在海量且精心设计的数据集上进行了大规模自监督训练,从而能够学习到通用且高质量的视觉表示。
其次,它引入了一种名为“Gram anchoring”的新方法,有效解决了训练过程中密集特征图的退化问题。这种方法在不损害全局特征的前提下,显著提升了局部特征的质量。
具体而言,研究团队首先打造了一个规模庞大的预训练数据集,其中囊括了约17亿张图片。这些图片主要来源于Instagram上的公开图片,同时掺杂了少量ImageNet中的图片。经过细致的分类与采样处理后,研究者运用判别式自监督学习方法,借助Sinkhorn-Knopp算法以及Koleo正则化手段来稳定特征分布,进而实现了既细致又稳健的密集特征学习。在此基础上,DINOv3在继承DINOv2成功经验的同时,还将模型参数从11亿扩充至70亿,以此强化骨干网络的表征能力,使其能够从海量图像中挖掘出更丰富、更细粒度的视觉特征。
相较于DINOv2,DINOv3在训练策略上进行了关键升级,引入了RoPE-box jittering技术,显著增强了模型对图像分辨率、物体尺度以及长宽比变化的鲁棒性。同时,DINOv3延续了多裁剪训练(multi-crop training)以及恒定学习率配合EMA(指数移动平均)教师动量优化的策略,有效保障了训练过程的稳定性与高效性。
在大规模训练过程中,DINOv3的70亿参数模型展现出随着训练时间延长,全局任务性能持续提升的趋势,因此研究团队从一开始就采用了长时间训练的策略。然而,这一做法在密集预测任务(如图像分割)中带来了新的挑战:随着训练迭代的推进,patch-level(图像块级别)特征的一致性逐渐下降,导致性能反而退化。
具体而言,随着训练深入,原本应具有明确空间对应关系的图像块特征,出现了非相关区域与参考区域相似度过高的问题,破坏了特征的空间一致性,进而削弱了模型在密集预测任务中的表现。
为解决这一难题,研究团队提出了“Gram anchoring”方法。该方法通过引导学生模型的patch Gram矩阵去逼近早期训练阶段中性能优良的教师模型的Gram矩阵,从而保留图像块之间的相对相似关系。这种方法在稳定特征结构的同时,仍允许特征表示自由演化,避免了对特征表达能力的过度约束。
实验结果显示,引入Gram anchoring后,模型在ADE20K图像分割任务上的性能显著提升,同时训练过程的稳定性也得到明显改善。这表明,通过合理的设计,patch-level特征的一致性与判别性全局特征的学习可以有效兼顾。在有针对性的正则化机制支持下,长时间训练不仅不会损害密集预测任务的表现,反而能持续带来增益。
此外,研究还发现,将高分辨率图像输入Gram教师模型,并将其输出下采样至与学生模型特征图相同尺寸,仍能生成平滑且空间一致性良好的patch特征图,进一步验证了该方法在保持细粒度结构信息方面的有效性。
实验表明,即便经过下采样操作,源自高分辨率输入的优异patch-level一致性依然得以保留,从而生成更加平滑、连贯的图像块特征表示。这凸显了高分辨率特征在提升空间细节表达上的关键作用。
此外,由于DINOv3初始训练采用的是相对较低的分辨率(256×256),为增强其在高分辨率图像场景下的适应能力,研究团队在主训练阶段后引入了一个专门的“高分辨率适应步骤”。该步骤旨在使模型逐步掌握处理高分辨率图像的能力,同时维持性能稳定。
在此阶段,DINOv3结合了“混合分辨率”训练策略与Gram anchoring方法,通过同时输入多种尺寸的图像并利用教师模型引导特征一致性,有效提升了模型对大尺寸、复杂图像的处理能力。这一设计不仅确保了精细的局部特征表达,也兼顾了全局理解与密集预测任务的性能,实现了更鲁棒的多尺度适应。
1.2 测试DINOv3的性能
研究团队在多种计算机视觉任务上对DINOv3 7B模型进行了全面评估,这些任务涵盖了密集特征和全局特征等方面。
正如前文所述,DINOv3在语义分割、单目深度估计、非参数方法、3D对应估计等任务中均达到了顶尖水平(SOTA)。
特别值得一提的是,DINOv3凭借其出色的通用性,使得研究人员和开发者无需针对特定任务对模型进行微调。
此外,为了便于社区使用和部署,Meta通过蒸馏70亿参数的原生DINOv3模型,构建了一个开发环境友好的v3模型矩阵,包括Vision Transformer(ViT)的Small、Base和Large版本,以及基于ConvNeXt的架构。
其中,ViT-H+模型在各项任务中的表现接近原始的70亿参数教师模型。
据了解,Meta也将公布具体的蒸馏流程,方便社区在此基础上继续开展构建与改进工作
2:DINO行动
在实际应用中,DINOv3展现出卓越的泛化能力。例如,Meta与世界资源研究所(WRI)合作,基于DINOv3开发了一种新型算法,能够高效分析卫星影像,精准识别生态系统中的树木损失和土地利用变化。该技术为全球森林恢复监测和可持续农业管理提供了强有力的支持,彰显了DINOv3在现实复杂场景中的广泛应用潜力。
20250819_165210
相较于DINOv2,DINOv3在卫星与航空影像的训练下显著提升了精度,将肯尼亚某地区树冠高度估算的平均误差从4.1米大幅降低至1.2米,展现出更强的细粒度空间感知能力。不仅如此,DINOv3还在多项遥感任务中表现卓越,包括语义地理空间分割和高分辨率语义理解等,均达到了当前最先进的水平(SOTA),进一步验证了其在复杂遥感场景中的强大性能与泛化能力。
20250819_165426
与DINOv2相比,在使用卫星与航空影像进行训练的情况下,DINOv3将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米。
最终:
DINO(Distillation With NO Labels)系列作为Meta在视觉领域自监督方法的探索成果,呈现出一脉相承且不断创新发展的态势,象征着视觉模型大规模自监督训练的稳步前行。
DINOv3不仅可以加速现有应用的发展,还可能解锁全新的应用场景,推动医疗健康、环境监测、自动驾驶、零售以及制造业等行业的进步,从而实现大规模、更精准、更高效的视觉理解。
参考链接
[1]https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
[2]https://x.com/AIatMeta/status/1956027795051831584
[3]https://github.com/facebookresearch/dinov3
[4]https://ai.meta.com/blog/dinov3-self-supervised-vision-model/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=dinov3
[5]https://ai.meta.com/research/publications/dinov3/