Dino v3: SSL的进一步创新

发布于:2025-09-12 ⋅ 阅读:(19) ⋅ 点赞:(0)

Abstract

自监督学习有望消除人工数据标注的需求,使模型能够轻松扩展至海量数据集与更大规模的架构。由于无需针对特定任务或领域进行定制,这一训练范式具备从多样化数据源(从自然图像到航拍影像)中,仅凭单一算法即可学习通用视觉表征的潜力。本技术报告介绍了 DINOv3——迈向实现这一愿景的重要里程碑,其核心在于采用简单而高效的策略:首先,我们通过精心的数据准备、模型设计与优化,充分发挥数据规模与模型规模扩展的优势;其次,我们提出一种名为“Gram锚定”(Gram anchoring)的新方法,有效解决了长期训练过程中密集特征图质量退化的已知难题;最后,我们引入后处理策略,进一步提升模型在分辨率适应性、模型规模灵活性以及与文本对齐能力方面的表现。最终,我们呈现了一个通用型视觉基础模型,它在无需微调的情况下,于广泛的任务场景中超越了当前针对特定任务优化的最先进模型。DINOv3 生成的高质量密集特征,在多种视觉任务上表现卓越,显著超越此前的自监督与弱监督基础模型。我们同时开源 DINOv3 系列视觉模型,旨在为不同资源限制与部署场景提供可扩展解决方案,推动各类任务与数据上的技术前沿

Introduction:

基础模型已成为现代计算机视觉的核心构建模块,通过单一、可复用的模型,实现跨任务与跨领域的广泛泛化能力。自监督学习(Self-Supervised Learning, SSL)是一种强大的训练方法,它直接从原始像素数据中学习,利用图像中自然存在的模式共现关系。与依赖高质量元数据标注的弱监督和全监督预训练方法(Radford 等, 2021;Dehghani 等, 2023;Bolya 等, 2025)不同,SSL 能够在海量原始图像集合上进行训练,尤其适用于大规模视觉编码器的训练——得益于近乎无限的训练数据资源。DINOv2(Oquab 等, 2024)正是这一优势的典范,在图像理解任务(Wang 等, 2025)中表现卓越,并成功应用于组织病理学等复杂领域(Chen 等, 2024)。**SSL 训练的模型还具备其他理想特性:对输入分布偏移具有鲁棒性,能同时提供强大的全局与局部特征,并生成丰富的嵌入表示,有助于物理场景的理解。**由于 SSL 模型并非针对特定下游任务训练,其输出的特征具备高度通用性与鲁棒性。例如,DINOv2 模型无需任务特定微调,即可在多样化任务与领域中表现优异,使单一冻结主干网络可服务于多种用途。尤为重要的是,自监督学习无需人工干预,特别适合在互联网数据持续增长的背景下进行终身学习。

在实际应用中,SSL 的核心承诺——即通过利用海量无约束数据训练任意规模的强大模型——在规模化过程中仍面临挑战。**尽管 Oquab 等人(2024)提出的启发式方法缓解了模型不稳定与坍塌问题,但在进一步扩展时仍出现新问题。**首先,如何从无标签数据集中筛选出有效数据尚不明确;其次,在常规训练实践中,采用余弦学习率调度需预先设定优化周期,这在面对大规模图像语料库时难以实现;第三,训练早期后,特征质量随训练推进逐渐下降,通过观察图像块相似性图可证实此现象。该现象在 ViT-Large(3亿参数)以上规模模型的长周期训练中尤为明显,限制了 DINOv2 的扩展潜力。

本工作 DINOv3 正是为解决上述问题而提出,旨在推动大规模自监督学习的前沿。我们证明,单一冻结的 SSL 主干网络可作为通用视觉编码器,在具有挑战性的下游任务中超越监督学习及依赖元数据的预训练策略。本研究围绕以下三大目标展开:(1) 训练一个跨任务与跨领域的通用基础模型;(2) 改进现有 SSL 模型在密集特征上的不足;(3) 发布一系列可直接部署使用的模型家族。下文将逐一阐述。

Dis1:强大且通用的基础模型

DINOv3 旨在沿两个维度实现高度通用性,这得益于模型规模与训练数据的扩展。**首先,SSL 模型的关键理想特性是在冻结状态下仍能取得优异性能,理想情况下可媲美专为特定任务设计的模型。**此时,单次前向传播即可在多个任务上取得前沿结果,带来显著计算节省——这对实际应用(尤其是边缘设备)至关重要。我们在第6节展示了 DINOv3 可成功应用于广泛任务。**其次,不依赖元数据的可扩展 SSL 训练流程,为众多科学应用打开大门。**通过对多样化图像(无论是网络图像还是观测数据)进行预训练,SSL 模型可泛化至大量领域与任务。如图1(d)所示,从高分辨率航拍图像中提取的 DINOv3 特征经 PCA 可视化后,清晰区分道路、房屋与植被,凸显其特征质量之高。

Dis2:通过 Gram 锚定实现卓越特征图

DINOv3 的另一核心特性是其密集特征图质量的显著提升。DINOv3 的 SSL 训练策略旨在使模型在高层次语义任务上表现出色的同时,生成适用于几何任务(如深度估计或3D匹配)的优质密集特征图。理想情况下,这些密集特征应可直接使用或仅需少量后处理。然而,在海量图像训练中,高层次语义理解目标与密集特征图质量之间常存在矛盾,尤其在大模型与长周期训练下易导致密集特征坍塌。我们提出的新型 Gram 锚定策略有效缓解了这一坍塌(见第4节)。结果表明,DINOv3 的密集特征图质量显著优于 DINOv2,即使在高分辨率下仍保持清晰(见图3)。

图3说明:高分辨率密集特征可视化。我们展示 DINOv3 输出特征在4096×4096输入图像上,以红色十字标记图像块与其他所有图像块之间的余弦相似性图。请放大查看——你是否认同 DINOv3 的判断?

Dis3:DINOv3 模型家族

**通过 Gram 锚定解决密集特征退化问题,释放了模型扩展的潜力。**因此,使用 SSL 训练更大规模模型可带来显著性能提升。本工作中,**我们成功训练了一个含70亿参数的 DINO 模型。鉴于该大模型运行资源需求高,我们通过知识蒸馏将其压缩为更小变体。**最终,我们推出 DINOv3 视觉模型家族——一套综合性解决方案,旨在应对广泛的计算机视觉挑战,提供适配不同资源约束与部署场景的可扩展模型。蒸馏过程产出多个尺度的模型变体,包括 Vision Transformer (ViT) Small、Base、Large,以及基于 ConvNeXt 的架构。值得注意的是,高效且广泛应用的 ViT-L 模型在各类任务上性能接近原始70亿参数教师模型。总体而言,DINOv3 家族在广泛基准测试中表现强劲,在全局任务上媲美或超越竞品模型,在密集预测任务上则显著领先(见图2)。

本工作为实现大规模 SSL 前沿模型提出多项创新:

(i) 数据扩展(第3.1节):基于自动数据筛选最新进展(Vo 等, 2024),构建大规模“背景”训练集,并谨慎混入少量专业数据(如 ImageNet-1k),从而利用海量无约束数据提升模型性能。

(ii) 模型架构与训练(第3.2节):通过自定义 ViT 架构将主模型扩展至70亿参数,引入现代位置编码(轴向 RoPE),并开发正则化技术避免位置伪影。摒弃 DINOv2 的多重余弦调度,采用恒定超参数调度训练万轮次,获得更强性能模型

(iii) Gram 训练机制(第4节):在前述技术基础上,虽可按 DINOv2 算法规模化训练,但密集特征仍会退化。为此,我们提出核心改进——Gram 锚定训练阶段,有效清除特征图噪声,生成惊艳的相似性图,并在参数化与非参数化密集任务上大幅提升性能。

(iv) 模型蒸馏与部署(第5.2节):延续既有实践,我们在训练流程末期引入高分辨率后训练阶段,并通过创新的“单教师-多学生”高效蒸馏方案,将70亿参数前沿模型的知识迁移至一系列实用小型模型,适配日常使用需求。

如第6节全面基准测试所示,我们的方法在密集任务上树立新标杆,在全局任务上与 CLIP 衍生模型相当。尤其值得注意的是,仅使用冻结视觉主干,我们在长期存在的计算机视觉任务上即达到最先进水平,如目标检测(COCO检测,mAP 66.1)与图像分割(ADE20k,mIoU 63.0),超越需专门微调的方案。此外,第8节将 DINOv3 算法应用于卫星影像,进一步验证了方法的跨领域通用性,全面超越此前所有方法。

Training at Scale Without Supervision

DINOv3 是下一代视觉基础模型,旨在通过突破自监督学习(Self-Supervised Learning, SSL)的边界,生成迄今为止最鲁棒、最灵活的视觉表征。我们从大型语言模型(LLMs)的成功中汲取灵感——模型容量的扩展往往带来卓越的涌现能力。通过使用比以往大一个数量级的模型与训练数据,我们力求充分释放 SSL 的潜力,推动计算机视觉领域实现类似的范式跃迁,摆脱传统监督学习或任务特定方法所固有的限制。

表1:训练数据对特征质量的影响,通过下游任务性能评估。我们比较了基于聚类(Vo 等, 2024)与检索(Oquab 等, 2024)方法构建的数据集、原始数据与我们的混合数据。本消融实验采用较短的20万轮训练周期。

Dataset In1k K-NN IN1K Linear OBJECTNET INATURALIST PARIS
原始数据 80.1 84.8 70.3 70.1 63.3
聚类法 79.4 85.4 72.3 81.3 85.2
检索法 84.0 86.7 70.7 86.0 82.7
LVD-1689M(本文) 84.6 87.2 72.8 87.0 85.9

尤其重要的是,SSL 生成的视觉特征丰富且高质量,不偏向任何特定监督信号或任务,从而为广泛的下游应用提供通用基础。尽管先前扩展 SSL 模型的尝试常受稳定性问题困扰,本节将阐述我们如何通过精心的数据准备、架构设计与优化策略,充分发挥规模化优势。我们首先描述数据集构建流程(第3.1节),随后介绍 DINOv3 第一阶段训练所采用的自监督学习方案(第3.2节),包括架构选择、损失函数与优化技术。第二阶段训练(聚焦密集特征)将在第4节详述。

3.1 数据准备

数据规模扩展是大型基础模型成功的关键驱动力(Touvron 等, 2023;Radford 等, 2021;Xu 等, 2024;Oquab 等, 2024)。然而,盲目扩大训练数据规模并不必然转化为更高的模型质量或下游基准性能(Goyal 等, 2021;Oquab 等, 2024;Vo 等, 2024)。成功的数据扩展通常依赖精心设计的数据筛选流程。这些算法目标各异:或侧重提升数据多样性与均衡性,或聚焦数据实用性——即其与常见实际应用的相关性。为开发 DINOv3,我们结合两种互补方法,在提升模型泛化能力与任务性能之间取得平衡。

数据收集与筛选

我们构建大规模预训练数据集的基础,是来自 Instagram 公开帖子的海量网络图像池。这些图像已通过平台级内容审核,**初步过滤有害内容,形成约170亿张图像的原始数据池。**基于此,我们构建三个数据子集:

  1. 聚类筛选子集:采用 Vo 等人(2024)提出的基于层次化 k-means 的自动筛选方法。以 DINOv2 提取图像嵌入,在5个层级上聚类,各层聚类数分别为2亿、800万、80万、10万与2.5万。建聚类层次后,应用 Vo 等人(2024)提出的均衡采样算法,最终获得16.89亿张图像的精选子集(命名为 LVD-1689M),确保覆盖网络中所有视觉概念且分布均衡。

    Step 1: Hierarchical k-means(层次化k均值)
    Dinov2:模型提取的图像特征进行聚类

    Level 5 (最粗):25,000 个大类(如“动物”、“建筑”、“食物”)

    Level 4:100,000 个中类(如“狗”、“猫”、“汉堡”、“寿司”)

    Level 3:800,000 个小类

    Level 2:8,000,000 个细类

    Level 1 (最细):200,000,000 个超细类(如“金毛犬在草地上奔跑”)

    Step 2:平衡采样算法

    每个簇,无论大小,都按“比例”采样,保证所有视觉概念都有代表

  2. 检索筛选子集:采用类似 Oquab 等人(2024)提出的检索式筛选系统,从数据池中检索与选定种子数据集(如 ImageNet)相似的图像,构建覆盖下游任务相关视觉概念的数据集。

  3. 原始公开数据集:直接使用公开计算机视觉数据集,包括 ImageNet-1k(Deng 等, 2009)、ImageNet-22k(Russakovsky 等, 2015)与 Mapillary 街景序列(Warburg 等, 2020),以优化模型在特定任务上的表现(遵循 Oquab 等, 2024)。

数据采样策略

预训练过程中,我们采用采样器混合不同数据子集。混合方式有两种:一是每轮迭代随机选择单一数据子集,构建同质批次;二是按特定比例从所有子集中采样,构建异质批次。受 Charton 与 Kempe(2024)启发——他们发现由高质量小数据集构成的同质批次有益于训练——我们在每轮迭代中,随机选择仅含 ImageNet-1k 的同质批次,或混合其他所有子集的异质批次。训练中,纯 ImageNet-1k 同质批次占比10%。

数据消融实验

为评估数据筛选策略的影响,我们进行消融研究,比较混合数据与单一聚类/检索数据及原始数据的性能。为提升效率,采用20万轮(而非100万轮)训练周期。表1显示,无单一筛选策略在所有基准上均最优,而我们的混合流程成功融合两者优势,实现全面领先。

3.2 基于自监督的大规模训练

**尽管 SSL 训练的模型已展现有趣特性(Chen 等, 2020b;Caron 等, 2021),多数 SSL 算法尚未扩展至更大模型规模,或因训练不稳定(Darcet 等, 2025),或因方法过于简化,无法捕捉视觉世界的复杂性。**即使在大规模训练下(Goyal 等, 2022a),SSL 模型也未必表现优异。显著例外是 DINOv2——在精选数据上训练的11亿参数模型,性能媲美弱监督模型如 CLIP(Radford 等, 2021)。近期将 DINOv2 扩展至70亿参数的努力(Fan 等, 2025)虽在全局任务上表现良好,但在密集预测任务上结果令人失望。本文旨在同时扩展模型与数据规模,获得兼具更强全局与局部表征能力的视觉模型。

学习目标

我们采用判别式自监督策略,融合多个全局与局部损失项。沿用 DINOv2(Oquab 等, 2024),我们使用图像级目标损失 LDINO(Caron 等, 2021),并平衡其与图像块级潜在重建损失 LiBOT(Zhou 等, 2021)。两项损失均采用 SwAV(Caron 等, 2020)的 Sinkhorn-Knopp 算法替代 DINO 的中心化操作。每个损失由主干网络顶部的专用头计算,允许特征在损失计算前进行一定程度的特化。此外,我们在局部与全局裁剪的主干输出上应用专用层归一化。实验证明,该改动可稳定训练后期 ImageNet kNN 分类性能(+0.2 准确率),并提升密集任务表现(如 ADE20k 分割 +1 mIoU,NYUv2 深度估计 -0.02 RMSE)。我们还引入 Koleo 正则项 LKoleo,鼓励批次内特征在空间中均匀分布(Sablayrolles 等, 2018)。采用分布式实现,损失在16样本小批次(可跨GPU)上计算。初始训练阶段优化如下损失:

LPre = LDINO + LiBOT + 0.1 ∗ LDKoleo. (1)

更新模型架构

为实现模型扩展,我们将参数量提升至70亿,并在表2中对比其超参数与 DINOv2 的11亿参数模型。我们采用 RoPE 的自定义变体:基础实现为每个图像块分配归一化坐标 [−1, 1],并在多头注意力操作中根据两块相对位置添加偏置。为提升模型对分辨率、尺度与长宽比的鲁棒性,我们引入 RoPE-box 抖动:坐标框 [−1, 1] 随机缩放至 [−s, s],其中 s ∈ [0.5, 2]。这些改进使 DINOv3 能学习更细致、鲁棒的视觉特征,提升性能与可扩展性。

表2:DINOv2 与 DINOv3 教师模型架构对比。保持40层深度,嵌入维度增至4096。重要变化:图像块尺寸改为16像素,改变给定分辨率下的有效序列长度。

主干 ViT-giant ViT-7B
参数量 1.1B 6.7B
层数 40 40
图像块尺寸 14 16
位置编码 可学习 RoPE
寄存器数 4 4
嵌入维度 1536 4096
FFN 类型 SwiGLU SwiGLU
FFN 隐藏层维度 4096 8192
注意力头数 24 32
注意力头维度 64 128
DINO 头 4096-4096-256 8192-8192-512
DINO 原型数 128k 256k
iBOT 头 4096-4096-256 8192-8192-384
iBOT 原型数 128k 96k

优化策略

在超大规模数据集上训练大模型构成复杂实验流程。由于模型容量与数据复杂度的交互难以预判,无法预先设定最优训练周期。为此,我们摒弃所有参数调度策略,采用恒定学习率、权重衰减与教师 EMA 动量。此举有两大优势:其一,可随下游性能持续提升而延长训练;其二,减少超参数数量,便于调优。为确保训练平稳启动,仍对学习率与教师温度采用线性预热。沿用常规实践,我们使用 AdamW 优化器(Loshchilov & Hutter, 2017),总批次大小为4096张图像,分布于256块GPU。采用多裁剪策略(Caron 等, 2020),每张图像取2个全局裁剪与8个局部裁剪。全局/局部裁剪图像尺寸分别为256/112像素,结合图像块尺寸调整,使每张图像的有效序列长度与 DINOv2 一致,每批次总序列长度达370万 token。更多超参数见附录C及代码发布。

图5:(a) CLS token 与输出图像块间余弦相似度演化;(b)© ViT-g 与 ViT-7B 在 ImageNet1k 线性分类与 VOC 分割任务上的准确率演化。观察发现,当图像块token与CLS token相似度较低时,分割性能最佳;随训练推进,相似度上升,密集任务性能下降。

图6:红色标记图像块与其他所有图像块间余弦相似度的演化。随训练推进,模型生成的特征局部性减弱,相似度图噪声增加。


网站公告

今日签到

点亮在社区的每一天
去签到