(Arxiv-2025)ConceptMaster:基于扩散 Transformer 模型的多概念视频定制,无需测试时微调

发布于:2025-09-04 ⋅ 阅读:(23) ⋅ 点赞:(0)

ConceptMaster:基于扩散 Transformer 模型的多概念视频定制,无需测试时微调

paper title:ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer
ModelsWithout Test-Time Tuning

paper是中山大学发布在Arxiv 2025的工作

Code:链接

图1

图1. 我们提出了 ConceptMaster,这是一种多概念视频定制(MCVC)方法,能够在无需测试时微调的情况下,根据给定的多张参考图像生成高质量且概念一致的视频。作为代表性展示,我们演示了 ConceptMaster 在六种场景下的视频定制能力,包括:1) 多个人物,2) 人物与生物,3) 人物与物品,4) 多个生物,5) 生物与物品,以及 6) 人物与生物和物品的组合。

Abstract

文本到视频的生成在扩散模型的推动下取得了显著进展。然而,多概念视频定制(MCVC)仍然是一个重要的挑战。我们识别出该任务的两个关键难点:1) 身份解耦问题,即直接采用现有的定制方法在同时处理多个概念时不可避免地会混合身份属性;2) 高质量视频-实体对的稀缺性,而这对于训练一个能够在视频生成中充分表征并解耦各种定制概念的模型至关重要。为了解决这些问题,我们提出了 ConceptMaster,一个新颖的框架,能够在保持概念一致性的同时,有效应对身份解耦问题。具体而言,我们提出学习解耦的多概念嵌入,并以独立的方式将其注入扩散模型中,这有效地保证了多身份定制视频的质量,即便是对于高度相似的视觉概念。为克服高质量 MCVC 数据的稀缺性,我们构建了一条数据生成管线,使得可以在多种场景下收集高质量的多概念视频-实体数据对。我们进一步设计了一个多概念视频评估集,从概念一致性、身份解耦能力和视频生成质量三个维度,涵盖六种不同的概念组合场景,对我们的方法进行全面验证。大量实验表明,ConceptMaster 在视频定制任务上显著优于以往方法,显示出在视频扩散模型中生成个性化且语义准确内容的巨大潜力。

1. Introduction

基于扩散的文本到视频生成模型,通过在大规模文本-视频数据对上训练,已经在从文本输入生成高质量视频方面取得了显著成功 [2, 3, 6, 11, 15, 19, 27, 42, 52, 56, 58, 64]。这些进展激发了人们越来越多地关注通过用户定义的概念来实现视频生成的个性化。近期,一些方法被提出用于利用额外的图像指导生成定制化视频,并在物体 [26]、人物 [18]、风格 [38] 等方面的定制中显示了有效性。现有的概念定制方法主要分为两类:基于微调的方法和基于预训练的方法。基于微调的方法 [9, 13, 16, 31, 50] 通常在每次定制概念时,首先优化模型参数(如 LoRA [23] 的变体或全量训练潜在扩散模型 [50]),然后将其用于推理。然而,这些方法计算开销大,且往往需要人工收集多张参考样本,使得它们在大多数对时效性和用户友好性有要求的场景中不切实际。相比之下,基于预训练的方法 [8, 14, 18, 26, 34, 36, 60–62, 67] 旨在通过数据驱动的方式在训练阶段将视觉嵌入融入扩散模型,从而在推理时无需额外的微调即可实现个性化。尽管已有进展,但如何采用这些方法同时处理视频中的多个概念,并在前向生成过程中保持概念一致性和因子化,仍是一个挑战。

在本文中,我们研究了无需测试时微调的多概念视频定制(MCVC)这一尚未解决的难题,它包含两个关键困难:1) 身份解耦问题。与单概念处理不同,MCVC 任务不仅要求基于给定的多个参考分别表征每个概念,还要求在生成视频中精确区分它们的属性。直接采用现有的基于预训练的方法往往会导致视觉概念的混淆,将不同个体的属性错误地融合在一起。当处理包含相似属性的概念时,这一问题尤为突出。一种简单的复合方法是首先基于多张参考进行多概念图像定制,然后将生成的图像输入到图像到视频(I2V)模型 [68] 中进行动画化。然而,这种方法同时依赖两个模型的表征和解耦能力,极易导致生成质量和概念一致性下降。如图2所示,这两类方案都不能很好地表征每个概念,也不能在视觉外观上清晰解耦,结果是不可接受的定制视频。2) 高质量 MCVC 数据集的稀缺性。理想情况下,训练这样一个定制模型需要大量包含多样化概念的视频,并配有每个实体的精确文本描述和参考图像。现有数据源远不能满足这些需求,而如何在多样化的视觉和文本概念中准确提取多个概念并构建大规模视频-实体配对数据仍然极具挑战性。

图2

图2. 直接应用单概念方法无法处理 MCVC 任务,而将多概念图像生成与图像到视频生成模型简单组合的朴素方案,也难以生成令人满意的定制结果。

为克服这些挑战,我们提出了 ConceptMaster(见图1),一种能够有效保持多个概念的保真度并解决身份解耦问题的 MCVC 方法,即使对于高度相似的概念也能奏效。不同于以往将视觉嵌入与文本嵌入结合 [26, 34, 36],或将视觉嵌入整体注入扩散模型 [18, 61, 67] 的方式,我们的关键思想是学习解耦的多概念嵌入,并以独立的方式注入扩散 Transformer 模型中。具体来说,该过程包括:1) 从给定的参考图像中提取全面的视觉嵌入,其中我们首先通过 CLIP 图像编码器 [45] 提取稠密视觉标记,并结合一个可学习的查询 Transformer(Q-Former)网络 [35],以更好地表征全面的视觉嵌入并与扩散模型空间对齐;2) 将视觉表征与每个概念的对应文本描述结合,在此我们提出了解耦注意力模块(Decouple Attention Module, DAM),通过对每个概念的视觉嵌入与文本嵌入分别进行对内配对注意,从而有效捕捉多个概念之间的语义差异,同时保持概念特有的唯一性;3) 引入一种新的多概念嵌入注入策略,我们首先组合多概念嵌入,然后通过一个独立的多概念注入器(MC-Injector)将其注入扩散 Transformer 模型中,MC-Injector 是一个独立的交叉注意力层,它不会影响原有的文本交叉注意。这一策略将原始文本交叉注意的功能与新引入的多概念复合嵌入的学习过程分离开来,有效增强了多个身份的表征能力。

设计的 ConceptMaster 能够在推理时高效生成高保真的定制视频,而无需额外的参数微调,这显著提高了其在现实应用中的可行性。此外,为了解决高质量 MCVC 数据的稀缺性,我们精心设计了一条数据构建管线,可以收集高质量的 MCVC 数据,精确提取视频中不同概念的实体图像及对应的文本描述。通过该管线,我们收集了超过 130 万个跨越多种概念领域的视频-实体对,包括人物、生物和各种物体类别。为进一步促进评估,我们引入了一个多概念评估集,从 1) 概念保真度,2) 身份解耦能力,3) 视频生成质量三个维度,涵盖六种不同的多概念组合场景,对该任务进行全面验证。

总的来说,我们的主要贡献可以总结如下:

  • 我们提出了 ConceptMaster,一种新颖的多概念视频定制框架,能够基于用户定义的概念个性化视频生成。它有效解决了身份解耦问题,同时保证了每个概念的保真度,即使对于高度相似的概念也同样适用。
  • 我们提出了一种新的策略,学习解耦的多概念嵌入并将其注入扩散模型,同时不影响原有的注意力操作,这有效保证了定制视频中不同概念的保真度。
  • 我们引入了一条专门的数据构建管线,能够跨多种概念收集高质量的多概念视频-实体对,从而有效解决了高质量 MCVC 数据稀缺的问题。
  • 我们收集了一个多概念评估集,可以从六种不同的概念组合场景及多个维度(包括概念保真度、身份解耦和视频质量)全面验证视频定制性能。大量实验表明,ConceptMaster 在视频定制任务上具有显著优势。

2. Related Work

2.1. Foundation Text-to-Video Diffusion Models


文本到视频(T2V)模型的快速发展令人瞩目。早期的 T2V 扩散模型工作,如 AnimateDiff [15]、VideoCrafter [6] 和 ModelScope [58],主要基于以 UNet 作为骨干的潜在扩散模型 [48, 49]。通过使用 Transformer [55] 作为扩散模型的骨干,例如 Diffusion Transformers (DiT) [44]、SORA [3],以及其他基于 Transformer 的变体 [21, 32, 70],先进的 T2V 模型在参数规模上实现了扩展,并展现出生成真实、长时程和物理一致性视频的卓越能力。这一进展显著拓展了内容生成的可能性。

2.2. Image-based Concept Customization


扩散模型中的定制化使用户能够提供参考图像,以生成保留给定身份的结果。这些定制方法主要分为基于微调和基于预训练两类。早期的代表性微调方法 [13, 50] 被设计为在用户提供新参考图像时,在线优化词嵌入或扩散模型的权重,但受到耗时和需要人工收集训练样本的限制。基于预训练的方法 [8, 14, 34, 36, 60, 62, 65, 67] 通常在特定概念数据集上训练一个编码器,以学习用于条件扩散生成过程的视觉表征。一些工作主要关注通用领域的概念定制 [8, 14, 34, 62, 67],而另一些则主要针对人脸身份场景 [36, 60, 65]。虽然上述方法大多针对单一概念的定制,但问题也扩展到处理多个参考。例如,CustomDiffusion [31] 在交叉注意力中优化额外的多组键值对;SSR-Encoder [69] 将查询输入与图像 patch 对齐,并保留主体的细粒度特征;MS-Diffusion [61] 预训练了一个 grounding resampler,并在边界框布局引导下生成图像。这些方法显著推动了图像定制化的发展。

2.3. Video-based Concept Customization


基于预训练的多概念视频定制生成几乎没有受到关注。已有的初步方法 [18, 24, 26, 63] 主要集中在单一概念场景。DreamVideo [63] 采用基于微调的方法,同时定制身份和动作。Videobooth [26] 简单地利用 Grounded-SAM [30, 40, 47] 从 WebVid 数据集 [1] 中每个视频的第一帧提取前景信息和标签(包含九个类别),并基于这些数据进一步训练粗到细的视觉嵌入。相比之下,ID-Animator [18] 使用 CelebV 数据集 [71] 构建了一个人脸身份数据集,并将预训练的 IP-Adapter [67] 与 AnimateDiff [15] 相结合进行联合优化。然而,无论是数据收集方法还是面向单一概念定制的模型,都不足以直接迁移到多概念场景中。相反,ConceptMaster 能够以前馈的方式很好地解决具有挑战性的 MCVC 任务。我们认为,ConceptMaster 极大地推动了视频定制的发展,并为其未来发展铺平了道路。

3. Preliminary: Diffusion Transformer Models for Text-to-Video Generation

基于 Transformer 的文本到视频扩散模型在视频内容生成方面展现出了巨大的潜力。我们的 ConceptMaster 构建于基于 Transformer 的潜在扩散模型之上,该模型使用一个 3D 变分自编码器 (VAE) [28] 将视频从像素级别转换到潜在空间。每个基本的 Transformer 模块由 2D 空间自注意力、3D 时空自注意力、文本交叉注意力和前馈网络 (FFN) 组成。文本提示嵌入 c t e x t c_{text} ctext 用于交叉注意力,由 T5 编码器 E T 5 \mathcal{E}_{T5} ET5 [46] 获得。我们使用 Rectified Flow [12, 41] 来定义一个概率流常微分方程 (ODE),它将干净数据 z 0 z_0 z0 以直线路径 z t = ( 1 − t ) z 0 + t ϵ z_t = (1-t)z_0 + t\epsilon zt=(1t)z0+tϵ 在时间步 t t t 转换为加噪数据 z t z_t zt,其中 ϵ \epsilon ϵ 是标准高斯噪声。扩散 Transformer 的输出直接参数化 v Θ ( z t , t , c t e x t ) v_\Theta(z_t, t, c_{text}) vΘ(zt,t,ctext) 来回归速度 ( z 1 − z 0 ) (z_1 - z_0) (z1z0),并使用流匹配目标 [37]:

L L C M = E t , z 0 , ϵ ∥ v Θ ( z t , t , c t e x t ) − ( z 1 − z 0 ) ∥ 2 2 . \mathcal{L}_{LCM} = \mathbb{E}_{t,z_0,\epsilon}\left\| v_\Theta(z_t, t, c_{text}) - (z_1 - z_0) \right\|_2^2. LLCM=Et,z0,ϵvΘ(zt,t,ctext)(z1z0)22.

4. ConceptMaster

4.1. Multi-Concept Video Customization


问题:给定一个描述视频的文本 T T T,以及一组概念图像 { X i ∣ i = 1 … N } \{X_i|i=1\dots N\} {Xii=1N} 和它们对应的标签 { Y i ∣ i = 1 … N } \{Y_i|i=1\dots N\} {Yii=1N}(例如,一名男性和一名女性及其对应的图像),其中 N N N 表示不同概念的数量,多概念视频定制(MCVC)的任务旨在生成高质量视频,这些视频能够结合所有由图像定义的视觉概念,同时与给定的描述性文本 T T T 保持一致。每个概念都应保持其在所提供图像中的身份,同时准确表达其在文本描述中规定的语义行为。我们将每个概念的配对图像和标签定义为 intra-pair 定制概念,以便于表达。

概述:为了实现这一目标,我们首先精心设计了一个数据收集流程,从而创建了一个包含超过 130 万个高质量 MCVC 样本的数据集。这些训练视频为每个实体的图像和对应的文本描述提供了精确的信息。此外,我们还结合了若干现有的单概念图像和视频数据集,以进一步增强概念表示。随后,为了生成能够有效保持每个概念保真度并解耦多重视觉表征的视频,我们首先提取给定参考图像的细致视觉嵌入,然后设计了解耦注意力模块(Decouple Attention Module, DAM),在配对的图像-标签特征之间执行 intra-pair 注意力,从而实现每个身份的多模态表征。接着,我们将每个多模态概念嵌入组合成复合嵌入,并进一步引入多概念注入器(Multi-Concept Injector, MC-Injector),以交叉注意力的方式将多模态复合表征嵌入扩散 Transformer 模型中,其中复合特征作为 keys 和 values。在图 3 中,我们展示了所提出 ConceptMaster 的整体框架。

图3

图 3. ConceptMaster 框架概览。给定一个文本描述以及一组概念图像及其语义标签,我们首先利用 CLIP 图像编码器和一个可学习的 Q-Former 提取全面的视觉概念表征,然后通过解耦注意力模块(Decouple Attention Module, DAM)将视觉表征与每个概念对应的文本嵌入绑定。最后,利用多概念注入器(Multi-Concept Injector, MC-Injector)将多概念视觉-文本嵌入注入到扩散 Transformer 模型中。

4.2. Decoupling and Injecting Concept Embeddings


视觉概念表示提取。为了使模型能够以高保真度处理多个概念,我们需要从概念图像 { X i ∣ i = 1... N } \{X_i|i=1...N\} {Xii=1...N} 中获得合理的视觉表示。我们选择使用 CLIP 图像编码器 E i m g \mathcal{E}_{img} Eimg [45] 提取最后一层输出,作为形状为 16 × 16 × 768 16 \times 16 \times 768 16×16×768 的稠密视觉标记,即, { f i ∣ f i = E i m g ( X i ) , i = 1... N } \{f_i|f_i=\mathcal{E}_{img}(X_i), i=1...N\} {fifi=Eimg(Xi),i=1...N}。这些标记已被证明能够更完整地表示图像条件的视觉信息 [51, 62, 67]。然而,直接将这些稠密视觉标记应用于扩散生成中,通常会导致与扩散模型表示空间对齐不足,从而产生不理想的视觉保真度。为了防止这种简单的视觉条件注入并实现与扩散 Transformer 上下文的更好对齐,我们引入了一个可学习的 Q-Former 架构 Q \mathcal{Q} Q,它由堆叠的交叉注意力层和 FFN 组成 [34, 35, 66]。我们利用稠密视觉标记作为键-值语料库,并使用 Q-Former 查询这些标记 { x i ∣ x i = Q ( f i ) , i = 1... N } \{x_i|x_i=\mathcal{Q}(f_i), i=1...N\} {xixi=Q(fi),i=1...N},从而提取全面的视觉语义表示。

解耦的类内对嵌入。在获得合适的视觉表示后,我们整合相应的文本标签来创建视觉-文本对齐的概念表示。虽然之前的工作 [36, 65] 直接将视觉表示与来自字幕嵌入 c t e x t = E t e x t ( T ) c_{text}=\mathcal{E}_{text}(T) ctext=Etext(T) 的对应单词结合,但我们希望充分利用与相关图像关联的文本标签信息,以增强每个概念的特定表示。因此,与这些方法不同,我们使用 T5 编码器 E T 5 \mathcal{E}_{T5} ET5 单独编码每个概念标签,以获得文本表示 { y i ∣ y i = E T 5 ( Y i ) , i = 1... N } \{y_i|y_i=\mathcal{E}_{T5}(Y_i), i=1...N\} {yiyi=ET5(Yi),i=1...N}。随后,我们引入了解耦注意力模块 (DAM),将每一对视觉与文本标签嵌入 { ( x i , y i ) ∣ i = 1... N } \{(x_i,y_i)|i=1...N\} {(xi,yi)i=1...N} 融合。DAM 操作可公式化为:

{ Q i = W Q ⋅ x i ;   K i = W K ⋅ y i ;   V i = W V ⋅ y i , A t t e n t i o n ( Q i , K i , V i ) = S o f t m a x ( Q i K i T d ) ⋅ V i , b i = Q i + A t t e n t i o n ( Q i , K i , V i ) , c i = b i + F F N ( b i ) \begin{cases} Q_i=W_Q\cdot x_i;\ K_i=W_K\cdot y_i;\ V_i=W_V\cdot y_i, \\ Attention(Q_i,K_i,V_i)=Softmax(\frac{Q_iK_i^T}{\sqrt{d}})\cdot V_i, \\ b_i=Q_i+Attention(Q_i,K_i,V_i), \\ c_i=b_i+FFN(b_i) \end{cases} Qi=WQxi; Ki=WKyi; Vi=WVyi,Attention(Qi,Ki,Vi)=Softmax(d QiKiT)Vi,bi=Qi+Attention(Qi,Ki,Vi),ci=bi+FFN(bi)

其中 W Q , W K , W V W_Q, W_K, W_V WQ,WK,WV 是投影矩阵, d d d 是嵌入维度,FFN 是一个两层多层感知机 (MLP),其中使用 GLUE [57] 作为中间激活函数。残差连接 [17] 存在于注意力层和 MLP 层中。通过设计的 DAM,每个视觉表示都可以整合其对应的文本标签,作为扩散 Transformer 模型的视觉-文本对齐表示。

复合多概念表示注入。在获得每对 { c i ∣ i = 1... N } \{c_i|i=1...N\} {cii=1...N} 的多模态表示后,我们首先将所有概念嵌入拼接为一个复合表示,其中 D D D 是概念嵌入的维度:

c I D s ∗ = C o n c a t ( c 1 , . . . , c N ) , c I D s ∗ ∈ R N × D c_{IDs}^* = Concat(c_1,...,c_N), \quad c_{IDs}^* \in \mathbb{R}^{N\times D} cIDs=Concat(c1,...,cN),cIDsRN×D

此外,我们设计了一个多概念注入器 (MC-Injector),用于将复合多概念嵌入编码到扩散 Transformer 模型中。具体而言,MC-Injector 是一个额外的专用交叉注意力层,集成在每个 Transformer 模块中,位于原始文本交叉注意力层之后。这个额外的独立交叉注意力层可以有效学习概念,而不会干扰原始文本交叉注意力。与将复合嵌入合并到原始文本交叉注意力层相比,我们在第 5.4 节中的实验表明,通过将 MC-Injector 与原始层交错,一个人可以在生成视频中同时实现更好的解耦能力和视觉保真度。最后,结合复合标记 c I D s ∗ c_{IDs}^* cIDs 的特定扩散过程可公式化为:

L L C M = E t , z 0 , ϵ ∥ ν Θ ( z t , t , c t e x t , c I D s ∗ ) − ( z 1 − z 0 ) ∥ 2 2 . \mathcal{L}_{LCM}=\mathbb{E}_{t,z_0,\epsilon}\|\nu_\Theta(z_t,t,c_{text},c_{IDs}^*)-(z_1-z_0)\|_2^2. LLCM=Et,z0,ϵνΘ(zt,t,ctext,cIDs)(z1z0)22.

4.3. MC-Oriented Video Data Construction


图4

图 4. (a) 多概念数据收集流程的概览。在处理包含高视觉外观或文本语义相似性概念的复杂场景时,我们的数据流程仍然能够提取精确的实体图像和对应的标签,而仅仅利用之前的方法如 Grounded-SAM 会引入大量错误,并且这些错误很难通过后续处理去除。(b) 测试视频成功率的比较:Grounded-SAM 与我们数据流程之间的对比。

训练一个良好的 MCVC 模型需要高质量的面向多概念的视频数据。以往的研究 [26, 43, 61] 大量依赖于最先进的开放集目标检测方法,例如 Grounding-DINO [40],基于文本标签为每个概念获取边界框。然后,他们使用分割模型 SAM [30] 将边界框作为输入提取掩码。然而,这种简单的方法远不能满足我们的目标,因为 Grounding-DINO 搭载的 CLIP 文本编码器在区分相似概念时往往表现不佳,尤其是那些在视觉外观或文本语义上高度相似的概念。此外,在训练中引入低质量视频或不适合定制任务的数据会对生成视频的质量产生不利影响。因此,为了收集高质量且大规模的 MCVC 数据,我们精心设计了两级数据收集管线:1) 快速剔除不合适的视频,我们以高效和低资源消耗的方式过滤掉不适合任务的低质量视频;2) 精细的身份信息提取,我们保证提取的身份参考图像和对应文本标签的准确性。最终我们为 ConceptMaster 收集了超过 130 万条 MCVC 数据。图 4(a) 展示了我们数据收集管线的整体流程。此外,我们从 Panda-2M [7] 中随机抽取了 2000 个样本,统计了视频收集的成功率。图 4(b) 显示,我们设计的数据管线显著优于单纯使用 Grounded-SAM 的方法。更多讨论见附录。

快速剔除不合适的视频。

  • 场景切换检测与低质量视频剔除。我们最初从互联网上收集了超过 640 万个视频作为数据源。为了确保视频数据的基本属性保持在高标准,我们首先使用 PySceneDetect [5] 过滤掉包含场景切换的视频,以保持视频的时间一致性。同时,我们移除光流分数较低的视频 [54],以保证动态完整性。此外,还剔除低光照对比度的视频。
  • 视频字幕生成与概念标签提取。我们使用 Qwen2-VL [59] 为视频生成准确简洁的字幕。为了从字幕中提取潜在的概念实体文本描述,我们定义了一个包含 120 类的分类体系,每类包含多个子词(例如,类别 dog 包含 dog、puppy 和 beagle 等子词)。我们利用 SpaCy [22] 从字幕中提取名词,并确保这些名词落在预定义的子词集合中。提取的名词作为文本输入,供文本引导的检测与分割算法使用。
  • 剔除不适合 MCVC 任务的视频。由于大多数视频并不适合视频定制,我们希望以最小的资源开销和时间消耗快速排除那些显然不满足要求的视频。对于每个视频,我们均匀采样 10% 的帧,并使用提取的名词通过文本引导的 Grounding-DINO 识别实体框。同时,我们应用非极大值抑制 (NMS) 来过滤掉重复框,并移除过大或过小的框(例如小于视频帧面积 10% 或大于 90% 的区域)。随后,我们利用 CLIP 对每个框进行分类,如果 CLIP 分类得到的标签与原始标签不一致,则删除该框。如果所有框都被删除,则对应视频被排除。

精细的身份信息提取。

  • 精确的视觉与文本标签提取。为了准确提取每个身份的区域和文本标签,我们采用相同的帧采样策略,并使用 LISA [33] ——一种基于 MLLM [39] 的分割器,同时输入文本提示与图像,具备强大的视觉推理能力,用于提取实体掩码。LISA 即便在视觉外观和文本语义相似的情况下,也能提供高度准确的分割结果。那些过大或过小,或碎片化严重的掩码会被剔除。随后我们从这些掩码中获取边界框区域,并通过 CLIP 分类去除任何错误分类的框。此外,我们使用 FaceAnalysis1 检测属于人类类别的所有区域,只保留包含人脸区域的(即去除仅可见身体部位的情况)。

4.4. Joint Training with Auxiliary Datasets


除了我们构建的 MCVC 数据之外,我们还利用辅助数据集来增强概念表示。我们复现了来自 BLIP-Diffusion [34] 的单概念图像数据集(约 30 万),用于提升高特异性的概念增强。此外,我们还引入了单概念视频数据集 CelebV [71](约 6 万),以改进人类概念的表示。我们构建的数据、BLIP-Diffusion 和 CelebV 的数据采样比例为 8:1:1。