(Arxiv-2025)Phantom-Data:迈向通用的主体一致性视频生成数据集

发布于:2025-08-12 ⋅ 阅读:(18) ⋅ 点赞:(0)

Phantom-Data:迈向通用的主体一致性视频生成数据集

paper是字节发布在Arxiv2025的工作

paper title:Phantom-Data: Towards a General Subject-Consistent
Video Generation Dataset

Code:链接

Abstract

近年来,主体到视频(subject-to-video, S2V)生成取得了显著进展。然而,现有模型在忠实执行文本指令方面仍面临重大挑战。这一限制被广泛称为“复制-粘贴问题”(copy-paste problem),其根源在于当前普遍采用的 in-pair 训练范式。该方法通过从与目标视频相同场景中采样参考图像,使主体身份与背景和上下文属性紧密耦合,从而影响模型的文本响应能力。为了解决上述问题,我们提出 Phantom-Data,这是首个通用的跨对(cross-pair)主体一致性视频生成数据集,涵盖多个类别,包含约一百万组具有身份一致性的图像-视频样本对。我们的数据集通过三阶段流水线构建完成:
(1) 一个通用且输入对齐的主体检测模块;
(2) 从超过 5300 万个视频和 30 亿张图像中进行大规模跨上下文主体检索;
(3) 利用先验引导的身份验证机制,确保在上下文变化下的视觉一致性。
大量实验表明,使用 Phantom-Data 进行训练可以在保持主体一致性的同时,显著提升模型对文本提示的响应能力和生成画面的视觉质量,表现甚至可与 in-pair 基线持平。

1 Introduction

图1

图1 训练样本概览。(a) 单参考设置:现有方法通常从目标视频本身提取参考图像。相比之下,我们的方法使用在不同环境中拍摄的参考图像。(b) 我们的数据集还包含多参考样本,展示了每个主体在不同上下文环境中的呈现。

近年来,以 Sora [4] 为代表的文本生成视频(text-to-video)模型取得了显著进展 [23, 35, 37, 39, 48]。然而,由于文本指令本身存在的控制能力有限,如何实现对视频生成的细粒度控制仍是实际应用中的关键挑战。在最近的研究中 [11, 16, 20, 22, 46, 49],越来越多的关注聚焦于在文本生成视频中保持主体身份一致性的问题。主体一致性视频生成任务(subject-consistent video generation, 简称 S2V)[6, 9, 10, 18, 27],旨在在遵循文本提示的同时,准确保留参考主体的身份特征,如人物、动物、商品或场景。这一能力在个性化广告 [5] 和 AI 驱动的电影制作 [44] 等应用中具有巨大潜力。

尽管视觉一致性方面取得了可喜进展,现有 S2V 方法仍存在文本跟随能力有限和视频质量欠佳的问题,即所谓的“复制-粘贴问题”(copy-paste problem)。如图 2 所示,模型生成的视频直接复用了参考帧中的主体图像,导致忽略了提示词中提到的“拳击擂台”背景。这一问题的根源在于 in-pair 训练范式,即参考图像与目标视频取自相同的场景(如图1(a)所示)。结果是,模型不仅保留了主体身份,还会误保背景等无关上下文信息 [15, 28]。但在真实世界中,这种耦合特征可能与文本中的动作或语义相矛盾,导致生成视频偏离文本提示,甚至出现明显的伪影。

图2

图2 复制-粘贴问题示意图。所示结果由一个当前最先进的视频生成模型(Kling [1])生成。

为了解决上述问题,以往的研究 [6, 18, 20, 21, 24] 尝试引入多种数据归一化和增强策略,如背景去除、颜色扰动和几何变换。然而,这些方法因上下文变化有限,难以解决复杂视角或动作造成的耦合。最近的研究引入了“cross-pair”数据构建方式,即从不同来源中采样具有身份一致性的参考图像和目标帧。这一设定鼓励模型关注主体身份的保持,减少对无关上下文的过拟合 [33, 50]。然而,现有 cross-pair 数据集主要集中于人脸领域,难以泛化到通用主体场景。此外,目前训练数据集要么参考变化不足,要么缺乏领域多样性,限制了模型缓解 copy-paste 问题的效果。

在本工作中,我们提出了 Phantom-Data,这是一个专为缓解“复制-粘贴”问题而构建的通用 S2V 数据集,具有以下三大设计原则:

  1. 通用且输入对齐的主体:参考图像需覆盖真实应用中常见的主体类型,反映用户输入的自然分布;
  2. 不同上下文条件:参考主体应与视频中的目标主体处于不同背景视角姿态下,以提升模型在分布偏移条件下的泛化能力,降低对无关相关性的依赖;
  3. 身份一致性:尽管上下文条件变化,参考主体在形状结构纹理等方面需与目标主体保持视觉一致性。

为满足以上原则,我们设计了一个三阶段的数据构建流水线:

  • 第一阶段:S2V 检测
    利用视觉-语言模型进行开放集检测,识别适当尺寸的候选主体。之后通过过滤步骤,保留语义相关且结构紧凑的主体。

  • 第二阶段:上下文多样性检索
    构建包含 5300 万视频片段和 30 亿图像样本的大规模主体数据库,以提高在不同背景、姿态、视角下检索到相同身份主体的可能性。

  • 第三阶段:先验引导的身份验证
    对于生物体(如人类、动物),从长视频中挖掘时间结构构建 cross-context 配对;对于静态物体(如商品),执行类别特定检索。最终通过基于视觉语言模型(VLM)的两两验证,确保每对样本在身份一致性与上下文多样性上兼顾。

通过上述流水线,我们构建了一个大规模、高质量的 cross-pair 一致性数据集,包含约 100 万组身份一致的配对样本,涵盖超过 3 万个多主体场景,为通用 S2V 建模提供坚实基础。代表性样本如图 1 所示。

为验证数据集的有效性,我们在多个开源视频生成模型上进行了系统性实验。结果表明,相较于以往的数据构建方法,我们的 cross-pair 方案在提升文本对齐度和视觉质量的同时,仍能保持与 in-pair 基线相当的主体一致性。此外,通过消融实验进一步表明,大规模、多样化的数据对于生成性能提升至关重要。我们的数据构建流程在确保身份一致性的同时,也成功引入了足够的上下文多样性。

我们的主要贡献总结如下:

  • 我们提出了 Phantom-Data,这是首个通用的 cross-pair 视频一致性数据集,包含约 100 万组高质量、身份一致的样本,覆盖广泛的主体类别和视觉上下文;
  • 我们设计了面向 S2V 的结构化数据构建流程,融合了主体检测、跨上下文检索、先验引导身份验证,确保了严格的身份一致性与丰富的上下文多样性;
  • 我们进行了大量实验,验证了数据集在文本对齐、视觉质量和泛化能力方面相较 in-pair 基线的一致提升。

表1

表1 Phantom-data 与以往工作中使用的数据集的比较。

2 Related Work

文本到视频生成(Text-to-Video Generation)。早期基于扩散的 视频生成器 [3, 12, 42] 仅能生成空间和时间分辨率受限的短视频片段。然而,随着大规模潜在扩散模型和基于 Transformer 的架构的引入,该领域迅速发展。值得注意的是,Sora [4] 已能够生成时长达一分钟的高保真视频,而同期的系统如 Seaweed [37]、Hunyuan-Video [23]、CogVideo-X [48]、MAGI [35] 以及其他方法 [39],在帧率、分辨率、场景复杂度、真实感和运动平滑性方面都有进一步提升。尽管这些通用的文本条件生成模型在视觉质量上表现出色,但它们提供的控制仍较为粗糙:仅依靠文本提示,无法完全指定场景布局、主体外观或视角,这促使研究人员探索更细粒度的控制信号

主体一致性视频生成(Subject-Consistent Video Generation)。主体一致性视频生成(S2V)[6, 9, 10, 18, 27] 的任务是生成不仅与给定文本提示一致,还能保留参考主体(如人物、动物、产品或场景)视觉身份的视频。从建模的角度看,一种常见策略 [6, 17, 18, 33] 是基于交叉注意力的融合方法,即将从预训练编码器 [31, 34, 45] 或多模态语言模型(VLM)中提取的视觉特征,通过专用注意力层注入到生成骨干网络中。另一种替代方法是噪声空间条件化(noise-space conditioning),即将从 VAE 编码器获得的身份特征直接与扩散模型的噪声输入拼接,而无需修改底层架构。这种轻量化设计使得身份信息几乎无损地注入成为可能,如 Phantom [27] 和 VACE [20] 等 DIT 风格模型所示。近期的系统如 SkyReels-A2 [10] 探索了将两种策略结合,在统一框架内引入交叉注意力引导和噪声级别条件化。

主体到视频生成中的训练数据(Training Data in Subject-to-Video Generation)。训练数据在主体一致性视频生成中起着至关重要的作用,因为它直接影响模型生成真实且可控结果的能力。现有大多数方法依赖于配对(in-pair)监督,即参考帧和目标帧来自同一视频片段。虽然这种设置能保证身份一致性,但往往会导致不期望的“复制-粘贴”效应——模型不仅复制了主体,还复制了参考帧的背景和姿态,从而限制了其对输入提示的跟随能力。为缓解这一问题,一些工作 [6, 18, 20, 21, 24] 采用了数据归一化和增强策略,例如背景移除、颜色抖动和几何变换。然而,这些技术与配对训练固有的有限多样性相结合,往往不足以应对运动、视角和场景布局等复杂上下文变化。近期的研究转向跨配对(cross-pair)训练,即从不同视频中采样身份一致的参考帧和目标帧。这种设置鼓励模型专注于主体身份,同时减少对特定视觉上下文的过拟合 [33, 50]。然而,当前的跨配对数据集大多局限于狭窄的领域,如人脸,这限制了它们对更广泛主体类别(如动物、产品或风格化角色)的泛化能力。总之,虽然跨配对监督为解决“复制-粘贴”问题提供了有前景的方向,但在通用领域中缺乏高质量、多样化且身份一致的训练数据,仍然是推进 S2V 模型发展的重要瓶颈。为弥补这一缺口,我们提出了 Phantom-data,这是一个大规模跨配对数据集,旨在支持覆盖广泛真实世界类别的主体一致性视频生成。

3 Phantom Data

我们对 Phantom-Data 进行了详细分析,重点关注其统计特性,并将其与现有的主体一致性视频生成数据集进行了比较。

3.1 Statistical Analysis


我们从视频层面和主体层面对数据集进行了分析。

视频层面特性 如图 3(a–c) 所示,我们的数据集涵盖了广泛的视频时长、分辨率和运动模式。大约 50% 的视频时长为 5–10 秒,大多数为 720p 分辨率。运动程度差异显著,既包括相对静态的场景,也包括高度动态的场景。

主体组成 图 3(d) 展示了主体类型及其组合的分布。大多数样本(约 72 万个)仅包含一个主体,例如人类、产品或动物;此外,还有相当一部分(约 28 万个)包含两个或以上同时出现的实体,为多主体一致性建模提供了支持。

参考多样性 如图 3(e) 所示,数据集涵盖了广泛的主体类别语义空间。常见的参考实体包括人类(如女人、男人、女孩)、动物(如狗、鸟)以及人造物体(如智能手机、汽车、笔记本电脑),这凸显了该数据集在跨不同领域的一般化主体到视频建模任务中的适用性。

图3

图 3 Phantom-Data 的统计分析。

3.2 Comparison with Prior Datasets


如表 1 所示,现有的主体一致性视频生成数据集要么缺乏通用物体的覆盖,要么严重依赖来自同一视频的输入对齐参考帧,要么在上下文多样性方面受限。相比之下,Phantom-Data 提供了更全面的设置:它支持超越人脸的通用物体类别,通过从不同场景中采样主体-参考对来促进跨上下文建模,并且对研究公开可用。这使其成为第一个在通用、跨对设置下同时支持身份一致性和上下文多样性的开放获取数据集。

4 Data Pipeline

4.1 Video Data Source


Phantom-Data 视频数据集由来自 Koala-36M [41] 等公共资源以及专有的内部资源库的片段组成。每个视频都经过严格的质量控制流程,包括黑边检测、运动分析和其他筛选步骤。随后,长视频会通过场景分割在秒级别切分成短片段。每个生成的片段都会被标注上相应的视频字幕。视频总数约为 5300 万个。

4.2 Data Pipeline


给定一个输入视频及其对应的字幕,我们专注于构建一个高质量的跨配对数据集,其中同一主体在不同视觉环境中出现,同时保持身份一致性。为此,我们设计了一个由三个关键阶段组成的结构化数据管道。如图 4 所示,首先,我们执行 S2V 检测(S2V Detection),以从视频中识别高质量的主体实例。然后,我们提出一个情境多样化检索(Contextually Diverse Retrieval)模块,用于召回在不同场景中可能与检测到的主体对应的候选图像。最后,我们应用基于先验的身份验证(Prior-based Identity Verification)来筛选检索到的候选项,确保只保留那些在不同环境下共享相同身份的样本。

图4

图 4 构建跨配对训练样本的数据管道概览。

4.2.1 S2V Detection


该阶段旨在从每个视频片段中识别多样且合格的主体,作为跨场景配对的候选对象。它包括五个主要步骤:

  1. 帧采样。为降低计算量,我们在每个片段的 t = 0.05、0.5 和 0.95 处采样三帧,遵循 [6],以确保时间多样性,同时避免对所有帧进行处理。
  2. 关键词提取。我们使用 Qwen2.5 [47] 从字幕中提取关键名词短语(如人、动物、产品),作为定位主体的候选项。
  3. 视觉定位。Qwen2.5-VL [2] 将每个短语与采样帧中的区域进行对齐。对于映射到多个区域的模糊匹配,会被移除以减少噪声。
  4. 边界框过滤。我们保留覆盖图像 4% 至 90% 且大小至少为 128 × 128 的框。重叠框(IoU > 0.8)会被抑制以保证清晰性。
  5. 视觉-语义复查。为进一步确保定位主体的质量,我们使用另一种视觉语言模型 InternVL2.5 7B [7] 对每个检测进行以下标准的验证:
    1. 完整性:我们观察到,视觉定位常会生成围绕部分或裁剪对象的边界框,这是底层检测模型穷尽标注策略的结果。然而,在 S2V 任务中,用户通常会提供完整的参考主体,因此这种不完整的检测是不合适的。因此,我们会过滤掉未能覆盖物体完整范围的区域。
    2. 特异性:主体必须在视觉上清晰可辨。模糊或通用的物体(如树木、岩石或背景杂物)会被排除。
    3. 主体-文本匹配:定位区域必须与相关短语在语义上一致。为提升对齐精度,我们使用另一实例的 InternVL2.5 重新评估文本描述与检测到的主体之间的一致性。

通过该流程,我们获得了一组高质量的主体实例,每个实例都配有相应的描述短语。由于一个主体可能会出现在视频的多个帧中,我们仅选择一个代表性实例用于 Fig. 4 的 Intermediate Result 部分的可视化。

4.2.2 Contextually Diverse Retrieval


在前一阶段检测到主体实例后,我们旨在寻找在不同视觉上下文中出现的相同主体的候选参考图像。为此,我们构建了一个大规模检索库,并使用检测到的主体进行身份感知的查询。

大型检索库构建。检索库包含两个核心组成部分:多样化的主体图像来源以增加上下文的多样性,以及为保持身份一致性而设计的特征表示。

主体来源。我们首先将训练视频中检测到的每个主体实例登记到检索库中。为了进一步扩大候选多样性,我们在原始视频语料之外,增加了来自 LAION 数据集[36] 的额外 30 亿张图像。这些外部图像在场景、姿态和外观上引入了更大的变化,从而在检索过程中提供了更广泛的上下文覆盖,对于具有显著实例内变化的产品类场景尤为有价值。

主体表示。为了支持可靠的跨上下文身份匹配,我们使用专家设计的编码器提取保持身份一致性且与上下文无关的特征嵌入,这些嵌入针对不同主体类别进行了优化。这些嵌入既用于索引检索库,也用于查询。

对于人脸表示,我们采用广泛使用的 ArcFace 编码器[8] 来提取稳健且具有判别力的身份嵌入:
V f a c e = E a r c f a c e ( I f a c e ) . (1) V_{face} = E_{arcface}(I_{face}). \tag{1} Vface=Earcface(Iface).(1)

对于通用物体,受 ObjectMate[43] 启发,我们使用在一致性导向的图像数据集[38] 上微调的 CLIP 模型来提取身份保持的嵌入:
V s u b j = E I R ( I ) . (2) V_{subj} = E_{IR}(I). \tag{2} Vsubj=EIR(I).(2)

对于人类主体(在许多下游应用中占据核心地位),我们结合人脸和服装特征。每个个体由通用外观嵌入与相应的人脸嵌入拼接表示:
V p e r s o n = [ E I R ( I ) , E a r c f a c e ( I f a c e ) ] . (3) V_{person} = [E_{IR}(I), E_{arcface}(I_{face})]. \tag{3} Vperson=[EIR(I),Earcface(Iface)].(3)

基于查询的检索。为了确保检索到的候选与查询图像在视觉上有区别但保持相同身份,我们对相似度设置上下界。具体来说,我们通过设定上限相似度阈值来剔除过于相似的结果(潜在重复项),并通过设置下限阈值来排除无关身份。

4.2.3 Prior-Based Identity Verification


然而,由于检索语料库规模庞大,即使在看似合理的相似度范围内,也经常出现误检。为了解决这一问题,我们采用了基于先验知识和 VLM 验证的两阶段过滤策略。

先验知识的利用。我们针对不同类别设计了特定的过滤策略,以提升跨配对的可靠性:
1)非生物主体(如产品):这类主体通常具有较高的类内差异性,使得身份验证更具挑战性。为提高精度,我们仅保留那些具有完整且可识别品牌标志(如 Nike、Audi)并且在不同场景中依然可见的产品实例。
2)生物主体(如人类、动物):对于这些主体,我们将检索到的候选限制在同一长视频的不同片段中。该约束确保了场景和姿态的自然变化,同时保持身份一致性。

基于 VLM 的一致性验证。为了进一步确保身份一致性和上下文多样性,我们应用基于 VLM 的验证过程:
1)身份一致性:对于非生物对象,我们在允许背景变化的同时,严格要求视觉细节(如颜色、包装、文字元素)的一致性;对于生物主体,尤其是人类,我们验证人脸身份的一致性,并在全身样本的情况下,还需确保服饰的一致性。
2)上下文多样性:我们仅保留那些在背景和场景上下文中具有显著差异的跨配对样本,从而在模型训练过程中减少复制粘贴伪影。

5 Experiments

5.1 Implementation


模型架构。我们使用Phantom-wan [27]模型验证所提数据的有效性。Phantom-wan构建于Wan2.1 [40]基础之上,是一个领先的开源主体一致性视频生成框架。

训练与推理。我们使用Rectified Flow (RF) [25, 28]作为训练目标,训练了一个13亿参数的Phantom-wan模型。训练在64块A100 GPU上进行,共迭代30k步,使用480p分辨率数据,能够得到稳定的性能。在推理阶段,我们采用Euler采样(50步),并使用无分类器引导 [14] 来解耦图像与文本条件。所有实验均遵循相同的训练和推理设置,以确保公平比较。

评估。我们构建了一个包含100个案例的测试集,覆盖多种场景,包括人物、动物、产品、环境和服装。这些案例包括单主体和多主体设置,并配有人工编写的文本提示,模拟真实用户输入。我们从三个维度评估模型性能:视频质量、文本-视频一致性以及主体-视频一致性。

主体-视频一致性使用CLIP [13]、DINO [30]和GPT-4o得分进行评估,遵循受[32]启发的最新评估协议。文本-视频一致性通过Reward-TA [26]进行测量,二者均评估生成视频内容与文本提示的语义对齐程度。视频质量使用VBench [19]进行评估,提供多个方面的细粒度评价,包括Temporal(时间闪烁与稳定性)、Motion(主体运动的平滑度)、IQ(整体成像质量)、BG(跨帧背景一致性)以及Subj(生成主体的时间一致性)。


网站公告

今日签到

点亮在社区的每一天
去签到