(Arxiv-2025) BLIP3-o：一个完全开源的统一多模态模型家族—

BLIP3-o：一个完全开源的统一多模态模型家族——架构、训练与数据集

paper是Salesforce Research发布在Arxiv 2025的工作

paper title:BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

Code:链接

Abstract

统一图像理解与生成已成为多模态模型研究中日益关注的方向。尽管图像理解的设计选择已被广泛研究，但用于同时支持图像生成的统一框架，其最优模型架构与训练策略仍有待深入探索。受到自回归模型与扩散模型在高质量生成与可扩展性方面潜力的启发，我们在统一多模态设置下对这两类模型进行了系统研究，重点关注图像表示形式、建模目标与训练策略。基于上述探索，我们提出了一种新颖方法，采用扩散 Transformer 来生成语义丰富的 CLIP 图像特征，区别于传统的基于 VAE 的图像表示。这一设计在提升生成质量的同时，也带来了更高的训练效率。此外，我们实验证明，统一模型采用“先图像理解、后图像生成”的顺序式预训练策略具有实际优势：在增强图像生成能力的同时，保留了良好的图像理解能力。最后，我们精心构建了一个高质量图像生成指令微调数据集 BLIP3o-60k。该数据集通过向 GPT-4o 提示多样化图像描述（涵盖场景、物体、人物姿态等）生成，具备广泛覆盖和丰富语义。基于上述创新的模型设计、训练方案与数据集，我们构建了 BLIP3-o——一个具备最先进性能的统一多模态模型系列。BLIP3-o 在图像理解与图像生成的多个主流评测基准上均实现了卓越表现。为促进后续研究，我们已完全开源模型，包括代码、模型权重、训练脚本、预训练与指令微调数据集。

图 1：BLIP3-o 的架构。在图像理解部分，我们使用 CLIP 对图像进行编码，并计算目标文本标记与预测文本标记之间的交叉熵损失。在图像生成部分，自回归模型首先生成一系列中间视觉特征，这些特征随后作为条件输入传递给扩散 Transformer，生成 CLIP 图像特征以逼近真实的 CLIP 特征。通过使用 CLIP 编码器，图像理解与图像生成共享相同的语义空间，从而有效地将这两项任务统一起来。

1 Introduction

最近的研究进展展示了统一多模态表示学习的潜力，该方法支持在单一模型中同时进行图像理解与图像生成 [7, 31, 38, 35, 4, 33, 23]。尽管在图像理解方面已开展了大量研究，但图像生成的最优架构与训练策略仍未得到充分探索。此前的争论集中于两种方法：第一种方法将连续的视觉特征量化为离散的标记，并将其建模为类别分布 [32, 34, 21]；第二种方法通过自回归模型生成中间视觉特征或潜在表示，然后在这些视觉特征的条件下通过扩散模型生成图像 [33, 23]。最近发布的 GPT-4o 图像生成 [1] 被认为采用了混合架构，结合了自回归与扩散模型，遵循第二种方法 [1, 40]。因此，我们受此启发，以类似方式进行了系统研究，重点探索三大设计方向：

(1) 图像表示——是否将图像编码为低级像素特征（例如，来自基于 VAE 的编码器）或高级语义特征（例如，来自 CLIP 图像编码器）；
(2) 训练目标——均方误差（MSE）与流匹配 [17, 19]，及其对训练效率与生成质量的影响；
(3) 训练策略——是否采用如 Metamorph [33] 的联合多任务训练，或如 LMFusion [28] 与 MetaQuery [23] 的顺序训练策略，其中模型首先训练图像理解任务，然后再扩展到图像生成。

我们的研究发现，CLIP 图像特征提供了比 VAE 特征更紧凑且信息量更大的表示，从而加快了训练速度并提高了图像生成质量。流匹配损失被证明比 MSE 损失更有效，能够生成更多样的图像并提升图像质量。此外，我们还发现顺序训练策略——先训练自回归模型进行图像理解任务，再在图像生成训练阶段冻结模型——能实现最佳的整体性能。

基于这些发现，我们开发了 BLIP3-o，一个最先进的统一多模态模型系列。BLIP3-o 利用扩散 Transformer 和流匹配在 CLIP 特征上（图 1），并在图像理解与图像生成任务上进行顺序训练。为了进一步提升视觉美学与指令跟随能力，我们精心策划了一个 60k 高质量指令微调数据集 BLIP3o-60k，通过提示 GPT-4o 生成涵盖场景、物体、人类动作等多样化提示词的图像。

我们观察到，在 BLIP3o-60k 上进行的监督指令微调显著增强了 BLIP3-o 与人类偏好的对齐，并改善了图像的美学质量。

图 2：BLIP3-o 8B 在 1024×1024 分辨率下的可视化结果。

在我们的实验中，BLIP3-o 在大多数流行的图像理解和图像生成基准测试中取得了卓越表现，其中 8B 模型在 MME-P 上得分 1682.6，在 MMMU 上得分 50.6，在 GenEval 上得分 0.84。为了支持进一步的研究，并秉承像 BLIP-3 [39] 这样的开源基础模型研究使命，我们完全开源了我们的模型，包括模型权重、代码、预训练与指令微调数据集以及评估流程。我们希望我们的工作能够支持研究社区，并推动统一多模态领域的持续进展。

2 Unified Multimodal for Image Generation and Understanding

2.1 Motivation

统一多模态架构的开发，能够同时支持图像理解与生成，已经成为最近研究中的一个有前景的方向。Janus [4]、Show-o [38]、MetaMorph [33]、Janus-Pro [4] 和 LMFusion [28] 等模型是最早在单一框架中桥接图像理解与生成的尝试。最近，OpenAI 的 GPT4o [1] 通过展示在高质量图像生成与强大的多模态理解方面的卓越能力，进一步激发了对这一范式的兴趣。尽管这一领域的兴趣日益增加，但使这种统一能力成为可能的底层设计原则与训练策略仍未得到充分探讨。本研究旨在系统地研究和推进统一模型的发展，我们首先明确提出构建统一多模态模型的关键动机。

推理与指令跟随
将图像生成能力集成到如多模态大型语言模型（MLLMs）等自回归模型中，具有继承其预训练知识、推理能力和指令跟随能力的潜力。例如，我们的模型能够理解提示词，例如“一个长鼻子的动物”，无需对提示词进行重写。这展示了推理能力和世界知识的水平，而传统的图像生成模型难以达到这一点。除了推理能力，MLLMs 的指令跟随能力预计将在统一架构中传递到图像生成过程中。

上下文学习
统一模型能够自然地支持图像理解与生成的上下文学习能力。在这样的模型中，之前生成的多模态输出可以作为后续生成的上下文，从而无缝支持迭代图像编辑、视觉对话和一步一步的视觉推理。这消除了模式切换或依赖外部处理管道的需求，使模型能够保持一致性和任务连续性。

迈向多模态 AGI
随着人工智能向人工通用智能（AGI）发展，未来的系统需要超越文本能力，能够无缝感知、解释和生成多模态内容。要实现这一目标，需要从仅支持文本的架构转向支持多模态推理和生成的统一多模态架构。这类模型对于构建能够以全面、类人方式与世界互动的通用智能至关重要。

受到这些动机的驱动，接下来的部分我们将探讨开发一个同时支持图像理解与生成任务的统一模型。

2.2 Combining Autoregressive and Diffusion Models

最近，OpenAI 的 GPT-4o [1] 在图像理解、生成和编辑任务中展示了最先进的性能。其架构的初步假设 [40] 提出了一个混合流程，结构如下：

Tokens —— [自回归模型] —— [扩散模型] —— 图像像素

这表明自回归模型和扩散模型可能联合发挥作用，结合两者的优势。在我们的研究中，受这一混合设计的启发，我们采用了自回归 + 扩散框架。然而，在这一框架中的最优架构仍不明确。自回归模型生成的中间视觉特征旨在逼近真实的图像特征，这引发了两个关键问题。首先，作为真实标签的嵌入应该使用什么：我们应该使用 VAE 还是 CLIP 来将图像编码为连续特征？其次，一旦自回归模型生成了视觉特征，如何与真实的图像特征最佳对齐，或者更一般地，我们应该如何建模这些连续视觉特征的分布？是通过简单的 MSE 损失，还是采用基于扩散的方法？因此，我们将在下一节中对各种设计选择进行全面探索。

3 Image Generation in Unified Multimodal

在本节中，我们讨论了在统一多模态框架中构建图像生成模型时涉及的设计选择。我们首先探讨了如何通过编码器–解码器架构将图像表示为连续的嵌入，这在学习效率和生成质量方面起到了基础性作用。

3.1 Image Encoding and Reconstruction

图像生成通常通过使用编码器将图像编码为连续的潜在嵌入来开始，随后使用解码器从该潜在嵌入重建图像。这种编码-解码流水线可以有效减少图像生成中的输入空间的维度，从而促进高效的训练。在接下来的部分，我们将讨论两种广泛使用的编码器-解码器范式。

变分自编码器（VAE）
变分自编码器（VAEs）[12, 27] 是一类生成模型，它们学习将图像编码为结构化的、连续的潜在空间。编码器在给定输入图像的情况下近似潜在变量的后验分布，而解码器则从这一潜在分布中抽样并重建图像。潜在扩散模型在此框架的基础上发展，通过学习建模压缩潜在表示的分布，而不是原始的图像像素。这些模型通过在 VAE 潜在空间中操作，显著减少了输出空间的维度，从而降低了计算成本并实现了更高效的训练。经过去噪步骤后，VAE 解码器将生成的潜在嵌入映射回原始图像像素。

CLIP 编码器与扩散解码器
CLIP [26] 模型已成为图像理解任务的基础编码器 [18]，因为它通过对大规模图像-文本对进行对比训练，具有从图像中提取丰富的高级语义特征的强大能力。然而，将这些特征用于图像生成仍然是一个非平凡的挑战，因为 CLIP 最初并未设计用于重建任务。Emu2 [31] 提出了一种实际的解决方案，通过将基于 CLIP 的编码器与基于扩散的解码器配对。具体来说，它使用 EVA-CLIP 将图像编码为连续的视觉嵌入，并通过从 SDXL-base [24] 初始化的扩散模型重建图像。在训练过程中，扩散解码器经过微调，利用来自 EVA-CLIP 的视觉嵌入作为条件，从高斯噪声中恢复原始图像，而 EVA-CLIP 保持冻结。这一过程有效地将 CLIP 和扩散模型结合成一个图像自编码器：CLIP 编码器将图像压缩为语义丰富的潜在嵌入，扩散解码器则从这些嵌入中重建图像。值得注意的是，尽管解码器基于扩散架构，但它是通过重建损失进行训练，而不是概率采样目标。因此，在推理过程中，模型执行确定性重建。

讨论
这两种编码器-解码器架构，即 VAE 和 CLIP-扩散，代表了图像编码和重建的不同范式，每种方法都有其特定的优点和权衡。VAE 将图像编码为低级像素特征，提供更好的重建质量。此外，VAE 作为现成的模型广泛可用，可以直接集成到图像生成训练流水线中。相比之下，CLIP-扩散需要额外的训练以适应不同的 CLIP 编码器。然而，CLIP-扩散架构在图像压缩比方面提供了显著的优势。例如，在 Emu2 [31] 和我们的实验中，每个图像无论其分辨率如何，都可以编码为固定长度的 64 个连续向量，提供既紧凑又语义丰富的潜在嵌入。相比之下，基于 VAE 的编码器通常会为更高分辨率的输入生成更长的潜在嵌入序列，这增加了训练过程中的计算负担。

3.2 Modeling Latent Image Representation

在获取连续的图像嵌入后，我们继续使用自回归架构对其进行建模。给定用户提示（例如，“一个有雀斑的戴草帽的年轻女子”），我们首先使用自回归模型的输入嵌入层将提示编码为一系列嵌入向量C，并将一个可学习的查询向量Q附加到C上，其中Q是随机初始化的，并在训练过程中优化。将组合序列[C;Q]通过自回归变换器处理后，Q学习从提示C中关注并提取相关的语义信息。生成的Q被解释为自回归模型生成的中间视觉特征或潜在表示，并训练以逼近真实图像特征 $X$ （从VAE或CLIP获得）。接下来，我们介绍两种训练目标：均方误差（MSE）和流匹配，用于学习将Q与真实图像嵌入 $X$ 对齐。

MSE损失
均方误差（MSE）损失是一个直接且广泛使用的目标，用于学习连续图像嵌入[7, 31]。给定自回归模型生成的预测视觉特征 $Q$ 和真实图像特征 $X$ ，我们首先应用一个可学习的线性投影，将 $Q$ 的维度与 $X$ 对齐。MSE损失公式如下：

$L_{MSE} = \|X - WQ\|_2^2$

其中 $W$ 表示可学习的投影矩阵。

流匹配
请注意，使用MSE损失仅对齐预测的图像特征 $Q$ 与目标分布的均值。理想的训练目标应该是建模连续图像表示的概率分布。我们提出使用流匹配[16]，这是一种扩散框架，通过迭代地将样本从先验分布（例如，高斯分布）传输来学习目标连续分布。给定真实图像特征 $X_1$ 和由自回归模型编码的条件 $Q$ ，在每次训练步骤中，我们从 $X_0 \sim \mathcal{N}(0,1)$ 采样一个时间步 $\sim U(0,1)$ ，然后扩散变换器学习预测在时间步 $t$ 的速度 $V_t = \frac{dX_t}{dt}$ ，其条件为 $Q$ ，并朝着 $X_1$ 的方向前进。根据之前的工作[19]，我们通过简单的线性插值计算 $X_0$ 和 $X_1$ 之间的 $X_t$ ：

$X_t = tX_t + (1-t)X_0$

并且 $V_t$ 的解析解可以表示为：

$V_t = \frac{dX_t}{dt} = X_t - X_0$

最终，训练目标定义为：

$L_{Flow}(\theta) = \mathbb{E}_{(X_1,Q)\sim \mathcal{D}, t \sim U(0,1), X_0 \sim \mathcal{N}(0,1)} \left[ \|V_{\theta}(X_t, Q, t) - V_t\|^2 \right]$

其中 $\theta$ 是扩散变换器的参数， $V_{\theta}(X_t, Q, t)$ 表示在实例 $X_t, Q)$ 、时间步 $t$ 和噪声 $X_0$ 上的预测速度。

讨论
与离散token不同，离散token本身支持基于采样的多样化生成路径，连续表示缺乏这一特性。具体来说，在MSE训练目标下，预测的视觉特征 $Q$ 对于给定的提示几乎是确定性的。因此，无论视觉解码器是基于VAE还是CLIP+扩散架构，输出图像在多次推理运行中几乎保持相同。这种确定性突显了MSE目标的一个关键限制：它约束模型为每个提示生成单一的固定输出，从而限制了生成多样性。

相比之下，流匹配框架使模型能够继承扩散的随机性。这允许模型生成基于相同提示的多样化图像样本，从而更广泛地探索输出空间。然而，这种灵活性伴随着模型复杂度的增加。流匹配相比MSE引入了额外的可学习参数。在我们的实现中，我们使用了扩散变换器（DiT），并实证发现，扩展其容量显著提高了性能。

图3：统一多模态模型中图像生成的三种设计选择。所有设计都使用自回归+扩散框架，但在图像生成组件上有所不同。对于流匹配损失，我们保持自回归模型冻结，只微调图像生成模块，以保持模型的语言能力。

3.3 Design Choices

不同的图像编码器-解码器架构和训练目标的组合催生了多种图像生成模型设计选择。这些设计选择，如图3所示，显著影响生成图像的质量和可控性。在本节中，我们总结并分析了不同编码器类型（例如，VAE与CLIP编码器）和损失函数（例如，MSE与流匹配）所带来的权衡。

CLIP + MSE：沿用Emu2 [31]、Seed-X [7]和Metamorph [33]的方法，我们使用CLIP将图像编码为64维固定长度的语义丰富的视觉嵌入。自回归模型通过最小化预测的视觉特征 $Q$ 与真实CLIP嵌入 $X$ 之间的均方误差（MSE）损失来进行训练，如图3(a)所示。在推理过程中，给定文本提示 $C$ ，自回归模型预测潜在的视觉特征 $Q$ ，然后将其传递给基于扩散的视觉解码器来重建真实图像。

CLIP + 流匹配：作为MSE损失的替代，我们采用流匹配损失来训练模型预测真实的CLIP嵌入，如图3(b)所示。给定提示 $C$ ，自回归模型生成一系列视觉特征 $Q$ 。这些特征作为条件来引导扩散过程，生成预测的CLIP嵌入，近似真实的CLIP特征。本质上，推理管道涉及两个扩散阶段：第一个阶段使用条件视觉特征 $Q$ ，通过迭代去噪得到CLIP嵌入；第二个阶段通过基于扩散的视觉解码器将这些CLIP嵌入转换为真实图像。这种方法允许在第一个阶段进行随机采样，从而在图像生成中实现更大的多样性。

VAE + 流匹配：我们还可以使用流匹配损失来预测真实的VAE特征，如图3©所示，这与MetaQuery [23]类似。在推理时，给定提示 $C$ ，自回归模型生成视觉特征 $Q$ 。然后，基于 $Q$ 进行条件控制，并在每一步去除噪声，通过VAE解码器生成真实图像。

VAE + MSE：由于我们关注的是自回归+扩散框架，因此排除了VAE + MSE方法，因为它们不包含任何扩散模块。

实现细节：为了比较不同的设计选择，我们使用Llama-3.2-1B-Instruct作为自回归模型。我们的训练数据包含CC12M [3]、SA-1B [13]和JourneyDB [30]，总计约2500万个样本。对于CC12M和SA-1B，我们使用LLaVA生成的详细字幕，而对于JourneyDB，我们使用原始字幕。使用流匹配损失的图像生成架构的详细描述见第5.1节。

图4：不同设计选择的比较。

结果：我们报告了MJHQ-30k [15]上的FID评分 [10]，用于评估视觉美学质量，并使用GenEval [8]和DPG-Bench [11]指标来评估提示对齐。我们在大约每3200个训练步骤时绘制了每个设计选择的结果。图4显示，CLIP + 流匹配在GenEval和DPG-Bench上的提示对齐得分最佳，而VAE + 流匹配产生最低（最优）的FID，表明其美学质量更优。然而，FID存在固有的局限性：它量化了与目标图像分布的风格偏差，通常忽略了真实的生成质量和提示对齐。事实上，我们对MJHQ-30k数据集上GPT-4o的FID评估得分约为30.0，这凸显了FID在图像生成评估中的误导性。总体而言，我们的实验表明，CLIP + 流匹配是最有效的设计选择。

讨论：在本节中，我们对统一多模态框架中图像生成的各种设计选择进行了全面评估。我们的结果清楚地表明，CLIP的特征比VAE特征生成的表示更加紧凑且语义丰富，从而提高了训练效率。与像素级特征相比，自回归模型更有效地学习这些语义级特征。此外，流匹配被证明是建模图像分布的更有效训练目标，从而带来了更大的样本多样性和更好的视觉质量。

发现1：在将图像生成集成到统一模型中时，自回归模型比VAE更有效地学习语义级特征（CLIP）而非像素级特征。

发现2：采用流匹配作为训练目标能更好地捕捉潜在的图像分布，从而导致样本多样性和增强的视觉质量。

4 Training Strategies for Unified Multimodal

在我们的图像生成研究的基础上，下一步是开发一个可以同时执行图像理解和图像生成的统一模型。我们使用CLIP + 流匹配作为图像生成模块。由于图像理解也在CLIP的嵌入空间中进行，因此我们将这两个任务对齐在同一语义空间中，从而实现它们的统一。在此背景下，我们讨论了两种训练策略来实现这一集成。

4.1 Joint Training Versus Sequential Training

联合训练：图像理解和图像生成的联合训练已成为最近工作中的一种常见做法，例如Metamorph [33]、Janus-Pro [4]和Show-o [38]。尽管这些方法在图像生成的架构上有所不同，但它们都通过混合图像生成和理解的数据来执行多任务学习。

顺序训练：我们采取两阶段的方法，而不是将图像理解和生成一起训练。在第一阶段，我们只训练图像理解模块。在第二阶段，我们冻结MLLM骨干网络，仅训练图像生成模块，如LMFusion [28]和MetaQuery [23]所示。

图5：联合训练与顺序训练：联合训练通过混合图像理解和图像生成数据执行多任务学习，同时更新自回归骨干网络和生成模块。顺序训练则将过程分开：首先，仅在图像理解任务上训练模型；然后，在第二阶段，冻结自回归骨干网络，仅训练图像生成模块。

4.2 Discussion

在联合训练设置中，尽管图像理解和生成任务可能互相受益，如Metamorph [33]所示，但有两个关键因素影响它们的协同效应：(i) 总数据量和(ii) 图像理解与生成数据之间的比例。相比之下，顺序训练提供了更大的灵活性：它允许我们冻结自回归骨干网络，并保持图像理解能力。我们可以将所有训练能力集中在图像生成上，避免联合训练中的任务间相互影响。受LMFusion [28]和MetaQuery [23]的启发，我们将选择顺序训练来构建我们的统一多模态模型，并将联合训练推迟到未来的工作中。

5 BLIP3-o: Our State-of-the-Art Unified Multimodal

基于我们的研究发现，我们采用CLIP + 流匹配和顺序训练来开发我们自己的最先进的统一多模态模型BLIP3-o。

5.1 Model Architecture

我们开发了两种不同大小的模型：一个是基于专有数据训练的8B参数模型，另一个是仅使用开源数据的4B参数模型。鉴于存在强大的开源图像理解模型，例如Qwen 2.5 VL [2]，我们跳过了图像理解训练阶段，并直接在Qwen 2.5 VL上构建我们的图像生成模块。在8B模型中，我们冻结Qwen2.5VL-7B-Instruct骨干网络，并训练扩散变换器，总共有1.4B可训练参数。

4B模型遵循相同的图像生成架构，但使用Qwen2.5-VL-3B-Instruct作为骨干网络。

扩散变换器架构：我们借鉴了Lumina-Next模型 [44]的架构来构建我们的DiT。Lumina-Next模型基于改进的Next-DiT架构，是一种可扩展且高效的扩散变换器，专为文本到图像和通用多模态生成设计。它引入了3D旋转位置嵌入，以编码跨时间、高度和宽度的时空结构，而无需依赖可学习的位置标记。每个变换器块采用三明治归一化（在注意力/MLP之前和之后的RMSNorm）和分组查询注意力，以增强稳定性并减少计算量。基于经验结果，该架构实现了快速且高质量的生成。

5.2 Training Recipe

阶段1：图像生成的预训练

对于8B模型，我们将大约2500万开源数据（CC12M [3]、SA-1B [13]和JourneyDB [30]）与另外3000万专有图像结合在一起。所有图像字幕由Qwen2.5-VL-7B-Instruct生成，提供详细的描述，平均长度为120个标记。为了提高对不同提示长度的泛化能力，我们还包括了大约10%（600万）的较短字幕，长度约为20个标记，来源于CC12M [3]。每对图像–字幕都采用以下格式的提示：“Please generate an image based on the following caption: ”。对于完全开源的4B模型，我们使用2500万公开可用图像，来自CC12M [3]、SA-1B [13]和JourneyDB [30]，每个图像都配有相同的详细字幕。我们还混入了大约10%（300万）的短字幕，来源于CC12M [3]。为了支持研究社区，我们发布了2500万详细字幕和300万短字幕。

阶段2：图像生成的指令调优

在图像生成预训练阶段之后，我们观察到模型存在几个弱点：

生成复杂的人类手势，例如一个人正在搭弓射箭。
生成常见物体，如各种水果和蔬菜。
生成地标，例如金门大桥。
生成简单的文本，例如街道表面写有“Salesforce”字样。

尽管这些类别在预训练时旨在覆盖，但由于预训练语料库的规模有限，导致这些问题未得到充分解决。为了解决这一问题，我们进行了专门针对这些领域的指令调优。对于每个类别，我们提示GPT-4o生成大约1万个提示–图像对，创建一个有针对性的训练集，以提高模型处理这些情况的能力。为了提高视觉美学质量，我们还扩展了数据，使用来自JourneyDB [30]和DALL·E 3的提示。这个过程生成了大约60k高质量的提示–图像对。我们也将发布这个60k的指令调优数据集。

(Arxiv-2025) BLIP3-o：一个完全开源的统一多模态模型家族——架构、训练与数据集