从像素到可能性：解构 Stable Diffusion 与 Sora 背后的 VAE 技术-EW帮帮网

近年来，生成式人工智能（AI）取得了惊人的进展，从 Stable Diffusion 的高保真图像合成，到 Sora 所展现出的模拟物理世界的新兴能力，无不令人瞩目。这些成就引发了一个核心问题：究竟是什么样的基础技术，使得这一切成为可能？

答案并非空中楼阁。这些现代 AI 的奇迹并非诞生于真空中，而是长达十年对一类模型家族不断迭代与优化的结晶，这个家族的核心便是自编码器（Autoencoder, AE），尤其是其概率化变体——变分自编码器（Variational Autoencoder, VAE）。理解这一技术谱系，是揭开当今最强大生成系统“如何”与“为何”运作的关键。本文将系统性地引导读者，穿越这条技术演进的长河，从四个基础的自编码器模型，到十二种关键的变分自编码器变体，最终深入剖析它们如何成为驱动 Stable Diffusion 和 Sora 的核心引擎。

第一部分：奠定基石——用自编码器学习紧凑表示

1.1 经典自编码器（AE）：压缩的蓝图

自编码器（AE）是一种通过自监督学习进行表示学习的神经网络。其核心架构由三部分组成：一个编码器（Encoder）、一个瓶颈层（Bottleneck）或称之为潜空间（Latent Space），以及一个解码器（Decoder）。其根本目标是通过最小化输入与重构输出之间的差异，来学习数据的紧凑表示。

在这里插入图片描述

从数学上讲，编码器函数 $g_{\phi} )$ 将输入数据 $x$ 映射到一个低维的潜空间表示 $g_\phi(x)$ 。解码器函数 $f_\theta$ 则尝试从这个潜向量 $z$ 中重构出原始输入，得到 $\hat{x} = f_\theta(z)$ 。整个模型的训练目标是学习一个近似的恒等函数，即 $\approx f_\theta(g_\phi(x))$ ，其中瓶颈层的存在迫使模型学习到一个被压缩的、富含信息的表示。

尽管自编码器在数据压缩、降维和特征提取等任务上表现出色，但其潜空间通常是“非生成性”的。这意味着潜空间可能是不连续或不规则的，在两个潜向量之间进行插值，解码后不一定能产生有意义的新样本。这一根本性局限，直接催生了后续旨在增强潜空间结构与鲁棒性的正则化自编码器和变分自编码器。

1.2 正则化自编码器家族：强制赋予结构与鲁棒性

从经典 AE 到正则化 AE 的演进，体现了模型设计目标的一次根本性转变：从单纯追求重构保真度，转向学习“有用”的表示。每种变体都引入了一种特定的归纳偏置（inductive bias），如对噪声的鲁棒性、稀疏性或不变性，从而迫使模型学习比简单压缩-解压映射更有意义的内在结构。这种通过对潜空间施加约束来改善其性质的思路，是 VAE 中正则化项的直接前身。

降噪自编码器（Denoising AE, DAE）

核心思想：降噪自编码器的核心创新在于，它并非学习重构原始输入，而是学习从一个被“损坏”或“加噪”的输入中恢复出“干净”的原始数据。在训练过程中，原始输入 $x$ 被一个随机映射过程（如添加高斯噪声或掩码）损坏为 $\tilde{x}$ ，而模型的优化目标是最小化解码器输出 $g(f(\tilde{x}))$ 与未损坏的原始输入 $x$ 之间的损失。

解决的问题：这种设计巧妙地解决了经典 AE 的一个主要缺陷。当网络容量过大时（例如，隐藏层神经元过多），标准 AE 可能会学习到一个无意义的恒等函数，即简单地复制输入到输出，而没有进行任何有效的表示学习。通过强制模型从噪声中恢复信号，DAE 被迫捕捉数据流形（data manifold）的更稳健、更本质的特征，而不是仅仅记忆数据的表面细节。值得注意的是，这种从噪声数据中学习的思想，也构成了后来扩散模型（Diffusion Models）核心机制的雏形。

稀疏自编码器（Sparse AE, SAE）

核心思想：稀疏自编码器通过在损失函数中引入一个“稀疏性惩罚项”，来限制隐藏层中神经元的活动。其目标是使得对于任意给定的输入，隐藏层中只有一小部分神经元被激活（即其输出值非零）。

解决的问题：这种约束主要用于解决“过完备”（overcomplete）自编码器（即隐藏层维度大于输入层维度）中的过拟合问题。在标准 AE 中，过完备的隐藏层可以让模型轻易地学习到恒等映射。而稀疏性约束则迫使模型即使在拥有大量神经元的情况下，也必须为每个输入找到一种高度稀疏的表示。这促进了模型学习到更具解释性的、解耦的特征，其中每个被激活的神经元可能对应着数据中一个具体且独立的部分或概念。稀疏惩罚通常通过两种方式实现：一种是 L1 正则化，它惩罚权重绝对值之和，从而将许多权重推向零；另一种是 KL 散度惩罚，它惩罚隐藏层神经元的平均激活值与一个预设的低水平稀疏目标（如 0.05）之间的差异。如今，这一技术正被广泛应用于解释大型语言模型（LLM）的内部工作机制。

压缩自编码器（Contractive AE, CAE）

核心思想：压缩自编码器在传统的重构损失之上，增加了一个显式的正则化项。这个惩罚项是编码器激活值相对于输入的雅可比矩阵（Jacobian matrix）的弗罗贝尼乌斯范数（Frobenius norm）的平方。

解决的问题：该惩罚项旨在使学习到的表示对输入数据的微小扰动不敏感。换言之，它鼓励编码器将输入数据点的一个邻域“压缩”到潜空间中一个更小的区域，即学习一个“压缩映射”（contractive mapping）。通过这种方式，CAE 能够学习到数据流形上的切线方向，即数据变化的主要方向，同时对与流形正交的、无关紧要的变化方向保持不变性。这使得模型能学习到对噪声更具鲁棒性的特征，并捕获数据的核心变化模式。

第二部分：拥抱不确定性——变分自编码器的黎明

VAE 的诞生是深度学习与贝叶斯概率论的一次精妙融合。其核心目标是构建一个真正的生成模型，这意味着模型需要能学习到数据的潜在分布 $p (x)$ 。VAE 假设数据是由一些不可观测的潜变量 $z$ 生成的，因此 $\int p(x|z) p(z) dz$ 。然而，直接优化这个边缘似然是极其困难的，因为计算所有可能的 $z$ 的积分是棘手的。

VAE 的优雅之处在于它将这一棘手的积分问题，通过变分推断（Variational Inference）转化为一个可优化的目标。它引入了一个可学习的分布 $q_\phi(z|x)$ （由编码器实现）来近似真实的后验分布 $p_\theta(z|x)$ ，并通过最大化证据下界（ELBO）来联合优化编码器和解码器。这一过程并非一个随意的架构设计，而是遵循了严谨的数学推导，最终通过重参数化技巧解决了优化中的核心障碍，使其在实践中成为可能。

2.1 概率化的潜空间：生成能力的飞跃

VAE 的核心思想是，编码器不再将输入 $x$ 映射到一个确定的潜向量 $z$ ，而是映射到一个概率分布的参数上。具体来说，编码器（在 VAE 论文中被称为“识别模型”） $q_\phi(z|x)$ 会为每个输入 $x$ 输出一个高斯分布的均值 $\mu$ 和方差 $\sigma^2$ 。然后，从这个由 $\mu$ 和 $\sigma^2$ 定义的分布 $N(\mu, \sigma^2)$ 中采样一个点 $z$ ，再将这个采样的点 $z$ 送入解码器进行重构。

这种概率化的编码方式是 VAE 成为一个真正生成模型的基石。它构建了一个平滑、连续的潜空间。在这个空间中，任意采样一个新的点 $z$ 并通过解码器进行解码，都能生成一个全新的、有意义的数据样本，而不仅仅是对已有数据的重构。

2.2 VAE 的数学心脏：证据下界（ELBO）

由于直接最大化边缘对数似然 $\log p(x)$ 是不可行的，VAE 引入了变分推断来解决这个问题。其目标是找到一个近似后验 $q_\phi(z|x)$ ，使其尽可能接近真实的后验 $p_\theta(z|x)$ 。通过最小化这两个分布之间的 KL 散度，可以推导出我们实际优化的目标——证据下界（Evidence Lower Bound, ELBO）。

ELBO 的完整表达式为：

$L(\theta, \phi; x) = \mathbb{E}_{z \sim q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) || p(z))$

这个目标函数优雅地平衡了两个相互竞争的目标：

重构损失（Reconstruction Loss）：第一项 $\mathbb{E}_{z \sim q_\phi(z|x)}[\log p_\theta(x|z)]$ ，是期望对数似然。它衡量了在给定从编码器得到的潜向量 $z$ 的情况下，解码器能够多大概率重构出原始输入 $x$ 。这个项的目标是确保生成的数据与原始数据尽可能相似，推动模型走向高保真度。
正则化项（Regularization）：第二项 $D_{KL}(q_\phi(z|x) || p(z))$ 是一个 KL 散度项。它衡量了编码器为输入 $x$ 生成的后验分布 $q_\phi(z|x)$ 与一个预先设定的先验分布 $p (z)$ 之间的差异。通常， $p (z)$ 被设定为一个简单的标准正态分布 $N (0, I)$ 。这个项起到了正则化的作用，它迫使所有由编码器产生的概率分布都向先验分布看齐。这就在潜空间中施加了一个强大的结构性约束，防止不同的数据点在潜空间中相距过远，从而避免了“孔洞”的出现，保证了潜空间的连续性和生成能力。

2.3 重参数化技巧：实现端到端训练的关键

在 VAE 的架构中，从 $q_\phi(z|x)$ 中采样 $z$ 的过程是一个随机操作。这个随机性导致了一个严重的优化问题：梯度无法通过采样步骤进行反向传播，因此我们无法训练编码器的参数 $\phi$ 。

“重参数化技巧”（Reparameterization Trick）是 VAE 论文中的一项核心贡献，它巧妙地解决了这个问题。该技巧的核心思想是将采样过程重新构造。我们不再直接从 $q_\phi(z|x)$ 中采样 $z$ ，而是先从一个固定的、简单的分布（如标准正态分布 $N (0, I)$ ）中采样一个随机噪声向量 $\epsilon$ ，然后通过一个确定性的函数来计算 $z$ 。对于高斯分布，这个计算过程为： $\mu + \sigma \odot \epsilon$ ，其中 $\mu$ 和 $\sigma$ 是编码器的输出。

这个简单的变换将随机性（来自 $\epsilon$ ）与模型的参数（ $\mu$ 和 $\sigma$ ）分离开来。现在，从模型参数到最终损失的计算路径是完全确定性的，梯度可以顺畅地流回编码器。这使得整个 VAE 模型，包括编码器和解码器，都可以通过标准的随机梯度下降（SGD）等方法进行端到端的联合优化。

第三部分：VAE 的“寒武纪大爆发”——关键架构变体巡礼

VAE 的诞生并非终点，而是一个新纪元的开端。其优雅的理论框架和强大的生成潜力激发了研究社区的巨大热情，催生了大量的变体和改进，形成了一场名副其实的“寒武纪大爆发”。这些变体并非随机的修补，而是针对 VAE 核心问题的系统性探索与解决，可以大致归纳为几个主要进化方向：

潜空间结构化：旨在让潜空间更可控、更具解释性。
对抗后验坍塌：解决当解码器过于强大时，潜变量被模型忽略的根本性问题。
混合架构：通过与其他强大模型（如 GAN、PixelCNN）结合，取长补短，提升生成质量。
离散化革命：引入离散潜空间，从根本上改变了 VAE 的工作方式。
扩展与缩放：将 VAE 架构推广到更高分辨率的图像和更复杂的数据模态（如序列）。
先验分布的革新：摆脱简单高斯先验的束缚，学习更灵活的先验分布。

这一系列的演进清晰地展示了一个成熟的研究领域如何系统地识别并解决其前代模型的局限性，最终铺就了通往当今 SOTA 模型的道路。

3.1 结构化潜空间：控制与解耦

条件 VAE（Conditional VAE, CVAE）

核心思想：CVAE 是对 VAE 的直接扩展，旨在实现可控的生成。它通过将一个额外的条件变量 $c$ （例如类别标签、文本描述等）同时输入到编码器和解码器中来实现这一目标。模型的优化目标也从最大化 $\log p(x)$ 变为最大化条件对数似然 $\log p(x|c)$ 。

解决的问题：标准 VAE 只能进行无条件的随机生成，用户无法控制生成样本的具体属性。CVAE 解决了这个问题，它允许我们向模型“请求”一个具有特定属性的样本，例如在 MNIST 数据集上指定生成数字“5”的图像。这是迈向如文本到图像这类可控生成模型的奠基性一步。具体实现上，条件变量 $c$ 被整合到模型的各个部分：先验分布变为 $p (z ∣ c)$ ，后验分布变为 $q (z ∣ x, c)$ ，解码器则变为 $p (x ∣ z, c)$ 。

β-VAE

核心思想：β-VAE 对 VAE 的 ELBO 损失函数做了一个极其简单但影响深远的修改：引入一个可调节的超参数 $\beta$ 来加权 KL 散度项。其损失函数变为：

$\mathbb{E}[\log p(x|z)] - \beta \cdot D_{KL}(q(z|x) || p(z))$

解决的问题：标准 VAE（即 $\beta = 1$ ）学习到的潜空间表示往往是“纠缠”（entangled）的，即单个潜维度可能同时控制着数据的多个变化因素。当设置 $\beta > 1$ 时，模型会更强烈地惩罚后验分布与先验分布的偏离，这相当于对潜空间的“信息瓶颈”施加了更强的约束。这种压力迫使模型去学习一种更加“解耦”（disentangled）的表示，其中每个独立的潜维度都倾向于对应数据中一个独立、可解释的变化因子（例如物体的位移、旋转、缩放等）。β-VAE 通过牺牲一定的重构质量，换取了潜空间更好的结构性和可解释性，解决了标准 VAE 的一个核心弱点。

3.2 对抗“后验坍塌”：让潜变量变得重要

“后验坍塌”（Posterior Collapse）或称“潜变量忽略”（Latent Variable Ignorance）是 VAE 训练中一个臭名昭著的难题。当解码器能力过强时（例如使用强大的自回归模型），模型会发现一条“捷径”：它完全依赖解码器来建模数据，而彻底忽略从编码器传来的潜变量 $z$ 。此时，KL 散度项会趋近于零， $q_\phi(z|x)$ 近似于先验 $p (z)$ ，导致潜空间变得毫无信息量，VAE 退化为一个普通的自回归模型。

InfoVAE & MMD-VAE

核心思想：这类模型的核心思想是替换 VAE ELBO 中的 KL 散度项。它们不再强制每个样本的后验分布 $q (z ∣ x)$ 都必须接近先验 $p (z)$ ，而是转而强制所有样本后验的聚合分布（aggregated posterior） $\mathbb{E}_x[q(z|x)]$ 与先验 $p (z)$ 相匹配。实现这一目标的流行度量包括最大均值差异（Maximum Mean Discrepancy, MMD）。

解决的问题：MMD 等度量比逐样本的 KL 散度约束要宽松得多。它允许不同输入 $x$ 的后验分布 $q (z ∣ x)$ 在潜空间中占据不同的位置，只要这些分布的整体混合看起来像先验分布即可。这种方法能够有效最大化输入 $x$ 和潜变量 $z$ 之间的互信息，从而有力地防止了解码器忽略潜变量的问题，即便在解码器非常强大的情况下也能学到有意义的表示。

Wasserstein AE (WAE)

核心思想：WAE 将 VAE 的目标函数重新表述为最小化一个带惩罚项的 Wasserstein 距离（或称最优传输距离），该距离衡量的是生成数据分布与真实数据分布之间的差异。这同样会导出一个与 VAE 不同的正则化项，其效果也是匹配聚合后验分布 $q (z)$ 与先验分布 $p (z)$ 。

解决的问题：与 MMD-VAE 类似，WAE 提供了比 VAE 的 KL 散度更稳健的正则化器。它不仅能有效避免后验坍塌，而且在实践中被证明能够生成比标准 VAE 更清晰、更高质量的样本，同时保持了 VAE 训练稳定、拥有良好潜空间结构的优点。

3.3 混合优势：与其他架构的融合

VAE-GAN

核心思想：VAE-GAN 是一种巧妙的混合模型，它用生成对抗网络（GAN）的判别器来改进 VAE 的生成质量。具体做法是，将 VAE 解码器同时作为 GAN 的生成器，然后用 GAN 判别器学习到的特征表示来替代 VAE 中传统的逐像素重构损失（如 L2 损失）。

解决的问题：逐像素的损失函数（如均方误差）是 VAE 生成图像模糊的主要原因之一，因为它们无法很好地衡量人类的感知相似性。例如，将图像平移一个像素会导致巨大的 L2 误差，但人眼几乎无法察觉。而 GAN 的判别器在训练过程中，为了区分真实样本和生成样本，必须学习一个关于“真实感”的、丰富的、基于特征的度量。VAE-GAN 正是利用了判别器的这一能力，将其作为衡量重构质量的“感知损失”，从而生成远比标准 VAE 清晰、真实的图像。

PixelCNN-VAE

核心思想：这类模型将一个强大的自回归模型，如 PixelCNN，用作 VAE 的解码器 $p (x ∣ z)$ 。

解决的问题：标准 VAE 的解码器通常结构简单，限制了其生成细节的能力，导致图像模糊。而 PixelCNN 能够以逐像素的方式精确地建模图像的局部统计信息和复杂纹理。将两者结合，可以让 VAE 的全局潜变量 $z$ 来引导强大的 PixelCNN 解码器进行精细的、细节丰富的图像生成。然而，这种强大的解码器极大地增加了后验坍塌的风险，因此这类模型常常需要配合其他技术（如 PixelGAN 框架）来确保潜变量被有效利用。

3.4 离散化的力量：VQ-VAE 革命

向量量化 VAE（Vector-Quantized VAE, VQ-VAE）

核心思想：VQ-VAE 是一种革命性的架构，它引入了离散的潜空间。其编码器输出的仍然是连续的向量，但这些向量并不会直接送入解码器。取而代之的是，模型会寻找一个预先定义好的、可学习的“码本”（codebook）或嵌入字典 $e$ 中与编码器输出最接近的向量（码字），然后将这个码字的索引（一个离散值）传递给解码器。解码器根据这个索引从码本中取出对应的码字向量来进行重构。

与 VAE 的关键区别：

编码器最终输出的是离散的码字索引，而非连续的分布参数。
潜变量的先验分布是可学习的（通常是一个在码字上的均匀分布），而不是固定的标准高斯分布。

解决的问题：VQ-VAE 通过其离散的瓶颈层，从根本上解决了“后验坍塌”问题。因为解码器接收到的信息必须通过有限的码字集合，它无法再“绕过”潜空间，这迫使模型必须学习到有意义的离散表示。此外，离散的表示对于天然具有离散结构的数据模态（如语言中的词汇、语音中的音素）来说是一种更自然的建模方式。这一“视觉词汇化”的思想，为后续将 Transformer 架构应用于视觉任务铺平了道路。

3.5 扩展至新高度与新模态

分层 VAE（Hierarchical VAEs: VQ-VAE-2, NVAE）

核心思想：这类模型采用分层的 VAE/VQ-VAE 结构来对多尺度的图像信息进行建模。一个顶层的 VAE 负责捕捉图像的全局信息（如物体的整体形状、位置和布局），生成一个粗糙的、低分辨率的潜表示。然后，一个或多个底层的 VAE 在顶层潜表示的条件引导下，负责填充图像的局部细节和精细纹理。NVAE 是一个非常深的层次化 VAE，它通过精心设计的网络架构（如深度可分离卷积和残差参数化）取得了当时非自回归模型中的最佳性能。

解决的问题：单个潜空间很难同时兼顾全局结构和局部细节。分层的方法允许模型采用一种“从粗到精”（coarse-to-fine）的生成策略，显著提升了生成图像的保真度和分辨率，使其能够生成可与 GAN 媲美的高质量大尺寸图像。

序列 VAE 与时序差分 VAE（Sequential VAE, TD-VAE）

核心思想：为了处理文本、视频等序列数据，研究者们将 VAE 框架与循环神经网络（RNN）或长短期记忆网络（LSTM）相结合，在编码器和解码器中引入循环结构来建模时序依赖关系。TD-VAE 则更进一步，它借鉴了强化学习中的时序差分（Temporal Difference, TD）学习思想，通过对时间上分离的数据点对进行训练，来学习世界动态的模型。这使得模型能够在潜空间中进行“跳跃式”的未来预测。

解决的问题：标准 VAE 假设数据是独立同分布的，不适用于有序的序列数据。这些变体则显式地对时间依赖性进行建模。TD-VAE 的创新尤为突出，它学习到的动态模型可以用于长期规划和想象遥远的未来，而无需进行缓慢的、一步一步的推演，这对于构建智能体的“世界模型”至关重要。

3.6 超越标准先验：学习潜空间的图景

VampPrior (Variational Mixture of Posteriors Prior)

核心思想：VampPrior 旨在解决标准 VAE 中先验分布过于简单的问题。它不再使用固定的标准高斯分布作为先验 $p (z)$ ，而是用一个更灵活、可学习的先验来替代。这个先验是一个混合模型（通常是高斯混合模型），其每个混合成分本身就是一个 VAE 的后验分布，但条件是作用在一组可学习的“伪输入”（pseudo-inputs）上。

解决的问题：对于复杂的数据集，其真实的潜空间结构可能远非一个简单的单峰高斯分布所能描述。固定的高斯先验与真实的聚合后验分布之间的不匹配，是导致潜空间出现“孔洞”或“聚类”现象的主要原因。VampPrior 允许模型学习一个更丰富的、多模态的先验分布，使其能更好地拟合数据内在的复杂结构。这不仅提升了模型的生成能力，还有效地避免了因先验与后验不匹配而导致的潜维度被浪费的问题。

第四部分：巅峰之作——VAE 如何驱动当今的顶尖 AI

VAE 家族的演进并未止步于成为一个独立的生成模型。如今，它已经升华为一种关键的“使能技术”（enabling technology），成为更强大的扩散模型和 Transformer 架构的核心组件。其角色从“完整的生成器”转变为“高效的感知编码器”或“视觉分词器”。这种架构上的解耦——将感知/压缩（由 VAE 完成）与合成/推理（由扩散模型/Transformer 完成）分离开来——是现代生成式 AI 能够实现惊人扩展性的关键所在。

4.1 Stable Diffusion 的引擎室：潜在扩散模型（LDM）

像素空间扩散的挑战：标准的扩散模型（Diffusion Models, DMs）虽然强大，但其计算成本极其高昂。这是因为它们直接在维度极高的像素空间中进行操作，训练一个强大的模型通常需要消耗数百个 GPU 天。模型的大量计算能力被浪费在建模那些人眼几乎无法察觉的高频细节上。

LDM 的解决方案：在潜空间中扩散：潜在扩散模型（Latent Diffusion Models, LDM），即 Stable Diffusion 背后的核心技术，其关键创新在于将去噪扩散过程从像素空间转移到了一个紧凑的、低维的潜空间中进行。

VAE 的角色：感知压缩模型：LDM 的第一步是训练一个强大的自编码器（通常是 VAE 或其变体）作为“感知压缩”模块。这个 VAE 的任务是学习一个编码器 $E$ ，它能将高分辨率图像 $x$ 映射到一个维度小得多的潜向量 $z = E (x)$ ；同时学习一个解码器 $D$ ，它能将潜向量 $z$ 精确地重构回原始图像 $\approx D(z) )$ 。这个 VAE 被训练一次后其权重就会被“冻结”，不再变动。关键在于，这个潜空间在感知上与图像空间是等价的，但其维度却大大降低，从而极大地减少了后续处理的计算复杂度。

工作流程整合：在 LDM 中，真正的扩散模型完全在 VAE 学习到的这个潜空间中进行训练和操作。在推理（生成图像）时，模型首先在潜空间中生成一个随机噪声向量 $z_T$ ，然后通过扩散模型的 U-Net 结构（通常受文本提示等条件引导）进行迭代去噪，得到一个“干净”的潜向量 $z_0$ 。最后，也是唯一一次，这个最终的潜向量 $z_0$ 被送入预训练好的 VAE 解码器 $D$ 中，一次性解码生成最终的高分辨率图像。这种职责分离的设计，使得 LDM 在大幅降低计算成本的同时，还能提升生成图像的视觉保真度。

4.2 Sora 的世界模拟器：将现实压缩为时空图块

视频生成的挑战：视频数据比静态图像多了一个时间维度，这使得直接生成变得更加复杂。一个核心挑战是如何处理不同时长、分辨率和宽高比的视频输入。

Sora 的方案：统一的视觉表示：Sora 的突破性设计借鉴了大型语言模型（LLM）的思想。LLM 使用“词元”（tokens）来统一处理代码、数学和多种自然语言等不同模态的文本。Sora 则创造了“视觉图块”（visual patches）来对视觉数据做同样的事情。

“视频压缩网络”：Sora 中的 VAE：OpenAI 的技术报告明确指出，他们首先训练了一个“视频压缩网络”，其功能是降低视觉数据的维度，输出一个在时间和空间上都被压缩了的潜空间表示。这个网络在功能上与 Stable Diffusion 中的 VAE 完全对应。对 Sora 架构的分析普遍认为，这是一个基于 VAE 或更有可能是 VQ-VAE 的架构。它的作用是将原始的、高维的视频流转换成一个低维的、结构化的潜表示。

“时空潜变量图块”（Spacetime Latent Patches）：一旦视频被这个压缩网络编码到潜空间中，该潜表示就会被分解成一系列的“时空潜变量图块”。这些图块扮演了 LLM 中“词元”的角色，被送入一个大型的 Transformer 模型进行处理。正是这种基于图块的表示方法，使得 Sora 能够灵活地处理各种不同分辨率、时长和宽高比的视频和图像（图像可以被视为只有一帧的视频），就像 LLM 处理不同长度的句子一样。后续的（文本条件）扩散过程，便是在这些时空潜变量图块上进行的。

这种“视觉分词器”的架构模式，是现代大规模生成模型成功的关键秘诀。它允许模型开发者将复杂的任务解耦：可以先用海量数据训练一个通用的、强大的视觉编码器（VAE/VQ-VAE），然后在这个固定的、高效的潜空间之上，再训练各种不同任务的、更小型的模型（如扩散模型、Transformer 等）。这种模块化的方法远比为每个任务都训练一个庞大的、端到端的像素级模型要高效得多，是“基础模型”（foundation model）范式在视觉领域的具体体现。

结论

回顾从基础自编码器到当今顶尖 AI 模型的演进历程，一条清晰的技术主线浮出水面。它始于简单的压缩（AE），通过引入概率论实现了真正的生成能力（VAE），随后在一个丰富的生态系统中演化出各种解决特定问题的专门化变体（VAE 家族），最终升华为驱动新一代架构（如扩散模型和视觉 Transformer）的核心引擎。

其核心原则——即复杂的、高维的数据可以通过先映射到一个更简单的、结构化的、低维的潜空间中来被理解和生成——被证明是人工智能领域最强大、最多产的思想之一。VAE 及其后代的整个发展史，就是对这一原则持久生命力的雄辩证明。它不仅改变了我们生成数据的方式，更深刻地影响了我们构建和理解智能系统本身的方法论。从像素到无限的可能性，这条由 VAE 铺就的道路，仍在不断向前延伸。

参考链接

https://mp.weixin.qq.com/s/veIFS6QUtwdsp5L51ol8tA

从像素到可能性：解构 Stable Diffusion 与 Sora 背后的 VAE 技术