【图像生成1】Latent Diffusion Models 论文学习笔记-EW帮帮网

一、背景

本文主要记录一下使用 LDMs 之前，学习 LDMs 的过程。

二、论文解读

Paper：[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models

1. 总体描述

LDMs 将传统 DMs 在高维图像像素空间（Pixel Space）上的 diffusion 操作转移到低维潜空间（Latent Space）进行，大大降低了训练和推理所需计算资源，生成的图像细节更丰富，更真实，且能用于生成高分辨率（百万级像素）图像；同时引入的条件控制机制 Conditioning Mechanisms 使模型能够用于多种条件图像生成任务，如图像超分、图像修复、语义合成（文生图、图生图，布局生图）。

后面这几位作者又提出了检索增强扩散模型（Retrieval Augmented Diffusion Models, RDMs）并将其用于 LDMs 的文生图任务中，大概作用就是进一步降低生成图像所需计算资源，提升生成图像的质量。

2. LDMs

2.1 主体框架

通过框架图可知，在 LDMs 之前需要先训练一个 Autoencoder，包含一个编码器和一个解码器，输入图像经过编码器得到其潜在空间的特征表示，解码器再将从潜在空间重构回像素空间得到生成后的，上述过程（对应框架图左部）可表示为：

Encode：

Decode：

其中降采样因子，且为 2 的幂次，即。

正向扩散（加噪）过程和反向去噪（重构）过程均发生在潜在空间，重构过程中通过加入一个条件降噪自编码器（UNet cross attention，对应框架图中部）可以将输入条件扩展到不同形态（对应框架图右部），比如文本、语义图、图像等，进而可以实现如文生图、布局生图、图生图等多种生成任务。

2.2 感知图像压缩（Perceptual Image Compression）

现有 DMs 的生成过程可以视为一个压缩比（感知有效 bit 与图像维度之比）和失真率的平衡问题（如上图所示），压缩比越低（高），说明图像中感知有效的 bit 越少（多），因而生成的图像失真程度越大（小）。其学习过程大致可分为两个阶段：感知压缩阶段和语义压缩阶段。在感知压缩阶段，模型会舍弃图像中的高频信息而只学习一些语义变化，在语义压缩阶段，生成模型会学习数据的语义和概念信息（高维抽象的信息）。

DMs 虽然可以忽略图像中一些在感知上无关紧要的信息，但模型的计算和优化过程仍然在像素空间中，这就导致如果合成一些高分辨率图像，空间维度就会非常高，在计算时间和计算资源上的花费会非常昂贵（heavy cost）。

于是作者提出了对图像的感知压缩，使用一个 Autoencoder，该 Autoencoder （论文中叫感知压缩模型）结合了感知损失和基于 patch 的对抗样本进行训练。在图像生成之前会先学习一个与图像空间感知等效（perceptually equivalent）的低维空间，即潜在空间，在这个空间中进行扩散过程和后续操作，有效降低模型计算复杂性，提高计算效率。

为了避免潜在空间的高方差，导致重构图像与输入图像偏离过大，作者使用了两种正则化方法，KL-reg. 和 VQ-reg.。使用 KL-reg. 的感知压缩模型相当于一个 VAE，而使用了 VQ-reg. 的感知压缩模型与一个 VQGAN 的工作过程类似。

代码中提供了使用 KL（AutoencoderKL 类）和 VQ（VQModel 类）正则配合不同降采样因子的 AE。

2.3 潜在扩散模型（Latent Diffusion Models）

传统 DMs 在对服从正态分布的变量逐渐去噪的过程中学习其数据分布，可以看做是基于时序的降噪自编码器（an equally weighted sequence of denoising autoencoders），其中是输入样本的加噪版本，而 DMs 的任务就是学习如何从加噪版样本中预测去噪版的，这个是输入样本的变体，二者不完全一样。对应目标函数可表示如下：

（公式1）

其中均匀采样自序列。

LDMs 与DMs 相比，其训练过程在计算高效的低维空间中进行，且模型会聚焦于图像中的语义信息，丢弃高频和感知无效的细节。该模型的 backbone 本质上是一个时序条件 UNet（time-conditional UNet），训练时由编码器生成潜在空间表示，解码器将采样自的样本解码回图像空间，得到重建后的。目标函数表示如下：

（公式2）

可以看出 LDMs 就是将扩散过程由图像空间转移到潜在空间。

2.4 条件机制（Conditioning Mechanisms）

上面主要介绍的是 LDMs 的无条件生成机制，本章节介绍了如何实现 LDMs 的多模态条件生成，如文生图、图生图、图像转换（image-to-image translation）等。

扩散模型原则上能够对形如的条件分布建模，借助一个条件降噪自编码器（conditional denoising autoencoder）可以将生成过程中的控制条件扩展到多种形式，如文本、语义图（semantic maps）、图像等。

在图像生成任务中，如果 DMs 的条件输入是除了类别标签（class-label）和模糊版图像（blurred variants of the input image，指图像超分）的其它形式，那 DMs 的生成能力还有待探索（随后本文就进行了探索）。

通过在 UNet 中加入交叉注意力机制，使得 DMs 能够应对多种不同的条件输入模态（比如prompts）。为了处理条件输入，作者引入了一个域专用编码器（domain specific encoder），将映射为一个中间表示（intermediate representation），之后通过交叉注意力层将其送入 UNet 的中间层（如框架图中展示的）。

其中是 UNet（执行后）的一个中间表示，，和为映射矩阵。

借助图像-条件对，条件控制 LDM 的学习可表示如下：

(公式3)

与公式 2 相比多了一个条件。

3. 实验

为了验证 LDMs 的效果，作者进行了大量实验，包括对下采样因子的调节，无条件图形生成（基于 CelebA-HQ，FFHQ，LSUN-Churches 和 LSUN-Bedrooms 数据集，生成图像分辨率为256256），有条件图像生成（文生图、语义图生图、图像超分、图像修复等），基于多种评价指标分析生成图像的质量和效果。45 页的论文（加附录）有 90% 的篇幅属于实验分析，可谓相当有说服力了。