1.GAN 的 One-Shot Adaptation 仅1个CLIP
来自我们模型的各种域适应结果。我们的模型成功地将在大数据上预先训练的模型微调到仅具有单个目标图像的目标域中
2. paper地址:https://arxiv.org/abs/2203.09301
当使用单个目标图像进行微调时,这些方法通常会遭受过拟合或不拟合的困扰。为了解决这个问题,我们在这里提出了一种通过统一剪辑空间操作的新颖的单发GAN自适应方法。具体来说,我们的模型采用了两步训练策略: 使用剪辑引导的潜在优化在源生成器中搜索参考图像,然后使用新颖的损失函数对生成器进行微调,该损失函数在源生成器和自适应生成器之间施加了剪辑空间的一致性。为了进一步改进适应的模型以产生相对于源生成器的空间一致的样本,我们还提出了针对片段空间中patchwise关系的对比正则化。
4.贡献:
(1)我们首先提出在潜在搜索阶段使用 CLIP 来寻找更适合模型适应的参考,这在之前的工作中没有尝试过.
(2)我们在CLIP嵌入空间中提出了逐个和逐个样本的一致性正则化,这也是GAN自适应任务中的第一个试验.
(3) 我们的方法具有灵活的框架,因此可以轻松地将其应用于其他任务。我们在实验结果中展示了各种应用程序,例如属性编辑,文本引导的自适应.
(4) 在定性和定量结果上,我们的方法均优于其他有限射击GAN适应方法。
5.method 方法
分两个步骤训练:(1)CLIP引导的latent code optimization
图2 :( 左) 我们提出的的CLIP引导潜在优化参考图像的概述。(右) 各种基线之间的比较。我们的结果包含目标图像的所需属性,并且优于基线结果。w是stylegan的生成空间,latent code W 经过
生成
,将
与目标图像
做一个像素级的MSE损失,从而减小他的LPIPS距离,并且,将
增强后用CLIP Encoder 编码得到的结果和
得到的latent code 做一个cosine Distance .
(二)Step 2: Generative Model Fine-tuning
CLIP 空间中的跨域语义一致性。我们从具有相同潜在值 w 的源模型 Gs 和目标模型 Gt 生成图像。然后我们使用预训练的 CLIP 模型获得嵌入特征向量,并计算 CLIP 空间中嵌入向量之间的余弦相似度得分。两个域 (,
) 之间的相似度得分通过
回归进行汇总。为了引导 Gt 的纹理与目标 I_trg 匹配,我们还使用了补丁鉴别器
为了使生成图像具有目标图像的纹理。
损失是本篇论文的一个亮点.
6.实验
可视结果
图5: 与基线模型的比较结果。最上一行的图像是目标图像,第二个roe中的图像是源内容图像。以下行中的结果由适应目标图像的模型生成。我们的结果包含目标图像的纹理,同时保留源图像的内容属性。
数据集(FFHQ、LSUN 教堂、LSUN 汽车)
表1: FID、lpips和身份评分各种指标的定量结果蓝色-次佳,红色-最佳
7. Conclusions
在本文中,我们提出了一个新框架,该框架可以通过对单个目标图像进行微调来转换预训练的 StyleGAN 以生成目标域图像。关键思想是通过两步方法进行 CLIP 空间操作。具体来说,我们提出了一种在 CLIP 空间中的优化方法,以在源域中找到与目标图像具有最相似属性的参考图像。然后将参考图像用作锚点来维护目标生成器的内容属性。此外,为了防止模型过拟合,我们提出了两种不同的正则化损失:CLIP 空间中的语义一致性损失和补丁一致性损失。我们的实验结果表明,所提出的方法比现有方法产生更好的定量和定性结果。限制和未来的工作在补充材料中