2025第一篇文章diffussion model与time test inference

发布于:2025-02-10 ⋅ 阅读:(98) ⋅ 点赞:(0)

不是我不更新,找到值得写的东西我还是会更新的

这个是我2024年年末的展望,基本都应验了

第二条不值得称道,但是2025年做通用模型的会越来越少,这也是没办法的事情

2025年开年的一大预测其实也是结合2024年年底的时间

强化学习的动作空间搜索(不一定非得是MCTS)会在2025年在更多的模型架构上启动

今天这不就来了吗

谢赛宁和Google一起整一个论文你,发现time test inference在diffusion model 一样很牛B

所以2025年的大基调都会味道这个,继续展开,在传统scaling law越来越只有一小部分人和公司能有钱来探索的情况下,inference scaling将接过大旗继续战斗,不同的事算法比较复杂,数据要求过高,这注定是比scaling law的玩家更少的赛道(不过做个原型玩玩还是可以的,o1刚出的时候我就拿qwen math自己做了一个math o1版本

交代了一下背景,下面写一些今天为什么选这个论文解读的原因

https://arxiv.org/pdf/2501.09732

比如你要是玩过sd类的模型,不管你是sd1.5 xl,还是flux或者啥,它都是生成的step越多,越费算力,但是效果相对好一点对吧(这个要是不明白就去看我之前的多模态文章)

https://mp.weixin.qq.com/s/InF1Bnug0thnPKSsOmFvhw?token=505458397&lang=en_US

但是你这个是什么行为呢?就是一个更多step的去噪声的过程

理论上,扩散过程是一个连续的过程。更多的离散步骤可以更好地近似这个连续过程,使得生成的图像更加自然和真实,减少伪影和不连续性,说白了你每次别去那么多,尽量去噪平滑

但是去噪平滑就是你想要的最终效果吗?

请注意,这个未必!,有时候你步骤一多就生成古神了。。。

有没有更好的办法

有,你之前step合理不合理全凭感觉,因为你也没法知道噪声这训练的时候加多少合适,去的时候去多少个step合适,这个很难算出来一个完美答案,而且是一个边界递减的操作

那我说有,是什么方法呢?

就是说有没有一种牛B的办法,能让你在对模型推理的时候就能分辨出来去什么样的噪声能有最好的结果?

咋判断呢?用搜索方法,跟LLM用类MCTS有区别但是也是一个意思

对,其实这论文就是玩这个

论文给配一个图

这个图展示了推理时间(用核函数评估次数NFE衡量)与性能指标之间的关系,通过不同方法扩展NFE:增加去噪步骤和进行搜索。图的横轴表示推理计算(NFE),纵轴显示不同性能指标。在图例中,用虚线表示通过增加去噪步骤来扩展NFE,用实线表示通过搜索来扩展NFE。

图中内容解释

图形包括四个子图,每个子图描绘了一种性能指标与NFE之间的关系:

  1. 左上子图(ImageNet FID/IS图)
  2. FID
  3. (Frechet Inception Distance)或Inception Score (IS)是两个常用于图像生成质量的评估指标。
  4. 结果显示,使用搜索方法扩展NFE(实线)比简单增加去噪步骤(虚线)带来更好的性能。
  5. 实线曲线在NFE较少时性能迅速提高,表明通过搜索方法更有效地利用计算资源。
  6. 右上子图(CLIPScore on DrawBench)
  7. CLIPScore
  8. 是一个用于评估生成图像与文本描述匹配程度的指标。
  9. 实线曲线显示,通过搜索扩展NFE相较于增加去噪步骤能够更好提升CLIPScore。
  10. 左下子图(Aesthetic Score on DrawBench)
  11. Aesthetic Score
  12. 用于评估生成图像的美学质量。
  13. 实线曲线表明,通过搜索扩展NFE在美学质量上的提升更为明显,相较于简单增加去噪步骤。
  14. 右下子图(Aesthetic Score on DrawBench)
  15. Aesthetic Score
  16. 用于评估生成图像的美学质量。
  17. 结果同样显示,通过搜索扩展NFE取得了显著改进,实线表现优于虚线。

简单理解就是搜索来扩展NFE(去什么噪音牛B,不是硬加去噪音steps)就很牛b,理解到这就够了

大抵有3种可行的方式来做这个最优去噪的搜索

算法都是啥呢?

1. 随机搜索(Random Search)

  • 描述
  • 随机搜索方法在每个步骤中随机选择若干个样本,然后根据验证器得分评估性能,选择最佳样本继续进行,丢弃其余样本。
  • 图示
    • 红色点表示被拒绝的样本(得分较低)
    • 绿色点表示被接受的样本(得分较高)
    • 灰色路径表示在每个步骤中的采样路径
  • 工作机制
  • 在每次迭代中,采样若干噪声样本。使用验证器对这些样本进行评估,选择得分最高的样本继续下一步。同时丢弃得分较低的其它样本。

2. 零阶搜索(Zero-Order Search)

  • 描述
  • 零阶搜索方法在每个搜索步骤中,在当前噪声附近的局部区域选择若干个新的候选噪声样本进行采样,然后选择一个最好的样本继续下一次搜索。
  • 图示
    • 仍然使用红色点表示被拒绝的样本(得分较低)
    • 绿色点表示被接受的样本(得分较高)
    • 灰色虚线路径表示采样路径
  • 工作机制
  • 每次搜索迭代中,在一个噪声候选者附近采样若干新的噪声候选者。然后使用验证器对这些候选者进行评估,根据得分选择一个最佳样本继续进行后续步骤。

3. 路径搜索(Search over Paths)

  • 描述
  • 路径搜索方法比前两者更加复杂,主要体现在它对生成路径进行评估和优化。在扩散路径的中间步骤进行噪声采样,并根据验证器反馈选择最佳路径。
  • 图示
    • 仍然使用红色点表示被拒绝的样本(得分较低)
    • 绿色点表示被接受的样本(得分较高)
    • 实线和虚线表示初始采样和优化后的采样路径
  • 工作机制
  • 在生成的中间步骤采样若干噪声候选者,进行验证后,根据得分选择最佳路径继续下一步。不同于前两个方法,路径搜索不仅优化单个噪声样本,还会优化路径中的多个步骤,以找到最优生成路径。

这三种搜索算法的不同具体行为和优势:

  • 随机搜索
  • :简单直接,适合快速初始筛选。
  • 零阶搜索
  • :在局部区域优化,提供更细致的选择。
  • 路径搜索
  • :全面评估和优化整个生成路径,能显著提高生成样本的质量。

这三种方法的对比展示了在推理期间不同算法的选择过程如何影响最终生成质量,其中路径搜索的复杂性和性能优越性尤其明显。

有钱有卡就上路径搜索呗

算法有这些,还得要有verify吧?要不谁给你reward呢?

所以还得做验证器

验证器就是评估你搜索算法好坏的

论文里面验证器有3种

1. Oracle Verifier (先知验证器)

这种验证器假设拥有最终评估程序的完整信息,可以被视为理想化的验证器。 例如,在 ImageNet 上,FID 和 IS 通常用作评估指标,因此可以将它们直接用作先知验证器。

优点:能够提供最准确的评估结果。

缺点:在大多数情况下不切实际,因为最终评估程序的细节通常不可用。2.

2.Supervised Verifier (监督验证器)

这种验证器可以使用生成条件和一些预先训练的模型(这些模型不一定与最终评估程序完全一致)来评估候选样本。 监督验证器会根据样本质量及其与指定条件输入的一致性来评估候选样本。

例子:CLIP和 DINO

可以用作监督验证器。 对于 ImageNet 上的类条件生成任务,可以使用 CLIP 和 DINO 的分类能力来选择与类标签对应 logits 最高的样本。

优点:

比先知验证器更实际,因为预训练模型更容易获得。

缺点:可能存在与最终评估目标不一致的偏差,导致过度拟合验证器的“偏差”,作者称之为“Verifier Hacking”(验证器劫持)。

例如,当使用 DINO 或 CLIP 的分类 logits 作为验证器时,FID 分数会随着搜索迭代次数的增加而突然上升,尽管 Inception Score 持续提高。

这是因为分类器只关注单个样本的质量,而没有考虑总体多样性。

3. Self-Supervised Verifier (自监督验证器)

这种验证器不需要额外的条件信息,而是依赖于样本本身的特征来进行评估。 例如,可以使用 DINO 或 CLIP 特征空间中模型在低噪声水平下对样本的预测 ( x-prediction ) 与最终生成的干净样本之间的余弦相似度作为验证器分数。

优点:不需要额外的条件信息,适用于条件信息不可用或难以获得的情况。

缺点:在文本到图像生成等复杂任务中效果较差,因为它们只关注图像的视觉质量,而忽略了文本信息。

验证器的选择对搜索算法的性能至关重要。

不同任务需要不同的验证器,并且需要仔细设计验证器以避免过度拟合其偏差。

总而言之,验证器在扩散模型的推理时间尺度中起着关键作用,它为搜索算法提供评估和反馈,从而引导模型生成高质量的样本。 不同的验证器类型适用于不同的应用场景,需要根据具体任务和目标进行选择和设计。

搜索算法和合理的verifier能把diffusion模型的生成上升一个档次

看一下效果把,我就截了最后两个案例,第一个是pixart的,第二个是flux的,一共都6个图片的,前3是属于就纯加step来去噪的,后4个(中间有一个是重复的)是用论文方法的,能明显看出来区别和对指令的理解和遵从上

2025年,time test inference 应该是全面爆发的一年,甚至乐观估计,memba还有rwkv也会上(RNN上面inference scaling理论上会更猛,后谜案我会讲为什么,等再多长1万粉再说


网站公告

今日签到

点亮在社区的每一天
去签到