图像|打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E( 三 )

文章插图

美中不足的是，这项研究发布的较小模型的准确性不如全尺寸模型那么完美。下图是由“刺猬”文本提示生成的16个样本。

文章插图

除了图文转换，该论文还包括一个交互式系统的原型，用于逐步细化图像的选定部分。这些图像中的一切都是自动生成的，从整个房间开始，对绿色区域进行迭代细化。

文章插图

在下图中，研究人员将他们的模型与之前最先进的基于MS-COCO字幕的文本条件图像生成模型进行了比较，发现其模型在无需CLIP 重新排序或挑选的情况下生成了更逼真的图像。对于XMC-GAN，从用于文本到图像生成的跨模态对比学习采集了样本。对于DALL-E，在温度0.85下生成样本，并使用CLIP重新排序从256个样本中选择最好的。对于GLIDE，使用2.0刻度的CLIP引导和3.0刻度的无分类器引导。作者没有为GLIDE执行任何CLIP重新排序或挑选。

文章插图

研究人员使用人类评估协议将GLIDE与DALL-E进行比较（如下表所示）。请注意，GLIDE使用的训练计算与DALL-E大致相同，但模型要小得多（35亿对120亿参数）。此外，它只需要更少的采样延迟，并且没有CLIP 重新排序。

文章插图

研究人员在DALL-E和GLIDE之间执行三组比较。首先，当不使用CLIP重新排序时，比较两种模型。其次，只对DALL-E使用CLIP重新排序。最后，对DALL-E使用CLIP重新排序，并通过DALL-E使用的离散VAE投影GLIDE样本。后者允许研究者评估DALLE模糊样本如何影响人类的判断。他们使用DALL-E模型的两个温度来进行所有的评估，其模型在所有设置中都受到人类评估人员的青睐，即使在非常支持DALL-E的配置中，也允许它使用大量的测试时间计算（通过CLIP重新排序）同时降低GLIDE样本质量（通过VAE模糊）。