图像|打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E( 三 )
文章插图
美中不足的是,这项研究发布的较小模型的准确性不如全尺寸模型那么完美。下图是由“刺猬”文本提示生成的16个样本。
文章插图
除了图文转换,该论文还包括一个交互式系统的原型,用于逐步细化图像的选定部分。这些图像中的一切都是自动生成的,从整个房间开始,对绿色区域进行迭代细化。
文章插图
在下图中,研究人员将他们的模型与之前最先进的基于MS-COCO字幕的文本条件图像生成模型进行了比较,发现其模型在无需CLIP 重新排序或挑选的情况下生成了更逼真的图像。对于XMC-GAN,从用于文本到图像生成的跨模态对比学习采集了样本。对于DALL-E,在温度0.85下生成样本,并使用CLIP重新排序从256个样本中选择最好的。对于GLIDE,使用2.0刻度的CLIP引导和3.0刻度的无分类器引导。作者没有为GLIDE执行任何CLIP重新排序或挑选。
文章插图
研究人员使用人类评估协议将GLIDE与DALL-E进行比较(如下表所示)。请注意,GLIDE使用的训练计算与DALL-E大致相同,但模型要小得多(35亿对120亿参数)。此外,它只需要更少的采样延迟,并且没有CLIP 重新排序。
文章插图
研究人员在DALL-E和GLIDE之间执行三组比较。首先,当不使用CLIP重新排序时,比较两种模型。其次,只对DALL-E使用CLIP重新排序。最后,对DALL-E使用CLIP重新排序,并通过DALL-E使用的离散VAE投影GLIDE样本。后者允许研究者评估DALLE模糊样本如何影响人类的判断。他们使用DALL-E模型的两个温度来进行所有的评估,其模型在所有设置中都受到人类评估人员的青睐,即使在非常支持DALL-E的配置中,也允许它使用大量的测试时间计算(通过CLIP重新排序)同时降低GLIDE样本质量(通过VAE模糊)。
2021-12-10
文章插图
2021-12-09
文章插图
2021-12-12
文章插图
2021-12-12
文章插图
- 攻克|打破日本垄断!售价7亿元的设备被中企攻克,已开始量产
- 图灵奖|中国科技团队创历史,360打破行业垄断,登顶世界最强人工智能榜
- 工业机器人|打破韩国OLED屏垄断,中国从进口变成出口,国产有望冲击全球第一
- 联想|打破记录!数字人民币(试点版)App登上应用商店排行榜
- Windows11|8天50分!打破无人机无加油最长续航记录,未来将应用于反潜
- mybatis|支付“国家队”诞生!用户已超1.4亿,微信和支付宝的垄断被打破
- 显卡|千元机很酸爽,iQOO Z3越级打破“固有印象”
- jvm|打破多年外资垄断,新国货用2年时间在天猫成赛道第一
- 抢推8款国产旗舰机,谁能打破“iPhone神话”
- 抢推8款国产旗舰机,谁能打破“iPhone神话”?