图像|打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E
文章插图
如今,基于自然语言生成逼真图像的工具使我们能够以一种全新的方式轻松创建大量的高质量图像。使用自然语言编辑图像的能力进一步允许迭代细化和细粒度控制,这两者对于现实世界的应用程序都至关重要。
目前,GANs(对抗生成网络)在大多数图像生成任务上拥有最先进的技术,这些技术是通过样本质量来衡量的,例如FID,Inception Score 和 Precision等指标。
然而,其中一些指标不能完全捕获生成图像的多样性,且与最先进的基于似然度的模型相比,GANs捕获的多样性较少。此外,如果没有精心选择的超参数和正则化器,GANs在训练中经常翻车。
针对这些问题,OpenAI的两位研究人员Prafulla Dhariwal和Alex Nichol便着眼于其他体系架构。2021年5月,这两名学者发表了名为《Diffusion Models Beat GANs on Image Synthesis》的论文,证明了扩散模型在图像合成上优于目前最先进的生成模型的图像质量。
文章插图
论文地址:https://openreview.net/pdf?id=AAWuCvzaVt
半年多的时间,Alex Nichol 和Prafulla Dhariwal再度携手,带领团队于2021年12月20日发布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。
文章插图
论文地址:https://arxiv.org/pdf/2112.10741v1.pdf
以文本“萨尔瓦多·达勒(salvador dal??)的超现实主义梦幻油画,画的是一只猫在跳棋”为例,GLIDE模型生成如下具有阴影和反射的逼真图像,并以正确的方式组合多个概念,产生新颖概念的艺术效果图。
文章插图
文章一出即在推特上引起广泛关注,收获了无数业内人士的鲜花和掌声。
名为Kyle的网友表示,他觉得这项研究跨越了“渐进式增长GAN”到“StyleGAN”的界限。从满是笨拙的机器学习人工伪造物,到现在突然变得与它模仿的真实物体几乎无法分辨。
文章插图
连GLIDE的失败案例都透着满满的优秀感:它不会画有 8 条腿的猫......
文章插图
有网友提问:如果对它提出指令“没人见过的东西”会生成什么?
文章插图
Em......结果是没见过,但也不是完全没见过。
文章插图
作者们为文本条件下的图像合成问题的扩散模型,对比了两种不同的指导策略:CLIP guidance 和classifier-free guidance。而后发现,在写实度和主题相似度方面,后者更受人类评估参与者的青睐,并且经常获得逼真的样本。
使用classifier-free guidance的35亿参数文本条件扩散模型的样本收到的评价更高,令来自DALL-E的样本完全“黯然失色”。GLIDE模型微调后还可以修复图像,出色完成文本驱动的图像编辑任务。
- 攻克|打破日本垄断!售价7亿元的设备被中企攻克,已开始量产
- 图灵奖|中国科技团队创历史,360打破行业垄断,登顶世界最强人工智能榜
- 工业机器人|打破韩国OLED屏垄断,中国从进口变成出口,国产有望冲击全球第一
- 联想|打破记录!数字人民币(试点版)App登上应用商店排行榜
- Windows11|8天50分!打破无人机无加油最长续航记录,未来将应用于反潜
- mybatis|支付“国家队”诞生!用户已超1.4亿,微信和支付宝的垄断被打破
- 显卡|千元机很酸爽,iQOO Z3越级打破“固有印象”
- jvm|打破多年外资垄断,新国货用2年时间在天猫成赛道第一
- 抢推8款国产旗舰机,谁能打破“iPhone神话”
- 抢推8款国产旗舰机,谁能打破“iPhone神话”?