逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
作者|李梅、王玥
编辑|陈彩娴文本生成图像模型界又出新手笔!
这次的主角是GoogleBrain推出的Imagen , 再一次突破人类想象力 , 将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E2更强!
话不多说 , 我们来欣赏这位AI画师的杰作~
Abrainridingarocketshipheadingtowardsthemoon.(一颗大脑乘着火箭飞向月球 。 )逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
Adragonfruitwearingkaratebeltinthesnow.(在雪地里戴着空手道腰带的火龙果)逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
AmarblestatueofaKoalaDJinfrontofamarblestatueofaturntable.TheKoalahaswearinglargemarbleheadphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前 。 )逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
AnartgallerydisplayingMonetpaintings.Theartgalleryisflooded.Robotsaregoingaroundtheartgalleryusingpaddleboards.(陈列莫奈画作的美术馆被水淹没 。 机器人正在使用桨板在美术馆里划行 。 )逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
Agiantcobrasnakeonafarm.Thesnakeismadeoutofcorn(农场里有一条巨大的玉米构成的眼镜蛇 。 )逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
TeddybearsswimmingattheOlympics400mButterflyevent.(泰迪熊在奥运会400米蝶泳项目中游泳 。 )逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
以及更多......
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
给出同样的文本提示 , Imagen还可以生成不同类别的图像 。 比如下面这些图中 , 各组图片在物品的颜色、空间位置、材质等范畴上都不太相同 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
1Imagen的工作原理逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
论文地址:https://gweb-research-imagen.appspot.com/paper.pdf
Imagen的可视化流程Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力 。
在用户输入文本要求后 , 如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬” , Imagen先是使用一个大的冻结(frozen)T5-XXL编码器将这段输入文本编码为嵌入 。 然后条件扩散模型将文本嵌入映射到64×64的图像中 。
Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256 , 再从256×256升到1024×1024 。 结果表明 , 带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好 。
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
文章图片
图注:64×64生成图像的超分辨率变化 。 对于生成的64×64图像 , 将两种超分辨率模型分别置于不同的提示下 , 产生不同的上采样变化
大型预训练语言模型×级联扩散模型Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5) , 它能够非常有效地将文本合成图像:在Imagen中增加语言模型的大小 , 而不是增加图像扩散模型的大小 , 可以大大地提高样本保真度和图像-文本对齐 。