最近|从imagen到parti,谷歌又整了啥新活?

最近 , 在「AI画画」这一块 , 大厂们又卷上了新高度!
4月 , 在GPT-3大模型的加持下 , OpenAI对画图界的扛把子DALL-E进行了2.0版的全面升级 。
让自然语言生成图像达到了全新的高度 。 比如下面这幅「孙子玩儿电脑」(非骂街) 。
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
5月 , 谷歌不甘落后推出AI创作神器Imagen , 效果奇佳 。
号称重夺AI画画老大哥地位的Imagen , 迅速被国外网友玩出了新高度 , 一波「虎戴VR」热度直接起飞 。
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
有人惊呼 , 现在的新模型的保质期只有一个月了么?
谷歌一看 , 这是要开卷的节奏 , 不如我再进一步 , 再搞个新的AI大画家吧 。
于是 , 只过了一个月 , 新一代AI绘画大师Parti就来了!
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
Parti , 全名叫「PathwaysAutoregressiveText-to-Image」 , 是谷歌大脑老大JeffDean提出的多任务AI大模型蓝图Pathway的一部分 。
JeffDean在社交媒体上第一时间推广了一波 。
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
同时他也表示 , 和一个月之前的「老前辈」Imagen相比 , 这次的Parti使用的是不同的技术路线 。
为此 , 谷歌AI专门写了一篇博客文章 , 对比了两个「AI大画家」在技术层面上的区别 。
虽然Imagen和Parti使用类似技术 , 不过但具体的策略是不同的——自回归和扩散 。 这样互补的方式使得两个强大模型的有了更加令人期待的组合!
从Imagen到Parti , 谷歌又整了啥新活?
先来回顾一下「老前辈」Imagen , 它是一个Diffusion模型 , 学习将随机点的图案转换为图像 。
这些图像首先以低分辨率开始 , 然后通过超分辨率技术 , 不断的丰富图像的信息 , 进而达到提高图像分辨率的目的 。
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
具体点讲 , 就是:
在用户输入文本后 , 如「一只戴着蓝色格子贝雷帽、穿着红色波点高领毛衣的金毛犬」 , Imagen先使用一个冻结(frozen)T5-XXL编码器将输入文本映射到嵌入序列和64×64图像扩散模型 , 再将生成的64×64图像上采样为256×256图像 , 最后上采样为1024×1024图像 。
而这次新推出Parti是一个自回归模型 , 它的方法首先将一组图像转换为一系列代码条目 , 类似于拼图 。 然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像 。
换言之 , Parti将「文本到图像的生成」转换成一个「序列到序列」的建模问题 , 类似于机器翻译——这使得它能够受益于大型语言模型(如PaLM) , 这对于处理长而复杂的文本提示和生成高质量的图像至关重要 。
在这种情况下 , 目标输出是图像token的序列 , 而不是另一种语言的文本token 。
Parti通过使用功能强大的图像标记器「ViT-VQGAN」将图像编码为离散token序列 , 并利用其重建图像token序列的能力 , 使其成为高质量、视觉多样化的图像 。
最近|从imagen到parti,谷歌又整了啥新活?
文章图片
参数从3.5亿到200亿:有啥区别?
Parti的模型规模支持扩展 , 最高可扩展至200亿参数 。
参数越多 , 模型规模越大 , 生成图像的细节越丰富 , 错误信息也明显降低 。
比如面对同样的文本输入:
身穿橙色连帽衫和蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上 , 胸前举着写着「欢迎朋友」的标语