谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……

杨净金磊发自凹非寺
量子位|公众号QbitAI
朋友 , 你知道这个英文单词是什么吗?
Pneumonoultramicroscopicsilicovolcanoconiosis.
这个世界公认最长——由45个字母组成的单词 , 意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病) 。
但如果说 , 现在不是让你拼读这个单词 , 而是……把它给画出来呢?
(读都读不出来 , 还画画???)
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
谷歌最新提出来的一个AI——Parti , 它就能轻松hold住这事 。
在把这个单词“投喂”给Parti后 , 它就能有模有样地生成多张合情合理的肺部疾病图片:
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
但这只是Parti小试牛刀的能力 , 据谷歌介绍 , 它是目前最先进的“文本转图像”AI 。
例如 , 跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合” , 输出结果是这样的:
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
(不知道的还真以为是画报呢)
而且在算法路数上 , 还不同于谷歌自家的Imagen , Parti可以说是把“AI作画”卷出了新高度 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
就连谷歌AI负责人JeffDean也连发数条推文 , 玩得不亦乐乎:
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
可扩展到200亿参数:更逼真 , 更“聪明”事实上 , Parti的能力还不止于此 。
得益于模型可扩展到200亿参数 , 一方面 , 它生成的图像更加细节逼真 。
不管是短短几个字 , 还是五十多个个单词的小段落 , 都能清晰展现出来 。
比如 , Thebackofaviolin , 小提琴的背面 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
亦或是照着梵高《星空》来描述的夜晚画面 。 ps , 这段有67个单词 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
结果Parti也不在话下 , 一揽子把各种风格的图全给你画出来了~
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
这也正是Parti的第二大能力 , 不光细节到位 , 风格也能做到多变 。
还有像“浣熊穿正装 , 头戴礼帽 , 拄着拐杖 , 拿着个垃圾袋”这种奇特的描述 , 它也能在整出花活的同时还不落细节 。
风格上 , 则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
甚至有时候它还会讲双关笑话 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
(Toad’ay , 癞蛤蟆)
具体在测试结果上 , MS-COCO、LocalizedNarrative(LN , 4倍长的描述)上FID分数 , Parti都取得了最先进的结果 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
尤其在MS-COCO零样本的FID得分仅为7.23 , 微调FID得分为3.22 , 超过了此前的Imagen和DALL-E2 。
所有组件都是Transformer时隔一个月 , 谷歌再把AI作画卷出新高度 , 结果作者却说:秘诀很简单 。
谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscop……
文章图片
Parti主要是将文本生成图像视作序列到序列之间建模 。 这有点类似于机器翻译 , 将文本标记作为编码器的输入 , 目标输出从文本变成了图像 。