笔记本|首尾相接?比DALL·E更真,这个GLIDE更苗条了

笔记本|首尾相接?比DALL·E更真,这个GLIDE更苗条了

人工智能的发展 , 简直和我们人类不能同日而语 。 就好比我们辛辛苦苦折腾一年 , 现在回顾2021年年初 , 可能觉得自己没啥变化 , 虽然经历了疫情、灾难或一些坎坎坷坷 , 也许成熟了点 , 经历了一年的事 , 又长大一岁 。 不过大概率会和年初一样 , 还是那个穷样 , 还是那么平淡 , 似乎生活就是一日复一日 , 没死没灾即为平安 , 没啥惊天动地地改变 。 而对于AI而言 , 则可能已经偷天换日、更新换代、时异事殊、今非昔比了 。 比如 , 今年年初惊动四座的DALL·E , 甫一出现就引发关注 , 可谓开局得胜喧嚣一时 。
而今 , 一不小心就又到年底了 。 这一年也匆匆快要结束了 。 而马不停蹄的人工智能领域 , 依然还有成果推出 。 没错 , 和DALL·E有关 , 就是OpenAI刚刚推出了一个新的文本生成图像模型 , 名叫GLIDE 。 一个年初 , 一个年尾 , 简直是首尾相连无缝衔接啊 。

和年初老爸那一代120亿参数膘肥体壮的体型不同的是 , GLIDE只有35亿参数 。 然而 , 长江后浪推前浪 , GLIDE显然不可能毫无进步 , 相反 , 机智客看它的表现感觉 , 它进步的还可以 , 能生成的图像显得更为逼真更为符合逻辑 。
符合逻辑这个词用得好 , 用得妙 , 简直可以说好得呱呱叫 。 因为 , 它居然仿佛真有和我们人类类似的对物理世界的认知逻辑意义一样 , 比如你让它画出八条腿的猫 , 它都懒得理会你的命令要求 , 好像觉得不合理一样“自作主张”生成符合客观规律的画 。
【笔记本|首尾相接?比DALL·E更真,这个GLIDE更苗条了】据了解 , GLIDE全称Guided Language to Image Diffusion for Generation and Editing , 是一种扩散模型 (diffusion model) 。 这个2015年才提出的模型 , 被证明在图像生成方面有很大的潜力 , 尤其是与引导结合来兼得保真度和多样性 。 而此次 , OpenAI用了这个模型技术 , 展示了扩散模型的能力 , 秀了把肌肉 。 也有开源项目公开 , 机智客看了下 , README.md比较简单 , 除了简单介绍外 , 介绍了安装方法了 。 有关详细的用法示例 , 需要参阅笔记本目录 。 text2im笔记本演示了如何使用无分类器引导的GLIDE(过滤)生成以文本提示为条件的图像 。inpaint笔记本显示了如何使用GLIDE(过滤)填充图像的遮罩区域 , 并以文本提示为条件 。clip_-guided笔记本演示了如何使用GLIDE(过滤)+过滤噪音感知剪辑模型生成基于文本提示的图像 。 当然关于具体的技术参数和背景知识介绍 , 大家可以看论文专业介绍 , 这里不多介绍了 。