文本生成图像这么火,你需要了解这些技术的演变( 四 )
文本条件扩散模型是一种增强的ADM模型架构 , 它基于噪声图像x?和相应的文本标题c预测下一个扩散步骤的图像 。
视觉部分是修改后的U-Net架构 。 U-Net模型使用一堆残差层和下采样卷积 , 然后是一堆带有上采样卷积的残差层 , 使用残差连接(skipconnection)连接具有相同空间大小的层 。
文章图片
原始的U-Net架构 。 图片来自原论文 。
GLIDE对原始U-Net架构的宽度、深度等方面有不同的修改 , 在8×8、16×16和32×32分辨率下添加了具有多个注意力头的全局注意力层 。 此外 , 还将时间步嵌入的投影添加到每个残差块中 。
对于分类器引导模型 , 分类器架构是U-Net模型的下采样主干网络 , 在8×8层有一个注意力池以生成最终输出 。
文本通过transformer模型被编码成K个(最大注意力跨度尚不清楚)tokens的序列 。
transformer的输出有两种使用方式:首先 , 使用最终的token嵌入替代ADM模型中的类嵌入;其次 , token嵌入的最后一层(K个特征向量的序列)分别投影到整个ADM模型中每个注意力层的维度 , 然后连接到每一层的注意力上下文 。
文本transformer有24个宽度为2048的残差块 , 产生大约1.2B的参数 。 为64×64分辨率训练的模型的视觉部分由2.3B个参数组成 。 除了3.5B参数的文本条件扩散模型 , 作者还训练了另一个1.5B参数的文本条件上采样扩散模型 , 将分辨率提高到256×256(这个想法在DALL·E中也会用到) 。
上采样模型以与基本模型相同的方式以文本为条件 , 但使用宽度为1024而不是2048的较小文本编码器 。 对于CLIP引导 , 他们还训练了带噪声的64×64ViT-LCLIP模型 。
GLIDE在与DALL·E相同的数据集上进行训练 , 总的训练计算量大致等于用于训练DALL·E的计算量 。
GLIDE在所有设置中都是最优 , 即使设置允许DALL·E使用更多的测试时间计算来得到优越的表现 , 同时降低GLIDE样本质量(通过VAE模糊) 。
文章图片
该模型经过微调以支持无条件的图像生成 。 这个训练过程与预训练完全一样 , 只是将20%的文本token序列替换为空序列 。 这样 , 模型保留了生成文本条件输出的能力 , 但也可以无条件地生成图像 。
该模型还经过显式微调以执行修复 。 在微调期间 , 训练示例的随机区域被删除 , 其余部分与掩码通道一起作为附加条件信息输入模型 。
GLIDE可以迭代地使用zero-shot生成产生复杂场景 , 然后进行一系列修复编辑 。
文章图片
首先生成prompt「一个舒适的客厅」的图像 , 然后使用修复蒙版 , 后续文本prompt在墙上添加了一幅画、一个茶几 , 茶几上还有一个花瓶 , 最后把墙移到沙发上 。 示例来自原论文 。
DALL·E2/unCLIP
OpenAI于2022年4月6日发布了DALL·E2系统 。 DALL·E2系统比原来的DALL·E显著提升了结果 。 它生成的图像分辨率提高了4倍(与原来的DALL·E和GLIDE相比) , 现在高达1024×1024像素 。 DALL·E2系统背后的模型称为unCLIP 。
作者发现 , 就照片写实而言 , 人类略微喜欢GLIDE而不是unCLIP , 但差距非常小 。 在具有类似真实感的情况下 , 在多样性方面 , unCLIP比GLIDE更受青睐 , 突出了它的好处之一 。 请记住 , GLIDE本身比DALL·E1更受欢迎 , 所以说DALL·E2比它的前身DALL·E1有了显著改进 。
文章图片
- 文本转语音、OCR识别、翻译,大厂付费还好用的文字转语音工具
- 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
- 今晚19:30|荣耀70系列发布:全球首发imx800图像传感器
- Excel 中的文本数字,必须按数值的规则排序?是不是有点强人所难
- 新智元报道编辑:袁榭 拉燕新智元导读2022年5月26日|Nature重磅!在机器人骨架上首次生成人类肌腱细胞
- 小米12|小米 12S 图像实时泄漏,揭示徕卡品牌
- 逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
- 小米科技|小米手环 7 NFC 规格通过零售包装盒图像浮现
- 荣耀|IMX800+荣耀图像引擎,AI加持荣耀70打造轻薄影像旗舰
- 炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策