深度学习|通过短文本生成图像( 二 ) 微软

下图提供了Obj-GAN模型的高级架构。该模型接收一个带有一组标记的句子作为输入，然后将其编码为单词向量。在此之后，输入经过三个主要阶段进行处理:框生成、形状生成和图像生成。

Obj-GAN模型的第一步以句子为输入，生成语义布局，即由其边界框指定的对象序列。模型的边框生成器负责生成一个包围边框序列，然后由形状生成器使用。给定一组边界框作为输入，形状生成器预测相应框中每个对象的形状。由形状生成器产生的形状被图像生成器GAN模型使用。
Obj-GAN包括一个基于两个主生成器的多级图像生成神经网络。基生成器首先根据全局句子向量和预先生成的语义布局生成低分辨率图像。第二个生成器通过关注最相关的单词和预生成的类标签来细化不同区域的细节，并生成更高的分辨率。

到目前为止，您可能想知道架构的对抗性组件在哪里发挥作用?这就是对象鉴别器的作用。该组件的作用是充当训练图像生成器的对手。 Obj-GAN模型包括两个主要鉴别器:
·Patch-Wise Discriminator:这个Discriminator用于训练盒子和形状生成器。第一个鉴别器尝试评估生成的边界框是否与给定的句子相对应，而第二个鉴别器做同样的工作来评估边界框与形状之间的对应关系。
·object - wise Discriminator:该Discriminator使用一组边界框和对象标签作为输入，并尝试确定生成的图像是否与原始描述相对应。
对抗式生成器-鉴别器组合用于边框、形状和图像的生成，使Obj-GAN优于其他传统TTI方法。微软对Obj-GAN与最先进的TTI模型进行了评估，结果非常显著。只要看看生成的图像的质量和它们与原始句子的对应关系就知道了。

创建给定叙述的视觉表示的能力将是下一代文本和图像分析深度学习模型的一个重要重点。 Obj-GAN等理念无疑为这一深度学习领域带来了相关创新。
本文作者:Jesus Rodriguez