英伟达|英伟达又一次突破想象力:一句话实时P图 在线试玩( 二 )
文章图片
这几种玩法叠加在一起,简直让网友们脑洞大开 。
像外媒ZDNet就恶搞出来了一种神奇的玩法,在已有的风景上画个人头:
文章图片
然后让GauGAN2根据已有的画面,再重新生成图画,就会得到如下“人头海岛”的神奇景观:
文章图片
不过这可能也对个人画技有所要求,在我们的灵魂画风下,效果看上去就有些……不太聪明的亚子 。
文章图片
那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?
它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?
与DALL·E有什么不同?
2019年,英伟达GauGAN2的“前身”GauGAN正式开源 。
当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:
文章图片
当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:
文章图片
据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法 。
SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像 。在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译” 。
文章图片
△GauGAN的技能点(狗头)
现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二 。
生成这些风景画的效果和“手法”,是不是感觉有点熟悉?
没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像 。
今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片 。
文章图片
不过,这两个模型生成的内容其实不太一样 。
GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等 。
文章图片
这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果 。
据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高 。
- 知乎|电商达人迎来补税大潮,知乎带货第一人,被通知补税34万!
- 央视|央视曝光直播电商以次充好乱象!有平台抽样不合格率达50%
- 能量密度达500Wh/kg!日本开发出新款锂空气电池
- 百度|传英伟达加大GeForce RTX 3050供应力度,大量供货将在春节后到来
- 400亿芯片交易接近尾声,英伟达、ARM表明态度,禁止收购后
- 文和友|泡泡玛特与飞书达成合作 新消费代表企业加速迁移飞书
- 入场券|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺→
- 宋嘉吉|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺
- 军工|中国版“英伟达”诞生,核心技术完全自研,国产替代即将崛起
- 英伟达 RTX 3090 Ti 经销商定价曝光,约 2.2 万元起