朱俊彦团队最新论文:GAN监督学习给晃动猫狗加表情,丝滑又贴合
丰色发自凹非寺量子位报道|公众号QbitAI
GAN又被开发出一项“不正经”用途 。
给猫狗加表情:
文章图片
文章图片
给马斯克加胡子:
文章图片
不管视频中的脑袋怎么左晃右晃 , 这些表情都能始终如一地贴合面部 , 且每一帧都表现得非常丝滑 。
这就是朱俊彦等人的最新研究成果:
一种利用GAN监督学习实现的密集视觉对齐(Visualalignment)方法 。
该方法的性能显著优于目前的自监督算法 , 在多个数据集上的性能都与SOTA算法相当 , 有的甚至还实现了两倍超越 。
文章图片
用GAN监督学习实现密集视觉对齐
视觉对齐是计算机视觉中光流、3D匹配、医学成像、跟踪和增强现实等应用的一个关键要素 。
直白地说 , 比如在人脸识别中 , 就是不管一张脸是倒着立着还是歪着 , 任何角度都可以精确识别出哪块是眼睛哪块是鼻子 。
而开创性的无监督视觉对齐方法Congealing , 在MNISTdigits这种简单的二值图像(binaryimages)上表现得出奇好 , 在处理大多数具有显著外观和姿势变化的数据集上就差了点 。
为了解决这个问题 , 该团队提出了这个叫做GANgealing的新视觉对齐方法 。
它是一种GAN监督算法 , 同时也受到Congealing的启发 。
Congealing模型的框架如下:
文章图片
首先 , 在未对齐的数据上训练生成器G 。
然后在生成器G的潜空间中通过学习模式c , 来创建一个合成数据集以进行后续对齐 。
接着使用该数据集训练空间变换网络T(STN , SpatialTransformerNetworks) , 最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像 。
该算法的关键是利用GAN的潜空间(在未对齐的数据上训练)为STN自动生成成对的训练数据 。
并且在这个GAN监督学习框架中 , STN和目标图像实现联合学习模式 , STN专门使用GAN图像进行训练 , 并在测试时推广到真实图像 。
实际效果如何?
实验发现 , GANgealing在八个数据集(自行车、狗、猫、汽车、马、电视等)上都能准确找出图片之间的密集对应关系 。
文章图片
其中 , 每个数据集的第一行表示未对齐的图像和数据集的平均图像(每行最右那张) , 第二行为转换后的对齐效果 , 第三行则显示图像之间的密集对应关系 。
在图像编辑应用中 , GANgealing可以只在平均图像(下图最左)进行示范 , 就能在数据集中的其他图像上实现同样的效果——不管这些图像的角度和姿势变换有多大 。
比如第一行为给小猫加蝙蝠侠眼镜 , 最后一行为给汽车车身贴上黑色图案 。
文章图片
在视频编辑中 , GANgealing在每一帧上的效果都相当丝滑 , 尤其是和监督光流算法(比如如RAFT)对比 , 差距非常明显:
文章图片
因此作者也表示 , GANgealing可以用在混合现实应用中 。
而在定量实验中 , GANgealing在非常精确的阈值(<2像素误差容限)条件下优于现有的监督方法 , 在有的数据集上甚至表现出很大的优势 。
- 华为|华为任正非最新信件曝光:春天很快就会到来!
- 图灵奖|中国科技团队创历史,360打破行业垄断,登顶世界最强人工智能榜
- iPad|ipad平替电容笔推荐;2022最新性价比电容笔推荐
- 试剂盒|中国研发团队推出“更灵敏”试剂盒获批上市 可精准探测德尔塔、奥密克戎
- apu|明年入门级装机可以不买显卡了,最新APU核显也能吃鸡单机
- 单片机|OPPO最新实验室曝光:与华中科技大学联合打造,将加速新技术研发
- 最新最全!31省份春节返乡防疫要求来了
- 高度计|美国C波段5G部署争执最新进展:联邦航空局发指令限制使用高度计
- 西宁最新返乡政策来了
- 全国31省份最新返乡政策汇总