合成|陈根:深度伪造,如何而来?

文|陈根
技术盛行的时代里,人工智能让社会生活的一切都显得表观和直接,也让伪造走向深度和长远。
作为一种基于人工智能的人体图像合成技术,深度伪造的起初只是程序员用于自制搞笑的“换头”视频的简单想法。而当两个深度学习的算法相互叠加,最终创造了一个复杂的系统。
人工智能的进步令这个复杂的系统用途也得以扩充。从特定用户实时匹配面部表情,并无缝切换生成换脸视频,到其可以模仿的对象不再被限制。不论是明星政客,还是任何普通人,都可以在深度伪造技术下达到“以假乱真”的程度。
在这些应用带来发展机遇的同时,其背后的安全隐患也开始放大。随着深度伪造技术的越来越复杂,和越来越容易制作,深度造假正带来一系列具有挑战性的政策、技术和法律问题。
一开始,“深度伪造”并不叫“深度伪造”,而是作为一种人工智能合成内容技术而存在。而深度合成技术是人工智能发展到一定阶段的产物,源于人工智能系统生成对抗网络(GAN)的进步。
【 合成|陈根:深度伪造,如何而来?】GAN由生成器和识别器两个相互竞争的系统组成。建立GAN的第一步是识别所需的输出,并为生成器创建一个培训数据集。一旦生成器开始创建可接受的输出内容,就可以将视频剪辑提供给识别器进行鉴别;如果鉴别出视频是假的,就会告诉生成器在创建下一个视频时需要修正的地方。
根据每次的“对抗”结果,生成器会调整其制作时使用到的参数,直到鉴别器无法辨别生成作品和真迹,以此将现有图像和视频组合并叠加到源图像上,终于生成合成视频。典型的“深度合成”主要包括人脸替换、人脸再现、人脸合成以及语音合成四种形式。
人脸替换也被称为换脸,是指将某一个人的脸部图像(源人物)“缝合”到另外一个人的脸上(目标人物),从而覆盖目标人物的面部。人脸再现则利用深度合成技术改变人的面部特征,包括目标对象的嘴部、眉毛、眼睛和头部的倾斜,从而操纵目标对象的脸部表情。
合成|陈根:深度伪造,如何而来?
文章插图

人脸合成则可以创建全新的人脸图像,而这些随机生成的人脸图像很多都可以媲美真实的人脸图像,甚至代替一些真实肖像的使用,比如广告宣传、用户头像等。语音合成涉及创建特定的声音模型,不仅可以将文字转化成声音,而且可以转化为接近真人语调和节奏的声音。
深度合成技术的走红,是一场意外。2017年,美国新闻网站 Reddit的一个名为“deepfakes”的用户上传了经过数字化篡改的色情视频,即这些视频中的成人演员的脸被替换成了电影明星的脸。此后,Reddit网站成为了分享虚假色情视频的一个阵地。
尽管后来 Reddit网站上的 deepfake 论坛因为充斥着大量合成的色情视频而被关闭,但 deepfake背后的人工智能技术却引起了技术社区的广泛兴趣,开源方法和工具性的应用不断涌现,比如,Faceswap、FakeAPP、face2face等。
而从那时起,新闻媒体就开始使用“deepfake”一词来描述这种基于人工智能技术的合成视频内容。于是,基于“deepfake”技术的内容和“deepfake”的语境,深度伪造由此而生。
合成|陈根:深度伪造,如何而来?
文章插图