2013年|电影影评《her》之ai音频 2013年

2013年，一部科幻电影「Her」讲述了，宅男作家西奥多（Theodore）爱上了人工智能系统萨曼莎（Samantha）那略微沙哑的性感嗓音的故事。
受这部电影启发，一家AI语音初创公司Sonantic创造出了一种合成声音，可以表达微妙的情感，比如挑逗和调情。
AI学会调情了
Sonantic的目标关键在于将非语音声音融入到音频中，训练AI模型重现那些微弱的呼吸声、嘲笑和半掩的笑声等等。
这些声音和人类生物学特征相吻合，可以呈现出一场真实的演讲。
Sonantic的联合创始人和首席技术官JohnFlynn表示，我们以爱作为主题，就是为了是看看AI是否能够模拟微妙的情绪。
在第一次听的时候，大多数人都会认为这个声音和真人的声音几乎没什么区别。
当你听到人工智能说，「IthinkI,IthinkIloveyou,Iloveyou」时，就会有一种舒适感。
视频中，她的呼吸声，笑声都让人不得不相信这就是真人发出的声音。
Sonantic的首席执行官ZeenaQureshi将公司的软件描述为「声音的Photoshop」。
这一软件的界面允许用户输入他们想要合成的语音，指定传递的情绪，然后从一组人工智能声音（其中大部分是从真人演员那里复制的）中选择。
情绪的选择包括愤怒、恐惧、悲伤、快乐和喜悦，以及刚刚更新的调情、害羞、取笑和吹嘘。
「导演模式」（directormode）能够进行更多的调整，包括声音的音调，传达的强度，还有那些微弱的非语音发声，比如笑声和呼吸声。

文章图片
【2013年|电影影评《her》之ai音频】有网友表示，「这个声音听起来也太真实了吧！」「我现在终于可以创造我自己的Her 。」

文章图片

文章图片
首先，为了让AI的声音更加逼真，必须要有人工润色这一步。
在很多人工智能的领域都是这样，比如无人驾驶。无人驾驶已经基本上实现了自动驾驶，但是还有最后非常重要的5%的部分需要人工参与。
这就说明完全自主、完全合格的AI语音合成还有很长的一段路要走。
另外，心理学上有个词叫「启动效应」，它能做到欺骗你的感官。
这段演示版的视频，展示了一个真人演员在镜头前局促不安的片段。这个片段会激发你的大脑，让你觉得同时播放的声音也是真人声音。
这说明，最好的合成音频，就是「半真半假」。有的输出是真实的，有的是AI合成的。
灵感源头「Her」
除去AI音频逼真到什么程度的问题， Sonantic放出的音频还暴露了其它一些问题。
比方说，创建一个会调情的AI需不需要遵守什么道德规范？用AI的声音欺骗听者是否公平？
Sonantic又为什么选择女性的声音来制作调情音频？
实际上这个问题说明，在当今男性主导的科技行业，这种选择暗含了一种微弱的性别歧视。一般都会把这种AI助理设置成顺从、甚至有些轻浮的秘书形象。
关于这个问题，该公司表示，「我们之所以选择女性的声音，只是因为我们这个点子是受SpikeJohze在2013年电影Her所启发的。这部电影的主角就爱上了一个女性AI助理，名叫Samantha 。」
在第二个问题上， Sonantic表示，「公司清楚这项技术的发展可能会带来哪些道德上的难处。所以公司在如何使用和哪里使用AI音频的问题上非常小心。」