IT之家 1 月 27 日消息,如何让 AI 语音有效模仿人类对话的丰富动态与情感,已成为全球研究者的共同挑战。据微软官方消息,就在不久前,微软 Azure Neural TTS(神经网络文本转语音)推出的新一代模型“Uni-TTS v4”在这一领域取得了里程碑式的重大突破。在“2021 国际语音合成大赛(Blizzard Challenge 2021)”的测试中,Uni-TTS v4 的语音表现与通用数据集上的自然语音相比几乎没有明显差别,展现出足以“叫板”真人对话的实力。
文章插图
“耳听”为实,微软官方还放出了几段 TTS 和真人对话的对比,一起来感受下新模型带来的逼真语音表现。
英语:The visualizations of the vocal quality continue in a quartet and octet.
真人录音:
Uni-TTS v4:
【 edg|微软 Neural TTS 新模型呈现真人般情感饱满的 AI 语音】
英语:Like other visitors, he is a believer.
真人录音:
Uni-TTS v4:
中文:另外,也要规避当前的地缘局势风险,等待合适的时机介入。
真人录音:
Uni-TTS v4:
用户可以在 Azure TTS 在线服务中使用自创文本来创建新的 demo。目前 Uni-TTS v4 可支持 TTS 语言库中 7 个语种的 8 个语音,研发团队还将持续使用最新模型优化 Neural TTS 已支持的其它语言以及自定义神经语音,以便能让用户通过 Azure TTS API、?Microsoft Office 和 Edge browser 直接获得更出色的新一代 TTS 语音。
官方介绍,为了让 TTS 在以上两方面获得提升,Uni-TTS v4 在声学建模中引入了两项重要更新,研究团队首先采用了一个带有 transformer 和卷积块的新架构,以更好地模拟声学模型中的局部和全局依赖关系;其次,从显性视角(身份 ID、语种 ID、音调、语速)和隐性视角(话语级和音素级韵律)系统地对变量信息进行建模。这些视角分别使用监督学习和无监督学习,确保端到端的音频具有足够自然的表现力。
IT之家了解到,作为微软 Azure 认知服务中的强大语音合成功能,Neural TTS 可用于帮助开发者将文本转换为真人一般的逼真自然语音,常被用于语音助手场景、文字朗读功能,及作为辅助性工具等等,同时也被整合到微软的 Edge Read Aloud、Immersive Reader 和 Word Read Aloud 等旗舰产品中,还被 AT&T;、Duolingo、Progressive 等众多客户采用。Neural TTS 已拥有 330 多个音色,支持来自不同国家和地区的近 130 种语言或方言。用户和企业可以通过搜索“Azure TTS”进入产品网站,测试体验 Neural TTS 的丰富预设语音,抑或录制并上传自己的样本,来创建独有的自定义语音。
- 微软将联系不活跃XGP/金会员用户 不想继续用可退款
- 微软|微软电脑管家1.0泄露:国内专供、干净清爽无捆绑
- 微软|window 设备2022
- 云计算业务增速下降,游戏业务开始反攻,微软的游戏野心不止一个暴雪
- 微软|被微软收购的后果有多严重?看看隔壁贝塞斯达的下场就知道了
- 联发科|财报解剖 | 10%的逆天改命!微软吹响反攻第一哨
- Windows|Windows 11正式发布3个月相当争气:给微软长脸了
- 年会|微软:元宇宙是互联网的新版本
- 创新型|北京大学光华管理学院携手微软,全面加速创新型管理人才培养
- 分析师|备受开发者青睐,微软云计算能否超越亚马逊?