值得一提的是,VALL·E训练用的数据集不算特别大 。
相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS 。
而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E 。
文章图片
有网友已经在畅想它可以应用的地方了:
不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音 。
当然,还可以用在有声书的录制上 。
文章图片
不过,VALL·E目前还没开源,要想试用可能还得再等等 。
文章图片
作者介绍这篇论文所有作者均来自微软,其中有三位共同一作 。
文章图片
一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等 。
文章图片
共同一作Sanyuan Chen,哈工大和微软亚研院联合培养博士生,研究方向包括自监督学习、NLP和语音处理等 。
文章图片
共同一作Yu Wu,微软亚研院NLP小组研究员,在北航获得博士学位,研究方向是语音处理、聊天机器人系统和机器翻译等 。
文章图片
感兴趣的小伙伴可以戳下方论文地址查看~
论文地址:https://arxiv.org/abs/2301.02111
音频试听地址:https://valle-demo.github.io/
参考链接:https://twitter.com/DrJimFan/status/1611397525541617665
- 微软电脑管家2.2公测版正式发布,纯净无打扰、无弹窗
- 相信很多朋友都有过和小编一样的经历|如何轻松解除网页复制限制,实现复制自由!
- 微软|中国芯片产业的优势,产业链丰富,带来全球芯片产业转移
- 微软自从推出了win11预览版后|微软win11正式版,网友反映现存的bug
- 微软在Windows11上线的同时|微软上线pchealthcheck检查工具
- 虽然微软时不时就会推送各种版本的win11更新|微软win1122h2新功能曝光,支持桌面聚焦
- 我们都知道微软官方有很多版本的Windows10系统|win10系统21h2版本已发布可用!
- 微软AR专利探索紧凑、轻便、节能的SLM方案
- 微软正在谈判以160亿美元收购人工智能公司Nuance Communications
- 微软两年的海底数据中心实验结果超出预期,水下服务器故障率极低