从喜马拉雅看音频技术革命的下一站

近年来 , AIGC(AI-GeneratedContent , AI生成虚拟内容)横空出世 。 技术发展也改变着音频领域的内容思维 , 以TTS技术(Text-to-speech , 语音合成)为代表的AIGC新技术产品正在一步步走向成熟 , 以喜马拉雅为代表的一批音频平台已在该领域潜心钻研多年 , 助推AIGC从实验室迈向AI合成音、AI演播、智能新闻播报等更多应用场景 。
技术革新撬动内容生产升级
随着音质传输的升级、智能交互的深化、终端场景的拓宽 , 在线音频内容消费时长伴随着技术升级正在加速驶入发展快车道 。 根据易观分析数据显示 , 2021年中国“耳朵经济”市场的活跃用户规模已达到8亿人次 , 其中在线音频细分市场的月活跃人数稳定在3亿人次 , 且呈现出稳步上涨的态势 。
从喜马拉雅看音频技术革命的下一站
文章图片
消费需求的增加亟需扩大内容生产规模 , 提高内容生产质量和效率一直是行业发展的重要问题 。 上个时代 , 软硬件的技术发展推动了UGC成为了内容生产的重要模式 。 今年将迎来十周年的喜马拉雅是这个时代跑出来的“内容生态前行者” , 其拥有的完善的UGC内容创作者生态 , 通过给用户更便捷的音频创作工具及拓展更多音频品类(如播客)来激励普通用户参与创作、分享音频 , 从而增加平台上长尾内容 。
UGC模式在技术助力下拓宽对于“内容生产者”的界定 , 通过抹平内容生产和消费的严格划分、释放内容生产力 。 但这种技术的应用归根到底是基于对于人的使用 , 当内容生产者和消费者的生产潜力都被消耗殆尽 , 内容消费需求的缺口又能由什么来填补?
答案就是AI 。 人工智能未来将催生新的内容生产形式 , 当生产不局限于人的时候 , 生产力也将迎来空前解放 。
AIGC——音频内容革命的下一站
年初 , 喜马拉雅自研的跨语言语音合成创新技术论文 , 及其与中国科学技术大学合作的说话人日志技术研究论文 , 均被世界顶级学术会议“2022年IEEE国际音频、语音与信号处理会议”(2022IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing , ICASSP2022)收录 , 并受邀于今年5月在新加坡举办的会议上向全球展示相关技术成果 。
从喜马拉雅看音频技术革命的下一站
文章图片
ICASSP2022是ICASSP第47届会议 , 会议主题为“以人为本的信号处理” , “以人为本”这一理念也是喜马拉雅技术发展的驱动力之一 。 喜马拉雅CTO姜杰表示 , 我们在技术的创新和应用中很重视观察人和AI交互协同能产生什么全新的价值增量 。 音频内容呈现更智能化的趋势背后 , 将是AIGC对于喜马拉雅原有的UGC+PGC+PUGC的音频生态的进一步丰富 。
以AIGC延展PGC , AI合成音精准还原单田芳先生“云遮月”嗓音
相比于机器人来说 , 人最大的差别就在于个体化之间的不可复制性 , 杰出的音频内容生产方被消费者选择也恰恰是因为他的独特性 。 例如我国著名评书艺术表演大师单田芳先生 , 善以声音塑造角色 , 其标志性的“云遮月”嗓音成为了独一无二的内容符号 , 在民间有着“凡有井水处 , 皆听单田芳”的说法 。
如果能将单田芳先生的声音解码 , 再进行重新编码 , 就能突破内容创作的局限性 , 实现原音重现 , 让人们享受到更多单田芳先生的优秀作品 , 喜马拉雅已在2021年实现了这一点 。 喜马拉雅智能语音实验室利用TTS技术 , 并自主设计了单独的韵律提取模块 , 并将其融入到HiTTS技术框架中 , 让单老的AI合成音仿佛本尊再现 。
从喜马拉雅看音频技术革命的下一站