AI能读懂40种语言,背后是中国团队22年坚守( 三 )


团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架(UnifiedSpatialRepresentationSemi-supervisedASR , USRS-ASR) , 获此佳绩也验证了该算法良好的推广性 。
AI能读懂40种语言,背后是中国团队22年坚守
文章图片
受限赛道15个语种的成绩
在受限赛道上 , 由于每个语种只有10小时语音数据 , 如何使用少量文本数据 , 利用无监督的方法增加语音训练数据的多样性至关重要 。
团队运用Flow-TTS语音合成进行训练数据扩增 , 并使用语音属性解耦技术保证合成语音的多样性 。
结果显示 , 使用上述无监督数据扩增方案 , 能够稳定、显著地提升低资源语音识别任务的效果 。
AI能读懂40种语言,背后是中国团队22年坚守
文章图片
非受限赛道7个语种的成绩
而在非受限赛道上 , 虽然可以利用公开的语音数据 , 但数据总量仍只有数百小时 , 而且语音数据和文本数据的量级差距十分明显 , 这对于端到端识别框架来说 , 弊端更为明显 。
为了在端到端统一框架下 , 充分使用少量语音数据和海量文本数据 , 团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS-ASR: