AI能读懂40种语言,背后是中国团队22年坚守( 三 )
团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架(UnifiedSpatialRepresentationSemi-supervisedASR , USRS-ASR) , 获此佳绩也验证了该算法良好的推广性 。
文章图片
受限赛道15个语种的成绩
在受限赛道上 , 由于每个语种只有10小时语音数据 , 如何使用少量文本数据 , 利用无监督的方法增加语音训练数据的多样性至关重要 。
团队运用Flow-TTS语音合成进行训练数据扩增 , 并使用语音属性解耦技术保证合成语音的多样性 。
结果显示 , 使用上述无监督数据扩增方案 , 能够稳定、显著地提升低资源语音识别任务的效果 。
文章图片
非受限赛道7个语种的成绩
而在非受限赛道上 , 虽然可以利用公开的语音数据 , 但数据总量仍只有数百小时 , 而且语音数据和文本数据的量级差距十分明显 , 这对于端到端识别框架来说 , 弊端更为明显 。
为了在端到端统一框架下 , 充分使用少量语音数据和海量文本数据 , 团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS-ASR:
- 小米科技|不聊性能只谈拍照!新旗舰反向升级成潮流,拍照手机如何选?
- 电池|vivoY55s,能有效解决你的续航焦虑!
- 搜索引擎|淘宝运营系统出台春节打烊功能,淘宝运营商家该如何选择?
- 苹果|国内首款支持苹果HomeKit的智能门锁发布:iPhone一碰即开门
- 小米科技|预算只有两三千买这三款,颜值性能卓越,没有超高预算的用户看看
- CPU|元宇宙+高端制造+人工智能!公司已投高科技超100亿,股价仅3元
- MacBook Pro|光伏电池充电器/带MPPC的太阳能电池锂离子电池滴流充电器LTC3105
- 小米科技|RTX3060的性能到底如何?相比RTX2060提升有多大?
- 为了你的iPhone能磁吸充电,苹果又花了5亿买材料
- 小米 11 Ultra 内测 NFC“读写勿扰”与“解锁后使用”功能