Meta 发布 AI 语言处理模型,最高能识别 128 种语言
作为元宇宙最坚定的支持者之一 , Facebook在上个月宣布改名Meta , 此后便新动作不断 , 先是推出了一个触觉手套 , 试图让人们在VR世界中也能体验到触觉变化 。
文章图片
触觉之后 , Meta又盯上了语言 , 它要让人们在虚拟世界中也可以无障碍沟通 , 哪怕双方使用的语言不同 , 你说英语 , 我说中文都能互相理解 。
就这样XLS-R来了 , 它是Meta最近发布的一个AI语言处理模型 , 最高能识别128种语言 , 目前已经公布了网页体验版 。
文章图片
▲XLS-R网页体验版仅支持语音输入
体验版的功能有一定缺失 , 仅支持将22种语言翻译为16种语言 , 我试了下最常见的英译中 , 一段7秒左右英文语音 , XLS-R还是能相对准确地识别 , 中文翻译和英文识别都基本正确 , 两者耗时都在1.4秒左右 , 并不算短 。
文章图片
文章图片
对比市面上常见语音翻译应用 , 这个速度和转译表现其实中规中矩 , 都对口语清晰度有要求 , 一旦语速稍微快一些 , 就比较难理解 , 转译会出错 。
XLS-R的潜力体现在多语言通用AI模型上 , 据Meta该技术基于wac2vec2.0预训练模型 , 能将语音拆成拆成25毫秒的基本单元来分析 , 利用上下文转换语音内容 , 提升识别准确度 。
言 , 转换准确率提升了不少 , 经过通过436000小时的公开录音训练后 , 才有如今的XLS-R 。
文章图片
▲XLS-R识别单词错误率更低
XLS-R仅仅用一种语言模型就可以转换128种语言 , 和特殊领域使用特殊模型的常见做法不同 , 极大地提升了通用性 。 在官方博客中 , Meta表示它们的目标是用单一模型识别全球7000多种语言 , 从而改进转换算法 。
【Meta 发布 AI 语言处理模型,最高能识别 128 种语言】这是一个新的开始 , 离真正成为Meta所设想的虚拟世界基础组成部分还比较难 , 这不仅仅和技术有关 , 设备算力也是限制 。
作为同在在自然语言识别领域拥有大量技术储备的Google , 其实比Meta更早在消费级设备上支持多语种翻译功能 , Pixel6系列支持liveTranslate功能 , 可以在聊天软件中进行翻译 , 无障碍地与外语朋友交流 。
只是liveTranslate功能支持的语言并不算多 , 主要还是英语、德语、日语之间的翻译 , 哪怕Pixel6所使用的Tensor芯片在AI性能方面已经是冠绝全球 , 达到了骁龙888+的三倍 。
只有联网liveTranslate功能才能做到支持48种语言 , 而使用云计算技术的Google翻译也仅支持108种语言 , 离7000种语言很远 。
元宇宙离我们仍然有一段距离 , 不过XLS-R等技术作为Meta口中虚拟世界的基础建设之一 , 或许能在其他领域发挥作用 , 现在它已经发布了XLS-R预训练模型的微调教程 , 让业内人士可以基于它进行微调以便应用到具体的工作当中 。
或许不久之后 , 我们能看到越来越多的应用支持更多语种的语音转译功能 。
文章图片
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 苹果|国内首款支持苹果HomeKit的智能门锁发布:iPhone一碰即开门
- 魅族|魅族发布iPhone 13系列黑化独角兽手机壳:支持磁吸充电
- 华为|iOS15.2.1 正式版发布:新增 6 项改进
- Aqara 智能门锁 A100 Pro 发布:支持苹果“家庭钥匙”解锁
- c语言|e观沧海丨算法焉能藏“算计”
- iPhoneSE|iPhone SE3发布在即,亿万果粉们即将沸腾起来!
- meta|陈根:Meta或将发布新专利,为元宇宙助力
- hms|乐视手机东山再起!联合华为发布新手机,价格喜人你愿意买单吗?
- 虽然骁龙8旗舰已经发布了不少|三星galaxys22系列发布时间曝光:2月9日23:00