服务商|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海
文章插图
智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影
写在前面:元宇宙、虚拟数字人概念火爆的2021,高质量训练数据资源正成为雄心勃勃的AI企业们解锁更强智能的关键燃料,通过对话国内唯一A股上市数据服务商海天瑞声,我们试图探讨隐藏于这场新兴技术浪潮幕后的基石角色,如何运用技术解决智能化升级过程中的核心痛点。
2022年,再不关注虚拟数字人,你就落伍啦!
在刚刚过去的一年,AI虚拟主播、虚拟学生、虚拟员工轮番上岗,成为元宇宙与人工智能两大领域最热门的技术赛道之一。
文章插图
万科首位数字化员工崔筱盼获得万科总部最佳新人奖
有些虚拟数字人已经表现得灵性十足,不仅发音标准自然、身体动作流畅,就连眨眼频率、口型与声音的匹配等细节都惟妙惟肖。
【 服务商|多模态时代来了!AI虚拟数字人,掀起百亿数据服务新蓝海】这些火遍大江南北的特殊生命体,通过越来越多元的形象定制、舒适的交互体验,逐渐转变为拥有更接近真实人类智商和情感的新型社会角色。
而「多模态技术」,正是打破单一感官的藩篱,让AI虚拟形象越来越像人类的秘密武器。
一、破圈而来,“完美”虚拟人离不开的多模态数据,是将真实世界与虚拟世界连接的桥梁。
在现实世界中,数据天然以「多模态」的形式存在,人类通过综合运用视觉、听觉、触觉、嗅觉等多种感官,来接触和理解大千世界。
为了探索实现通用人工智能(AGI)的路径,人工智能(AI)从单模态走向多模态已是大势所趋。
以前,Siri等语音助手只有声音没有脸,搜索只能依靠输入文字,机器看不懂照片的深层含义。
如今,借助多模态技术,AI实现了图像、视频、音频、语义文本等多维度资源的融合互补,不仅决策更加精准,还在行为和智商上更接近人类。
新冠疫情亦催化了多模态技术的落地进程。在隐私安全保护重视程度日益加强的趋势下,多模态生物识别凭借更高的准确率和安全性,正取代基于指纹、人脸等单一生物特征的身份识别方法。
而深藏多种黑科技的AI虚拟主播,亦是基于多模态技术的快速演进,成为感知智能迈向认知智能阶段的重要探索。
它们的精致面容、流畅表达、优美体态,离不开微表情追踪、语音识别、语音合成、自然语言理解、动作捕捉等丰富技术的支撑。
文章插图
虚拟数字人技术架构(来源:《2020年虚拟数字人发展白皮书》)
其中,AI手语主播要解决的技术难点尤其复杂。为了照顾到听障人士的需求,它需要具备实时将中文、英文等语音“翻译”成连贯手语的能力。
但手语有一套独特的语法体系,如果来一段央视押韵狂魔朱广权的段子“冷空气非常强,但他强任他强,清风拂山岗,他横任他横,秋裤保健康”,那就极度考验AI手语主播的理解和翻译水准了。
要做到实时精确演示手语,AI主播需先将语音转化成文字,再将健听人士的文本语序转化成手语语序,最后基于手语数据集进行手语合成,将相同的信息以视觉的形式传递给听障人士。
在此过程中,获得符合需求的训练数据成为了最具挑战性的问题之一。
这是因为,作为一种视觉语言,手语语言远比语音语言模态复杂,既包含手型、手部位置等手控信息,又包含表情、口动、体态等非手控信息。
- |能跳转的工作表目录
- 铠侠(原东芝存储器)一举拿下多个奖项:存储有这性价比真感动了
- 特斯拉跑500公里只需要60度电,为什么新势力却要80度电甚至更多
- 本文转自:云南红河发布征信报告关系我们生活的诸多方面如何查询个人和企业信用报告跟小编一起...|如何查询?信用报告?红河人看这一篇就够了→
- 上线两天后预约量超2万,2022款ROG幻16到底有多香?
- 旗舰机|为何很多买得起高端机的用户却坚持用千元机?店长的回答一针见血
- 高通骁龙|从游戏手机标配到进军元宇宙,高通骁龙多年技术积累,迎来收获期
- 对于很多南方用户来说|空调功率没选对小马拉大车冬季采暖效果差很多人买空调只看价格
- 摩托罗拉|终于跟上微软!索尼PS5实用功能上线:游戏录屏导出方便多了
- 王海涛|混合云文件存储服务商焱融科技完成Pre-B轮融资,卓源资本领投