交互|中信建投证券：看虚拟人浪潮背后的投资逻辑及机遇( 三 ) 大连理工大学|多学科|伦理|建

文章插图
人物形象按照维度分为2D、3D两类，2D数字人相对简单，3D数字人需要额外使用三维建模技术生成数字形象，所需的计算量更大。当前节点，还难以做到低成本的3D虚拟形象日常化应用，比如今年爆火的虚拟直播行业，目前正处于2D往3D升级的过程中，由于3D直播的成本还难以降下来，绝大部分的虚拟主播仍以2D/Live 2D露出，这客观上造成了日常直播中的演出效果、和观众的互动方式的局限性。
真人驱动型技术成本较低，使用互动感高，多应用于泛娱乐领域，包括虚拟偶像、虚拟主播、影视等领域；智能驱动型虚拟人技术要求更高，初始投入高，在交互能力上弱于真人型，一般用在企业服务上。提升运作效率。
真人驱动型数字人通过真人来驱动数字人，主要原理是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。这种技术思路可以看作是传统影视制作中，CG技术的进一步延续，近年来主要的技术突破在于动作捕捉环节，无需昂贵的动捕设备，简单普通摄像头结合理想的识别算法通用能实现较为精准的驱动，显著降低了精细虚拟内容生成的门槛。由于具有真人参与和操作，真人驱动型虚拟人具有更好的灵活度和互动效果。基于这样的特点，在使用场景上，一方面真人驱动型机器人能够在运用在影视内容创作中以减少生产成本，另一方面，可以应用在虚拟偶像，直播中完成高互动性，时间上碎片化的活动内容。
在计算驱动型中，虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动，在渲染后实现最终效果。计算驱动的虚拟人最终呈现方式效果受到各感知技术，包括语音合成、NLP、语音识别等各类技术综合影响。

文章插图
【交互|中信建投证券：看虚拟人浪潮背后的投资逻辑及机遇】为了使虚拟人更具有“拟人化”的动态，支撑人物形象的真实性和交互的体验感，在技术层面上，需要以下三大核心技术：
CG建模/图像迁移技术：影响人物外观的呈现。具体体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异，部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径。
自然语言处理(NLP)交互技术：支撑交互体验。NLP以对话能力为核心，继文本对话助手、语音AI助手后，该技术继续在虚拟数字人中发挥核心作用，是视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效
计算机视觉(CV)等深度学习模型：模型效果受到数据量、计算框架、关键特征点等因素深刻影响。语音驱动的深度学习模型效果很大程度决定了能否呈现自然的面部表情变动、肢体变动等，除此之外，能否对情感等因素进行特别设计，同样会产生重要影响。
1.3产业链：海外技术层领先，国内着重应用端创新
当前，虚拟数字人技术和理论日渐成熟，应用场景不断丰富，可广泛与各行业领域相结合，变现路径和市场潜力明确，商业化模式虽未完全成熟，但也在向多元化方向持续演进。就产业链来看，海外与国内在上游技术水平、产品模式、以及下游落地场景均有一定差异。在底层技术层面，国外起步较早，综合实力相对领先，能够更好的切入相对需要更高交互能力的服务型场景。而在国内，移动互联网发展迅速，元素多元，相对在应用端创新能力较强，尤其是中国特色的直播场景，是虚拟数字人商业化的一大特色模式。