计算驱动数字人时代起航

SDI精品解读系列11-1

《量子位硬科技深度产业报告-虚拟数字人》报告。

--关于报告--

该报告是由量子位出品，通过技术背景及产业现状篇深入分析虚拟数字人市场规模、发展现状、细分场景及产业瓶颈等。SDI将持续对该报告进行摘要分享，供您参阅。

文章太长？虚拟数字人为您播报！

一、虚拟数字人定义

虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。

虚拟—存在于非物理世界中，不同场景实现难度不同

目前，虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中，如APP、小程序、软硬一体显示设备。在未来，VR设备与全息投影也将成为其重要存在方式。

数字—依托多项技术存在，相关技术成熟成为其发展重要推动力

虚拟数字人是典型的多技术综合产物。近年的发展来源于CG（Computer Graphics，利用计算机进行视觉设计和生产）、语音识别、图像识别、动捕等相关技术的共同成熟。

人 — 在外表、行为、交互行为等方面高度拟人化，外在表现和交互效果已成为核心发展路线

二、虚拟数字人技术实现

从技术层面来看，虚拟数字人可以分为真人驱动型和计算驱动型。

真人驱动型技术流程：

1. 形象设计及建模；2. 建模绑定；3. 表演捕捉；4. 驱动及渲染；5. 生成内容，进行互动。

这种技术思路可以看作是传统影视制作中，CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术，姿势、表情等识别算法的进步，普通摄像头实现较为精准的驱动（如iPhone 12摄像头已可支持简单的动作捕捉），显著降低了精细虚拟内容生成的门槛。

在计算驱动型中，虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动，在渲染后实现最终效果。计算驱动的虚拟数字人最终效果受到语音合成（语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯）、 NLP技术（与使用者的语言交互是否顺畅、是否能够理解使用者需求）、语音识别（能否准确识别使用者需求）等技术的共同影响。

计算驱动型技术流程：

设计形象，扫描真人形态及表演、采集驱动数据；

形象建模，进行绑定；

训练各类驱动模型：决定最终效果的核心步骤；

内容制作：基于输入的语音（或由输入文本转化的语音），预测唇动、表情等参数；

进行渲染，生成最终内容。直播时进行实时渲染。

当判定技术中的核心要素时，我们需要回归到虚拟数字人的核心价值，也即前面所提及的“拟人化”，这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点：

CG建模/图像迁移技术影响外观呈现：体现为虚拟数字人外观的拟人程度；

NLP交互技术影响交互体验：以对话能力为核心；

CV等深度学习模型影响驱动效果：能否呈现自然的面部表情变动、肢体变动等；

关键词：计算驱动数字人时代起航虚拟数字人深度学习