SDI精品解读系列11-1

《量子位硬科技深度产业报告-虚拟数字人》报告。

--关于报告--

该报告是由量子位出品,通过技术背景及产业现状篇深入分析虚拟数字人市场规模、发展现状、细分场景及产业瓶颈等。SDI将持续对该报告进行摘要分享,供您参阅。

文章太长?虚拟数字人为您播报!

一、虚拟数字人定义

虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。

虚拟—存在于非物理世界中,不同场景实现难度不同

目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。

数字—依托多项技术存在,相关技术成熟成为其发展重要推动力

虚拟数字人是典型的多技术综合产物。近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动捕等相关技术的共同成熟。

人 — 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线

二、虚拟数字人技术实现

从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。

真人驱动型技术流程:

1. 形象设计及建模;2. 建模绑定;3. 表演捕捉;4. 驱动及渲染;5. 生成内容,进行互动。

这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,普通摄像头实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。

在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动, 在渲染后实现最终效果。计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、 NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。

计算驱动型技术流程:

设计形象,扫描真人形态及表演、采集驱动数据;

形象建模,进行绑定;

训练各类驱动模型:决定最终效果的核心步骤;

内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数;

进行渲染,生成最终内容。直播时进行实时渲染。

当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点:

CG建模/图像迁移技术影响外观呈现:体现为虚拟数字人外观的拟人程度;

NLP交互技术影响交互体验:以对话能力为核心;

CV等深度学习模型影响驱动效果:能否呈现自然的面部表情变动、肢体变动等;

关键词: 计算驱动数字人时代起航 虚拟数字人 深度学习