摘要:本文剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
本文分享自华为云社区《三维人脸建模和驱动技术,让数字人快速“活”起来》,作者: 华为云社区精选 。
虚拟数字人一直是业界的热点研究问题,广泛应用在营销、直播、AR、VR等场景中。而传统的数字人制作流程非常依赖于美术人员,制作周期长、成本高、生产效率低。本次分享主要介绍华为云数字内容生产线MetaStudio中的数字人制作管线背后的一些关键技术,利用计算机视觉和图形学等技术,来提升数字人模型制作和动画制作的效率,具体包括高精度三维人脸重建、个性化人脸自动绑定、实时面部表情捕捉等技术,最后介绍一下基于隐式表示的数字人建模和驱动相关前沿技术和应用前景。
本文将剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
美国作家尼尔·斯蒂芬森在1992年出版的科幻小说《雪崩》中创造了两个概念:元宇宙(Metaverse)和虚拟分身(Avatar)。“虚拟分身”在中国发展至今拥有更广泛的称呼“虚拟数字人”,被视为未来人们进入“元宇宙”的入口。
数字人的特征:
拥有人的外观,具有特定的相貌、性别和性格等人物特性
拥有人的行为,具有用语言、面部表情和肢体动作表达的能力
拥有人的思想,具有识别外界环境、并能与人交流互动的能力
数字人广泛应用在影视制作、虚拟直播、增强现实AR、虚拟现实VR、虚拟讲解、消费级应用、视频编辑等领域。
传统高精度数字人制作流程包括:角色建模和材质贴图制作、骨骼绑定和表情基制作、驱动(手K/面捕/动捕)、渲染等步骤。然而却有着无法避免的缺点:强依赖美术人员、周期长、成本高、缺少制作标准、动画制作复杂。我们希望基于计算机图形学和计算机视觉技术,提升制作效率,降低制作成本。
华为云数字内容生产线 MetaStudio,连接开发者体系、资产体系和应用体系,将资产和算法能力沉淀在平台上,面向各类伙伴提供一系列数字人的底层服务能力,让伙伴能更方便,更快捷的造人、用人。基于MetaStudio的多种类的建模服务,多种类型的驱动服务,以及云端渲染能力,开发者伙伴可以做出面向千行百业的各类型应用,及多种多样的数字内容。
MetaStudio为降低数字人制作门槛,提供了几个不同的方案,包括单照片风格化数字人和多照片写实数字人建模。
对于风格化数字人,是基于用户输入的照片,进行面部的特征点识别,并针对基础模型进行几何形变。另外基于人脸不同部位的特征点,会匹配基础模型的不同位置,如头发,眉毛等区域,进行不同的处理。如脸型的特征识别后,会对基础模型进行几何形变。对于素材部分,如眉毛,头发等,基于特征完成素材的匹配选择,并将形变网格与素材进行组合,完成最终的风格化数字人模型创建。
超写实数字人建模服务是提供一套基于多照片的输入完成写实数字人建模,先基于多照片输入构建稠密点云,将点云转为基础头部网格,并基于系统内置的基础模型对原始网格进行重拓扑,补齐空洞,去除噪点。基于交叉偏振消除反光,输出皮肤颜色贴图,平行偏振增强高光,输出高光/粗糙度贴图,多视角渐变梯度照明,输出法线贴图;同时配合系统内置了大量写实材质复用。
视频动捕技术是指从视频中估计人体三维姿态,但是肢体遮挡、体型、衣着、肤色、背景、光照等因素进一步增加了该问题的复杂性。利用三维人体关键点识别,基于深度学习网络回归,并通过IK反算,时域约束,后处理滤波等手段来改善单帧图像预测引入的动作不连续和抖动问题,实现高精度视频动作捕捉和表情捕捉。
计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学,主要研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。
搭建轻量级人脸采集设备,快速采集人脸的几何模型和材质贴图,加速静态人脸资产制作;通过拍摄多个视角图像,基于多视图几何算法,求解人脸的几何信息;通过模拟不同的光源方向和视角方向,求解人脸皮肤的材质信息;通过硬件进行光源和相机的同步,同步误差小于5ms,全部采集时间约100ms;
算法流程包括:
当你制作了静态人脸模型,如何让角色生成表情动画,即脸部如何动起来?
面部动作编码系统(FACS)是一种基于解剖学结构的系统,用于描述面部的肌肉运动。通过对肌肉运动进行编码,来了解面部运动的方式和原因,是一种可靠的面部运动和表情编码分析技术。基于面部动作编码系统原理,可以实现表情基动画。
那么如何去制作关键表情?艺术家通过maya等软件,使用绑定的脸部或者使用“形变编辑器” 和雕刻工具来创建表情,非常耗时!
如果给定角色的中性表情(或一些极端夸张表情),能否通过自动化算法生成该角色的表情基?
给定一个静态人脸几何,自动生成一组表情基,支持不同风格、不同个数的表情基模板。这中间的核心思想就是将一组表情基模板的变形,迁移到目标人脸模型上,利用形变梯度用来刻画形变迁移过程中每个面片的相对运动。
表情基自动绑定方法,可基于Deformation Transfer算法生成表情基初值,再进行迭代优化。如下:1)固定表情基,求解夸张表情下的表情基系数;2)固定系数,优化表情基。
传统数字人制作流程复杂,涉及数据扫描、模型清理和制作、模型绑定、模型驱动、物理动画、高品质渲染等步骤,制作周期长,成本高。
而基于神经辐射场等隐式表示,重建结果包含了头发、眼球、牙齿等部分,无需复杂的重建和绑定;生成速度快,制作成本低,数分钟就能得到一个可驱动的高保真数字形象;支持语音驱动、视频驱动等多种驱动方式。
华为云数字内容生产线MetaStudio,依托图形引擎和空间引擎两大媒体引擎,提供3D模型制作、资产管理、内容编辑、物理仿真、云渲染5大平台能力,帮助伙伴和开发者快速构建高质量模型,用于虚拟直播、虚拟视频内容制作等适用于教育课件、电商带货、社交文娱等场景。
three.js、webgl、3D煤矿隧道、三维井下人员定位、掘进面三维可视化、纵采面可视化、采集面可视化展示、设备检测、数字孪生、物联网3D、3d建筑、3d库房,bim管理系统