华为云MetaStudio全新升级,盘古数字人大模型助力数字人自由

华为,metastudio,全新,升级,盘古,数字,人大,模型,助力,自由 · 浏览次数 : 28

小编点评

## 华为云MetaStudio数字内容生产线全新升级:个性化数字人服务和模型驱动服务 **华为云**的新版**MetaStudio数字内容生产线**全新升级,推出**数字人模型生成服务**和**模型驱动服务**,助力千行百业提升数字内容创作体验和效率。 **数字人模型生成服务**: * 使用PB级的音视频数据进行训练,构建数字人通用大模型。 * 用户可以根据文字、语音、视频等方式生成驱动向量信息,从而驱动数字人生成高清视频。 **模型驱动服务**: * 多模态的数字人模型驱动,数字人在各行业多场景中应用数字人生成后,预训练模型对输入的驱动方式进行分析。 * 支持文字驱动、多语言泛化等多种驱动方式。 * 实时驱动的时延在100ms以内,跟我们现在开视频会议一样,没有明显延迟感觉。 ** benefits:** * 个性化外形和灵魂,每个人都拥有个性化的数字人。 * 提升数字内容创作体验和效率。 * 赋能千行百业提升数字内容创作体验和效率。

正文

摘要:基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务。

近日,华为开发者大会2023 ( Cloud ) 在东莞拉开帷幕。基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

AIGC正在重构数字内容生产模式,重新定义内容力

当前,数字人逐渐成为3D互联网时代各类应用的核心入口,进入千行百业。大家常见的数字人抖音直播,营业厅的数字人客服,还有各类综艺节目如湖南台《你好星期六》节目的综艺虚拟主持人小漾等等,多种场景应用层出不穷,新形象不断呈现。

在数字内容产业,内容力决定了企业的竞争力,它由生产力、创造力和知识力逐步叠加和演进而成。PGC时代,头部电影中有90%的内容是通过计算机来生成的。生产力,也就是算力的强度决定了内容力;UGC时代,超过90%的数字内容由个人用户产生,创作者来自于千行百业。在生产力基础上,增加了创造力,也就是行业的广度,共同决定内容力;当前,我们已经进入AI时代,AIGC正在重构数字内容生产模式。到2030年,90%的内容将通过AI产生。在生产力和创造力的基础上,进一步增加了知识力,也就是模型的深度,共同决定内容力。

人人都需要自己独一无二的个性化的数字人

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

通过发布现场的演示我们可以看到,用户可通过多种方式生成数字人模型:

  • 输入文字生成数字人:输入文本,描述希望生成的数字人样子,10秒生成模型。比如通过Prompt文本输入,目前支持可选50多项参数来生成数字人形象,生成时间仅需10秒,而行业的一些大模型需要30秒或者更长的时间。
  • 也可以上传图片生成数字人:只需要上传一张照片,根据照片中的个人特征,生成不同类型的数字人,比如风格化和美型数字人,这个时间仅需30秒。
  • 或者用户只需要拍摄一段5分钟的视频,也能生成个性化数字人模型,包含用户自己的表情、口型、动作特征,整个模型训练过程只需要1个小时。而业界一般需要训练12个小时以上。基于个性化模型生成的数字人,将保留用户的个性化形象、表情、动作、声音和口型信息。生成数字人后,可以通过对话完成对数字人的二次编辑和背景融合,比如发型、配饰、服装等,真正做到每个人的数字人都独一无二。

多模态数字人模型驱动,数字人在各行业多场景中应用

数字人生成后,预训练模型对输入的驱动方式进行分析,从多模态信息中通过深度编码器提取特征向量信息,驱动生成数字人的表情、口型、肢体动作参数,并最终生成高清视频。

驱动的方式也有多种,文字驱动可基于识别文字的语义和情感,实现数字人动作和文字的精准匹配。通过多语言泛化技术,一种语言、一次训练,即可使用多种语言驱动数字人。除此之外,现在业界大部分数字人都是站在固定点讲解,无法支持移动,华为云通过2D视频,以及2D/3D数据的联合训练,实现数字人走动、侧身、手势的精确驱动。

多模态的数字人实时驱动服务,可以广泛应用到各种各样的行业场景,比如直播、在线教育、在线客服、线上会议等。例如会议场景,通常我们默认都是关闭视频入会,一是大多数人长时间面对镜头感觉不自然、二是在办公室公共环境、酒店、家里等场合涉及隐私,不愿意打开摄像头,三是在运动的时候不方便打开摄像头。这种情况下,可以通过自己的数字人加入会议,展现形象的同时又保护了隐私,不再只显示简单的姓名信息,实现有温度的交互体验。会议过程会通过摄像头进行验证,确保是本人参会。实时驱动的时延在100ms以内,就跟我们现在开视频会议一样,没有明显延迟感觉。可以说,华为云MetaStudio数字人服务重塑了云会议的体验。

同样的,数字人在其他行业应用也可以一样简单、快速的集成数字人实时通信与互动能力,实现有温度的交互体验。华为云MetaStudio数字内容生产线全新升级,通过盘古大模型的赋能,让数字人具备个性化外形和灵魂,每个人都拥有个性化的数字人。

 

点击关注,第一时间了解华为云新鲜技术~

与华为云MetaStudio全新升级,盘古数字人大模型助力数字人自由相似的内容:

华为云MetaStudio全新升级,盘古数字人大模型助力数字人自由

摘要:基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务。 近日,华为开发者大会2023 ( Cloud ) 在东莞拉开帷幕。基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数

三维人脸建模和驱动技术,让数字人快速“活”起来

摘要:本文剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。 本文分享自华为云社区《三维人脸建模和驱动技术,让数字人快速“活”起来》,作者: 华为云社区精选 。 虚拟数字人一直是业界的热点研究问题,广泛应用在营销、直播、AR、VR等场景中。而传统的数

解读GaussDB(for MySQL)灵活多维的二级分区表策略

本文分享自华为云社区《GaussDB(for MySQL)创新特性:灵活多维的二级分区表策略》,作者:GaussDB 数据库。 背景介绍 分区表及二级分区表的功能,可以让数据库更加有效地管理和查询大规模数据,传统商业数据库具备该能力。MySQL支持分区表,与传统商业数据库相比,MySQL对二级分区表

从基础到高级应用,详解用Python实现容器化和微服务架构

本文分享自华为云社区《Python微服务与容器化实践详解【从基础到高级应用】》,作者: 柠檬味拥抱。 Python中的容器化和微服务架构实践 在现代软件开发中,容器化和微服务架构已经成为主流。容器化技术使得应用程序可以在任何环境中一致运行,而微服务架构通过将应用拆分成多个独立的服务,从而提升了系统的

基于MindSpore实现BERT对话情绪识别

本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别》,作者:JeffDing。 模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Trans

解读MySQL 8.0数据字典缓存管理机制

MySQL 8.0中的数据字典,通过对两级缓存的逐级访问,以及精妙的对缓存未命中情况的处理方式,有效的加速了在不同场景下数据库对DD的访问速度,显著的提升了数据库访问元数据信息的效率。

深度解读昇腾CANN模型下沉技术,提升模型调度性能

如何减少Host Bound模型的Device空闲时间,从而优化模型执行性能显得尤其重要,GE(Graph Engine)图引擎通过图模式的Host调度和模型下沉调度的方式,可提升模型调度性能,缩短模型E2E执行时间。

MySQL中为什么要使用索引合并(Index Merge)?

本文介绍了索引合并(Index Merge)包含的三种类型,即交集(intersection)、并集(union)和排序并集(sort-union),以及索引合并的实现原理、场景约束与通过案例验证的优缺点。

MySQL派生表合并优化的原理和实现

本文从一个案例出发梳理了MySQL派生表合并优化的流程实现和优化原理,并对优化前后同一条SQL语句在代码层面的类实例映射关系进行了对比。

教你基于MindSpore用DCGAN生成漫画头像

本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十天】DCGAN生成漫画头像》,作者:JeffDing。 DCGAN生成漫画头像 在下面的教程中,我们将通过示例代码说明DCGAN网络如何设置网络、优化器、如何计算损失函数以及如何初始化模型权重。在本教程中,使用的动漫头像数据集共有70,17