让数字人出圈的技术秘籍,华为率先公开了

明敏 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

在刚刚结束的2022华为开发者大会(HDC2022)上,升级版的手语数字人再次亮相,为大会的主题演讲进行了实时翻译。

8f91aabc7dea074afd8d811d7769d0e0.png

相较去年HDC,手语数字人不仅在形象上有了优化,覆盖手语词汇量更是提高到了2万+,还能支持多达26种面部表情和准确的口动,在需要的时候实现恰当的情绪化表达,大大提高了手语的可懂度。

这样一个会手语的数字人,已不仅限于连续两年在华为开发者大会上“崭露头角”了。其实在政府网站、学校和移动应用等场景,手语数字人也已经逐渐上岗。

实际上,制作一个精良的数字人并不简单,如果要求高度定制化,技术门槛只会更上一个台阶。

这也导致当下数字人颇有种大厂“奢侈品”的味道。

毕竟,并非所有人都能承担起如此高昂费用和制作复杂度,以手语数字人为例,需求很大一部分来自于学校、公益机构等。

而在这些现象背后,其实还隐藏着数字人在制作、应用落地方面的一连串难题。

大厂竞速,降低数字人落地门槛

想要探寻数字人的落地瓶颈,还需从它的生产制作流程看起。

制作数字人的流程,可以分为建模、驱动和渲染三个阶段。

建模即搭起数字人的“基础骨架模型”,驱动负责让模型“动起来像人”,渲染则负责让模型“看起来像人”。

听起来不难,但在传统的数字人制作流程中,每一阶段都面临操作繁杂、算法门槛高、开发周期长的问题,成本更是大型企业才负担得起。

极高的制作门槛,和数字人主打的“服务场景”却并不匹配。

像银行、政务服务、直播间、景点导览、学校等需求方,往往不具备独立开发制作数字人的技术能力,能承受的制作成本更是相对有限。

这种情况下,不少科技厂商如华为竞相涉足数字人领域的研发,力图降低每个制作阶段的技术门槛。

在建模上,传统方式往往要利用多方位摄像头,对模特们打点扫描,采集说话时唇部、表情、面部肌肉、肢体细节和姿态等身体数据,随后按照需求设计建模,如卡通风、超写实风格等。

BUT,这背后需要的工作量非常大,而且需要专业人员操作。

相比之下,目前已经有更多AI算法来降低3D建模门槛,也适配不同的数字人风格。

在本次HDC上,华为就展示了一套高效的3D卡通数字人建模服务,能够帮助开发者快速构建自定义的3D卡通数字人资产。基于业界前沿的全属性特征识别和多模态基模融合两大核心技术,只需要1张照片,AI算法1秒钟就能生成一个活灵活现的卡通风格数字人,甚至连身体都能建模好。

c75ace3711f9c4b7665e559d037910cf.png

全属性特征识别技术能够对发型、眼形、眉形、胡子和眼镜等面部主要属性迅速而精准地识别,每个部分又可细化到常见的特征,如单双眼皮、卷直发等,实现美与像的平衡。

值得一提的是,这样的神经网络模型非常轻量,大小仅在KB级别(不到1MB),推理时间更是达到毫秒级,大部分情况下识别准确率超90%;

而如何在毫秒级时间内,仅凭一张照片就“拼”出最合适的卡通化人脸,同时换上最合适的风格,则是多模态基模融合技术的能力。

依托大量基础几何(1k+)和形状素材(100+),配合百万级的AI训练数据,高效建模得以轻松实现。

bcfd16ef7b4035da85e384de7906d02f.jpeg

卡通化程度和风格可自定义调节与转换

通过3D卡通数字人建模服务和HMS Core手语服务的配合——无论是热情活泼的手语老师,还是端庄亲和的手语直播主持人,都能快速搞定。

建模完成后就是驱动和渲染了,让模型不仅能像人一样表情自然、肢体动作流畅,还能具备一定语言理解表达能力。

传统平台虽然有动作库、降低人工制作难度,但最复杂的往往是两个动作之间的过渡、以及将语音文本和表情逐帧对应的过程。

目前有大厂已经试图在用算法搞定动作过渡,至于语音文本和表情对应则可以用AI算法来降低工作量。

00f4edc960ec97bcc715e594e8a0305c.png

此次HDC,华为正式发布的HMS Core 3D Engine,不仅能进行超大规模数字世界的实时渲染,对于数字人的驱动也专门提供了一套能搞定实时骨骼动画、表情动画、脚步/全身IK、布娃娃系统、动画重定向、多重动画融合的“工具包”。

c0d1d7273cbfe7382393789577730616.png

3D Engine的动画编辑器不仅支持创建多个动作状态机,而且还能对多个角色的动作进行平滑过渡,解决数字人动作之间“不流畅”的问题。

除了单纯的动作驱动,让数字人具备理解表达能力,同样是决定驱动真实性的一环。

HMS Core的手语服务,用AI算法给数字人打开了“手语表达与理解”能力。

e1bd72357fdf792188b79f8cc1846384.png

基于大量深度学习算法,让模型学习语音、唇形、表情参数间的潜在映射关系,手语服务通过HMS Core 3D Engine驱动模型在接收到输入信号时,自动做出对应的动作。

5f9f1ad47f42873dfec0bb39b534e201.png

建模和驱动之后,就来到最终的渲染部分。

传统方法往往计算量极高,更别提直播场景中常见的实时渲染

尤其是写实数字人,为避免高时延,实时渲染往往选择牺牲数字人的真实感,包括皮肤、头发和眼睛等部位,想要打造真实感难度非常高,最后往往只能采用3D卡通数字人来完成实时直播。

在这种背景下,HMS Core的3D Engine在实现在实时渲染的同时,还尽可能还原写实数字人真实的效果。利用3D Engine呈现出来的数字人,不仅能与场景进行实时交互,在皮肤材质、发丝仿真、眼球材质等渲染上也足够细致,这些细节直接影响了数字人的逼真程度。

皮肤材质上通过次表面反射、双叶高光对皮肤的光泽度和通透感实现了增强,呈现出了更自然的皮肤效果。

在发丝上,则是通过实时物理模拟完成10万+发丝运动,来增强头发的阴影、半透明和高光渲染效果。

眼球还原上甚至精确到了虹膜、瞳孔、巩膜、晶状体折射率等,根据参数进行调整。

整体来说,相较于传统数字人制作流程,从降低门槛、提高易用性等维度出发, HMS Core提出了一个更为简易的数字人全流程解决方案。

背后技术能力并不简单

其实,面临数字人落地的难题和机遇,国内外不少公司都在投入这一赛道角逐。

这其中既包括苹果、Meta和英伟达等科技巨头,也有Neon和DATAGRID等初创公司,凭借自身软硬件优势“扩张”在数字人行业的版图。

在赛道玩家云集的情况下,华为降低用“人”成本的底气何在?

一方面,在AI等技术上,华为这些年也在不断地进行研究和积累。

据华为介绍,在NeurIPS近五年来引用最多的50篇论文、以及ACL近五年来应用最高的20篇论文中,都各自有一篇华为诺亚方舟实验室的论文,同时ACL引用最高的30篇论文中,更是有3篇相关论文。

华为轮值董事长徐直军,此前也透露过华为的AI研发数据:仅2018一年,华为的AI研发投入就达到15亿美元,研发团队更是超过5000人。

具体到内容上,这些论文中就有不少像多模态技术这类与数字人息息相关的研究。

被ACM Multimedia 2022收录的一篇新论文中,华为泊松实验室就联合人大高瓴人工智能学院提出了一种名叫MMTG的新模型,意图让AI看到图文混杂的输入时能理解它们的关联,并创作出新的文本,进一步提升数字人的表达能力。

370804bf1415468c174fbf844dbe6326.png

另一方面是独特的应用场景优势,作为鸿蒙生态的重要组成部分,HMS Core提供的一系列全面的端、云开放能力,为数字人在移动端乃至鸿蒙生态上的落地提供了有力的支持。

通过HMS Core 3D Engine和手语服务打造的手语数字人,已经开放给畅听无碍、知音等第三方App集成接入,实现在手机上的直接使用,为听障人群带来生活的便利。

847d838938f514868f9250fb22785e11.png

2700亿市场如何把握?

事实上,不止手语数字人,目前更多场景都面临着使用数字人的情况。

据《量子位虚拟数字人白皮书》预测,2030年我国虚拟数字人市场规模将快速增长至2700亿。

5fffb3c52dbe3ca1ac4023614726f172.png

按需求场景划分,主要有身份型虚拟人和服务型虚拟人。

身份型虚拟人即虚拟偶像、真人人偶分身等,服务型虚拟人的常见应用场景有银行、政务大厅、播音室等。

比如在银行数字化转型趋势下,数字人银行客服通过语音交互,就能以更贴近于传统柜台的方式,提供更加人性化便捷的服务;

还有手语翻译场景,我国听障人群数量达到2700万,但专业手语翻译师的数量恐怕还不到1万。3D手语数字人在弥补专业人才缺口的同时,也能快速普及国家通用手语。

目前,我们已经能看到越来越多的数字人开始上岗工作,随着华为等大厂的技术投入,其成本和使用门槛也在进一步降低。

如果你对数字人制作和应用场景感兴趣,可以戳【阅读原文】到HMS Core官网,了解相关图形服务的进一步信息。

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53813.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯克组织Code Review,并晒出推特架构图?其代码能力被低估了

近日,马斯克前往 Twitter 总部大楼和工程师团队进行了 code review,并在结束后晒出了合照,以及 Twitter 的系统架构图。 当然这不是 Twitter 的整体架构图,主要是展示了 Timeline 部分的架构,其中关键的组件是 Timelin…

组织变革方法论:华为从IBM得到的关键启示

1998年,华为在IBM顾问帮助下启动了长达十年,以IPD为先导的组织变革,这是当时IBM给到华为的变革管理方法论。今天读来,对中国企业的组织变革依然具有很强的参考价值。 01 业务变革的背景 90年代初,新系统观及高速发展的…

向98年的华为学习:没有高管办公室的青铜器软件

1995~1998华为走上快车道,98年华为的销售额为89亿人民币,员工7000人,公司所有副总裁级别的人都没有独立办公室,也只是在偌大办公室后排,拥有一张简陋的办工桌而已。 如下文章摘抄自:《军工文化》 因为笔者…

华为干部分类赋能手册(珍藏)

战略决定人才配置,战略转型和业务发展意味着人才能力升级,人才是支撑战略实现的第一要素。 通常在不同的时代背景下和企业发展阶段,人力资源都会被赋予不同的使命和责任,在新的时代背景下,组织和个体的关系也发生了根本…

华为宣布成功实现MetaERP研发和替换

华为宣布实现自主可控的MetaERP研发,并完成对旧ERP系统的替换。为了表彰在此项目中作出重大贡献的相关团队和个人,华为在东莞溪流背坡村园区举办了“英雄强渡大渡河”MetaERP表彰会。 曾在二级市场引起轩然大波的国产ERP系统,又一次引起市场关…

[转帖]华为变革史(下)

华为变革史(下) https://www.huxiu.com/article/300116.html 本文来自微信公众号:华夏基石e洞察(ID:chnstonewx),作者:苗兆光、施炜,头图来源:东方IC 接上文&…

WhatsApp营销之群组(二):搜群

新建群就是客户提供联系人和管理员,给群名、群头像、系统商用小号创建群组,按照客户要求来进行创建群组的服务。 对于新建群组,如果打完广告就走,这样群组的威力完全没有发挥出来,未免失去了建群的意义。 根据很多客…

华为干部管理经典模型

“副职一定至少要精于管理,大大咧咧的人,不适合做副职。副职一定通过精细化管理,来实施组织意图。” “正职必须要敢于进攻,文质彬彬、温良恭俭让、事无巨细、眉毛胡子一把抓,而且越抓越细的人是不适合做正职的。” …

Linux下history查看历史操作记录,并显示操作时间

一、在查看历史的操作记录有两种方式。 1.在用户的目录下的.bash_history文件中 [rootlocalhost ~]# cat ~/.bash_history vi /etc/sysconfig/network-scripts/ifcfg-eth0 setup service netwok restart service network restart vi /etc/hosts vi /etc/sysconfig/network …

生成式AI(Generative AI)将重新定义生产力

文章大纲 人工智能模型的新范式“生成式AI模型(Generative Model)”GPT 模型的演进历史生成式AI(Generative AI)将重新定义生产力编写代码金融行业信息安全芯片领域参考文献与学习路径人工智能模型的新范式“生成式AI模型(Generative Model)” 决策式AI模型- Discriminan…

AI做PPT,五分钟搞定别人一天的量,最喜欢卷PPT了

用AI做PPT 主题生成大纲制作PPT 主题生成大纲 如何使用人工智能工具,如ChatGPT和mindshow,快速生成PPT。 gpt国内版 制作PPT,你可能只有一个主题,但没有明确的提纲或思路。 问gpt:计算机视觉的周工作汇报。我这周学…

MNIST手写数字识别数据集研究意义及分析

1 研究MNIST数据集对于本人课题的意义 本人的硕士研究课题是缺陷检测,缺陷检测也是机器学习&深度学习算法在图像处理中的应用,它的难点在于算法创新。因此,在正式开始进行缺陷检测算法的研究之前使用MNIST数据集对于经常用到的图像处理算…

雅思口语话题准备(一)

目录 where are you from? 3.Will you live in the countryside in the future? 4.Have you learned the history of your hometown at school? Does your name have any particular(or special)meaning? 作为一个英语音标大师,请问ɒ和ɔ他们之间有…

文心一言来了,百度却让自己活成了笑话

3月16日,百度类ChatGPT应用“文心一言”发布,不过,对于这场由创始人兼CEO亲自上场的发布会,业内和网友并不看好。发布会结束后,许多网友表示,活着活着,百度终于让自己活成了笑话。 网友所谓的笑…

[200724]什么才是高速固态硬盘?

更换系统盘,但是不知从何入手。。。 旧系统盘:Intel SSDPEKKR256G7 https://www.mouser.cn/datasheet/2/612/e6000p-product-brief-1369263.pdf 看来这个就是高速固态硬盘,升级到1T,必须满足: 接口:M.2接…

USB 3.0 Rx Detect之超速U盘的识别

1 USB超速SerDes原理介绍 1.1 SerDes Rx.Detect SerDes Rx.Detect的原理比较简单,就是通过一个逻辑电路比较RC时间常数的大小。 - 当Rx不存在时,RC时间常数较小。 - 当Rx存在时,RC时间常数较大。 下面将详细描述其原理。 Figure 1-1 USB 3.0电…

百度地图多点路线规划_通勤出行该选谁?高德、百度地图对比,看看谁是上班最优选...

现在导航已经成为我们生活中不可分割的一部分,无论是走路,骑行还是自驾游,我们都会开启导航。特别是在驾车时,有急转弯,测速拍照,超速等,当我们的驾驶方式出现危险行为的时候,导航都…

人工智能真正值得担心的是缺德,而不是聪明

https://www.toutiao.com/a6686045237724316173/ 我们都要思考技术如何体现特定的价值观和假设,这有助于确保“我们用技术打造的世界,是一个我们想要居于其中的世界”。 我们都要思考技术如何体现特定的价值观和假设,这有助于确保“我们用技术…

npm init @vitejs/app 到底是什么意思

对比:基于vue-cli创建和vite创建项目 //vite npm init vitejs/app //cli vue i -g vue脚手架 vue create project-name通过脚手架创建项目需要分两步,而基于vite创建项目只需要一步,那么npm init vitejs/app具体是什么意思呢。 首先了解npx…

交换机中流量监管、流量整形和接口限速是如何实现的

本文介绍交换机的流量监管、流量整形和接口限速的原理,并且介绍相关参数和配置方法。 01 相关名词解释 表1-1 简称及对应的全称 流量监管、流量整形和接口限速是通过对流量规格进行监督,以限制流量及其资源使用的流控策略。 尽管流量监管和流量整形都…