声网Agora Lipsync技术剖析:通过实时语音驱动人像模拟真人说话

元宇宙的火热让人们对未来虚拟世界的形态充满了幻想,此前我们为大家揭秘了声网自研的3D空间音频技术如何在虚拟世界中完美模拟现实听觉体验,增加玩家沉浸感。今天我们暂时离开元宇宙,回到现实世界,来聊聊声网自研的 Agora Lipsync(唇音同步) 技术是如何实现无需打开摄像头,无需面部捕捉技术,只需上传一张/多张人脸头像就可以通过说话人的语音音频信号,来驱动静态人脸头像的嘴部运动。

在介绍 Agora Lipsync 技术前,我们先来简单了解下目前行业比较类似的两类技术:Oculus Lipsync,Oculus Lipsync是一种 Unity 集成,用于将虚拟角色的唇部动作同步至语音。它主要是离线或实时分析音频输入,然后预测用于令虚拟角色或非玩家角色(NPC)嘴唇动画化的一组发音嘴型,为了提升音频驱动面部动画的准确性,Oculus Lipsync 利用一个神经网络模型来学习语音和音素之间的映射关系。通过模型把输入音频转为音素,音素能够对应到特定的视觉音素,再基于 Unity 集成技术实现虚拟角色嘴唇和面部的姿势和表达。该技术主要应用于虚拟主播与游戏领域。

面部捕捉技术,在当下很多发布会与活动会议都运用到了全息影像,嘉宾在舞台之外身穿特定的硬件设备,他的肢体动作与演讲的嘴型动作都会实时同步在舞台大屏幕中的虚拟形象中,其中想要实现唇音同步,就需要运用到关键的面部表情捕捉技术与相关的硬件设备。

相比这两种技术,声网的 Agora Lipsync 有着核心区别, Agora Lipsync 无需摄像头、无需面部表情捕捉技术,而是通过深度学习算法中的生成对抗网络,将中英文(或其他语种)发音的嘴型、面部表情智能关联起来,驱动人像模拟真人说话嘴型,支持2D人像图片和3D人像模型。

接下来,我们将重点揭秘 Agora Lipsync 实现语音驱动嘴型运动背后的技术原理。

生成对抗网络+模型轻量化实现语音信号驱动人像嘴型运动

语音驱动嘴型技术,顾名思义,通过说话人的语音音频信号,来驱动静态人脸头像的嘴部运动,使得生成的人脸头像嘴部状态与说话人的语音高度匹配。实时语音驱动人脸图像说话这项技术的实现需要克服诸多挑战,首先要找到语音信息和人脸信息之间的对应关系,音素是我们人说话的最小可发音单元,可以通过音素去找到对应的嘴型,但是发出相同音素的嘴型状态不止一个,再加上不同的人面部特征、说话状态也会存在差异,所以这是一个复杂的一对多问题。其次还会面临一些其他挑战,包括生成的说话人脸是否失真,以及说话人脸嘴型变化是否流畅等等。此外,如果是在低延时的实时互动场景下使用,还需要考虑计算量复杂度等问题。

图1:例如a这个音素,发音的嘴型张合程度都不是唯一的

传统的 Lipsync(唇音同步)方法可以通过语音处理结合人脸建模的方式实现,然而语音能够驱动的口型数量往往比较有限,而声网的 Agora Lipsync 通过深度学习算法,可以实现实时生成说话人脸图像。目前,深度学习算法随着数据规模的增加不断提升其性能,通过设计神经网络可以从数据中自动提取特征,削减了对每一个问题手动设计特征提取器的工作。深度学习目前已经在计算机视觉、自然语言处理等多个领域大放异彩。

在实现语音驱动人脸图像任务中,我们需要将语音一维信号映射到图像二维像素空间。声网使用了深度学习中的生成对抗网络(GAN),GAN的思想来自零和博弈理论,由两个部分组成,一个是生成器Generator,接收随机噪声或者其他信号用来生成目标图像。一个是判别器 Discriminator,判断一张图像是不是“真实的”,输入是一张图像,输出是该图像为真实图像的概率。生成器的目标是通过生成接近真实的图像来欺骗判别器,而判别器的目标是尽量辨别出生成器生成的假图像和真实图像的区别。生成器希望假图像更逼真判别概率高,而判别器希望假图像再逼真也可以判别概率低,通过这样的动态博弈过程,最终达到纳什均衡点。大自然里就存在很多生成对抗的例子,在生物进化的过程中,被捕食者会慢慢演化自己的特征,从而达到欺骗捕食者的目的,而捕食者也会根据情况调整自己对被捕食者的识别,共同进化。

基于GAN的深度神经网络训练完成之后,生成器可以将输入信号转化并生成逼真的图像。对此,声网设计了针对语音驱动图像任务的深度学习模型,利用大规模视频语料数据,使得模型可以根据输入的语音生成说话人脸。模型内部对输入的语音与图像两种不同模态的信号进行特征提取,得到相应的图像隐向量与语音隐向量,并进一步学习到两种跨模态隐向量之间的隐式映射关系,从而根据这种关系将隐向量特征重建成为和原始音频相匹配的说话人脸图像。除了生成图像是否逼真,还要考虑时序稳定性和音画匹配度,对此我们设计了不同的损失函数在训练中加以约束。整个模型推理计算过程是端到端实现的。

同时,Agora Lipsync 还适配中、日、德、英文等多语种语音以及多种肤色人群,满足不同国家与地区的用户体验。

我们可以通过下方的图 2 更直观的了解生成对抗网络是如何端到端地学习生成说话人脸头像。

图 2 可以分为 4 个流程:1、深度学习模型中的 Generator 生成器接收一张人脸图像和一小段语音,经过生成器内部的特征提取与处理生成一张伪造的人像图片(Fake image)。2、图中的“Real Data”指的是用于训练的视频序列,从中取出和 Audio 相匹配的目标图像。将目标图像和 Generator 生成的 Fake Image 比较它们的差异,根据损失函数通过反向传播进一步更新生成器中的模型参数,从而让生成器学习得更好,生成更加逼真的 Fake Image;3、比较差异的同时,将 Real Data 中的目标图像与 Fake Image 输入到 Discriminator 判别器中,让判别器学习区分真伪;4、整个训练过程中生成器与判别器相互对抗,相互学习,直到生成器和判别器的性能达到一种平衡状态。最终生成器将会生成更为接近真实人脸嘴型状态的图像。

图2:生成对抗网络如何生成对应的人脸图像

深度学习模型可以端到端的生成说话人脸图像,但是往往计算量和参数量较大,由于存储和功耗的要求,在低资源下实时应用该算法仍然具有一定的挑战性。目前常用的一些模型轻量化技术有人工设计轻量化结构、神经架构搜索、知识蒸馏以及模型剪枝等等。在 Agora Lipsync 的语音驱动嘴型任务中,声网设计的模型本质上是一个图像生成模型,体量相对较大,我们通过模型轻量化技术,设计了端到端的轻量化语音驱动图像模型,只需要传输语音流就可驱动静态图像生成说话人脸,在保证效果的基础上大大地缩小了模型的计算量和参数量,从而满足移动端的落地需求,通过输入语音信号,能够实时驱动一张静止人脸图像产生嘴部运动,达到音画同步的效果。

介绍完 Agora Lipsync 的技术原理,我们再来看它的应用场景有哪些,相比于元宇宙虚拟世界与真实的视频社交场景,Agora Lipsync 填补了在语音社交场景,不打开摄像头,却能体验真人视频连麦既视感的场景玩法空白,在语聊房、互动播客、视频会议等场景中具有巨大的应用价值。

语聊房:在传统的语聊房中,用户通常会选择真人头像或者虚拟的头像进行语音连麦,往往需要通过有话题性、趣味性的聊天内容才能保障语聊房间的内容质量与时长性,而通过加入语音驱动嘴型运动的技术,可以在形式上让聊天过程更具生动性与趣味性,对于不想打开摄像头的玩家,可以选择一张自己好看的或者搞怪的照片作为头像,这样大家不打开摄像头,也能看到彼此的人脸头像仿佛在真实的说话,最终增加了玩家在语聊房中进一步聊天的动力。

互动播客:去年以Clubhouse为代表的互动播客平台曾风靡全球,相比传统的语聊房,互动播客平台的话题内容、用户关系有着明显的差别,播客房间的聊天话题主要以科技、互联网、职场、创业、股市、音乐等话题为主,用户上传自己真人头像的意愿也非常高,通过加入语音驱动嘴型运动技术,可以让用户之间的聊天更具参与感与真实感。

视频会议:在视频会议场景中往往都会要求参会用户尽量都打开摄像头,然而经常会遇到部分用户不方便打开摄像头,造成有人开视频、有人开语音的会议场景,通过 Agora Lipsync 一方面可以让无法打开摄像头的用户避免尴尬,通过驱动人脸头像的嘴部运动营造出仿佛是真人参加视频会议的场景感。另一方面,通过语音驱动人脸说话的方式,视频会议传输可以不用传输视频流,只需要语音流,特别是在弱网条件下,不仅避免了画面卡顿或延迟,同时也减少了传输成本。

目前 Agora Lipsync 技术主要支持2D人像图片和3D人像模型,未来在声网算法团队的持续钻研下,该技术也将进一步升级,不仅可以支持卡通头像,还有望通过语音进一步驱动头部、眼睛等器官的运动,实现更广泛的应用场景与场景价值。

如您想进一步咨询或接入 Agora Lipsync 技术,可通过声网的微信公众号找到这篇文章,点击文章最下方的「阅读原文」留下您的信息,我们将与您及时联系,做进一步的沟通。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36369.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Audio2Face-语音驱动虚拟人表情

任务: 输入自己的音频,导入maya模型,让maya模型通过音频驱动说话 教程: https://www.bilibili.com/video/BV1rZ4y1R7H4/?p2&spm_id_frompageDriver&vd_sourceef114f70c3fd4d5394f12dbd3d022bbe 一.下载和安装 1.首先…

chatgpt赋能python:Python与电影评分

Python与电影评分 近年来,越来越多的人选择通过网络来观看电影。然而,在选择一部电影时,看到的只是电影名称和海报。这时就需要借助电影评分来给自己做出更明智的选择。Python作为一门流行的编程语言,它的应用程序提供了许多有用…

让Ai来告诉你Linux应该怎么学

今天在slack上添加了Claude,他属于ChatGPT的最强竞品,支持中文,体验非常舒适,也并不像国内某些自建AI那样弱智。 至于Linux要怎么学,就让Claude来回答吧。 你能告诉我Liunx应该怎么学吗? 学习Linux,我有…

推荐四款最易上手的电脑版视频编辑软件

视频编辑软件可以剪切并保存一段视频中的精彩部分,从而制作出美丽的视频,让观众欣赏到最有价值的部分。当然,无论是为天猫店铺录制视频,还是自定制作超强特效的科幻视频,都是可以通过视频编辑软件来完成。那么&#xf…

推荐三个可以裁剪视频的软件给你

相信大家在制作视频的过程中都会遇到这种情况:拍摄的画面杂糅了许多其它的物体或着是路人,导致画面看起来非常的杂乱,这时候就需要我们借助一些软件来对视频的画面进行裁剪了,使我们能够保留视频画面的主体内容,方便对…

想知道怎么裁剪视频?这几个方法亲测好用

现在的互联网非常发达,我们可以在网上很快很容易就找到各种视频进行学习。不过有些网课视频的重点内容比较分散。为了不占用我们过多的存储空间,且达到高效学习的目的,我们可以通过裁剪视频,把需要的部分留下来,这样就…

用计算机视频剪辑方面的术语,电脑端做视频剪辑哪个软件好用?

Smile 于 2020/12/01更新 剪辑大师 摘要 易我剪辑大师是个非常强大的剪辑视频软件,功能包含添加字幕、音乐、滤镜或转场特效等,且它的界面对于初学者来说相当友好,不会出现让使用者看不懂的术语,绝对可以轻松上手。 随着抖音、快手…

从主流剪辑软件与配置标准,聊聊剪辑视频的电脑

说实话剪辑视频本身就是一件充满玄学的工作,不论是前期素材准备、中期剪辑制作,还是最终渲染都会增加电脑的负担,今天小编就从主流剪辑软件与配置标准两个视角,与大家聊聊剪辑视频的电脑怎么选? 无机型推荐放心食用 做…

刚刚接触视频剪辑,怎么快速剪视频?

当你准备制作一个短视频,却不知道该怎么剪,用什么工具剪?这里就给大家分享一款简单好用易上手的视频剪辑软件会声会影(软件获取:sourl.cn/6UNEaF),让你轻松剪辑,会声会影剪辑视频有五…

视频录制后怎么裁剪?这里有可以学习的操作

说到视频裁剪应该有很多小伙伴们都不陌生,尤其是一些做视频博主的小伙伴,在录制完视频之后会裁剪掉多余的画面然后做出精彩的视频上传。但是有些小伙伴刚借助处理视频这一块不知道有什么好用的裁剪方法。那么视频录制后怎么裁剪呢?今天就来给…

亲测被吹爆的视频剪辑软件,我只留下这几款!真的巨好用!

剪辑软件有哪些? 容易上手吗? 我该选择什么软件来剪辑视频? 今天我就来理理大伙常用的剪辑软件。 全称Adobe Premiere Pro,是Adobe旗下的视频剪辑软件。 一般电脑用Windows系统的影视公司,会选择这款软件,同…

用计算机对视频进行剪裁和编辑,如何裁剪视频?怎么在电脑上裁剪视频?

原标题:如何裁剪视频?怎么在电脑上裁剪视频? 如何裁剪视频?过几天,我将代表部门上台讲ppt(上月有些什么收获),但现在有一个问题难倒了我:ppt尾页会插入一个视频(内容是部门其他同事的心得分享)&…

电脑剪vlog用什么软件?掌握这6个加分技巧,视频秒变电影大片!

Vlog是现下很火的短视频类型。再不了解就Out啦! 其实Vlog就是一种用视频代替原本的文字或照片的分享方式。 拍摄风景、美食、日常生活、甚至产品评测等等主题,都可以做成Vlog。 说白了,人人都有机会成为拍Vlog的大神。 确定好Vlog主题后&…

Camtasia2023简单易用的电脑录屏视频剪辑软件

教学、演示、培训视频轻松制作!Camtasia非常容易学习 你不需要一个大的预算或花哨的视频编辑技能。只需录制屏幕并添加一些特效即可。无论您是有经验还是这是第一次制作视频 Camtasia都会为您提供制作高质量视频所需的一切。创建观看者实际观看的内容。视频将为您提供更多的互动…

怎样用计算机截图,大神教你如何在电脑上视频截图

说到截图,有些小伙伴或许就要按捺不住的说,截图有什么难的,不就用键盘上的“CtrlAltA”就可以了吗。是的,用这个组合键是可以截图的,但是这个要在电脑登录了QQ的时候才能使用。那么在不登录QQ的情况下,要怎…

在电脑上剪辑视频用什么软件 如何在电脑上剪辑视频

工作中需要剪辑视频的场景越来越多了,视频剪辑已经成了打工人必备技能之一。但对很多新手小白来说,剪辑视频看起来比较困难,那可能是没有找到合适的软件和方法,下面就为大家介绍在电脑上剪辑视频用什么软件,如何在电脑…

微软开源“傻瓜式”ChatGPT训练工具,一大波套壳产品即将来临?

当地时间 4 月 12 日,微软宣布开源 DeepSpeed-Chat,帮助用户轻松训练类 ChatGPT 等大语言模型。 据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF&#x…

基于企业微信和钉钉的工资条发送工具 - 工资条帮新版操作说明

软件所有版本及相关文件下载地址 蓝奏云(建议这个,可以直接下载) : https://wxgnolux.lanzouj.com/b03cxqi2f 密码:dgsm 更新说明 20221211a https://wxgnolux.lanzoue.com/i0s2K0if4qze 密码:4c72 1.钉钉版补充加入了图片和…

Payroll工资单中英文对照明细

不知道大家的工资单是中文的还是英文的,如果是英文的,刚开始看有些看不懂(我就是),那么可以在这里找到对应的翻译。如果中文的,而你又想知道对应英文怎么写的话,也欢迎查阅以下表格。ps.个人所得…

Intouch制作报表和导出Excel(手把手敲代码)

制作报表导出Exce 浏览控件向导,选择“趋势”→双击“HistData”控件 双击控件,弹出HistData设置面板 单击“建议”按钮,系统自定义生成趋势标记“HistTrend” 系统生成的趋势标记名为“HDW”开头的标记名,按照流程操作就不需要…