通过实时语音驱动人像模拟真人说话

元宇宙的火热让人们对未来虚拟世界的形态充满了幻想,此前我们为大家揭秘了声网自研的 3D 空间音频技术如何在虚拟世界中完美模拟现实听觉体验,增加玩家沉浸感。今天我们暂时离开元宇宙,回到现实世界,来聊聊声网自研的 Agora Lipsync(唇音同步) 技术是如何实现无需打开摄像头,无需面部捕捉技术,只需上传一张/多张人脸头像就可以通过说话人的语音音频信号,就能驱动静态人脸头像的嘴部运动。

在介绍 Agora Lipsync 技术前,我们先来简单了解下目前行业比较类似的两类技术:

  • Oculus Lipsync,Oculus Lipsync是一种 Unity 集成,用于将虚拟角色的唇部动作同步至语音。它主要是离线或实时分析音频输入,然后预测用于令虚拟角色或非玩家角色(NPC)嘴唇动画化的一组发音嘴型,为了提升音频驱动面部动画的准确性,Oculus Lipsync 利用一个神经网络模型来学习语音和音素之间的映射关系。通过模型把输入音频转为音素,音素能够对应到特定的视觉音素,再基于 Unity 集成技术实现虚拟角色嘴唇和面部的姿势和表达。该技术主要应用于虚拟主播与游戏领域。

  • 面部捕捉技术,在当下很多发布会与活动会议都运用到了全息影像,嘉宾在舞台之外身穿特定的硬件设备,他的肢体动作与演讲的嘴型动作都会实时同步在舞台大屏幕中的虚拟形象中,其中想要实现唇音同步,就需要运用到关键的面部表情捕捉技术与相关的硬件设备。

相比这两种技术,声网的 Agora Lipsync 有着核心区别, Agora Lipsync 无需摄像头、无需面部表情捕捉技术,而是通过深度学习算法中的生成对抗网络,将中英文(或其他语种)发音的嘴型、面部表情智能关联起来,驱动人像模拟真人说话嘴型,支持 2D 人像图片和 3D 人像模型。

接下来,我们将重点揭秘 Agora Lipsync 实现语音驱动嘴型运动背后的技术原理。

生成对抗网络+模型轻量化实现语音信号驱动人像嘴型运动

语音驱动嘴型技术,顾名思义,通过说话人的语音音频信号,来驱动静态人脸头像的嘴部运动,使得生成的人脸头像嘴部状态与说话人的语音高度匹配。实时语音驱动人脸图像说话这项技术的实现需要克服诸多挑战,首先要找到语音信息和人脸信息之间的对应关系,音素是我们人说话的最小可发音单元,可以通过音素去找到对应的嘴型,但是发出相同音素的嘴型状态不止一个,再加上不同的人面部特征、说话状态也会存在差异,所以这是一个复杂的一对多问题。其次还会面临一些其他挑战,包括生成的说话人脸是否失真,以及说话人脸嘴型变化是否流畅等等。此外,如果是在低延时的实时互动场景下使用,还需要考虑计算量复杂度等问题。

图片

■图1:例如 a 这个音素,发音的嘴型张合程度都不是唯一的

传统的 Lipsync(唇音同步)方法可以通过语音处理结合人脸建模的方式实现,然而语音能够驱动的口型数量往往比较有限,而声网的 Agora Lipsync 通过深度学习算法,可以实现实时生成说话人脸图像。目前,深度学习算法随着数据规模的增加不断提升其性能,通过设计神经网络可以从数据中自动提取特征,削减了对每一个问题手动设计特征提取器的工作。深度学习目前已经在计算机视觉、自然语言处理等多个领域大放异彩。

在实现语音驱动人脸图像任务中,我们需要将语音一维信号映射到图像二维像素空间。声网使用了深度学习中的生成对抗网络(GAN),GAN的思想来自零和博弈理论,由两个部分组成,一个是生成器Generator,接收随机噪声或者其他信号用来生成目标图像。一个是判别器 Discriminator,判断一张图像是不是“真实的”,输入是一张图像,输出是该图像为真实图像的概率。生成器的目标是通过生成接近真实的图像来欺骗判别器,而判别器的目标是尽量辨别出生成器生成的假图像和真实图像的区别。生成器希望假图像更逼真判别概率高,而判别器希望假图像再逼真也可以判别概率低,通过这样的动态博弈过程,最终达到纳什均衡点。大自然里就存在很多生成对抗的例子,在生物进化的过程中,被捕食者会慢慢演化自己的特征,从而达到欺骗捕食者的目的,而捕食者也会根据情况调整自己对被捕食者的识别,共同进化。

基于 GAN 的深度神经网络训练完成之后,生成器可以将输入信号转化并生成逼真的图像。对此,声网设计了针对语音驱动图像任务的深度学习模型,利用大规模视频语料数据,使得模型可以根据输入的语音生成说话人脸。模型内部对输入的语音与图像两种不同模态的信号进行特征提取,得到相应的图像隐向量与语音隐向量,并进一步学习到两种跨模态隐向量之间的隐式映射关系,从而根据这种关系将隐向量特征重建成为和原始音频相匹配的说话人脸图像。除了生成图像是否逼真,还要考虑时序稳定性和音画匹配度,对此我们设计了不同的损失函数在训练中加以约束。整个模型推理计算过程是端到端实现的。

同时,Agora Lipsync 还适配中、日、德、英文等多语种语音以及多种肤色人群,满足不同国家与地区的用户体验。

我们可以通过下方的图2 更直观的了解生成对抗网络是如何端到端地学习生成说话人脸头像。

图2 可以分为 4 个流程:

1、深度学习模型中的 Generator 生成器接收一张人脸图像和一小段语音,经过生成器内部的特征提取与处理生成一张伪造的人像图片(Fake image)。

2、图中的“Real Data”指的是用于训练的视频序列,从中取出和 Audio 相匹配的目标图像。将目标图像和 Generator 生成的 Fake Image 比较它们的差异,根据损失函数通过反向传播进一步更新生成器中的模型参数,从而让生成器学习得更好,生成更加逼真的 Fake Image;

3、比较差异的同时,将 Real Data 中的目标图像与 Fake Image 输入到 Discriminator 判别器中,让判别器学习区分真伪;

4、整个训练过程中生成器与判别器相互对抗,相互学习,直到生成器和判别器的性能达到一种平衡状态。最终生成器将会生成更为接近真实人脸嘴型状态的图像。

图片

■图2:生成对抗网络如何生成对应的人脸图像

深度学习模型可以端到端的生成说话人脸图像,但是往往计算量和参数量较大,由于存储和功耗的要求,在低资源下实时应用该算法仍然具有一定的挑战性。目前常用的一些模型轻量化技术有人工设计轻量化结构、神经架构搜索、知识蒸馏以及模型剪枝等等。在 Agora Lipsync 的语音驱动嘴型任务中,声网设计的模型本质上是一个图像生成模型,体量相对较大,我们通过模型轻量化技术,设计了端到端的轻量化语音驱动图像模型,只需要传输语音流就可驱动静态图像生成说话人脸,在保证效果的基础上大大地缩小了模型的计算量和参数量,从而满足移动端的落地需求,通过输入语音信号,能够实时驱动一张静止人脸图像产生嘴部运动,达到音画同步的效果。

介绍完 Agora Lipsync 的技术原理,我们再来看它的应用场景有哪些,相比于元宇宙虚拟世界与真实的视频社交场景,Agora Lipsync 填补了在语音社交场景,不打开摄像头,却能体验真人视频连麦既视感的场景玩法空白,在语聊房、互动播客、视频会议等场景中具有巨大的应用价值。

语聊房:在传统的语聊房中,用户通常会选择真人头像或者虚拟的头像进行语音连麦,往往需要通过有话题性、趣味性的聊天内容才能保障语聊房间的内容质量与时长性,而通过加入语音驱动嘴型运动的技术,可以在形式上让聊天过程更具生动性与趣味性,对于不想打开摄像头的玩家,可以选择一张自己好看的或者搞怪的照片作为头像,这样大家不打开摄像头,也能看到彼此的人脸头像仿佛在真实的说话,最终增加了玩家在语聊房中进一步聊天的动力。

互动播客:去年以 Clubhouse 为代表的互动播客平台曾风靡全球,相比传统的语聊房,互动播客平台的话题内容、用户关系有着明显的差别,播客房间的聊天话题主要以科技、互联网、职场、创业、股市、音乐等话题为主,用户上传自己真人头像的意愿也非常高,通过加入语音驱动嘴型运动技术,可以让用户之间的聊天更具参与感与真实感。

视频会议:在视频会议场景中往往都会要求参会用户尽量都打开摄像头,然而经常会遇到部分用户不方便打开摄像头,造成有人开视频、有人开语音的会议场景,通过 Agora Lipsync 一方面可以让无法打开摄像头的用户避免尴尬,通过驱动人脸头像的嘴部运动营造出仿佛是真人参加视频会议的场景感。另一方面, 通过语音驱动人脸说话的方式,视频会议传输可以不用传输视频流,只需要语音流,特别是在弱网条件下,不仅避免了画面卡顿或延迟,同时也减少了传输成本。

目前 Agora Lipsync 技术主要支持 2D 人像图片和 3D 人像模型,未来在声网算法团队的持续钻研下,该技术也将进一步升级,不仅可以支持卡通头像,还有望通过语音进一步驱动头部、眼睛等器官的运动,实现更广泛的应用场景与场景价值。

如您想进一步咨询或接入 Agora Lipsync 技术,可点击「阅读原文」留下您的信息,我们将与您及时联系,做进一步的沟通。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26863.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊天语音APP开发|聊天语音软件开发-实时音视频技术

聊天语音软件的开发应该是一个以视频和语音直播为核心的社交系统。对于用户来说,更好的视频和语音直播功能可以增强用户的接受感,让用户持续使用。为了方便视频和语音直播的采用体验,减少直播的延时,聊天语音软件的开发将采用实时…

拿到offer提出离职,公司拖30天才放人,但下家公司等不了30天,怎么办?

拿到offer想跳槽,向公司提出了离职,但公司要拖30天才放人,新公司又等不了30天,offer可能就没有了,这就是一位网友面临的两难局面,这种情况有没有什么解决的好办法呢? 有人安慰楼主,下…

怎么说离职原因新的公司比较能接受?

怎么说离职原因新的公司比较能接受? 我来提供一些格式化的应对方法; 1.实际原因:原单位工资太少。离职原因:我认为我自己已经具备了一定的积累,希望可以迈向一个新的台阶。 2.实际原因:跟同事出不来。离…

我提了离职,公司给我涨薪了,还能待下去吗?

金三银四到了,相信不少同学又开始在物色新的公司。 不少同学反映,在提出离职后,公司给自己加了薪,虽然不多。 那“在职员工,提出辞职被挽留,应该留下吗?” 为什么想要离职? 这个问…

是的,我离职了

终于可以敞开说这件事情了,年后的这一个月,我彻底停更了,并不是偷懒了,而是我要找工作。大家也都知道18年的寒冬,很多大厂开始裁员,所以我要更加认真的学习,毕竟跟大厂出来的相比,自…

办理离职手续流程的详细流程(离职交接的标准流程)

1、正式员工办理离职手续流程 若员工自离,需提前一个月向部门领导提出辞职申请(即时聊天工具或邮件)和《解除劳动合同申请》。 1)面谈:一般领导都会先谈话,确定你离职的时间及安排交接人员进行工作交接。 2…

程序员新公司入职被拒 只因离职证明多了一句话!

程序猿(微信号:imkuqin) 猿妹 整编 新闻报道来自:成都商报 近日,成都一名程序员被新应聘的公司通知入职,然而因为原公司给他出具的一份离职证明上,记载了一句“该员工在项目未完成情况下因个人原…

提交辞职申请时,领导极力挽留,还答应加薪,要不要留下来?

提交辞职申请时,领导极力挽留,还答应加薪,要不要留下来?张工是一名程序员,最近他向领导提交了辞职申请表后,却被领导极力挽留,领导不仅打感情牌,还打加薪牌。就是希望张工能够留下来…

医学影像处理与识别,应用AI模型,探索疾病辅助诊断!

关注公众号,发现CV技术之美 今天(2023.1.9) arXiv.CV 上有7篇医学影像处理与识别相关论文。不过粗略看来,医学影像类的论文,很多都是直接使用已有模型(甚至都不是最先进的模型),加以…

【react从入门到精通】初识React

文章目录 人工智能福利文章前言React技能树什么是 React?安装和配置 React创建 React 组件渲染 React 组件使用 JSX传递属性(Props)处理组件状态(State)处理用户输入(事件处理)组合和嵌套组件写…

JWT续期问题,ChatGPT解决方案

JWT(JSON Web Token)通常是在用户登录后签发的,用于验证用户身份和授权。JWT 的有效期限(或称“过期时间”)通常是一段时间(例如1小时),过期后用户需要重新登录以获取新的JWT。然而&…

可用数据存量不足,还能怎样向AI模型注入人类智能?

作者 | 王昊 出品 | IDEA研究院 在深度学习发展的第三波浪潮中, ChatGPT引发了人们对人工智能前所未有的关注。它的出现意味着基于指令学习和人类反馈的AI技术成为人工智能领域的关键。然而,当前所展示的能力还远不是AI的最终形态,无论是产业…

玩转ChatGPT:基于Mucloud建立本地知识库

一、写在前面 人们普遍认为GPT有潜力颠覆教育行业,然而这种颠覆会以何种方式呈现呢? 在刘慈欣的科幻世界中,三体人拥有知识遗传的能力,这使得他们的技术迭代成本降至最低。然而,我们人类并未具备这样的特性&#xff…

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

1.多模态GPT-4正式发布:支持图像和文本输入,效果超越ChatGPT OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有: GPT-4可以更准确地解决难题&a…

AI炒股:用Claude来分析A股2023年中报业绩预告

Claude是和ChatGPT类似的AI大模型,据测试 AI 的水平能力接近 GPT-4,支持高达 100K token 的上下文。Claude只需要到官方网站注册账号后就可以直接免费使用。不过,目前智能美国和英国的 IP 可以注册和使用。 Claude支持上传文档功能&#xff…

NLP还能做什么?多机构联合发布百页论文,系统阐述后ChatGPT技术链

深度学习自然语言处理 分享来自:机器之心 一切都要从 ChatGPT 的横空出世说起...... 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资…

NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链

夕小瑶科技说 分享 来源 | 机器之心 一切都要从 ChatGPT 的横空出世说起… 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资本 “狂飙”&#…

chatgpt赋能python:Python量化数据来源-介绍

Python量化数据来源 - 介绍 Python在金融量化分析领域中得到了广泛的应用,这部分应用通常被称为Python量化金融。Python量化数据来源是Python量化金融分析的基础,只有良好的数据来源才能保证分析的准确性和有效性。 Python具有以其代码简洁易懂、强大的…

GIS可视化—热力图制作与热点分析(一)

本博客知识来源:城市数据派公众号,WeChat ID:udparty。讲师:张海平老师(高级城市数据分析师),本文对讲解PPT中的内容进行总结概括,并方便自己以及他人更加直观的了解与学习热力图方面…

(二)QCustomPlot生成热力图/矩阵颜色图

系列文章目录 提示:这里是该系列文章的所有文章的目录 第一章: (一)QCustomPlot常见属性设置、多曲线绘制、动态曲线绘制、生成游标、矩形放大等功能实现 第二章: (二)QCustomPlot生成热力图/矩…