前言
建议直接阅读飞书文档:Docshttps://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg
近期很多饱子私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现与评测。
本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语音(这里的核心都是人物口型与音频中的语音唇形同步)。主要通过将两个不相关的人的视频、音频,采用Wav2Lip技术,最终得到一个完整的视频文件,且视频的人物口型与音频内容一致。举例:小红的语音、加上小花的自拍视频,融合为一个最终的视频;那么小红在发出“啊”声音的时候,小花的嘴应该是张开的,以下是一张效果图),本文第四部分有完整的效果评测视频!
本文主要通过以下五个部分展开:
第一部分:深度伪造技术概述
第二部分:Wav2lip技术概述
第三部分:使用Wav2Lip进行AI主播虚拟人的深度实践
第四部分:效果评测
第五部分:Wav2Lip完整版教程的下载
注:本案例涉及到所有内容,包括教程、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。
以下是正文
第一部分:深度伪造技术概述
深度伪造一词译自英文“Deepfake”(“deep learning”和“fake”的组合)。它是一种利用机器学习的子领域——深度学习创建合成媒体的技术。
深度伪造Deepfake 可以根据媒体的关注点分为 3 个方向进行更改,即伪造视觉(例如伪造图片或者视频)、伪造音频(例如伪造语音内容等)、伪造视觉及音频(即前两者的结合了,完全都是伪造)。
深度伪造Deepfake很重要的一个技术是表情重现,让目标身份的表情模仿源身份的表情(极端一致,很自然与原始目标人物能够表情自然一致)。这在电影和视频游戏行业中具有极大的应用价值,如对演员的表情表演进行后期调整。本文图片、视频均是自己生成的,可以参考:【震撼来袭】AI视频动画制作《狼来了》全揭秘!【附完整教程】,声音是采用剪映生成的(所有素材均已放在教程中了)。
第二部分:Wav2lip技术概述
Wav2Lip技术是一个基于GAN的唇形动作迁移算法,实现生成的视频人物口型与输入语音同步。Wav2Lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称「对口型」。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。
如果您要使用哪个模型文件,github库中的 readme.md 会指出每个模型的关键属性,如下面的屏幕截图所示。
项目地址:https://github.com/baoxueyuan/DeepFake
Model | Description |
Wav2Lip | 高度精确的唇同步 |
Wav2Lip + GAN | 嘴唇同步稍差,但视觉质量更好 |
Expert Discriminator | 专家鉴别器的权重 |
Visual Quality Discriminator | 在GAN设置中训练的视盘重量 |
本文着重演示:Wav2Lip与Wav2Lip + GAN
Wav2Lip与Wav2Lip + GAN模型最终的效果对比,可见第四部分。
第三部分:使用Wav2Lip进行AI主播虚拟人的深度实践
直接下载教程,完整详细,空间有限,这里仅部分截图展示:
第四部分:效果评测
AI数字人虚拟主播技术实现效果
第五部分:Wav2Lip完整版教程的下载
关注公众号【饱学猿】,回复数字【5301】,即可获取下载链接。
本案例涉及到所有内容,包括教程、模型、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。