Hallo2 长视频和高分辨率的音频驱动的肖像图像动画 (数字人技术)

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION

论文:https://arxiv.org/abs/2410.07718
代码:https://github.com/fudan-generative-vision/hallo2
模型:https://huggingface.co/fudan-generative-ai/hallo2

  前言:24年6月,该团队推出了Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation用于纵向图像动画的分层音频驱动视觉合成,得到了广泛关注,同时京东健康在Hallo基础上用中文数据训练的新的模型JoyHallo,10月16日,Hallo2横空出世,本文主要是介绍Hallo2论文相关内容

Hallo2演示demo

摘要

  最近,基于潜在扩散的人像动画生成模型,如Hallo,在短时间视频合成中取得了令人印象深刻的结果。在本文中,作者介绍了Hallo的更新,介绍了几个设计增强以扩展其功能。首先,将该方法扩展到制作长时间的视频。为了解决诸如外观漂移和时间伪影等实质性挑战,研究了条件运动帧图像空间内的增强策略。具体来说,引入了一种增强高斯噪声的贴片掉落技术,以增强长时间的视觉一致性和时间相干性。第二,实现4K分辨率人像视频生成。为了实现这一点,实现了潜在代码的矢量量化,并应用时间对齐技术来保持跨时间维度的一致性。通过集成高质量的解码器,实现了4K分辨率的视觉合成。第三,将纵向表达式的可调语义文本标签作为条件输入。这超越了传统的音频线索,提高了可控性,增加了生成内容的多样性。本文提出的Hallo2是第一个实现4K分辨率并生成长达一小时的音频驱动肖像图像动画的方法,并通过文本提示进行增强。已经进行了大量的实验来评估在公开可用数据集上的方法,包括HDTF、CelebV和引入的“Wild”数据集。实验结果表明,作者的方法在长时间人像视频动画中实现了最先进的性能,成功地生成了长达数十分钟的4K分辨率的丰富可控内容。

技术介绍

  肖像图像动画-是一个快速发展的领域,具有跨多个领域的巨大潜力。这些领域包括高质量的电影和动画制作,虚拟助理的开发,个性化的客户服务解决方案,互动教育内容的创作,以及游戏行业中的逼真角色动画。因此,生成长时间、高分辨率、音频驱动的人像动画的能力,特别是那些由文本提示辅助的动画,对这些应用程序至关重要。最近的技术进步,特别是在潜在扩散模型方面,极大地推动了这一领域的发展。

  近年来出现了几种利用潜在扩散模型进行人像动画的方法。例如,VASA-1 采用Peebles和DiT模型作为扩散过程中的去噪器,将单个静态图像和音频片段转换为逼真的会话面部动画。同样,EMO框架代表了第一个端到端系统,该系统使用基于unet的扩散模型,仅使用单个参考图像和音频输入,能够生成具有高表现力和真实感的动画,无缝帧转换和身份保存。该领域的其他重大进展包括AniPortrait,EchoMimic,V-Express, Loopy和CyberHost,每个人都有助于增强肖像图像动画的功能和应用。Hallo是另一个值得注意的贡献,他们在先前的研究基础上引入了分层音频驱动的视觉合成,以实现面部表情生成、头部姿势控制和个性化动画定制。在本文中,通过引入几个设计增强来扩展其功能,对Hallo进行了更新。
在这里插入图片描述
图1:该方法处理一个参考图像和一个持续几分钟的音频输入。此外,可以在不同的间隔引入可选的文本提示,以调节和细化肖像的表达。由此产生的输出是一个高分辨率的4K视频,与音频同步,并受可选的表达式提示的影响,确保在整个延长的视频持续时间内的连续性

  首先,将hello从生成简短的、第二长的肖像动画扩展到支持长达数十分钟的持续时间。如图2所示,长期视频生成通常采用两种主要方法。第一种方法包括在控制信号的引导下并行生成音频驱动的视频剪辑,然后在这些剪辑的相邻帧之间应用外观和运动约束。这种方法的一个重要限制是必须在生成的剪辑中保持最小的外观和运动差异,这阻碍了嘴唇运动,面部表情和姿势的实质性变化,由于强制连续性约束,经常导致模糊和扭曲的表情和姿势。第二种方法通过利用之前的帧作为条件信息,增量地生成新的视频内容。虽然这种方法允许连续运动,但容易产生错误积累。相对于参考图像的扭曲、变形、噪声伪影或前一帧中的运动不一致会传播到后续帧,从而降低整体视频质量。

  为了达到高表现力,现实主义和丰富的运动动态,遵循第二种方法。方法主要是从参考图像中提取外观,仅利用之前生成的帧来传达运动动态-包括嘴唇运动,面部表情和姿势。为了防止前一帧对外观信息的污染,实现了一种patch-drop数据增强技术,该技术在保留运动特征的同时,对条件帧中的外观信息引入了可控的损坏。这种方法鼓励外观主要来自参考肖像图像,在整个动画中保持强大的身份一致性,并使长视频具有连续的运动。此外,为了增强对外观污染的恢复能力,将高斯噪声作为附加的数据增强技术应用于条件帧,进一步增强对参考图像的保真度,同时有效地利用运动信息。

在这里插入图片描述
图2:基于并行和增量扩散的长期人像动画生成模型的比较。(a)由于帧间连续性约束,并行生成方法可能导致模糊和表达式失真。(b)增量生成法在人脸特征和背景上都容易产生误差积累

  其次,为了实现4K视频分辨率,将用于码序列预测任务的矢量量化生成对抗网络(VQGAN)离散码本空间方法扩展到时间维度。通过将时序对齐整合到码序列预测网络中,实现了生成视频的预测码序列的平滑过渡。在应用高质量解码器后,外观和运动的强一致性使方法能够增强高分辨率细节的时间相干性。

  第三,为了增强长时间人像视频生成的语义控制,引入了可调节的人像表情语义文本提示作为条件输入和音频信号。通过在不同的时间间隔注入文本提示,方法可以帮助调整面部表情和头部姿势,从而使动画更加逼真和富有表现力。

  为了评估提出的方法的有效性,在公开可用的数据集上进行了全面的实验,包括HDTF、CelebV和引入的“Wild”数据集。方法是第一个在肖像图像动画中实现4K分辨率,持续时间长达十分钟甚至几个小时。此外,通过结合可调节的文本提示,可以在生成过程中精确控制面部特征,方法确保了生成动画的高水平真实感和多样性。

最新的相关工作

  视频扩散模型:基于扩散的模型在从文本和图像输入生成高质量和逼真的视频方面表现出了非凡的能力。稳定视频扩散强调潜在视频扩散方法,利用预训练,微调和策划数据集来提高视频质量。Make-A-Video利用文本到图像的合成技术来优化文本到视频的生成,而不需要配对数据。MagicVideo引入了一个具有新颖3D U-Net设计的高效框架,降低了计算成本。通过即插即用运动模块实现个性化文本到图像模型的动画。进一步的贡献,如VideoComposer和VideoCrafter,强调视频生成的可控性和质量。VideoComposer集成了动态指导的运动矢量,而videocafter提供了开源模型。CogVideoX通过专家转换器增强文本-视频对齐,MagicTime通过变形延时模型解决物理知识的编码问题。在这些进步的基础上,方法采用了专门为肖像图像动画量身定制的高级预训练扩散模型,专注于长时间和高分辨率合成。

在这里插入图片描述

  肖像图像动画:在音频驱动的说话头生成和人像动画方面取得了重大进展,强调了与音频输入的真实感和同步性。LipSyncExpert使用鉴别器和新的评估基准提高了对口型的准确性。随后的SadTalker和VividTalk等方法结合了3D运动建模和头部姿势生成,以增强表现力和时间同步。扩散技术进一步推动了该领域的发展。DiffTalk和DreamTalk提高了视频质量,同时保持了不同身份之间的同步。VASA-1和AniTalker整合了细致入微的面部表情和通用的运动表现,产生了栩栩如生的同步动画。AniPortrait、EchoMimic、VExpress、Loopy、CyberHost和EMO都对增强的功能做出了贡献,重点是表现力、真实感和身份保护。尽管取得了这些进步,但生成具有一致视觉质量和时间一致性的长时间高分辨率人像视频仍然是一个挑战。方法建立在hello上,通过在长期肖像图像动画中实现逼真的高分辨率运动动态来解决这一差距

  长视频和高分辨率视频生成:视频扩散模型的最新进展显著增强了长时间高分辨率视频的生成。像Flexible Diffusion Modeling和Gen-L-Video这样的框架提高了时间一致性,并使文本驱动的视频生成无需额外的培训。SEINE和StoryDiffusion等方法引入了生成过渡和语义运动预测器,用于平滑的场景变化和视觉叙事。StreamingT2V和MovieDreamer等方法使用自回归策略和扩散渲染来处理具有无缝过渡的扩展叙事视频。VideoInfinity通过分布式推理优化长视频合成,而FreeLong集成了全局和本地视频功能,而无需训练一致性。在本文中,采用斑块下降和高斯噪声增强来实现长时间的肖像图像动画。
  离散先验表示与学习字典已被证明是有效的图像恢复。VQ-VAE通过矢量量化引入离散潜在空间来增强vae,解决后验崩溃问题,并实现高质量的图像,视频和语音生成。在此基础上,VQ-GAN结合cnn和transformer来创建一个上下文丰富的图像组件词汇表,在条件图像生成中实现了最先进的结果。CodeFormer使用学习的离散码本进行盲脸恢复,采用基于transformer的网络增强抗退化的鲁棒性。本文提出了用时间对齐技术对潜在码进行矢量量化,以保持4K合成的时间高分辨率相干性。

方法

  肖像图像动画的扩展技术有效地解决了生成具有复杂运动动力学的长时间高分辨率视频的挑战,以及启用音频驱动和文本提示控制。提出的方法主要从单个参考图像中提取受试者的外观,同时利用先前生成的帧作为条件输入来捕获运动信息。为了保留参考图像的外观细节并防止前一帧的污染,引入了一种结合高斯噪声注入的斑块滴数据增强技术。此外,将VQGAN离散码本预测扩展到时域,促进高分辨率视频生成并增强时间相干性。此外,将文本条件与音频信号结合起来,在长期视频生成过程中实现对面部表情和动作的多种控制。
在这里插入图片描述
图4:提出的高分辨率增强模块的示意图,演示了提取输入潜在特征的两种备选设计

具体的推理公式请参考论文原文,论文中写的很详细

实验对比

在这里插入图片描述
  表1 在HDTF数据集上与现有人像动画方法的定量比较。
在这里插入图片描述
  图6:与现有方法在HDTF数据集上的定性比较

在这里插入图片描述
  表2:在CelebV数据集上与现有人像动画方法的定量比较

在这里插入图片描述
  表3:在建议的“Wild”数据集上与现有方法的定量比较
在这里插入图片描述
  图9:不同肖像风格下的肖像图像动画效果
在这里插入图片描述
在这里插入图片描述
  表6:CelebV数据集上patch drop和高斯噪声增强的消蚀研究
在这里插入图片描述
定性比较了高分辨率增强前后的人像动画效果
在这里插入图片描述
  参考图像和动作帧的注意力地图可视化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455382.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

后端C++

前言 1. Task0 1.1 获取你的服务器 1.2 对服务器进行基本操作 分别创建文件夹dir_a, dir_b, dir_c进入dir_a,创建a.txt, b.txt, c.txt 将a.txt, b.txt, c.txt 分别复制成: a.txt.bak, b.txt.bak, c.txt.bak 将a.txt, b.txt, c.txt 分别重命名为: a_new.txt, b_new.txt, c_ne…

凹凸性和拐点的概念

二阶导不存在也可能是拐点 判断拐点的充分条件

Android Studio USB调试真机映射屏幕画面

Android Studio USB调试真机映射屏幕画面 文章目录 Android Studio USB调试真机映射屏幕画面一、USB连手机并设置开发者模式1.1 报错信息1.2 启用开发者选项和 USB 调试:1.3 手机配置选项 二、Android Studio 开启手机投屏功能 一、USB连手机并设置开发者模式 1.1 …

Flutter 小技巧之 equatable 包解析以及宏编程解析

今天我们聊聊 equatable 包的实现,并通过 equatable 去理解 Dart 宏编程的作用和实现,对于 Flutter 开发者来说,Dart 宏编程可以说是「望眼欲穿」。 equatable 正如 equatable 这个包名所示,它的功能很简单,主要是用…

计算机毕业设计hadoop+spark知识图谱中药推荐系统 中药材推荐系统 中药可视化 中药数据分析 中药爬虫 机器学习 深度学习 人工智能 大数据

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 摘 要 本文所探讨的领域是…

【Linux】“echo $变量“ 命令打印变量值的底层原理

在 shell 中,echo $变量 命令的工作原理涉及几个关键步骤,主要是由 shell 解释器来处理变量的查找和替换。以下是详细的过程: 变量展开的过程顺序 变量引用: 在命令行中,变量通常以 $variable_name 或 ${variable_…

若依前后端分离超详情版

若依系统安装流程 1.安装Ubuntu系统 1.1 新建虚拟机 打开VMware Workstation,选择文件->新建虚拟机->典型(推荐T)->安装程序光盘映像文件->输入虚拟的名字->一直下一步即可 安装程序光盘映像文件 注意:选择ub…

专业第三方的控价价值

在当今竞争激烈的商业世界中,价格管控犹如一场没有硝烟的战争。品牌们为了维护自身的市场秩序和品牌价值,纷纷踏上控价的艰难征程。而在这个过程中,专业的第三方控价服务公司正以创新之姿,成为品牌们的得力助手。 曾经&#xff0c…

空间数据分析实验04:空间统计分析

实验概况 实验目的 了解空间统计分析的基本原理掌握空间统计分析的常用方法 实验内容 根据某村的土地利用数据和DEM数据,提取各村组耕地面积比例,并将其与村组平均坡度进行相关性分析,最后计算各村组单元的景观多样性指数。 实验原理与方…

【设计模式-原型】

**原型模式(Prototype Pattern)**是一种创建型设计模式,旨在通过复制现有对象的方式来创建新对象,而不是通过实例化类来创建对象。该模式允许对象通过克隆(复制)来创建新的实例,因此避免了重新创…

你不常用的 FileReader 能干什么?

前言 欢迎关注同名公众号《熊的猫》,文章会同步更新,也可快速加入前端交流群! 本文灵感源于上周小伙伴遇到一个问题: “一个本该返回 Blob 类型的下载接口,却返回了 JSon 类型的内容!!&#xf…

HTML之表单设计

1、HTML表单 HTML表单是用于收集用户输入的信息,并将用户输入的内容信息传到后台服务器中。 表单是通过form标签实现。 特别注意:如果一些内容提交后,没有将内容提交给后台服务器,那么需要添加一个name属性,语法&am…

Stable Diffusion 3.5 震撼发布!最新开源 AI 图像生成模型,艺术创作必备神器!

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 🥦 微信公众号&#xff…

【NOIP普及组】 装箱问题

【NOIP普及组】 装箱问题 💐The Begin💐点点关注,收藏不迷路💐 有一个箱子容量为V(正整数,0<=V<=20000),同时有n个物品(0&…

KubeSphere 最佳实战:Kubernetes 部署集群模式 Nacos 实战指南

Nacos 是 Dynamic Naming and Configuration Service 的首字母简称,一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos 是构建以服务为中心的现代应用架构 (例如微服务范式、云原生范式) 的服务基础设施。 在本文中,我将为您提供…

k8s备份恢复(velero)

velero简介 velero官网: https://velero.io/ velero-github: https://github.com/vmware-tanzu/velero velero的特性 备份可以按集群资源的子集,按命名空间、资源类型标签选择器进行过滤,从而为备份和恢复的内容提供高度的灵活…

怎么在线制作拼团活动

在这个快节奏的时代,我们总在寻找那份独特的购物乐趣与超值体验。传统购物模式已难以满足日益增长的个性化与性价比需求,而在线购物虽便捷,却常让人在琳琅满目的商品中迷失方向。正是在这样的背景下,一种全新的购物方式——“在线…

vue3处理货名的拼接

摘要: 货品的拼接规则是:【品牌】货名称/假如货品名称为空时,直接选择品牌为【品牌】赋值给货品,再选择品牌,会替换【品牌】;假如货名称为【品牌】名称,再选择品牌只会替换【品牌】,…

vue3项目页面实现echarts图表渐变色的动态配置

完整代码可点击vue3项目页面实现echarts图表渐变色的动态配置-星林社区 https://www.jl1mall.com/forum/PostDetail?postId202410151031000091552查看 一、背景 在开发可配置业务平台时,需要实现让用户对项目内echarts图表的动态配置,让用户脱离代码也…

2024下半年软考机考模拟系统已开放!小伙伴们速速练起来

千呼万唤使出来,软考机考的模拟练习系统已于10月23号正式开放! 今年报名计算机技术与软件专业技术资格(水平)考试(软考)的小伙伴们千万不要忘记哦! 01、开放时间 据中国计算机技术职业资格网发…