旷视AI开源新突破:上传照片即可生成表情包视频!

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等最新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的最新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

与音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/375229.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】基于深度学习的模式识别基础

一 模式识别基础 “模式”指的是数据中具有某些相似特征或属性的事物或事件的集合。具体来说,模式可以是以下几种形式: 视觉模式 在图像或视频中,模式可以是某种形状、颜色组合或纹理。例如,人脸、文字字符、手写数字等都可以视…

基于LSTM的局部特征提取网络算法原理

目录 一、LSTM的基本原理与结构 1. LSTM的核心结构 2. LSTM的工作原理 二、基于LSTM的局部特征提取 1. 输入处理与序列表示 2. LSTM层处理与特征提取 3. 特征提取的优势与应用 三、实现细节与注意事项 1. 数据预处理 2. 网络结构与参数选择 3. 训练策略与正则化 4.…

2023Q1 A股市场投资者持股结构(测算值,流通市值口径)

https://pdf.dfcfw.com/pdf/H301_AP202305291587341564_1.pdf A股投资者结构全景图(2023Q1) 李立峰 SAC NO:S1120520090003 2023年05月29日 请仔细阅读在本报告尾部的重要法律声明 仅供机构投资者使用 证券研究报告 A股投资者结构总览 2 A股投资者结构 个…

数据结构(3.9_1)——特殊矩阵的压缩存储

总览 一维数组的存储结构 如果下标从1开始,则a[i]的存放地址LOC (i-1)*sizeof(ElemType); 二维数组的存储 二维数组也具有随机存储的特性 设起始地址为LOC 在M行N列的二维数组b[M][N]中,若按行优先存储, 则b[i][j]的存储地址的LOC (i*…

【Element-UI 表格表头、内容合并单元格】

一、实现效果&#xff1a; &#x1f970; 表头合并行、合并列 &#x1f970; &#x1f970; 表格内容行、合并列 &#x1f970; thead和tbody分别有单独的合并方法 二、关键代码&#xff1a; <el-table size"mini" class"table-th-F4F6FB" align&qu…

最好的照片恢复软件是什么?您需要了解的十大照片恢复工具

在当今的数字时代&#xff0c;丢失的珍贵照片可能是一件令人心碎的事情。无论是由于意外删除、文件损坏还是意外格式&#xff0c;对专业摄影师和普通拍照爱好者的影响都是巨大的。幸运的是&#xff0c;各种照片恢复软件解决方案可以帮助您恢复这些丢失的记忆。本文根据第一手经…

论文阅读--Simple Baselines for Image Restoration

这篇文章是 2022 ECCV 的一篇文章&#xff0c;是旷视科技的一篇文章&#xff0c;针对图像恢复任务各种网络结构进行了梳理&#xff0c;最后总结出一种非常简单却高效的网络结构&#xff0c;这个网络结构甚至不需要非线性激活函数。 文章一开始就提到&#xff0c;虽然在图像复原…

微调及代码

一、微调&#xff1a;迁移学习&#xff08;transfer learning&#xff09;将从源数据集学到的知识迁移到目标数据集。 二、步骤 1、在源数据集&#xff08;例如ImageNet数据集&#xff09;上预训练神经网络模型&#xff0c;即源模型。 2、创建一个新的神经网络模型&#xff…

python基础篇(9):模块

1 模块简介 Python 模块(Module)&#xff0c;是一个 Python 文件&#xff0c;以 .py 结尾. 模块能定义函数&#xff0c;类和变量&#xff0c;模块里也能包含可执行的代码. 模块的作用: python中有很多各种不同的模块, 每一个模块都可以帮助我们快速的实现一些功能, 比如实现…

概论(二)随机变量

1.名词解释 1.1 样本空间 一次具体实验中所有可能出现的结果&#xff0c;构成一个样本空间。 1.2 随机变量 把结果抽象成数值&#xff0c;结果和数值的对应关系就形成了随机变量X。例如把抛一次硬币的结果&#xff0c;正面记为1&#xff0c;反面记为0。有变量相对应的就有自…

SpringBoot实战:轻松实现接口数据脱敏

一、接口数据脱敏概述 1.1 接口数据脱敏的定义 接口数据脱敏是Web应用程序中一种保护敏感信息不被泄露的关键措施。在API接口向客户端返回数据时&#xff0c;系统会对包含敏感信息&#xff08;如个人身份信息、财务数据等&#xff09;的字段进行特殊处理。这种处理通过应用特…

多个版本JAVA切换(学习笔记)

多个版本JAVA切换 很多时候&#xff0c;我们电脑上会安装多个版本的java版本&#xff0c;java8&#xff0c;java11&#xff0c;java17等等&#xff0c;这时候如果想要切换java的版本&#xff0c;可以按照以下方式进行 1.检查当前版本的JAVA 同时按下 win r 可以调出运行工具…

WMS系统的核心功能

WMS系统&#xff08;Warehouse Management System&#xff09;的核心功能主要包括以下几个方面&#xff1a; ———————————————————————— 1、库存管理&#xff1a; 1):跟踪库存数量、位置和状态&#xff0c;确保实时库存可见性。 2):支持批次管理、序列…

文心快码——百度研发编码助手

介绍 刚从中国互联网大会中回来&#xff0c;感受颇深吧。百度的展商亮相了文心快码&#xff0c;展商人员细致的讲解让我们一行了解到该模型的一些优点。首先&#xff0c;先来简单介绍一下文心快码吧。 文心快码&#xff08;ERNIE Code&#xff09;是百度公司推出的一个预训练…

【STM32标准库】读写内部FLASH

1.内部FLASH的构成 STM32F407的内部FLASH包含主存储器、系统存储器、OTP区域以及选项字节区域。 一般我们说STM32内部FLASH的时候&#xff0c;都是指这个主存储器区域&#xff0c;它是存储用户应用程序的空间。STM32F407ZGT6型号芯片&#xff0c; 它的主存储区域大小为1MB。其…

ppt翻译免费怎么做?5个方法让你秒懂PPT的内容

当你收到一份来自海外的PPT资料&#xff0c;眼前或许是一片陌生的语言海洋&#xff0c;但别让这成为理解与灵感之间的障碍。 这时&#xff0c;一款优秀的PPT翻译软件就如同你的私人导航员&#xff0c;能迅速将这份知识宝藏转化为你熟悉的语言&#xff0c;让每一个图表、每一段…

Unity引擎制作玻璃的反射和折射效果

Unity引擎制作玻璃球玻璃杯 大家好&#xff0c;我是阿赵。   之前做海面效果的时候&#xff0c;没做反射和折射的效果&#xff0c;因为我觉得过于复杂的效果没有太大的实际作用。这方面的效果&#xff0c;我就做了现在这个例子来补充一下。 在这个demo场景里面&#xff0c;我…

社交媒体数据分析:赋能企业营销策略的利器

一、数据&#xff1a;未来的石油与导航仪 在数字化转型的大潮中&#xff0c;数据已成为推动企业发展的新燃料。它不仅是决策的依据&#xff0c;更是预见未来的水晶球。特别是在社交媒体这片广袤的海洋里&#xff0c;每一条帖子、每一次点赞、评论都蕴藏着消费者的偏好、市场的…

thinkphp8框架源码精讲

前言 很开心你能看到这个笔记&#xff0c;相信你对thinkphp是有一定兴趣的&#xff0c;正好大家都是志同道合的人。 thinkphp是我入门学习的第一个框架&#xff0c;经过这么多年了&#xff0c;还没好好的研究它&#xff0c;今年利用了空闲的时间狠狠的深入源码学习了一把&…

Proteus + Keil单片机仿真教程(五)多位LED数码管的静态显示

Proteus + Keil单片机仿真教程(五)多位LED数码管 上一章节讲解了单个数码管的静态和动态显示,这一章节将对多个数码管的静态显示进行学习,本章节主要难点: 1.锁存器的理解和使用; 2.多个数码管的接线封装方式; 3.Proteus 快速接头的使用。 第一个多位数码管示例 元件…