开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

论文链接:https://arxiv.org/abs/2502.10841
项目链接:https://skyworkai.github.io/skyreels-a1.github.io/
Demo链接:https://www.skyreels.ai/
开源地址:https://github.com/SkyworkAI/SkyReels-A1
https://github.com/SkyworkAI/SkyReels-V1

亮点直击

  • 提出了SkyReels-A1,一种用于肖像动画的全新框架,采用DiT(扩散Transformer)架构,以提升运动传递精度、身份保留和时间一致性的保真度。该框架结合了基于表情标志点的动态条件模块,以及连接视觉-文本语义空间的跨模态对齐机制。

  • 分阶段的训练方法被设计用于逐步优化运动-表情相关性以及主体特定特征的不变性。

  • 通过一系列全面的实验评估了SkyReels-A1的性能,结果表明其能够生成高效的结果,并展现出对各种组合变化的无缝适应性。最后,为了支持进一步的研究和行业应用,代码和演示材料均已公开提供。

总结速览

解决的问题

  • 身份失真:现有方法在动画生成过程中难以保持人物身份的稳定性,导致身份信息泄露或扭曲。

  • 背景不稳定:动画生成时背景容易出现抖动或不一致的现象。

  • 面部表情不真实:特别是在仅头部动画的场景中,面部表情缺乏真实感。

  • 全身动画的挑战:当动画扩展到全身时,现有方法容易产生视觉伪影或不自然的动作。

  • 身份与运动融合的困难:现有方法难以在保持身份一致性的同时,实现细腻的表情和动作生成。

提出的方案

  • 基于视频扩散Transformer(DiT)的框架:利用DiT的强大生成能力,提升面部运动传递的精度、身份保留和时间一致性。

  • 表情感知条件模块:通过表情引导的标志点输入驱动连续视频生成,增强表情与动作的关联性。

  • 面部图像-文本对齐模块:深度融合面部特征与运动轨迹,强化身份一致性。

  • 多阶段训练策略:逐步优化表情与运动的相关性,同时确保身份稳定再现。

  • 统一潜在空间建模:在单一潜在空间中联合建模面部细节和全身动态,解决身份漂移和背景不一致问题。

应用的技术

  • 视频扩散Transformer(DiT):利用其强大的生成能力和时间一致性建模能力。

  • 表情感知标志点序列:作为条件输入,驱动细腻的表情生成。

  • 图像-文本对齐技术:增强面部特征与运动轨迹的融合。

  • 多阶段训练范式:分阶段优化姿势准确性、身份稳定性和运动真实性。

  • 模块化设计:便于集成到实时视频编辑系统和个性化虚拟化身平台。

达到的效果

  • 高质量动画生成:生成高保真、富有表现力的肖像动画,适应多样化的身体比例。

  • 身份一致性:在动画过程中保持人物身份的完整性,避免身份失真。

  • 自然的表情与动作:实现细腻的面部表情和自然的全身动作,提升动画的真实感。

  • 广泛的适用性:适用于虚拟化身、远程通信、数字媒体生成等多种应用场景。

  • 优于现有方法:在定量评估和用户研究中表现优异,特别是在处理复杂解剖结构和微表情方面。

  • 模块化与易集成性:便于集成到下游应用中,如实时视频编辑和个性化虚拟化身平台。

方法

SkyReels-A1框架概述

给定输入视频序列和参考肖像图像,从视频中提取表情感知的面部标志点,这些标志点作为运动描述符,用于将表情传递到肖像上。本文的方法基于DiT(扩散Transformer)的条件视频生成框架,将这些表情感知的面部标志点直接集成到输入潜在空间中。与先前的研究一致,采用了在VAE(变分自编码器)架构中构建的姿态引导机制。该组件将表情感知的面部标志点编码为DiT框架的条件输入,从而使模型能够捕捉关键的低维视觉属性,同时保持面部特征的语义完整性。

表情感知关键点

本文为肖像动画引入了一种类似的基于面部关键点的运动条件输入。精准的面部表情运动表征是实现富有表现力的肖像动画的基础,它能够捕捉人类情感和微表情的细微变化,从而显著提升动画头像的真实感和情感共鸣。目前的扩散模型方法主要在训练过程中使用 2D 面部关键点 作为运动表征,但这类方法存在关键限制:

  1. 2D 关键点的推理依赖性 —— 由于推理阶段仍然依赖 2D 关键点,目标表情与参考肖像之间容易出现错位,导致 表情不匹配身份泄漏伪影

  2. 3D 关键点提取的精度不足 —— 现有方法使用 MediaPipe 等第三方工具从视频序列中提取 3D 关键点,但这些方法往往缺乏捕捉细粒度表情细节和复杂面部动态的精度,尤其是在 非正面视角极端表情 情况下。

为了解决上述问题,本文提出了 3D Facial Expressions,一个集成神经渲染模块的框架,以提升重建面部表情的精度与真实感。不同于依赖可微分渲染(differentiable rendering)的传统方法,我们用 神经渲染机制 取代这一组件,使得模型能够更高效地学习,并具备更强的泛化能力,适应多样的面部表情。该架构能够提取 高精度 3D 关键点,以更高的保真度捕捉复杂的运动细节和面部动态。借助这一优化的运动表征,本文的方法显著增强了肖像动画的真实感,同时确保 更精准的表情匹配、身份一致性和多场景适应性

3D 关键点引导模块

为了确保驱动信号输入视频潜在表示(latent representations) 之间的时空一致性,我们提出 时空对齐关键点引导模块(Spatio-temporal Alignment Landmark Guide Module)。该模块的核心组件是 3D 因果编码器(3D causal encoder),通过精细调优,该编码器能够更有效地捕捉驱动信号的运动表征,确保运动信号与输入视频潜在特征之间的精准对齐。

该模块通过 3D 因果编码器 直接投影 驱动信号,使其与视频潜在特征共享同一个潜在空间。这种共享表征 弥合了运动信号与生成视频帧之间的鸿沟,确保时空动态的同步性。此外,进一步的 精细调优 强化了编码器对复杂运动模式的捕捉能力,从而提升运动迁移的真实性和细节还原度。

这一方法不仅确保 精准的运动对齐,还能在生成的视频中保持 身份一致性和运动稳定性,从而实现高质量、时序稳定的肖像动画。

面部图像-文本对齐

在现有的肖像动画方法中,在改变面部表情的同时保持身份一致性仍然是一个亟待深入研究的挑战。早期的方法主要通过 跨注意力机制(cross-attention)身份保持适配器(identity-preserving adapters) 来增强身份一致性。然而,我们发现此类方法不仅 训练难度较大,还 引入了大量额外参数,增加了计算开销。

受CogVideoX架构的启发,我们在表情生成过程中,通过在输入阶段拼接面部图像和视频的嵌入(embeddings)来提升身份一致性。这种方法不仅能够增强身份保持能力,还可以无缝继承预训练基础模型的能力。

为此,本文引入了一个 轻量级的可学习映射模块,该模块采用 多层感知机(MLP)P,用于将面部特征映射到文本特征空间。

其中, 是由视觉编码器Evision提取的 身份嵌入(identity embedding),该编码器基于预训练的图像-文本模型。由于 能够捕捉精细的面部特征,而视觉特征(visual)则涵盖更广泛的面部信息,并且对光照、遮挡等外部因素的敏感度较低,因此融合这两类信息能够提升生成结果中面部特征的准确性。

实验

本节首先概述了实验的实施细节,包括数据来源、数据过滤过程、基线模型以及实验中使用的基准。然后展示了与选定基线模型的对比实验结果,以验证所提出模块的有效性。

实验设置

实施细节:基于先进的视频扩散Transformer模型CogVideoX-5B进行训练,使用收集的数据集与公开数据集的组合。在多阶段训练过程中,第一阶段训练2K步,第二阶段训练2K步,最后阶段训练1K步,批量大小为512。前两个阶段的学习率设置为1e-5,最后阶段降至1e-6,使用AdamW优化器。实验在32台NVIDIA A800 GPU上进行。在推理过程中,使用DDIM采样器,并将无分类器引导的尺度设置为3。实验中使用的静态参考图像由Flux生成,并来源于Pexels。

数据集来源:训练视频片段来源于NeRSemble数据集、HDTF、DFEW、RAVDESS、Panda70M以及从互联网上收集的约1W个角色视频片段。

数据过滤:在数据预处理阶段,实施了一系列细致的过滤步骤,以确保视频-文本数据集的质量和适用性。工作流程包括三个阶段:单角色提取、运动过滤和后处理。首先,选择单角色视频,并使用现有工具清理视频内容,解决相机捕捉伪影和背景噪声等问题。然后使用MediaPipe检测的面部关键点提取头部姿态信息和嘴部标志点。通过计算头部角度和嘴部变化,筛选出具有显著面部表情和头部运动的样本。最后,基于前几步检测到的面部位置,我们将视频裁剪或填充至固定分辨率480×720,以满足模型的输入要求。从每个视频中随机选择一帧,并使用clip编码器将面部编码为嵌入向量,为模型提供必要的面部特征信息。

基线模型:为了全面评估SkyReels-A1在不同场景下的性能,将其与多个肖像动画基线模型进行比较,包括开源解决方案LivePortrait、Follow-Your-Emoji以及闭源商业产品Runway Act One。

评估指标

为了衡量肖像动画结果的泛化质量和运动准确性,本文采用了三个指标分别评估身份相似性、图像质量以及表情和头部姿态的准确性。具体来说:

  1. 身份保留:使用FaceSim-Arc和FaceSim-Cur分数,计算源图像与生成图像之间的余弦相似度。

  2. 图像质量:使用预训练网络结合FID(Fréchet Inception Distance)进行评估。

  3. 运动准确性:通过比较驱动帧和生成帧之间提取的面部混合形状(blendshapes)和头部姿态的L1差异,使用FaceAnalysis3和OpenPose4工具进行评估。

与基线模型的比较

定量结果:本文进行了跨身份运动传递的实验,其中参考肖像从100张野外图像中随机选择,驱动序列则来自我们的测试数据集。下表1展示了定量评估结果。本文提出的模型在生成保真度和运动精度方面均优于基于扩散和非扩散的方法。通过引入视频扩散Transformer作为先验,SkyReels-A1在图像质量上取得了显著提升,超越了现有方法(闭源商业模型Act-One除外)。

定性结果:下图4展示了肖像动画的定性比较,补充了自动化评估指标的结果。前两个示例突出了模型在驱动或源肖像存在显著姿态变化时仍能准确传递运动的鲁棒性。第三和第四个案例中,模型有效地捕捉并传递了细腻的面部表情(如嘴唇运动和眼神),同时保持了原始肖像的视觉一致性。此外,最后一个案例表明,通过集成拼接技术,模型在动画全身图像时表现出更高的稳定性,即使参考肖像的面部区域较小。

用户研究

为了进一步验证SkyReels-A1模型在运动准确性和表现力方面的优越性,进行了用户研究,招募了来自不同地理区域的20名参与者对合成视频进行评估。每位参与者回答了一系列比较问题,评估两个关键方面:运动准确性和人类相似性。评估过程中明确告知模型名称,参与者被要求选择最能准确复制驱动序列表情和运动的视频。在收集的100份反馈中,63%的参与者更倾向于选择SkyReels-A1,证实了其在保留面部表情和姿态保真度方面的增强能力优于现有基线模型。

使用

clone代码&准备环境:

git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1# create env using conda
conda create -n skyreels-a1 python=3.10
conda activate skyreels-a1

下载依赖:

pip install -r requirements.txt

下载预训练weights

# !pip install -U "huggingface_hub[cli]"
huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"

推理

执行脚本

python inference.py

如果脚本运行成功,可以得到一个输出 mp4 文件。该文件包含以下结果:视频、输入图像或视频以及生成的结果。

结论

本研究提出了 SkyReels-A1,一种基于视频扩散Transformer的创新肖像动画框架。通过融合运动与身份表征,本文的方法在细微和夸张的面部表情生成方面均实现了高保真度。通过广泛的自动评估和用户评测,我们验证了模型在不同定制场景下的鲁棒性和适应性。我们期待这些具有前景的结果能够推动肖像动画应用的发展。

参考文献

[1] SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26793.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果廉价机型 iPhone 16e 影像系统深度解析

【人像拍摄差异】 尽管iPhone 16e支持后期焦点调整功能,但用户无法像iPhone 16系列那样通过点击屏幕实时切换拍摄主体。前置摄像头同样缺失人像深度控制功能,不过TrueTone原彩闪光灯系统在前后摄均有保留。 很多人都高估了 iPhone 的安全性,查…

中科大计算机网络原理 1.5 Internt结构和ISP

一、互联网的层次化架构 ‌覆盖范围分层‌ ‌主干网(Tier-1级)‌ 国家级或行业级核心网络,承担跨区域数据传输和全球互联功能。例如中国的四大主干网(ChinaNET、CERNET等)以及跨国运营商(如AT&T、Deuts…

线程 -- 线程池

线程池 谈起线程池之前,我们可以联想到常量池,那什么是常量池呢? 常量池:字符串常量,在 Java 程序最初构建的时候,就已经准备好了。等程序运行的时候,这样的常量也就加载到内存中了。因此剩下…

uniapp-原生android插件开发摘要

uni-app在App侧的原生扩展插件,支持使用java、object-c等原生语言编写,从HBuilderX 3.6起,新增支持了使用uts来开发原生插件。 基础项目 UniPlugin-Hello-AS工程请在App离线SDK中查找 基础项目(App离线SDK)已经配置好了自定义插件所需要的…

Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce

一、目标 掌握hive中select查询语句中的基本语法掌握hive中select查询语句的分组掌握hive中select查询语句中的join掌握hive中select查询语句中的排序 二、要点 1. 基本查询 注意 SQL 语言大小写不敏感SQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行…

MacDroid for Mac v2.3 安卓手机文件传输助手 支持M、Intel芯片 4.7K

MacDroid 是Mac毒搜集到的一款安卓手机文件传输助手,在Mac和Android设备之间传输文件。您只需要将安卓手机使用 USB 连接到 Mac 电脑上即可将安卓设备挂载为本地磁盘,就像编辑mac磁盘上的文件一样编辑安卓设备上的文件,MacDroid支持所有 Andr…

题解:洛谷 P2199 最后的迷宫

题目https://www.luogu.com.cn/problem/P2199 显然,数据最大 ,数组我们开不下,动态开数组。 对于每一个查询,从起点开始,走一步判断是否能看到火焰杯。 如果已经没法走了,直接拆墙,输出 Poor…

如何在Github上面上传本地文件夹

前言 直接在GitHub网址上面上传文件夹是不行的,需要一层一层创建然后上传,而且文件的大小也有限制,使用Git进行上传更加方便和实用 1.下载和安装Git Git - Downloads 傻瓜式安装即可 2.获取密钥对 打开自己的Github,创建SSH密钥&…

vscode接入ai插件(免费版)

一、安装插件 扩展程序搜索tongyilingma 点击install安装 二、登录阿里云 安装好之后左侧会出现通义的图标。 点击通义图标,右上角登录。 登陆成功后即可使用。 三、位置 在左边可能不太符合编码习惯,我们点击右侧位置图标,把通义图标拖…

【deepseek第二课】docker部署dify,配置私有化知识库,解决网络超时,成功安装

【deepseek第二课】docker部署dify,配置私有化知识库,解决网络超时,成功安装 1. dify安装1.1 官网安装文档介绍1.2 安装报错,网络连接问题使用镜像加速器处理1.3 dify后台启动很多docker进程2. 页面探索2.1 设置管理账号2.2 添加ollama支持的模型3. 创建知识库4. 创建一个聊…

如何利用SpringSecurity进行认证与授权

目录 一、SpringSecurity简介 1.1 入门Demo 二、认证 ?编辑 2.1 SpringSecurity完整流程 2.2 认证流程详解 ?2.3 自定义认证实现 2.3.1 数据库校验用户 2.3.2 密码加密存储 2.3.3 登录接口实现 2.3.4 认证过滤器 2.3.5 退出登录? 三、授权 3.1 权限系统作用 …

非平稳时间序列分析(二)——ARIMA(p, d, q)模型

此前篇章(平稳序列): 时间序列分析(一)——基础概念篇 时间序列分析(二)——平稳性检验 时间序列分析(三)——白噪声检验 时间序列分析(四)—…

【软考-架构】1.2、指令系统-存储系统-cache

GitHub地址:https://github.com/tyronczt/system_architect ✨资料&文章更新✨ 指令系统 计算机指令执行过程:取指令一一分析指令一一执行指令三个步骤,首先将程序计数器PC中的指令地址取出,送入地址总线,CPU依据…

家用可燃气体探测器——家庭燃气安全的坚实防线

随着社会的发展和变迁,天然气为我们的生活带来了诸多便利,无论是烹饪美食,还是温暖取暖,都离不开它的支持。然而,燃气安全隐患如影随形,一旦发生泄漏,可能引发爆炸、火灾等严重事故,…

鸿蒙 ArkUI 实现敲木鱼小游戏

敲木鱼是一款具有禅意的趣味小游戏,本文将通过鸿蒙 ArkUI 框架的实现代码,逐步解析其核心技术点,包括动画驱动、状态管理、音效震动反馈等。 一、架构设计与工程搭建 1.1 项目结构解析 完整项目包含以下核心模块: ├── entry…

分布式日志和责任链路

目录 日志问题 责任链问题 分布式日志 GrayLog简介 部署安装 收集日志 配置Inputs 集成微服务 日志回收策略 搜索语法 搜索语法 自定义展示字段 日志统计仪表盘 创建仪表盘 链路追踪 APM 什么是APM 原理 技术选型 Skywalking简介 部署安装 微服务探针 整合…

进程间通信(IPC)与匿名管道

目录 一、进程间通信(IPC)概述 1. 核心概念 2. 核心目的 3. IPC分类 二、匿名管道 1. 什么是管道 示例:Shell中的管道 2. 匿名管道的原理 3. 匿名管道的实现 3.1 创建管道:pipe()函数 3.2 使用 fork 共享管道 3.3 站在…

构建智能 SQL 查询代理agent,把整个查询过程模块化,既能自动判断使用哪些表,又能自动生成 SQL 语句,最终返回查询结果

示例代码: import os import getpass from dotenv import load_dotenv from pyprojroot import here from typing import List from pprint import pprint from pydantic import BaseModel from langchain_core.tools import tool from langchain_core.runnables i…

从矩阵乘法探秘Transformer

目录 前言1. transformer背景1.1 回顾线性代数的知识1.1.1 矩阵和行向量1.1.2 矩阵相乘和算子作用1.1.3 从分块矩阵的乘法来看 Q K T V QK^TV QKTV 1.2 encoder-decoder1.3 低阶到高阶语义向量的转换1.4 核心的问题 2. transformer网络结构2.1 基于KV查询的相似性计算2.2 在一个…

用友NC系列漏洞检测利用工具

声明!本文章所有的工具分享仅仅只是供大家学习交流为主,切勿用于非法用途,如有任何触犯法律的行为,均与本人及团队无关!!! 目录标题 YongYouNcTool启动及适配环境核心功能界面预览一键检测命令执…