跟李沐学AI:视频生成类论文精读(Movie Gen、HunyuanVideo)

Movie Gen:A Cast of Media Foundation Models

简介

Movie Gen是Meta公司提出的一系列内容生成模型,包含了

3.2.1 预训练数据

Movie Gen采用大约 100M 的视频-文本对1B 的图片-文本对进行预训练。

图片-文本对的预训练流程与Meta提出的 Emu: Enhancing image generation models using photogenic needles in a haystack 流程相同。[2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a HaystacktAbstract page for arXiv paper 2309.15807: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystackhttps://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807

原始视频数据由4秒至两分钟长度的数据组成,视频内容涵盖人文、自然、动物等多个领域。数据经过预处理后得到一系列的clip-prompts pairs(视频片段-提示词对) 。

每个clip(视频片段)大约4-16秒长,视频内容由单镜头拍摄,且不包含复杂的动作。

视频数据预处理流程如下:

Visual Filtering 

1. 过滤掉分辨率小于720px的视频

2. 数据集中60%的视频为横屏视频,40%为竖屏视频

3. 删去文字特别多的视频

4. 从长视频中抽取出单场景的4-16s的片段

5. 保证视频美学品质

6. 保证视频没有边框

Motion Filtering

删去运动幅度较小的视频,通过Meta内部的静态视频检测模型移除所有没有运动的视频,随后选出具有“合理”运动幅度的视频。

Content Filtering

删除重复的视频片段、对不同类型的数据进行重新采样,保证内容的均匀性。

Captioning

对每个视频片段使用llama3-Video创建准确、具体的prompts。70%的数据使用8B模型,30%的数据使用70B。

为了保证模型能够生成电影质感的运镜,训练了一个运镜分类器来对16类运镜进行分类,如变焦、平移。如果运镜分类结果置信度很高,则将这个运镜分类结果添加至提示词中。

Multi-stage data curation

Movie Gen将上述数据预处理流程分了三个阶段,每个阶段对于数据的筛选逐渐严格,使得模型可以由易到难逐步进行学习。

3.2.2 预训练

1. 首先使用text-to-image的数据对模型进行warm up热身训练,随后使用text-to-image和text-tovideo的数据进行联合训练。

2. 视频数据分辨率首先由256px提升至768px

3. 不断用更好的数据集和优化后的超参数对模型进行训练。

训练阶段:256 px T2I
  1. TP(张量并行度): 1
  • 指训练过程中使用的张量并行度。在这个阶段,没有应用张量并行。
  1. CP(检查点并行度): 1
  • 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
  1. bs/GPU(每个GPU的批量大小): 6
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理6个样本。
  1. GPUs(GPU数量): 1536
  • 用于训练的GPU总数。这个阶段使用了1536个GPU。
  1. global bs(全局批量大小): 9216
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 6 * 1536 = 9216。
  1. learning rate(学习率): 1e-4
  • 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.0001。
  1. iters(迭代次数): 210k
  • 训练过程中执行的总迭代次数。这个阶段运行210,000次迭代。
  1. seen samples(已见样本数): 1.94B
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约19.4亿个样本。
训练阶段:256 px T2I/V
  1. TP(张量并行度): 4
  • 指训练过程中使用的张量并行度。张量并行度设置为4。
  1. CP(检查点并行度): 1
  • 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
  1. bs/GPU(每个GPU的批量大小): 2
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理2个样本。
  1. #GPUs(GPU数量): 3072
  • 用于训练的GPU总数。这个阶段使用了3072个GPU。
  1. global bs(全局批量大小): 1536
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 2 * 3072 = 1536。
  1. learning rate(学习率): 6e-5
  • 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.00006。
  1. #iters(迭代次数): 123k
  • 训练过程中执行的总迭代次数。这个阶段运行123,000次迭代。
  1. #seen samples(已见样本数): 173.6M
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约1.736亿个样本。
训练阶段:768 px T2I/V
  1. TP(张量并行度): 4
  • 指训练过程中使用的张量并行度。张量并行度设置为4。
  1. CP(检查点并行度): 1 或 2
  • 可能指的是检查点并行度。在这个阶段,检查点并行度根据配置为1或2。
  1. bs/GPU(每个GPU的批量大小): 1
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理1个样本。
  1. #GPUs(GPU数量): 6144 或 4096
  • 用于训练的GPU总数。这个阶段使用了6144或4096个GPU,取决于配置。
  1. global bs(全局批量大小): 1536、768 或 512
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs。根据配置,它可以是1536、768或512。
  1. learning rate(学习率): 6e-5、3e-5、2e-5 或 1e-5
  • 确定每次迭代时向损失函数最小值移动的步长。学习率在0.00006、0.00003、0.00002和0.00001之间变化。
  1. #iters(迭代次数): 19.6k、11k、15.9k 或 28k
  • 训练过程中执行的总迭代次数。这个阶段运行19,600、11,000、15,900或28,000次迭代,取决于配置。
  1. #seen samples(已见样本数): 30.1M、16.9M、12.2M 或 14.6M
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约3.01亿、1.69亿、1.22亿或1.46亿个样本,取决于配置。

Note:联合训练时,文本-图片对数据和文本视频对的数据保持在1:10左右的比例。

3.3 Fine Tuning 

为了保证生成结果的质量,finetuning的数据集规模可以较小,但是数据质量一定要有保障。因此finetuning的数据均由人为标注。

高质量的定义:良好的运镜、真实性、美学性、内容丰富、文本描述详细。

为了筛选高质量的数据集,Movie Gen使用连续的四个阶段对数据进行筛选:

1. 创建一个候选子集,对每个质量标准进行严格的限制,使用目标检测模型移除了只有小物体的视频。

2. 与Content Filtering一样,对第一阶段筛选后的视频进行重新采样,保证各个类别的视频均匀分布。

3. 人为找出具有电影质感的视频。

4. 人为对模型生成的提示词进行润色修改,同时加入详细的原数据:运镜、人物表情、物体和背景信息、具体的运动描述和光线信息。

模型架构

与预训练阶段保持一致

初始化

使用预训练后的checkpoint文件

节点数

64

GPU数量

512 H100 GPUs (每个节点 8 个GPUs).

Batch Size

相对较小(没有具体说明)

动态学习率

余弦学习率调度器 (Loshchilov and Hutter, 2017).

视频帧率

16秒长度的视频:16FPS;0.6–16秒长的视频:24FPS.

生成视频长度

支持生成10-16秒的视频

5. Model Averaging:不同数据子集、不同超参数训练出来的模型各有所长,为了利用不同checkpoint模型的优势、提升模型泛化性Movie Gen对SFT阶段不同的模型参数进行了平均操作,类似于Llama 3。

HunyuanVideo: A Systematic Framework For Large Video Generative Models

3. Data Pre-porcessing

与Movie Gen一致,Hunyuan Viedoe使用了图像-视频联合训练的策略,将视频分为五类、图像分为两类,以满足不同训练需求。原始数据涵盖人物、动物、风景等多个领域,筛选时设定了最低时长、画质、构图、色彩等严格标准,优先选用高质量数据,显著提升了模型性能。

3.1 Data Filtering

1. 使用PySceneDetect把原始视频分割为单镜头拍摄的视频片段。

2. 使用OpenCV中的拉普拉斯算子找出视频中最“干净”的一帧作为视频开头。

3. 使用内部的VideoCLIP模型计算每个视频的embeddings,使用embeddings计算余弦距离,删去重复数据。使用K-Means算法对数据进行重新采样以保持各种类型数据的多样性。

4. 使用Dover模型筛选更为美观的视频片段。单独训练了一个用于筛选清晰度的视频。

5. 删去了完全禁止和动作幅度较小的视频。(estimated optical flow)

6. 使用PySceneDetect和Transnet v2获得场景边界信息

7. 使用OCR模型移除文字过多的视频片段

8. 使用目标检测模型移除敏感信息

SFT阶段,约有100万条数据,同样采用人为标注的数据进行微调。

3.2 Data Annotation 

结构化说明文本:HunYuanVideo使用JSON来对图片信息进行说明。JSON数据包括:Short Description描述场景的主要内容、Dense Description详细、完整的描述、Background描述物体所在的背景、Style描述视频的风格、Shot Type描述视频的具体视角、Lighting描述视频的光线情况、Atmosphere描述视频氛围如Cozy、Tense等。

此外,HunYuanVideo扩展了JSON结构,以包含额外的元数据派生元素,包括源标签、质量标签以及来自图像和视频元信息的其他相关标签。

为了防止过拟合,HunYuanVideo通过精心设计的Dropout及排列和组合策略,根据这些多维度的描述信息来合成长度和模式各异的字幕,旨在提高生成模型的泛化能力。

HunYuanVideo训练了一个运镜分类器来预测14个不同的运镜类型,包括变焦放大、变焦缩小、向上平移、向下平移等。高置信度的分类结果将被添加至数据的JSON说明文本中。

通过上述两项工作的数据预处理过程,可以看出数据质量对模型的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12560.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CH340G上传程序到ESP8266-01(S)模块

文章目录 概要ESP8266模块外形尺寸模块原理图模块引脚功能 CH340G模块外形及其引脚模块引脚功能USB TO TTL引脚 程序上传接线Arduino IDE 安装ESP8266开发板Arduino IDE 开发板上传失败上传成功 正常工作 概要 使用USB TO TTL(CH340G)将Arduino将程序上传…

游戏引擎 Unity - Unity 下载与安装

Unity Unity 首次发布于 2005 年,属于 Unity Technologies Unity 使用的开发技术有:C# Unity 的适用平台:PC、主机、移动设备、VR / AR、Web 等 Unity 的适用领域:开发中等画质中小型项目 Unity 适合初学者或需要快速上手的开…

AIGC(生成式AI)试用 20 -- deepseek 初识

>> 基本概念 Ollama -- 运行大模型,管理运行AI大模型的工具,用来安装布置DeepSeek https://ollama.com/ , Get up and running with large language models. AnythingLLM -- 大模型增强应用,GUI大模型交互程序 Download AnythingLLM …

STM32 DMA+AD多通道

接线图 代码配置 ADC单次扫描DMA单次转运模式 uint16_t AD_Value[4]; //DMAAD多通道 void DMA_Config(void) {//定义结构体变量 GPIO_InitTypeDef GPIO_InitStructure;//定义GPIO结构体变量 ADC_InitTypeDef ADC_InitStructure; //定义ADC结构体变量 DMA_InitTypeDef DMA_In…

【Java】位图 布隆过滤器

位图 初识位图 位图, 实际上就是将二进制位作为哈希表的一个个哈希桶的数据结构, 由于二进制位只能表示 0 和 1, 因此通常用于表示数据是否存在. 如下图所示, 这个位图就用于标识 0 ~ 14 中有什么数字存在 可以看到, 我们这里相当于是把下标作为了 key-value 的一员. 但是这…

【工欲善其事】利用 DeepSeek 实现复杂 Git 操作:从原项目剥离出子版本树并同步到新的代码库中

文章目录 利用 DeepSeek 实现复杂 Git 操作1 背景介绍2 需求描述3 思路分析4 实现过程4.1 第一次需求确认4.2 第二次需求确认4.3 第三次需求确认4.4 V3 模型:中间结果的处理4.5 方案验证,首战告捷 5 总结复盘 利用 DeepSeek 实现复杂 Git 操作 1 背景介绍…

BGP路径属性

公认必遵循 BGP必须都能识别,且必须发送报文必须包含 Origin:起源属性,I,E,?三种,I是BGP通过IGP协议学到的路由(比如ospf,isis,rip),E是从EGP协议学到的&am…

Vue 图片引用方式详解:静态资源与动态路径访问

目录 前言1. 引用 public/ 目录2. assets/ 目录3. 远程服务器4. Vue Router 动态访问5. 总结6. 扩展(图片不显示) 前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 在 Vue 开发中&#x…

【网络编程】Java高并发IO模型深度指南:BIO、NIO、AIO核心解析与实战选型

​​ 目录 一、引言1.1 本文目标与适用场景1.2 什么是IO模型?阻塞 IO 模型非阻塞 IO 模型IO 多路复用模型信号驱动 IO 模型异步 IO 模型 二、基础概念解析2.1 IO模型的分类与核心思想IO模型的分类核心思想分类对比与选择依据技术示意图 2.2 同步 vs 异步 | 阻塞 vs…

基序和纯度分数的计算

以下对这两个概念的详细解释: 基序 纯度分数 PWM矩阵的来源 为什么会有PWM矩阵? 一个特定的转录因子(TF)的结合位点的基序(motif)并不是唯一的。实际上,TF结合位点通常具有一定的序列变异性&a…

算法日记11:SC63(离散化)

一、题目 二、题解 法一:前缀和(会炸) 对于这道题目,我们的第一个朴素想法就是用前缀和来进行简化操作,这个思路非常简单,就是前缀和的标准模板题,代码如下 void solve() {int n,q;cin>&g…

w185客户关系管理系统

🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…

[STM32 标准库]EXTI应用场景 功能框图 寄存器

一、EXTI 外部中断在嵌入式系统中有广泛的应用场景,如按钮开关控制,传感器触发,通信接口中断等。其原理都差不多,STM32会对外部中断引脚的边沿进行检测,若检测到相应的边沿会触发中断,在中断中做出相应的处…

Windows下怎么安装FFFmpeg呢?

在Windows下使用Open-webui报错,说Couldnt find ffmpeg or avconv,解决open-webui报错Couldn‘t find ffmpeg or avconv-CSDN博客于是尝试解决问题,那么Windows下怎么安装FFFmpeg呢? 尝试了两种方法。 第一种方法pip安装(失败&…

Hive on Spark优化

文章目录 第1章集群环境概述1.1 集群配置概述1.2 集群规划概述 第2章 Yarn配置2.1 Yarn配置说明2.2 Yarn配置实操 第3章 Spark配置3.1 Executor配置说明3.1.1 Executor CPU核数配置3.1.2 Executor内存配置3.1.3 Executor个数配置 3.2 Driver配置说明3.3 Spark配置实操 第4章 Hi…

【OMCI实践】ONT上线过程的omci消息(三)

引言 在上一篇文章【OMCI实践】ONT上线过程的omci消息(二)-CSDN博客中,主要介绍了ONT上线过程的OMCI交互的第一个阶段和第二个阶段omci消息,本篇介绍第二个阶段剩余的OMCI消息涉及到的受管实体(ME)的属性。…

保姆级教程Docker部署Zookeeper官方镜像

目录 1、安装Docker及可视化工具 2、创建挂载目录 3、运行Zookeeper容器 4、Compose运行Zookeeper容器 5、查看Zookeeper运行状态 6、验证Zookeeper是否正常运行 1、安装Docker及可视化工具 Docker及可视化工具的安装可参考:Ubuntu上安装 Docker及可视化管理…

【数据结构】栈与队列

栈 栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 压栈:栈的插入操作叫做进栈/压栈/入栈&…

安全实验作业

一 拓扑图 二 要求 1、R4为ISP,其上只能配置IP地址;R4与其他所有直连设备间均使用共有IP 2、R3-R5-R6-R7为MGRE环境,R3为中心站点; 3、整个OSPF环境IP基于172.16.0.0/16划分; 4、所有设备均可访问R4的环回&#x…

e2studio开发RA4M2(6)----GPIO外部中断(IRQ)配置

e2studio开发RA4M2.6--GPIO外部中断(IRQ)配置 概述视频教学样品申请硬件准备参考程序源码下载新建工程工程模板保存工程路径芯片配置工程模板选择时钟设置SWD调试口设置GPIO口配置按键中断配置中断回调函数主程序 概述 GPIO(通用输入/输出&a…