什么是 Pyramidal Flow?
Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型,它是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。
功能特色
-
- 文本到视频生成:用户可以输入文本提示,模型生成与描述相符的视频内容。
- 高分辨率输出:支持生成高达768p分辨率的视频。
- 自回归视频生成:支持连续帧生成,确保视频的连贯性和流畅度。
- 端到端优化:在统一框架内进行优化,简化训练和部署。
- 高效生成:采用流匹配技术,降低计算复杂度。
Pyramidal Flow 与其他视频生成模型的不同之处
- 金字塔流匹配技术:
- Pyramidal Flow 采用了一种名为金字塔流匹配的技术,将视频生成分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技术降低了计算负担,同时提高了生成的灵活性。
- 自回归框架和块状因果注意力机制:
- 模型利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和一致性。
- 高效训练与计算资源:
- Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练,能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
- 开源性质:
- Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。
- 高质量视频生成:
- 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型,但其质量非常接近于商业模型。
- 硬件要求:
- 由于模型基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。
定价信息
Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。
如何使用
Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式使用:
- Pyramid Flow项目官网 | MeoAI:
- Pyramid Flow在线体验demo:
- Pyramid Flow论文地址:
- GitHub代码:;
- Hugging Face模型下载:
- ComfyUI 插件:通过安装插件在 ComfyUI 中使用。
使用 Pyramidal Flow 模型的详细步骤
在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。
安装
首先,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照说明创建一个新的 conda 环境,并安装必要的依赖项
# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow# 创建一个新的 conda 环境,并安装 Python 3.8.10
conda create -n pyramid python==3.8.10# 激活新创建的环境
conda activate pyramid# 安装所需的 Python 库
pip install -r requirements.txt
下载模型
从 Huggingface 模型库下载预训练模型:
# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH' # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
使用模型生成视频
加载下载的模型,并使用提供的文本提示生成视频:
import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video# 设置 CUDA 设备
torch.cuda.set_device(0)# 初始化模型
更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"# 使用模型生成视频
更多代码内容访问教程地址# 将生成的帧导出为视频文件
更多代码内容访问教程地址
使用技巧
guidance_scale
参数控制视觉质量,建议对 768p 检查点使用[7, 9]
以内的指导。video_guidance_scale
参数用于控制运动,数值越大,动态程度越高。
Pyramidal Flow 模型的训练数据
Pyramidal Flow 模型的训练数据来源主要是开源数据集。具体来说,模型在训练过程中使用了以下数据集:
- LAION-5B:这是一个用于多模态AI研究的大型数据集。
- CC-12M:由网络爬虫收集的图像文本对的数据集。
- SA-1B:一个具有高质量、无模糊图像的数据集。
- WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。
Pyramidal Flow 模型在训练时仅使用了开源数据集,总计使用了 20,700 小时的 A100 GPU 计算资源。这种开源的训练数据策略使得模型可以供广大开发者和研究者免费使用,并便于进行进一步的研究和开发。
适用场景
- 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
- 电影和电视制作:生成特定场景或背景,降低实际拍摄成本。
- 游戏开发:生成游戏内动画和视频内容,提高设计效率。
- 广告和营销:快速生成吸引人的广告视频。
- 教育和培训:生成教学视频,帮助解释复杂概念。
Pyramidal Flow 提供了高效、灵活的视频生成解决方案,适合开发者、艺术家和创作者使用