b 站视频合集
【AI+X组队学习】Sora原理与技术实战:Sora技术路径详解
Sora 技术报告(OpenAI)
huggingsd 文生图视频系列的一个开源项目
最强视频生成模型Sora相关技术解析
https://github.com/lichao-sun/SoraReview
惊艳效果:
- 长视频
- 高清
- 视频融合能力
- 同一场景的多角度/镜头的生成能力
TeText-to-video: 文生视频
Image-to-video: 图生视频
Video-to-video: 改变源视频风格or场景
Extending video in time: 视频拓展(前后双向)
Create seamless loops: Tiled videos that seem like they never endImage generation: 图片生成 (size最高达到 2048 x 2048)
Generate video in any foformat: From 1920 x 1080 to 1080 x 1920 视频输出比例自定义
Simulate virtual worlds: 链接虚拟世界,游戏视频场景生成Create a video: 长达60s的视频并保持人物、场景一致性
要做世界模拟器。
DDPM 扩散模型
ViT 把完整的图片 Patch 化,把单个图片的patch 序列化。
为了处理视频,提出了 ViViT,用 Transformers 来处理视频的一个模型.
包含时空信息的patch。
如何进行样本取样?
Sora, 通过 patch,预测下一个patch,构建一个自回归的方式来进行的。而不是之前那种预测关键帧,插帧的方式。
DALLE 2 也是通过文本的方式。