[大模型]视频生成-Sora简析

[大模型]视频生成-Sora简析

news/2024/12/26 22:51:42/文章来源:https://blog.csdn.net/weixin_37878740/article/details/143520639

参考资料：

Sora技术报告https://openai.com/index/video-generation-models-as-world-simulators/4分钟详细揭密！Sora视频生成模型原理https://www.bilibili.com/video/BV1AW421K7Ut

一、概述

相较于Gen-2、Stable Diffusion、Pika等生成模型的前辈，Sora有更出众的一镜到底能力（超过60s）。一镜到底的实现中，难点在于让模型正确的理解两帧之间的逻辑性，使生成的视频具备连贯性。

二、Diffusion模型

Diffusion（扩散模型），会基于随机过程，从噪声图像中逐步祛除噪声来满足生成满足要求的图像。分为两个部分：前向扩散和反向扩散。

前向扩散会将一张清晰的图像逐步添加噪声，生成一张充满噪声的图像。而反向扩散则会从一堆噪声中逐步生成一张符合要求的清晰图片。通过反复迭代训练，模型能更好的从噪声中重建高质量的图像数据。

三、Transformer模型

这里的Transformer主要用于进行文本生成，而非图像识别领域的特征提取。当使用文本作为输入时，连续的文本会被token化，拆分为数个单词并附加位置信息。

接下来token会被编码器(Encoder)转换为更抽象的特征向量，而解码器(Decoder)则会根据特征向量来生成目标序列。需要注意的是，解码器会同时将特征向量和已生成的文本作为输入以保证上下文的连贯性。

四、Diffusion Transformer模型

Diffusion Transformer(DiT)模型借鉴了二、三的优势，为了保证生成内容的连贯性和一致性，Sora引入了时空patch的概念。类似于Transformer中的token，将原始视频通过视觉编码器被压缩为一组低维度特征向量。

通过这种方式，模型可以同时关注视频中对象在当前帧中的空间位置和整个视频中的时间位置。

得益于视觉编码器的压缩，Sora可以很简单的在低维空间中进行训练。经过训练后，Sora会根据噪声patch和提示词生成清晰的patch。但这个patch实际上也是一个无法被人理解的低维表示。需要解码器将其还原成视频。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/469045.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Prompt Engineering 提示工程

Prompt Engineering 提示工程

一、什么是提示工程（Prompt Engineering） Prompt 就是发给大模型的指令，比如讲个笑话、用 Python 编个贪吃蛇游戏等；大模型只接受一种输入，那就是 prompt。本质上，所有大模型相关的工程工作，都是…

阅读更多...

python爬虫指南——初学者避坑篇

python爬虫指南——初学者避坑篇

目录 Python爬虫初学者学习指南一、学习方向二、Python爬虫知识点总结三、具体知识点详解和实现步骤1. HTTP请求和HTML解析2. 正则表达式提取数据3. 动态内容爬取4. 数据存储5. 反爬虫应对措施四、完整案例：爬取京东商品信息1. 导入库和设置基本信息2. 获取网页内容…

阅读更多...

微搭低代码入门01变量

微搭低代码入门01变量

目录 1 变量的定义2 变量的赋值3 变量的类型4 算术运算符5 字符串的连接6 模板字符串7 检查变量的类型8 解构赋值8.1 数组的解构赋值8.2 对象的解构赋值 9 类型转换9.1 转换为字符串9.2 转换为数字9.3 转换为布尔值总结好些零基础的同学，在使用低代码的时候&#…

阅读更多...

FPGA学习笔记#5 Vitis HLS For循环的优化（1）

FPGA学习笔记#5 Vitis HLS For循环的优化（1）

本笔记使用的Vitis HLS版本为2022.2，在windows11下运行，仿真part为xcku15p_CIV-ffva1156-2LV-e，主要根据教程：跟Xilinx SAE 学HLS系列视频讲座-高亚军进行学习从这一篇开始正式进入HLS对C代码的优化笔记学习笔记：《…

阅读更多...

每日OJ题_牛客_JZ38字符串的排列_DFS_C++_Java

每日OJ题_牛客_JZ38字符串的排列_DFS_C++_Java

目录牛客_JZ38字符串的排列_DFS 题目解析 C代码 Java代码牛客_JZ38字符串的排列_DFS 字符串的排列_牛客题霸_牛客网描述： 输入一个长度为 n 字符串，打印出该字符串中字符的所有排列，你可以以任意顺序返回这个字符串数组。例如输入…

阅读更多...

markdown常用语法

markdown常用语法

🍓 简介：java系列技术分享(👉持续更新中…🔥) 🍓 初衷:一起学习、一起进步、坚持不懈 🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏 🍓 希望这篇文章对你有所帮助,欢…

阅读更多...

CSS教程（二）- CSS选择器

CSS教程（二）- CSS选择器

1. 作用匹配文档中的某些元素为其应用样式。根据不同需求把不同的标签选出来。 2. 分类分类基础选择器包含标签选择器、ID选择器、类选择器、通用选择器等复合选择器包含后代选择器、子代选择器、伪类选择器等 1 标签选择器介绍又称为元素选择器，根…

阅读更多...

第二十周学习周报

第二十周学习周报

目录摘要abstractTheory behind GANGAN训练目标GAN训练技巧总结摘要本周的学习内容是GAN的基本理论，在训练GAN的时候，Generator的目标是希望生成的数据与真实的数据越相似越好，而Discriminator的目标是尽量将生成的数据与真实的数据区分…

阅读更多...

2024年CRM系统对比：国内外十大CRM热门选择

2024年CRM系统对比：国内外十大CRM热门选择

在数字化转型的大潮中，CRM系统是企业提升客户关系管理、优化销售流程的重要工具。本文将从系统功能、优势、劣势、总体评价四个方面，对2024年国内外十大热门CRM系统进行全方位对比，帮助企业找到最适合的CRM解决方案。 1.纷享销客CRM 系统功…

阅读更多...

VideoChat：开源的数字人实时对话系统，支持自定义数字人的形象和音色

VideoChat：开源的数字人实时对话系统，支持自定义数字人的形象和音色

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！ 🥦 微信公众号&#xff…

阅读更多...

[CKS] TLS Secrets创建与挂载

[CKS] TLS Secrets创建与挂载

目前的所有题目为2024年10月后更新的最新题库，考试的k8s版本为1.31.1 BackGround 您必须使用存储在TLS Secret中的SSL文件，来保护Web 服务器的安全访问。 Task 在clever-cactus namespace中为名为clever-cactus的现有Deployment创建名为clever-cactu…

阅读更多...

使用 wxPython 开发 Python 桌面应用程序的完整教程

使用 wxPython 开发 Python 桌面应用程序的完整教程

使用 wxPython 开发 Python 桌面应用程序的完整教程引言在当今的软件开发领域，桌面应用程序仍然占据着重要的位置。Python 作为一种灵活且易于学习的编程语言，结合 wxPython 库，可以快速构建跨平台的桌面应用程序。本文将深入探讨 wxPyth…

阅读更多...

自动驾驶系列—自动驾驶环境感知：Radar数据的应用与实践

自动驾驶系列—自动驾驶环境感知：Radar数据的应用与实践

🌟🌟 欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中…

阅读更多...

DimensionX：从单张图片生成高度逼真的 3D 和 4D 场景

DimensionX：从单张图片生成高度逼真的 3D 和 4D 场景

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！ 🥦 微信公众号&#xff…

阅读更多...

蓝桥杯备考——算法

蓝桥杯备考——算法

一、排序冒泡排序、选择排序、插入排序、快速排序、归并排序、桶排序二、枚举三、二分查找与二分答案四、搜索（DFS） DFS（DFS基础、回溯、剪枝、记忆化） 1.DFS算法（深度优先搜索算法） 深度优先搜…

阅读更多...

【网络面试篇】其他面试题——Cookie、Session、DNS、CDN、SSL/TLS、加密概念

【网络面试篇】其他面试题——Cookie、Session、DNS、CDN、SSL/TLS、加密概念

目录一、HTTP 相关问题 1. Cookie 和 Session 是什么？ （1）Cookie （2）Session 2. Cookie 的工作原理？ 3. Session 的工作原理？ 4. Cookie 和 Session 有什么区别？ 二、其他问…

阅读更多...

隧道论文阅读2-采用无人融合扫描数据的基于深度学习的垂直型隧道三维数字损伤图

隧道论文阅读2-采用无人融合扫描数据的基于深度学习的垂直型隧道三维数字损伤图

目前存在的问题： 需要开发新的无人测量系统测量垂直隧道图像数据量巨大，基于深度学习完成损伤评估跟踪获取图像位置的困难，对大型基础设施感兴趣区域(roi)的2d和3d地图建立进行了研究，对整个目标结构的损伤定位仍然具有挑战性。为…

阅读更多...

CCF-A类 HPCA 2025 重磅揭晓：录取数据公布

CCF-A类 HPCA 2025 重磅揭晓：录取数据公布

近日，第31届国际计算机体系结构领域顶级会议HPCA (International Symposium on High Performance Computer Architecture) 正式发布了2025年会议的录用通知！本届会议共收到了534 篇提交论文，其中，112篇论文被接收，整体…

阅读更多...

Linux应用——线程池

Linux应用——线程池

1. 线程池要求我们创建线程池的目的本质上是用空间换取时间，而我们选择于 C 的类内包装原生线程库的形式来创建，其具体实行逻辑如图可以看到，整个线程池其实就是一个大型的 CP 模型，接下来我们来完成它 2. 整体模板 #pragma …

阅读更多...

IDM扩展添加到Edge浏览器

IDM扩展添加到Edge浏览器

IDM扩展添加到Edge浏览器一般情况下，当安装IDM软件后，该软件将会自动将IDM Integration Module浏览器扩展安装到Edge浏览器上，但在某些情况下，需要我们手动安装，以下为手动安装步骤手动安装IDM扩展到Edge浏览器打…

阅读更多...

最新文章

推荐文章