Sora--首个大型视频生成模型

Sora--首个大型视频生成模型

      • 胡锡进于2024年2月20日认为:台当局怂了
    • 新的改变
    • 世界模拟器
    • 视觉数据转换
    • 视频压缩
    • 时空补丁(Spacetime Laten Patches)
    • 视频生成扩展变压器
    • 算法和模型架构
      • 结语

胡锡进于2024年2月20日认为:台当局怂了

 **TU商兴** 认为:不是怂了就可以的,台当局又不是小孩子

新的改变

对比现在文生视频的一流团队RUNWAY 、PIKA、SVD的生成效果,简直是造成了跨时代的碾压震撼效果!Runway 和Pika目前生成的视频时长都较短只有几秒,需要通过不断的拼接。
而且画面稳定性不强,如果需要呈现好的效果,需要创作者本身有非常强的视频剪辑及相关基础。而SORA这次最逆天的是,通过非常简单的文字描述,就可以生成画面稳定,理解能力强的长视频!Sora本次展示的是技术思路不同所带来的完全碾压。从关注二维像素的变化,变成关注语义理解的变化,从视频画面的生成,变成故事逻辑的生成。
在这里插入图片描述
之前无论是Runway、Pika、SVD等等文生图、文生视频都是在二维平面上对图像进行调整和组合,但是Sora的视频,显示它能像人一样理解一些基础的物理规律,这是 OpenAl利用它的大语言模型优势进行的超强语义理解,是真正层面的世界模型。只有实现对现实世界的理解和对真实世界的模拟,这样产生的图像和视频才是更加真实的效果。这次Sora带来的震撼或许不仅仅是影视行业,而是未来可能扩展到其他行业,视频展示的是对真实世界物理规律的再现!

英伟达的高级科学家Jim Fan认为 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 引擎。可以把 Sora 看作是一种可学习的模拟器,或者说是一个能模拟现实世界的“世界模型”。这种方法可以让 Sora 更好地理解和模拟现实世界的物理现象。

世界模拟器

OpenAI目前开发的Sora视频生成模型技术,将完全超越现有的视频生生成模型,如Runway和Pika。这项技术的核心是一个创新的“世界模拟器”,它是一个基于文本条件的扩散模型,通过从大量的视频中学习,这些视频涵盖了不同的时长、宽高比和分辨率。这个模拟器的训练过程涉及吸收和处理海量的视觉数据,使其能够根据文本描述生成相应的视频内容。例如,当输入“太空人的冒险故事,他戴着一顶红色羊毛编织的摩托车头盔”这样的描述时,模型能够理解含义,并且生成与之相符的视频画面。

该模型还具备生成视频的灵活性和多样性,支持不同的时长和分辨率设置,其最大输出规格可达1920*1080的分辨率和30帧/秒的帧率。

在这里插入图片描述

视觉数据转换

简单来说,OpenAI在视觉数据处理领域,将视觉数据转换为“patch”这一个个单元体,它可以将图像和视频帧分割成“补丁”状的小块。这些“补丁”作为视觉模型的基本输入单元,使得模型能够学习和理解如何表示以及重建视觉场景。在此基础上,模型能够在特定条件,如文本描述的引导下,生成新的图像或视频内容。

在这里插入图片描述
这种处理方式与大型语言模型中的“token”概念相似,token是文本数据的基本处理单元。在语言模型中,文本被分解为较小的片段以实现语言的理解和生成。同样地,视觉模型的训练过程涉及将不同类型的视频和图片转换成patch,作为模型输入的基本单位。这个过程可以理解成首先将视频压缩到一个较低维的潜在空间,然后将视频转换为patch,并进一步分解为“spacetime patches”(时空补丁)。

视频压缩

研究者开发出一种专门的视频压缩网络。该网络的核心是一个经过训练的神经网络,其设计宗旨在于降低视觉数据的多维度复杂性。而所谓的“降低维度”,指的是将数据从高维空间——例如原始视频数据,包含了海量的像素信息——转换到低维空间。这一过程的目的是对数据进行简化,提取关键特征,同时减少后续处理所需的计算资源。
这个神经网络接受原始视频作为输入,并输出一个在时间和空间上都经过压缩的潜在表示(latent representation)。时间上的压缩意味着减少了表示视频动态变化所需的信息量;空间上的压缩则意味着减少了表示视频中每一帧图像所需的信息量。在这个压缩的潜在空间中,Sora模型首先进行训练,学习如何理解和控制这种形式的数据。经过训练,Sora能够在这个潜在空间内生成新的视频数据。

在这里插入图片描述
为了将Sora生成的潜在表示转换回原始的像素空间,研究者还训练了一个解码器模型。

解码器的作用是将压缩的视频数据还原成可以直接观看的视频格式。

时空补丁(Spacetime Laten Patches)

在视频数据压缩完成后,接下来的关键步骤是提取一系列的“Spacetime Latent Patches”,这些Patches包含了视频在特定时间和空间范围内的信息。这些Patches在transformer模型中扮演的角色类似于自然语言处理中的单词token。这种方法不仅适用于视频数据,也适用于图形数据,使得不同分辨率、时间和宽高比的视频和图像能够作为Sora模型的训练集。
在模型推理,即生成新的视频内容时,可以通过在适当大小的网格中排列随机初始化的Patches来控制生成视频的大小。这个过程类似于在自然语言处理中,模型根据给定的token生成新的文本内容。通过这种方式,Sora模型能够根据需要生成不同大小和格式的视频,为视频生成和编辑提供了更大的灵活性和多样性。

视频生成扩展变压器

Sora模型的根基是建立在Transformer架构之上的扩散模型。

该模型通过接收输入的噪声Patches和文本提示等调节信息,能够有效地预测出“干净”的Patch。
在这里插入图片描述
这种架构在大型语言模型、计算机视觉和图像生成等领域都有着广泛的应用。在训练过程中,使用固定的种子和输入,随着计算量的增加,生成样本的质量会显著提高。这种训练方式使得Sora模型能够逐步学习并优化其生成能力,从而在处理视频和图像数据时,能够输出更加精细和逼真的结果。

##数据和训练

Sora通过分析和理解大量包含物理互动的视频,学习到了物理规律的表现形式。例如,它可以观察到苹果从树上落下来的视频,学习到重力的效应;看到球在地面上滚动的视频,理解到惯性和摩擦力如何影响物体的运动。通过这些观察,Sora能够生成新的视频,其中的物体和人物遵循现实世界的物理规律。

算法和模型架构

Sora使用的算法和模型架构(如扩散模型和变换器)使其能够在视频生成过程中考虑时间和空间的连续性。
在这里插入图片描述
这意味着它不仅能够理解单个画面中物体的位置和状态,还能够理解这些物体随时间如何变化和移动。

这种时空连续性的理解是让生成的视频看起来符合物理规律的关键

结语

Sora通过分析大量的视频数据、学习物理规律的表现,并利用先进的算法理解和模拟时空连续性,从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理,最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/261735.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI Agent规划能力全面拆解

“规划今天和每天的工作,然后执行规划” -- 撒切尔夫人 规划,无论对于人类还是智能体而言,本质上是一种预先设定行动的过程,以期望通过这些行动达到特定的目标或解决特定的问题。制定一个好的规划涉及对未来情景的预测、资源的…

机器学习面试:逻辑回归与朴素贝叶斯区别

逻辑回归与朴素贝叶斯区别有以下几个方面: (1)逻辑回归是判别模型,朴素贝叶斯是生成模型,所以生成和判别的所有区别它们都有。 (2)朴素贝叶斯属于贝叶斯,逻辑回归是最大似然,两种概率哲学间的区别。 (3)朴素贝叶斯需要条件独立假设…

ClickHouse--12-可视化工具操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 可视化工具操作1 tabixhttp://ui.tabix.io/ 2 DBeaverhttps://dbeaver.io/download/ 可视化工具操作 1 tabix tabix 支持通过浏览器直接连接 ClickHouse&#xff…

【Django】Django自定义后台表单——对一个关联外键对象同时添加多个内容

以官方文档为例: 一个投票问题包含多个选项,基本的表单设计只能一个选项一个选项添加,效率较低,如何在表单设计中一次性添加多个关联选项? 示例代码: from django.contrib import adminfrom .models impo…

springboot207基于springboot的实习管理系统

实习管理系统的设计与实现 摘要 近年来,信息化管理行业的不断兴起,使得人们的日常生活越来越离不开计算机和互联网技术。首先,根据收集到的用户需求分析,对设计系统有一个初步的认识与了解,确定实习管理系统的总体功…

消息队列MQ 保证消息不丢失(消息可靠性)

文章目录 概述RabbitMQ 怎么避免消息丢失(可靠传输)RocketMQ 怎么确保消息不丢失Kafka 怎么保证消息不丢失activeMQ 怎么避免消息丢失MQ 宕机了消息是否会丢失线上服务宕机时,如何保证数据100%不丢失吗?消息队列消息持久化 概述 …

一周学会Django5 Python Web开发-Django5路由重定向

锋哥原创的Python Web开发 Django5视频教程: 2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~共计25条视频,包括:2024版 Django5 Python we…

JDK8 升级至JDK19

优质博文IT-BLOG-CN 目前部分项目使用JDK8,部分项目使用JDK19因此,环境变量中还是保持JDK8,只需要下载JDK19免安装版本,通过配置IDEA就可以完成本地开发。 一、IDEA 环境设置 【1】通过快捷键CTRL SHIFT ALT S或者File->P…

【SpringBoot3】Spring Security 常用注解

注:本文基于Spring Boot 3.2.1 以及 Spring Security 6.2.1 Spring Security 6 的常用注解包括以下几种,通过这些注解可以更加方便的控制资源权限。 Secured :方法执行前检查,直接判断有没有对应的角色PreAuthorize:方…

力扣102 二叉树的层序遍历 Java版本

文章目录 题目描述思路代码 题目描述 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点)。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:[[3],[…

ubuntu22.04-磁盘管理-虚拟机动态扩容-系统monitor

文章目录 1.虚拟机2.ubuntu设置3.命令查看4.系统资源管理器 1.虚拟机 关闭ubuntu22.04,然后修改虚拟机设置,如下图所示: 修改容量 2.ubuntu设置 搜索打开disks,如下图所示: 选择目标磁盘,选择调整大小…

利用LaTex批量将eps转pdf、png转eps、eps转png、eps转svg

1、eps转pdf 直接使用epstopdf命令(texlive、mitex自带)。 在cmd中进入到eps矢量图片的目录,使用下面的命令: for %f in (*.eps) do epstopdf "%f" 下面是plt保存eps代码: import matplotlib.pyplot as…

LeetCode每日刷题:101. 对称二叉树

题目: 解题思路:可以新写一个函数,从root开始,root的left的头结点将记为lefttree(左子树),root的lright的头结点将记为righttree(右子树), 然后递归左子树的root.left与右…

2024.2.22

1> 将互斥机制的代码实现重新敲一遍 #include<myhead.h> int num520; //临界资源 //1、创建一个互斥锁变量 pthread_mutex_t mutex; void *task1(void *arg) {printf("11111111\n");//3、获取锁资源pthread_mutex_lock(&mutex);num1314;sleep(3);pr…

LabVIEW多通道压力传感器实时动态检测

LabVIEW多通道压力传感器实时动态检测 介绍了一种基于LabVIEW的多通道压力传感器实时动态检测系统&#xff0c;解决压阻式压力传感器温度补偿过程的复杂度&#xff0c;提高测量的准确性。通过自动轮询检测方法&#xff0c;结合硬件检测模型和多通道检测系统设计&#xff0c;本…

基于ESP32+Platformio的物联网RTOS_SDK-CC_Device

本项目基于ESP32以及Platformio平台开发&#xff0c;请自行查阅如何配置这个环境 开源gitee地址&#xff1a;cc_smart_device 如果愿意贡献项目or提出疑问和修改的&#xff0c;请在gitee上提issue 项目里的mqtt服务器是公共的 请大家最好换成私有的 否则容易收到其他用户的错误…

unity学习(34)——角色选取界面(跨场景坑多)

先把SelectMenu中的camera的audio listener去掉。 现在还是平面&#xff0c;直接在camera下面添加两个panel即可&#xff0c;应该是用不到canvas了&#xff0c;都是2D的UI。 加完以后问题来了&#xff0c;角色选择界面的按钮跑到主界面上边了&#xff0c;而且现在账号密码都输…

LabVIEW多场景微振动测试平台与教学应用

LabVIEW多场景微振动测试平台与教学应用 在多种工程实践中&#xff0c;微振动的测试与分析对于评估结构的稳定性及其对环境的影响至关重要。针对这一需求&#xff0c;开发了一套基于NI-cDAQ和LabVIEW的多场景微振动测试平台&#xff0c;提高微振动测试的精确度与灵活性&#x…

通过MetricsAPI监控pod资源使用情况(k8s资源监控,java)

1. 目的&#xff1a;简单监控pod 我想使用java监控k8s pod的资源的简单使用情况&#xff0c;但是k8s内部并没有采集资源的实现。 但是k8s提供了一套k8s的对接标准&#xff0c;只要适配这套标准&#xff0c;就可以通过kubelet采集资源数据&#xff0c;并且通过k8s api服务器输出…

golang实现延迟队列(delay queue)

golang实现延迟队列 1 延迟队列&#xff1a;邮件提醒、订单自动取消 延迟队列&#xff1a;处理需要在未来某个特定时间执行的任务。这些任务被添加到队列中&#xff0c;并且指定了一个执行时间&#xff0c;只有达到指定的时间点时才能从队列中取出并执行。 应用场景&#xff1…