OpenAI Sora:浅析文生视频模型Sora以及技术原理简介

一、Sora是什么?

Sora官方链接:https://openai.com/sora

  视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。

OpenAI,永远快别人一步!!!!

像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。

100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。

三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”

60s超长长度: pika和runway(视频模型领头羊)还只能生成4s视频,这60s直接拉开了差距。而且动作连续,还有一定的艺术性,没有生硬的感觉。

单视频多角度镜头: 在60s的视频内,可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。Sora能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。

要知道,以前的AI视频,都单镜头生成的。。

世界模型: Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上持续添加新的笔触,或者一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。

二、为什么这一次Sora得到全世界这么多关注?

1. 技术上遥遥领先

  跟之前的runway和pika可以说不属于一个种群了(类似于猿猴与人类),Sora是跟ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言。

OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」

显然,这个王炸级技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!

他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt
,我一一输出。

1

2. 大幅度降低了短视频制作的成本

   只需一个简单的提示词,就能生成一段制作精良的60秒视频。时间之长,画面之不失违和,简直令人震惊。

   支持使用图片或视频片段进行扩展,生成全新的视频。同时也支持将两个视频合并整合成一个新的视频。

   原先汽车广告视频要花费大量的人力物力,是不是可以AI生成了?电影宣传片是不是也可以?短视频和短片本身就短那就更没问题了吧?(有人甚至认为tiktok都会被取代了)

  但是需要创意和价值观的电影一时半会还不能被替代。因为需要好的估时剧本,好的导演,好的演员,大家配合才能演绎出一个经典的电影。

3. 生成4K图片

Sora 还能够生成图像,分辨率高达 2048×2048。除了Midjourney和Dall-E又有了个新的选择。

Sora一出,马斯克直接大呼:人类彻底完蛋了!

2 6


马斯克为什么这么说?

OpenAI科学家Tim Brooks表示,没通过人类预先设定,Sora就自己通过观察大量数据,自然而然学会了关于3D几何形状和一致性的知识。

三、Sora技术原理简介介绍

1. Sora的训练受到了大语言模型(Large Language Model)的启发

这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。

2. Sora的独特方法如何改变视频生成

以往,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。

但是!!!Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。

Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusion transformer模型。

于是,以下功能应运而生——

文字转视频:将文字内容变成视频
图片转视频:赋予静止图像动态生命
视频风格转换:改变原有视频的风格
视频时间延展:可以将视频向前或向后延长
创造无缝循环视频:制作出看起来永无止境的循环视频
生成单帧图像视频:将静态图像转化为最高2048 x 2048分辨率的单帧视频
生成各种格式的视频:支持从1920 x 1080到1080 x 1920之间各种分辨率格式
模拟虚拟世界:创造出类似于Minecraft等游戏的虚拟世界
创作短视频:制作最长达一分钟的视频,包含多个短片

3. Sora秘密成分的核心:时空patch

这种方法使Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

这种灵活性确保了每条数据都有助于模型的理解,就像厨师可以使用各种食材,来增强菜肴的风味特征一样。

时空patch对视频数据详细而灵活的处理,为精确的物理模拟和3D一致性等复杂功能奠定了基础。

从此,我们可以创建看起来逼真且符合世界物理规则的视频,人类也得以一窥AI创建复杂、动态视觉内容的巨大潜力。

4. 多样化数据在训练中的作用

训练数据的质量和多样性,对于模型的性能至关重要。

传统的视频模型,是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

而Sora利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。

它能够重新创建像Minecraft这样的数字世界,以及来自Unreal或Unity等系统的模拟世界镜头,以捕捉视频内容的所有角度和各种风格。

3


这样,Sora就成了一个「通才」模型,就像GPT-4对于文本一样。

四、Sora 怎么使用

目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要升级 GPT Plus 可以看这个教程 :  升级 ChatGPT Plus ,一分钟完成升级

一位OpenAI员工发推表示,现在Sora只会在有限的范围内试用(刚方面的专业用户评判其伦理性),现在放出的demo主要是为了获得社会大众对它能力的反应

现在,标榜要开发负责任AGI的OpenAI,应该不会冒着风险给大众抛出一个潘多拉魔盒。

笔者认为使用Sora前我们需要有一些准备工作

在开始之前,确保您已经拥有了OpenAI账目,并获得了Sora的访问权限。准备好您想要转化成视频的文本描述,记住越详细越好。

   1. Sora使用步骤一:文本描述

   登录您的OpenAI账户,找到Sora的使用界面。在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。

   2. Sora使用步骤二:生成视频

   完成文本描述和自定义设置后,点击“生成视频”按钮。Sora将开始处理您的请求,这可能需要几分钟时间。完成后,您可以预览生成的视频。

需要注意的是,截止2024年2月18日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。

openai sora如何使用的常见问答Q&A

1.问题:Sora是什么?

Sora是由OpenAI开发的AI视频生成模型。
Sora可以根据用户提供的描述性文字生成长达60秒的高质量视频。
Sora的视频包含精细复杂的场景、生动的角色表情和复杂的镜头运动。

2.问题:Sora怎么使用?

登录OpenAI账户并找到Sora的使用界面。
在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。
点击生成按钮,OpenAI Sora会根据您的文本描述生成视频。

3.问题:Sora的优势有哪些?

Sora具有极强的扩展性,基于Transformer架构,可以应用于各种场景。
Sora能够生成高质量、高清的视频,展现复杂场景的光影关系、物体的物理遮挡和碰撞关系。
Sora可以创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。

4.问题:Sora的训练原理是什么?

Sora的训练分为两个阶段。首先,使用一个标注模型为训练集中的视频生成详细描述。
标注模型生成的描述能够更好地指导Sora生成视频。
Sora利用稳定扩散(Stable Diffusion)技术将静态噪声转换为连贯图像。
Sora模型采用初步的扩散模型生成视频长度,并逐步消除噪声完成视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/300632.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++的List类(一):List类的基本概念

目录 前言 List类的基本概念 List的构造函数 List类迭代器的使用 List的功能 List的元素访问 List与vector比较 前言 vector的insert和erase都会导致迭代器失效list的insert不会导致迭代器失效,erase会导致迭代器失效 insert导致失效的原因是开辟了新空间后…

【氮化镓】在轨实验研究辐射对GaN器件的影响

【Pioneering evaluation of GaN transistors in geostationary satellites】 摘要: 这篇论文介绍了一项为期6年的空间实验结果,该实验研究了在地球静止轨道上辐射对氮化镓(GaN)电子元件的影响。实验使用了四个GaN晶体管&#xf…

解决前端精度丢失问题:后端Long类型到前端的处理策略

在Web开发中,我们经常遇到前后端数据类型不匹配的问题,特别是当后端使用大数据类型如Long时,前端由于JavaScript的数字精度限制,可能导致精度丢失。本文将深入探讨这个问题,并提供两种有效的解决方法。 一、问题背景 …

Java: LinkedList的模拟实现

一、双向链表简介 上一篇文章我介绍了单向链表的实现,单向链表的特点是:可以根据上一个节点访问下一个节点!但是,它有个缺点,无法通过下一个节点访问上一个节点!这也是它称为单向链表的原因。 那么&#x…

Tomcat的安装

Tomcat的网址https://tomcat.apache.org/ 点击进去之后的左边可以选择要下载的版本 可以通过下面的which version来进行确定你当前的jdk版本适配的Tomact版本 点进去之后 我的Tomcat适配8版本 点击Core的ZIP进行下载。 下载之后会给一个压缩文件将其进行解压随 最终呈现出这…

c++20协程详解(四)

前言 到这就是协程的最后一节了。希望能帮到大家 代码 到这里我们整合下之前二、三节的代码 #include <coroutine> #include <functional> #include <chrono> #include <iostream> #include <thread> #include <mutex> #include <me…

配置vscode用于STM32编译,Debug

配置环境参考&#xff1a; Docs 用cubemx配置工程文件&#xff0c;用VScode打开工程文件。 编译的时候会有如下报错&#xff1a; vscode出现process_begin :CreateProcess failed 系统找不到指定文件 解决方案&#xff1a;在你的makefile中加上SHELLcmd.exe就可以了 参考…

nest.js + sms 实现短信验证码登录

文章目录 一、前言1、方案概述 二、教程1、阿里云配置&#xff08;1&#xff09;购买短信服务&#xff08;2&#xff09;、短信测试&#xff08;3&#xff09;、资质申请&#xff08;4&#xff09;、通用设置 2、获取API代码示例3、运行工程代码 一、前言 最近做些网站的时候&…

蓝桥杯刷题-12-公因数匹配-数论(分解质因数)不是很理解❓❓

蓝桥杯2023年第十四届省赛真题-公因数匹配 给定 n 个正整数 Ai&#xff0c;请找出两个数 i, j 使得 i < j 且 Ai 和 Aj 存在大于 1 的公因数。 如果存在多组 i, j&#xff0c;请输出 i 最小的那组。如果仍然存在多组 i, j&#xff0c;请输出 i 最小的所有方案中 j 最小的那…

Java | Leetcode Java题解之第16题最接近的三数之和

题目&#xff1a; 题解&#xff1a; class Solution {public int threeSumClosest(int[] nums, int target) {Arrays.sort(nums);int n nums.length;int best 10000000;// 枚举 afor (int i 0; i < n; i) {// 保证和上一次枚举的元素不相等if (i > 0 && nums…

Mac安装Docker提示Another application changed your Desktop configuration解决方案

1. 问题描述 Mac安装Docker后&#xff0c;提示Another application changed your Desktop configuration&#xff0c;Re-apply configurations无效 2. 解决方案 在终端执行下述命令即可解决&#xff1a; sudo ln -sf /Applications/Docker.app/Contents/Resources/bin/docke…

springCloud-LoadBalancer负载均衡微服务负载均衡器LoadBalancer

2020年前SpringCloud是采用Ribbon作为负载均衡实现&#xff0c;但是在2020后采用了LoadBalancer替代 LoadBalancer默认提供了两种负载均衡策略&#xff08;只能通过配置类来修改负载均衡策略&#xff09; 1.RandomLoadBalancer-随机分配策略 2.RoundRobinLoadBalancer-轮询分配…

使用pytorch构建有监督的条件GAN(conditional GAN)网络模型

本文为此系列的第四篇conditional GAN&#xff0c;上一篇为WGAN-GP。文中在无监督的基础上重点讲解作为有监督对比无监督的差异&#xff0c;若有不懂的无监督知识点可以看本系列第一篇。 原理 有条件与无条件 如图投进硬币随机得到一个乒乓球的例子可以看成是一个无监督的GAN&…

服务器主机安全受到危害的严重性

为了让小伙伴们了解到服务器主机安全受到危害的严重性&#xff0c;以下详细说明一下&#xff1a;1. 数据泄露&#xff1a;如果服务器主机遭受攻击&#xff0c;攻击者可能会窃取敏感数据&#xff0c;如用户数据、商业秘密、机密文件等&#xff0c;导致数据泄露和商业机密的泄漏。…

Mac怎么调大音频音量?

Mac怎么调大音频音量&#xff1f;在使用 Mac 电脑时&#xff0c;有时可能会发现音频的音量不够大&#xff0c;特别是在观看视频、听音乐或进行视频会议时。不过&#xff0c;幸运的是&#xff0c;Mac 提供了多种方法来调大音频音量&#xff0c;让您更好地享受音乐和视频的乐趣。…

如何在 Node.js 中使用 bcrypt 对密码进行哈希处理

在网页开发领域中&#xff0c;安全性至关重要&#xff0c;特别是涉及到用户凭据如密码时。在网页开发中至关重要的一个安全程序是密码哈希处理。 密码哈希处理确保明文密码在数据库受到攻击时也难以被攻击者找到。但并非所有的哈希方法都是一样的&#xff0c;这就是 bcrypt 突…

34470A是德科技34470A数字万用表

181/2461/8938产品概述&#xff1a; Truevolt数字万用表&#xff08;34460A、34461A、34465A、34470A&#xff09;利用是德科技的新专利技术&#xff0c;使您能够快速获得见解、测量低功耗设备并保持校准的测量结果。Truevolt提供全方位的测量能力&#xff0c;具有更高的精度、…

15-1-Flex布局

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 Flex布局1 Flex容器和Flex项目2 Flex 容器属性2.1 主轴的方向2.2 主轴对齐方式…

亚马逊店铺引流:海外云手机的利用方法

在电商业务蓬勃发展的当下&#xff0c;亚马逊已经成为全球最大的电商平台之一&#xff0c;拥有庞大的用户群和交易量。在激烈的市场竞争中&#xff0c;如何有效地吸引流量成为亚马逊店铺经营者所关注的重点。海外云手机作为一项新兴技术工具&#xff0c;为亚马逊店铺的流量引导…

基于SSM的周边乡村旅游小程序

系统实现 游客注册通过注册窗口&#xff0c;进行在线填写自己的账号、密码、姓名、年龄、手机、邮箱等&#xff0c;信息编辑完成后核对信息无误后进行选择注册&#xff0c;系统核对游客所输入的账号信息是否准确&#xff0c;核对信息准确无误后系统进入到操作界面。 游客登录通…