OpenAI全新发布的Sora,到底意味着什么?

16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。
Sora的出现,到底意味着什么?

目录

  • Sora的背景与概述
    • Sora是什么?
    • 能为我们做些什么?
    • 存在的一些问题
  • 文本视频模型效果展示
    • 一年前AI生成的视频
    • 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
    • 一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
    • 摄像机围绕一大堆展示不同节目的复古电视旋转
    • 一个机器人在赛博朋克设定中的生活故事。
    • 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
    • 一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
  • Sora的基本原理
    • 自我学习物理规律
    • 世界模型
  • 通用人工智能

Sora的背景与概述

Sora是什么?

简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。

Sora的底层同样采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,所以能更好的遵循用户的文本描述,并且也有极强的扩展性。

在这里插入图片描述

能为我们做些什么?

Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻、角色的表情也栩栩如生。

此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。

在这里插入图片描述

存在的一些问题

  1. 该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。如下图,老人吹蜡烛前后,火苗没有丝毫变化。

在这里插入图片描述

  1. 它无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。
    在这里插入图片描述

文本视频模型效果展示

一年前AI生成的视频

在这里插入图片描述

一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头

在这里插入图片描述

一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花

在这里插入图片描述

摄像机围绕一大堆展示不同节目的复古电视旋转

在这里插入图片描述

一个机器人在赛博朋克设定中的生活故事。

在这里插入图片描述

纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。

在这里插入图片描述

一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。

在这里插入图片描述

Sora的基本原理

OpenAI官方公布的Sora的技术文档,它没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:简单来说,Sora就是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,并创造出全新的视觉内容。换句话说,就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的,它同时也在学习视频里面那个世界的“物理规律”。

在这里插入图片描述

自我学习物理规律

听上去可能让人觉得难以费解,打个比方,比如你咬一口食物,食物这个时候应该出现一个咬痕,这就是物理规律。

如果咬完食物,它还是完整的状态,那它就不符合物理规律,现在大部分的视频软件并不能理解这些所谓的物理规律,它们所处理的对象只是画面,而不是画面里面的食物和人,以及它们之间的关系。

但是Sora似乎能够理解它们之间的关系,当Sora学习人咬食物的视频时,它记住的不仅仅是食物和嘴在一起的具体画面,还有咬过就会留痕的这个物理规律,当它以后有生成视频的时候,一旦涉及到咬这个动作,Sora就会知道下面应该会出现一个咬痕了。

世界模型

这是用Sora生成的一个咬食物的视频,用的是先记忆,再预测,这种理解世界的方式,是人类理解世界的方式,这种方式还有个名字,它被称为世界模型。

在这里插入图片描述
那什么叫世界模型,举个例子,你的记忆当中一定知道,一杯咖啡大概有多重,所以当你拿起一杯咖啡的时候,大脑准确预测说应该用多大的力,于是杯子用那个力就会被顺利拿起来,人都不会有意识的,但是如果这个杯子里面,碰巧没有咖啡呢,你就会用很大的力,去拿这个很轻的杯子,这个时候你的手就会立刻感觉不对,但杯子已经飞出去了,不过没关系,很快在你的记忆当中就会就会加上一条:杯子也有可能空的时候,于是,下次再去预测杯子重和不重的时候,你就不会太乱使力。

你做的事情越多,你的大脑里就会形成越复杂的世界模型,用于更准确的预测这个世界的反应,这就是人类与世界交互的方式:世界模型。

通用人工智能

Sora的技术文档里面有这么一句话,我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型,这样感觉很复杂,它实际是什么意思呢?

它的意思就是,OpenAI它最终想要做的,不是一个文本视频的工具,而是一个通用的物理世界模拟器,他们真正想要做的是为真实世界建模,而Sora只是验证了这条道路可行。

Sora的出现可能意味着,通用人工智能,也就是所谓的AGI正在加速到来,这才是OpenAI真正想做的事情。

为什么Sam Altman要筹集七万亿美金来重塑全球AI芯片的基础设施,7万亿相当于全球GDP的10%,它能买下2.5个微软,4个英伟达,或者11.5个特斯拉,为什么?

因为通往通用人工智能的道路上,除了要算法,还需要大量的算力,Sora来了,通用人工智能还会远吗?

这个世界正在发生着难以想象的变化,看似很远,但又瞬间近在眼前。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/259053.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一、springBoot入门

一、springBoot入门 步骤一:分析 建立一个需求:使用 SpringBoot 开发一个web应用,浏览器发起请求 /hello后,给浏览器返回字符串“hello worid ~"。 构建步骤概况 创建Maven攻城导入spring-boot-stater-web起步依赖编写Cont…

【开源】SpringBoot框架开发学校热点新闻推送系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 新闻类型模块2.2 新闻档案模块2.3 新闻留言模块2.4 新闻评论模块2.5 新闻收藏模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 新闻类型表3.2.2 新闻表3.2.3 新闻留言表3.2.4 新闻评论表3.2.5 新闻收藏表 四、系统展…

Arduino的PWM功能应用:会呼吸的灯

目录 概述 1 认识PWM 1.1 PWM原理 1.2 PWM的应用 1.3 在Arduino中使用PWM 2.硬件 2.1 硬件结构 2.2 线路连接 3 软件 3.1 编译和下载代码 3.2 详细代码 4 测试 4.1 灯的变化测试 4.2 使用逻辑分析仪看波形 概述 本文通过一个简单的案例,介绍Arduino中P…

Java 学习和实践笔记(11)

三大神器&#xff1a; 官方网址: http://www.jetbrains.com/idea/ 官方网址: https://code.visualstudio.com/ 官方网址: http://www.eclipse.org 装好了idea社区版&#xff0c;并试运行以下代码&#xff0c;OK&#xff01; //TIP To <b>Run</b> code, press &l…

WebServer 之 http连接处理(下)

目录 ✊请求报文--解析 流程图 && 状态机 状态机 -- 状态转移图 主状态机 从状态机 http 报文解析 HTTP_CODE 含义 从状态机 逻辑 主状态机 逻辑 &#x1f41e;请求报文--响应 基础API stat mmap iovec writev 流程图 HTTP_CODE 含义(2) 代码分析 …

HTTP缓存技术

大家好我是苏麟 , 今天说说HTTP缓存技术 . 资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) HTTP缓存技术 HTTP 缓存有哪些实现方式? 对于一些具有重复性的 HTTP 请求&#xff0c;比如每次请求得到的数据都一样的&#xff0c;我们可以把这对「请求-响…

Anaconda修改虚拟环境的路径

新版本的anaconda会默认将虚拟环境配置在C盘下&#xff0c;默认的路径是C:\Users\username。同时anaconda3下envs目录是空的。 这里是建立虚拟环境是将路径修改到anaconda的方法。 第一步——修改.condarc文件 首先&#xff0c;C:\Users\username找到.condarc文件 添加或修…

004 - Hugo, 分类

004 - Hugo, 分类content文件夹 004 - Hugo, 分类 content文件夹 ├─.obsidian ├─categories │ ├─Python │ └─Test ├─page │ ├─about │ ├─archives │ ├─links │ └─search └─post├─chinese-test├─emoji-support├─Git教程├─Hugo分类├─…

数学建模【多目标规划】

一、多目标规划简介 多目标规划的本质是“既要XXX又要XXX”&#xff0c;而不论是线性规划还是非线性规划都是一个目标函数&#xff0c;例如工业生产产品&#xff0c;追求最大化利润等。但是多目标规划存在多个目标&#xff0c;可以转化出多个目标函数&#xff0c;故难点在同时…

电商行业的机遇在哪?致淘宝平台API数据接口

在电商行业蓬勃发展的今天&#xff0c;我们不得不提及淘宝这个伟大的平台。它不仅为亿万用户提供了便捷的购物体验&#xff0c;更为无数的商家创造了一个财富的聚集地。而如今&#xff0c;随着技术的不断进步&#xff0c;淘宝开放了其强大的API接口&#xff0c;为广大开发者带来…

Vuex核心知识整理

目录 1 搭建vuex环境 2 求和案例 3 getters 配置项 4 mapState 和 mapGetters 5 mapMutations 和 mapActions 6 Vuex 模块化 1 搭建vuex环境 vuex工作原理图&#xff08;摘自官网&#xff09; 什么时候使用Vuex&#xff1a; 1.当多个组件依赖于统一状态 2.来自不同组件…

安装faiss环境教程

文章目录 打开环境安装faiss环境检查已安装的环境切换环境至faiss 打开环境 source activate # 打开环境安装faiss环境 conda create -n faiss_env # 安装faiss环境检查已安装的环境 conda info --envs # 检查已安装的环境切换环境至faiss conda a…

【51单片机实验笔记】开关篇(二) 矩阵按键

目录 前言原理图分析矩阵按键扫描算法 软件实现1. 矩阵键盘检测2. 简易计算器实现 总结 前言 本节内容&#xff0c;我们学习一下矩阵按键&#xff0c;它是独立按键的阵列形式&#xff0c;常见的应用即键盘。 本节涉及到的封装源文件可在《模块功能封装汇总》中找到。 本节完…

人工智能学习与实训笔记(一):零基础理解神经网络

人工智能专栏文章汇总&#xff1a;人工智能学习专栏文章汇总-CSDN博客 本篇目录 一、什么是神经网络模型 二、机器学习的类型 2.1 监督学习 2.2 无监督学习 2.3 半监督学习 2.4 强化学习 三、网络模型结构基础 3.1 单层网络 ​编辑 3.2 多层网络 3.3 非线性多层网络…

CSS篇--transform

CSS篇–transform 使用transform属性实现元素的位移、旋转、缩放等效果 位移 // 语法 transform:translate(水平移动距离&#xff0c;垂直移动距离) translate() 如果只给一个值&#xff0c;表示x轴方法移动距离 单独设置某个方向的移动距离&#xff1a;translateX() transla…

jwt+redis实现登录认证

项目环境&#xff1a;spring boot项目 pom.xml引入jwt和redis <!-- jwt --><dependency><groupId>com.auth0</groupId><artifactId>java-jwt</artifactId><version>4.3.0</version></dependency><!-- redis坐标-->…

Midjourney绘图欣赏系列(四)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子&#xff0c;它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同&#xff0c;Midjourney 是自筹资金且闭源的&#xff0c;因此确切了解其幕后内容尚不…

手把手一起开发SV4E-I3C设备(二)

JEDEC DDR5 SPD Hub Devices例程 DDR5生态系统的核心是SidebandBus Protocol 参考下图&#xff0c;可以将SV4E-I3C的端口1声明为主服务器(模拟主机控制器)&#xff0c;并且它可以属于SV4E-I3C上的一个总线。端口2可以作为SPD Hub DUT的Local Bus侧的从站连接。这个从站可以被…

2.17C语言学习

P1678 烦恼的高考志愿 写完后发现题解里面用的是优先队列或者二分什么的&#xff0c;其实这个题可以贪心&#xff0c;我们把学校的分数线和学生的成绩分别进行排序&#xff0c;然后从前往后遍历&#xff0c;每次比较当前学校的分数与学生成绩的差距和下一个学校的分数与学生成…

Linux CentOS stream 9 安装docker

在计算机技术中,虑拟化是一种资源管理技术,是将计算机的各种实体资源(CPU、内存、磁盘空间、网络适配器等),予以抽象、转换后呈现出来并可供分区、组合为一个或多个电脑配置环境。 目前,大多数服务器的容量的利用率不足15%,这导致服务器数量激增以及增加了复杂性。服务…