大模型之SORA技术学习

文章目录

  • sora的技术原理
  • 文字生成视频过程
  • sora的技术优势
    • 量大质优的视频预训练库
    • 算力多,采样步骤多,更精细。
    • GPT解释力更强,提示词(Prompt)表现更好
  • 使用场景
  • 参考

Sora改变AI认知方式,开启走向【世界模拟器】的史诗级的漫漫征途,才是未来暴风眼,真正的重点。

Sora并没有理解整个世界和诸多物理细节,常识及定律,而是根据GPT语义解释能力、丰富的联想和丰富度,基于海量的视频库,抄写视频片段并猜视频下一帧,并使用Diffusion、GAN(对抗式生成网络技术)将多个视频片段混合在一起,产生稳定且连续的短视频。

Yann LeCun(ACM图灵奖得主,纽约大学教授。Meta首席人工智能科学家)针对Sora的评论。大意是:

让我在这里澄清一个巨大的误解。从提示文字,生成看起来相当逼真的视频,并不意味着,这个系统理解物理世界。生成一个视频,和基于世界模型的因果预测,大不相同。目前这种生成式的方向,代价高昂,可能还有更好的法子。
在这里插入图片描述

sora的技术原理

结合了 Diffusion model(扩散模型)和 Transformer 技术,以确保视频内容与文本描述紧密相连
Sora的官方技术报告详见:
Sora官方的技术报告:Video generation models as world simulators

  1. 主要功能和目标
    • 目前,Sora 的主要功能是将文本输入转换成视频输出。这包括但不限于将故事、说明或命令转化为相应的视频。
    • Sora 的目标是创建一个能够理解复杂文本描述并将其转化为高质量视频内容的系统。
    • 官方的声明指出,Sora 的最终目标是向一个“通用物理世界模拟器”的方向迈进,即成为一个能够模拟真实世界的复杂互动和动态环境的强大工具。
  2. 训练流程包括以下步骤:
    • 收集视频数据与标注信息。
    • 训练图片字幕模型。
    • 利用 GPT-4 丰富视频描述。
    • 切分视频为 Patches。
    • 应用视频压缩模型。
    • 在潜在空间中处理视频数据。
    • 应用扩散模型与 Transformer 进行训练。
    • 最终恢复高清视频。
  3. 核心模块
    • Transformer 结构:这是一种深度学习模型的架构,最初用于自然语言处理,现在被广泛应用于各种领域,包括 Sora 的几个组件。
    • Diffusion model:用于逐步去除视频中的噪声,从而生成清晰的图像场景。

文字生成视频过程

  • 提供一段文字:依靠GPT语义解释能力、丰富的联想和丰富度,产生针对视频内容详细的描述。如文本是:“散步在夜晚东京街道上”,GPT发挥想象力,联想出一堆词和关联“高楼”、“繁华夜景”等等。它联想力越丰富,Sora能关联到的时空碎块就越多越准。
  • Diffusion:作为一个画师,根据关键词特征值对应的可能性概率,在海量视频库到处翻,看看抄哪一个碎块比较像,看哪个像,就猜对应的下一笔要落在什么地方。重复很多步
  • 通过Diffusion和Transformer共同联想,死记硬背,从巨大视频库里生拉硬拽,配合GAN(对抗式生成网络技术),把这些一张张碎块拼成图,再拼接成一个序列,每秒播放几十张,视频就出来了
    在这里插入图片描述

sora的技术优势

Sora实际上对于Pika等,只是量变,都是差不多的技术和原理,没有质变。但几乎达到了近似质变的效果了。原因在于:

量大质优的视频预训练库

大力出奇迹,是OpenAI的基因。

到底花了多少钱在高质量的视频素材上,搜集了多少的视频库,只有OpenAI自己知道。但可以肯定的是,远远不是Pika等创业团队所能比的。

记得多,才能抄的好,混得妙。

甚至,现在的视频量已经不能满足OpenAI的需求了。已经被爆料,OpenAI的视频库,大量使用了UE5生成的视频来做补充和训练。我们看到的赛车那个视频就是。

Pika、Runway、Stable Video和Sora有时候会撞车:都使用了同一个素材加到库中。那么使用一样类似的关键词,可能就能调出一模一样的元素。

算力多,采样步骤多,更精细。

不同采样和计算步骤后,通过同一个视频库“猜”的步骤越多,加的东西越细,效果越好。做32倍运算的效果,就明显好于4倍的效果。
还是大力出奇迹,OpenAI不变的配方和味道。

那么请问,Pika等创业公司能有多少张GPU卡呢?
Sora能土豪的用32倍,1080p,渲染1分钟的视频。创业公司能用多少,4倍,360p,4-8秒,已经足够把钱烧光了…
画面精致度怎么比?时长怎么比?不公平。

Diffusion的不稳定性通病,在Pika等产品中已经表现无疑。
Sora和他们完全不在一个层次上,稳定性很好。已经不能完全用数据和算力来解释了。一定是采用了GAN(对抗式生成网络技术)这个增强连续性的技术。

生成的视频效果比较见下图:
在这里插入图片描述

GPT解释力更强,提示词(Prompt)表现更好

对一段提示词或提示句子,GPT能展开的联想和丰富度,是决定了Sora抄什么,能猜多准的。
OpenAI的GPT能力天下第一,开源模型无能撼动。
所以,不幸的是,Pika等创业公司大多还是要依靠OpenAI的GPT能力

那么,问题来了,亲儿子能用的,一定胜过外部客户能用到的深度和广度
第二个点,就是外部公司的视频库和GPT联想能力不能首尾配对;但是Sora可以啊,GPT是自家的,视频库也是自家的,两者直接****关联的精准度以及调取的效率,完全是外部客户不能比的。

使用场景

  • 生成创意素材。通过剪辑和局部使用,做出自己的成品。对于自媒体行业是一大利好。
  • 生成概念片和内部讨论稿,极大的加快创意沟通的效率。
  • 利用它的连续性,结合一些3D工具,快速建模。已经有人在做了,但效果还待改进。推荐大家看看B站UP主设计师的AI工具箱的Sora建模实践, 调试的好,是个路子。

参考

3原理+1揭秘,将Sora拉下神坛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/268563.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis在中国火爆,为何MongoDB更受欢迎国外?

一、概念 Redis Redis(Remote Dictionary Server)是一个使用ANSI C编写的开源、支持网络、基于内存、分布式、可选持久性的键值对存储数据库。Redis是由Salvatore Sanfilippo于2009年启动开发的,首个版本于同年5月发布。 MongoDB MongoDB…

亿道信息发布两款升级款全加固笔记本电脑

2022年5月19日,加固手持终端。加固平板电脑、加固笔记本电脑专业设计商和制造商,以及加固型移动计算机软硬件整体定制解决方案提供商亿道信息,宣布对其两款广受欢迎的加固笔记本电脑产品EM-X14U和EM-X15U进行重大升级。新发布的两款升级款全加…

One Line of Code to Say Goodbye to Confusing Python Error Messages

该图片由15548337在Pixabay上发布 告别令人困惑的 Python 错误消息 灵活的错误消息增强库 — PrettyError 编程是一项活动,我们可能会用 20% 的时间将想法写成代码,然后用 80% 的时间清除错误并修复错误。错误消息绝对是我们每天都会看到的。但是&…

浅谈XSS简单漏洞xss-labs-master(初级)

一、环境以及xss漏洞简介 网上很多gethub自己下就行 XSS简介: 当用户访问被XSS注入的网页,XSS代码就会被提取出来。用户浏览器就会解析这段XSS代码,也就是说用户被攻击了。 用户最简单的动作就是使用浏览器上网,并且浏览器中有J…

案例介绍:汽车售后服务网络构建与信息抽取技术应用(开源)

一、引言 在当今竞争激烈的汽车行业中,售后服务的质量已成为品牌成功的关键因素之一。作为一位经验丰富的项目经理,我曾参与构建一个全面的汽车售后服务网络,旨在为客户提供无缝的维修、保养和配件更换服务。这个项目的核心目标是通过高效的…

自动化测试介绍、selenium用法(自动化测试框架+爬虫可用)

文章目录 一、自动化测试1、什么是自动化测试?2、手工测试 vs 自动化测试3、自动化测试常见误区4、自动化测试的优劣5、自动化测试分层6、什么项目适合自动化测试 二、Selenuim1、小例子2、用法3、页面操作获取输入内容模拟点击清空文本元素拖拽frame切换窗口切换/标…

统信UOS及麒麟KYLINOS操作系统上如何切换键盘布局

原文链接:如何切换键盘布局 | 统信UOS | 麒麟KYLINOS Hello,大家好啊,最近有朋友在群里提到他的键盘输入“Y”会显示“Z”,输入“Z”会显示“Y”。这个问题听起来可能有些奇怪,但其实并不罕见。出现这种情况的原因&…

SpringMVC总结

SpringMVC SpringMVC是隶属于Spring框架的一部分,主要是用来进行Web开发,是对Servlet进行了封装。 对于SpringMVC我们主要学习如下内容: SpringMVC简介 请求与响应 REST风格 SSM整合(注解版) 拦截器 SpringMVC是处理Web层/表现层的框架&#xff…

langchain学习笔记(九)

RunnableBranch: Dynamically route logic based on input | 🦜️🔗 Langchain 基于输入的动态路由逻辑,通过上一步的输出选择下一步操作,允许创建非确定性链。路由保证路由间的结构和连贯。 有以下两种方法执行路由 1、通过Ru…

AI算法项目优化流程

算法优化的调试流程可以根据具体情况有所不同,但通常包括以下关键步骤,希望对大家有所帮助。通过以下流程,可以有效地识别和解决算法优化过程中的问题,提升算法性能和稳定性。北京木奇移动技术有限公司,专业的软件外包…

制作耳机壳的UV树脂和塑料材质相比优势有哪些?

制作耳机壳的UV树脂相比塑料材质有以下优势: 高强度与耐磨性:UV树脂具有高强度和耐磨性,能够更好地保护耳机内部零件,延长耳机使用寿命。相比之下,塑料材质可能较易磨损或刮伤。耐高温:UV树脂具有较好的耐…

排序——归并排序

归并排序和快排一样, 都是一种利用二叉树分治思想实现的排序。同时归并排序也和快排一样有递归归并排序和非递归归并排序两种。 本节主要复习归并排序, 并且两种实现方式都会复习到。 递归归并 要实现递归归并排序的代码。 我们首先需要理解递归归并排序…

PyTorch-神经网络

神经网络,这也是深度学习的基石,所谓的深度学习,也可以理解为很深层的神经网络。说起这里,有一个小段子,神经网络曾经被打入了冷宫,因为SVM派的崛起,SVM不了解的同学可以去google一下&#xff0…

stm32触发硬件错误位置定位

1.背景 1. 项目中,调试过程或者测试中都会出现程序跑飞问题,这个时候问题特别难查找。 2. 触发硬件错误往往是因为内存错误。这种问题特别难查找,尤其是产品到了测试阶段,而这个异常复现又比较难的情况下,简直头疼。…

(css)element-ui表格行图片点击放大且可调整preview-src-list大图预览样式

(css)element-ui表格行图片点击放大且可调整preview-src-list大图预览样式 效果&#xff1a; 常规写法&#xff1a; <el-table-column prop"display" label"展示效果" align"center"><template slot-scope"scope"><e…

IEEE Transactions on Industrial Electronics工业电子TIE修改稿注意事项及提交须知

一、背景 兔年末投了一篇TIE&#xff0c;手稿初次提交的注意事项也整理成了博客IEEE Transactions on Industrial Electronics工业电子TIE论文投稿须知&#xff0c;获得了许多点赞和收藏。最近也收到了审稿结果&#xff0c;给的意见是大修major revision&#xff0c;总之只要不…

国内chatgpt写作软件,chatgpt国内使用

随着人工智能技术的不断发展&#xff0c;国内涌现出了一些基于ChatGPT模型的写作软件&#xff0c;这些软件不仅能够实现智能化的文章写作&#xff0c;还支持批量生成各种类型的文章。本文将深入探讨国内ChatGPT写作软件&#xff0c;以及它们在批量文章创作方面的应用与优势。 C…

C#使用iText7给PDF文档添加书签

上一篇文章将SqlSugar官网文档中每个链接对应的网页生成独立PDF文档再合并为单个PDF文档&#xff0c;但是没有书签&#xff0c;八百多页的内容查找和跳转都不方便&#xff0c;本文学习和使用iText7给PDF文档添加多级书签。   添加多级书签分为两大步骤&#xff1a;1&#xff…

选项 打光 试题总结

试题1 被测物体100100mm&#xff0c;精度要求被测物体 &#xff0c;精度要求0.1mm&#xff0c;相机距被测物体在200&#xff5e;320mm之间&#xff0c;要求选择合适的相机和镜头&#xff1f; 分析如下&#xff1a; 通常我们用的相机靶面是4:3 的所以我们要用短边来计算视场&am…

【element-ui】el-select multiple多选,表单校验问题解决方法

在项目开发过程中发现&#xff0c;el-select设置了multiple支持多选属性之后&#xff0c;el-select赋值之后&#xff0c;表单校验不通过 解决思路及解决方法&#xff1a; 1、首先看看v-model 、prop属性、rules校验是否正确&#xff0c;这里注意el-select的rules校验的trigger…