Sora到底有多强?

北京时间2月16日凌晨,OpenAI发布文本生成视频的AI模型Sora,瞬时刷屏科技圈,成为2024年开年“顶流”。

官方称,Sora只需文本就能自动生成高度逼真和高质量的视频,且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dall-E之后,OpenAI在视频领域的另一个颠覆性创造。

Sora之前,并不是没有AI生成视频的应用,Runway、Pika、Stable Video Diffusion等公司百舸争流。但如今Sora横空出世,这些公司瞬间变得暗淡无光。

被称是“降维打击”的Sora到底有多强?

“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。”

这是OpenAI在官网介绍视频模型 Sora出现的第一组提示词。这段由Sora自主生成的长达59秒的一镜到底的视频,也是其展现给公众的第一个成果,随即引爆全球网络,实现爆发式的传播发酵。

作为一款视频生成模型,Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频。

与其他视频生成模型相比,Sora能够根据提示词生成60s的连贯视频,这对于平均只能生成“4s”视频的全行业来说,造成了“碾压式”的冲击。

此外,Sora在采样的灵活性、视频拓展、镜头语言等方面,也远远领先于其他模型。

在对Sora生成的视频表示震惊之余,各路大佬们也开始纷纷表态:有人吃瓜感慨“gg humans”,竞争对手接受压力并参与“游戏”(game on);技术大牛深扒核心技术称Sora是一个“数据驱动的物理引擎”(Sora is a data-driven physics engine)......

尽管Sora生成的视频远远高出行业的平均水平,但依旧存在某些局限性。技术报告提到,Sora还存在不准确的物理建模和非自然物体“变形”的例子,以及在模拟对象和多个角色之间的复杂交互,对模型来说通常具有挑战性等。

自谷歌2017年发布Transformer网络结构以来,仅用五年多时间全球已迅速成长出庞大的大模型技术群,衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。

从文字工作者恐失业的文本大模型 ChatGPT,到设计师恐失业的图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着各行各业。

如今,AI生成视频正迎来爆发期。

此次Sora横空出世,无疑是给AI生成视频添了一把火。

事实上,AI生成视频早已断断续续火了一段时间。2023 年可以看作是 AI 视频爆发的一年。年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。

根据美国VC机构a16z的统计,截止到去年11月,文生视频领域发布相关工具与产品达到了21种。

但此时发布产品的多为初创企业,拥有相机平移和变焦以及动作控制功能的在少数,这意味着无法生成拥有更多视觉深度和动态效果的复杂视频。

此外,生成视频的时间也较短,大多在3秒左右,与其说生成的是视频,不如说生成的是GIF动图。

Sora的发布,意味着新一轮人工智能革命的开端,我国AI科技处于怎样的水平,中美之间的差距有多大呢?

去年5月,科技部发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,10亿参数规模以上的大模型已发布79个,目前与美国保持同步增长态势。

截至2023年6月底,全球人工智能领域独角兽中,108家来自中国,占全球总数的37%。

国内玩家也在积极下场布局AI生成视频。

字节跳动于去年11月18日推出了文生视频模型PixelDance。基础模式下,用户需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频。

阿里紧随其后也上线了Animate Anyone模型,需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。

23年末,百度发布了文生视频工具“度加剪辑”,号称“可以一键获取最新热点、ai生成文案、一键生成视频”。百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。

Sora的发布,能否鞭策中国企业进一步突破技术难关,我们不妨拭目以待。

Sora发布前,我国影视行业已经在应用文生视频,作为拍摄辅助。AI可以低成本快速产出分镜,用简单动画预演出演员走位、取景、摄影机角度与运动大方向,提高拍摄效率。而当AI的精细度可以直接参与后期制作,带给行业的冲击是颠覆性的。

关于相关从业者是否会被AI取代,网上争论不断。不过对于Sora这样的复杂系统,人是不可替代的生产力要素,未来,做“工具人”,不如做创造和使用工具的人。

据统计,全球1/7的人工智能顶尖人才在中国,不过相较于产业的迅猛发展,人工智能人才缺口还是非常大。根据中关村产业研究院测算,到2025年,预计北京AI人才需求量为54万人,缺口将达37万,特别是急缺计算理论、人机交互、安全与隐私、计算机系统等方面的顶尖学者。

人工智能也成为近年来新增开设数量最多的专业之一。2018年教育部批准设立人工智能本科专业。经过四轮增开,截至2023年共有499所高校设置人工智能本科专业,其中不乏清华、北大、浙大、复旦等顶尖院校。

AI技术大势滚滚而来,无论于国家,于企业,还是于个人,主动拥抱或许是最好的选择。

【专题】“王炸”模型Sora爆火,AI视频再次颠覆

特别声明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/269498.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C 数据类型

在 C 语言中,数据类型指的是用于声明不同类型的变量或函数的一个广泛的系统。变量的类型决定了变量存储占用的空间,以及如何解释存储的位模式。 C 中的类型可分为以下几种: 序号类型与描述1基本数据类型 它们是算术类型,包括整型…

Gitlab 安装部署

目录 1、Jenkins 结合 Gitlab 构建 CI/CD 环境 CI/CD 介绍 CI/CD 流程 Jenkins 简介 GitLab 简介 项目部署方式 CI系统的工作流程 2、搭建 GitLab 安装 GitLab 配置 GitLab 修改root密码 访问 GitLab 开机自启 3、使用 GitLab 管理 GitLab 关闭 GitLab 注册功能…

我的NPI项目之Android 安全系列 -- Keymaster到底是个什么

最近因为一直在调研独立secure element集成的工作,不巧的是目前使用的高通平台只有NFC-eSE的方案。高通目前也并不支持独立的eSE集成,codebase中并无相对应的代码。举个例子,目前使用的STM的一款eSE,但是这款eSE的开发STM还没有完…

【MySQL】数据库中常用的函数

目录 聚合函数COUNT()函数的多种用法COUNT(*)COUNT(主键)COUNT(1)COUNT(常量)COUNT(非主键)COUNT(distinct(字段)) COUNT()函数小结 字符函数length(str)函数:获取参数值的字节个数concat(str1,str2,...)函数:字符串拼接upper(str)、lower(str)函数:大小…

java 商机管理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 java 商机管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0&…

【数据结构】用队列实现栈

下面是一些思路分析和代码分享,有需要借鉴即可。 1.问题描述 我想用队列来实现栈的功能,具体而言是用两个队列做底层做出栈的功能来。 有人可能会疑问会不会多次一举,这里仅作练习,为了更加进一步了解栈/队列的性质 2.思路分析 …

Android logcat系统

一 .logcat命令介绍 android log系统: logcat介绍 : logcat是android中的一个命令行工具,可以用于得到程序的log信息. 二.C/Clogcat访问接口 Android系统中的C/C日志接口是通过宏来使用的。在system/core/include/android/log.h定义了日志的级别: /…

递归学习资料

思路 例题 package 递归;public class 反向打印字符串 {public static void main(String[] args) {f("ABC",0);}static void f(String str,int n){if (nstr.length()){return;}f(str,n1);System.out.println(str.charAt(n)"");} }多路递归 递归优化 -剪枝…

数据库系统概论(超详解!!!) 第二节 数据模型

1.数据模型分为两类(两个不同的层次) (1) 概念模型 ,也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。 (2) 逻辑模型 ,逻辑模型主要包括…

异地组网搭建方案

在这个信息爆炸的时代,人与人之间的联系变得越来越密切,而异地组网搭建方案也因此变得越 来越重要。无论是跨国企业、远程学习还是国际合作,构建一个快捷稳定的异地组网系统,已经 成为许多组织和个人不可或缺的需求。接下来&#…

运维随录实战(2)之k8s部署应用

一, 创建.gitlab-ci.yml文件 架构流程 文件内容 stages: #设置流水线模版- build # 编译- source2img- deploy # 发布variables: # 设置全局变量MAVEN_PATH: .m2MAVEM_IMAGE: maven:3.8.5-openjdk-17-slim # maven 打包使用的镜像MAVEN_CLI_OPTS: "-s $MAVEN_PATH/set…

R语言安装和简单入门HelloWorld用法

R语言安装和简单入门HelloWorld用法 #R语言安装地址 https://www.r-project.org/ click->CRAN mirror->选择China下列表: https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 选择Download R for Windows 选择base Download R-4.3.2 for Windows 下载文件R-4.3.2-…

身份证识别系统(安卓)

设计内容与要求: 通过手机摄像头捕获身份证信息,将身份证上的姓名、性别、出生年月、身份证号码保存在数据库中。1)所开发Apps软件至少需由3-5个以上功能性界面组成。要求:界面美观整洁、方便应用;可以使用Android原生…

【Unity】使用Unity实现双屏显示

引言 在使用Unity的时候,有时候会需要使用双屏显示 简单来说就是需要在两个显示器中显示游戏画面 双屏显示注意点: ①双屏显示需要电脑有两个显示 ②双屏显示只能用于PC端 ③不仅仅可以双屏,Unity最大支持8屏显示 1.相机设置 ①我们打开Un…

VMwareWorkstation17.0虚拟机安装搭建PcDos2000虚拟机(完整图文详细步骤教程)

VMwareWorkstation17.0虚拟机安装搭建PcDos2000虚拟机(完整图文详细步骤教程) 一、PcDos20001.PcDos2000简介2.PcDos2000下载 二、创建PcDos2000虚拟机1.新建虚拟机2.类型配置3.类型配置4.选择版本5.命名、存位置6.磁盘容量7.调整虚拟配置7.1 调整虚拟配…

【python】堆排序

堆的概念 堆:一种特殊完全二叉树,也就是二叉树必须全部是满的,但是最后一排可以从右向左缺失。 大根堆:每个节点都比他的子节点大 小根堆:每个节点都比子节点小 堆在代码中的形式 堆在代码中实际上就是列表&#…

蓝桥杯倒计时 41天 - KMP 算法

KMP算法 KMP算法是一种字符串匹配算法,用于匹配模式串P在文本串S中出现的所有位置。 例如S“ababac,P“aba”,那么出现的所有位置是13。 在初学KMP时,我们只需要记住和学会使用模板即可,对其原理只需简单理解&#xff…

一文搞懂Stable Diffusion中的提示词

欢迎来到Stable Diffusion的世界,这里是AI和创意的交汇点。在这里,我们将一起探索如何通过精心设计的提示词,指引这一强大的AI工具创造出令人叹为观止的图像。无论你是技术爱好者,还是对AI艺术充满好奇的初学者,这里都…

excel数值无法左对齐

右键,单元格格式 修改为常规 解决

力扣--动态规划64.最小路径和

思路分析: 基本思路: 本算法采用动态规划的思想,通过构建一个额外的二维矢量 dp 来存储每个位置的最小路径和。最终目标是求得右下角位置的最小路径和,即整个网格的最小路径和。 初始化: 初始化矢量的行数和列数&…