AI研报:从Sora看多模态大模型发展

《从Sora看多模态大模型发展》的研报来自浙商证券,写于2024年2月。

这篇报告主要探讨了多模态大模型的发展趋势,特别是OpenAI发布的视频生成模型Sora,以及其对行业发展的影响。以下是报告的核心内容概述:

  1. Sora模型的发布:
    - OpenAI于2024年2月16日发布了视频生成模型Sora,该模型能够生成长达1分钟、不同宽高比和分辨率的视频和图片。
    - Sora基于Diffusion Transformer技术,结合了视频压缩网络、潜空间patch、直接在原始大小训练和重新标注技术,能够处理图像和视频输入,实现多种视频生成和编辑功能。


视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)
潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。
直接在原始图片的大小上训练:过去往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256),Sora直接在原始素材规格上训练。
为视频训练素材生成详细字幕和标注:Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。DALL E3中已经使用过,使用GPT将简短prompt转化为详细说明,这些说明会被输入到视频模型中。这可以增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得Sora能够生产准确遵循用户提升的高质量视频。
Sora核心能力:3D一致性、物体持久性、世界交互、模拟数字世界
Sora模型的局限性:虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;
其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;
长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。

  1. 多模态大模型的商业化前景:
    - 国内外厂商如谷歌、字节跳动等也在布局多模态大模型领域,预计2024年文生视频将进入商业化探索阶段。
    - 高质量数据和底层通用大模型是文生视频能力的关键因素,随着技术的进步,文生视频在时间长度、画面清晰度和内容逼真程度等方面有望实现显著提升。
  2. 全球视频内容市场的潜力:
    - 据数据显示,2025年全球数字视频内容市场规模有望达到3271.9亿美元,2021-2025年复合年增长率约为13.7%。
    - 海外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案,应用于企业产品介绍、操作指南、客户服务等场景。
  3. 建议关注的标的公司:
    - 大模型厂商:科大讯飞、云从科技、微软、谷歌。
    - 多模态应用厂商:万兴科技、虹软科技、焦点科技、Adobe。
公司名称代码AI+视频相关业务/产品
科大讯飞002230.SZ国产大模型龙头,多模态领域技术积累深厚
海康威视002415.SZ研发视觉多模态大模型
大华股份002236.SZ自研大华星汉大模型
云从科技-UW688327.SH国内CV领域龙头厂商之一
焦点科技002315.SZAI外贸虚拟人视频助手
虹软科技688088.SH视觉AI开放平台
万兴科技300624.SZAI视频领域龙头,“天幕”大模型
国投智能300188.SZAI视频图像鉴真工作站
当虹科技688039.SHAI智能视频解决方案
网达软件603189.SH积极推动“大视频+AI"在垂直领域的布局
丝路视觉300556.SZ子公司是视频染技术龙头
商汤-Whttp://0020.HK“日日新SenseNova"大模型
拓尔思300229.SZ并面向媒体、金融、政务领域、拓天大模型
汉王科技002362.SZ笔智能交互、NLP技术、大数据处理、智能人机交互、垂直领域大模型
  1. 风险提示:

- AI技术迭代不及预期的风险。

- AI商业化产品发布不及预期的风险。

- 政策不确定性带来的风险。

- 下游市场不确定性带来的风险。

报告还详细分析了多模态AI的核心技术环节、Sora模型的技术路线和应用案例,以及国内外其他厂商的AI视频生成算法及工具。此外,报告对AIGC在视频领域的商业化现状与展望进行了探讨,并预测了千亿级数字视频生成市场的未来潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/286698.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

unity小:使用Unity FBX Exporter 将 3DMax场景或者模型无损导入Unity

本指南旨在帮助您顺利安装和配置Unity FBX Exporter插件,并解决相关的常见问题。 安装 FBX Exporter 下载并安装FBX Exporter插件。 打开Unity,选择 Edit > Project Settings > Fbx Export。 点击 Install Unity Integration 并选择3ds Max的插…

Linux:rpm部署Jenkins(1)

1.获取Jenkins安装包 我这里使用的是centos7系统,ip为:192.168.6.6 2G运存 连接外网 Jenkins需要java环境,java的jdk包你可以去网上下载离线包,或者直接去yum安装,我这里使用的是yum安装 再去获取Jenkins的rpm包…

前三次笔记、表单和五彩导航

骨架&#xff1a; 笔记&#xff1a; 需要有包裹的内容&#xff0c;用双标签&#xff0c;不需要包裹内容就可以完成的操作用单标签 标签之间的关系只有父子关系和兄弟关系 标题标签只有h1-h6&#xff0c;且大小依次递减&#xff0c;独占一行 在段落标签“<p> </p>”…

Java项目:74 ssm基于Java的超市管理系统+jsp

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 功能包括:商品分类&#xff0c;供货商管理&#xff0c;库存管理&#xff0c;销售统计&#xff0c;用户及角色管理&#xff0c;等等功能。项目采用mave…

3.25C++

定义自己的命名空间&#xff0c;其中有string类型的变量&#xff0c;再定义两个函数&#xff0c;一个函数完成字符串的输入&#xff0c;一个函数完成求字符串长度&#xff0c;再定义一个全局函数完成对该字符串的反转 #include <iostream> #include <cstring> usi…

C++细节

背景知识&#xff1a; 面向对象的编程中&#xff0c;类&#xff08;Class&#xff09;是创建对象的蓝图或模板&#xff0c;它包含了数据&#xff08;通常称为属性或变量&#xff09;和行为&#xff08;通常称为方法或函数&#xff09;。将数据封装为私有&#xff08;private&am…

前端学习-HTML基础

一、简介 1.介绍 网页就是html文件&#xff0c;前端编写代码->浏览器解析代码->呈现网页 谷歌浏览器Blink内核最好 2.Web标准 让网页设计排版更统一规范 结构&#xff1a;对网页元素进行整理和分类&#xff0c;html 表现&#xff1a;设置网页元素的板式、颜色、大小等外…

11.测试教程-自动化测试selenium-3

文章目录 1.unittest框架解析2.批量执行脚本2.1构建测试套件2.2用例的执行顺序2.3忽略用例执行 3.unittest断言4.HTML报告生成5.异常捕捉与错误截图6.数据驱动 大家好&#xff0c;我是晓星航。今天为大家带来的是 自动化测试selenium第三节 相关的讲解&#xff01;&#x1f600…

spring boot商城、商城源码 欢迎交流

一个基于spring boot、spring oauth2.0、mybatis、redis的轻量级、前后端分离、防范xss攻击、拥有分布式锁&#xff0c;为生产环境多实例完全准备&#xff0c;数据库为b2b2c设计&#xff0c;拥有完整sku和下单流程的商城 联系: V-Tavendor

I.MX6ULL_Linux_驱动篇(56)linux PWM驱动

PWM 驱动简析 设备树 PWM 控制器节点 I.MX6ULL 有 8 路 PWM 输出&#xff0c;因此对应 8 个 PWM 控制器&#xff0c;所有在设备树下就有 8 个PWM 控制器节点。这 8 路 PWM 都属于 I.MX6ULL 的 AIPS-1 域&#xff0c;但是在设备树 imx6ull.dtsi 中分为了两部分&#xff0c; PW…

『VUE』01. 开发前的准备(详细图文注释)

目录 nodejs安装软件检查环境变量设置镜像源 安装vue环境并搭建项目全局安装 Vue 的命令行工具&#xff08;Vue CLI&#xff09;验证安装是否成功创建新vue项目 启动vue项目进入项目根目录安装依赖启动项目 配置开发ide (vscode)安装vscode配置vue插件vue2与vue3兼容性插件js插…

Linux之时间子系统(四): tick 层模块(broadcast )

一、前言 在内核中&#xff0c;有cpuidle framework可以控制cpu的节电&#xff1a;当没有进程调度到该cpu上执行的时候&#xff0c;swapper进程粉墨登场&#xff0c;将该cpu会被推入到idle状态。当然CPU的idle状态有深有浅&#xff0c;当CPU睡的比较深入的时候&#xff0c;有可…

【前端】-【性能优化常识】

目录 前端性能优化指标首屏速度、白屏时间性能优化收效很大的操作收效不大或者特殊情况的优化操作 操作速度、渲染速度造成操作卡顿和渲染慢的场景性能优化 数据缓存 前端性能优化指标 首屏速度、白屏时间 页面一打开的白屏时间&#xff0c;主要是由资源加载&#xff08;耗时多…

vue 隐藏导航栏和菜单栏,已解决

初始效果&#xff1a; 效果&#xff1a; 出现问题&#xff1a; 解决方法&#xff1a;

Linux——进程程序替换

替换原理 用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往往要调用一种exec函数 以执行另一个程序。当进程调用一种exec函数时,该进程的用户空间代码和数据完全被新程序替换,从新程序的启动 例程开始执行。调用exec并不创建新进程,所以调用…

JS加密解密之应用如何保存到桌面书签

前言 事情起因是这样的&#xff0c;有个客户解密了一个js&#xff0c;然后又看不懂里边的一些逻辑&#xff0c;想知道它是如何自动拉起谷歌浏览器和如何保存应用到书签的&#xff0c;以及如何下载应用的。继而诞生了这篇文章&#xff0c;讲解一下他的基本原理。 渐进式Web应用…

C++动态内存管理:new/delete与malloc/free的对比

在C中&#xff0c;动态内存管理是一个至关重要的概念。它允许我们在程序运行时根据需要动态地分配和释放内存&#xff0c;为对象创建和销毁提供了灵活性。在C中&#xff0c;我们通常会用到两对工具&#xff1a;new/delete 和 malloc/free。虽然它们都能够完成类似的任务&#x…

人工心脏术后两个月,他给父母做了一顿饭丨心脏病专家联合访谈

假如人生即将走到尽头&#xff0c;你最后的愿望会是什么&#xff1f; 不同的人会有不同的答案。 对于陈华&#xff08;化名&#xff09;来说&#xff0c;他的愿望是亲手为父母做顿饭。 罹患心脏病多年&#xff0c;陈华的病情反反复复逐渐发展为终末期心衰。虽然自己与父母家仅…

PMP考试费用涨价了?或将涨至4100元!

现在国内线下笔试的PMP报名费是3900元&#xff0c;但最近听到消息&#xff0c;说国外的PMP报名费用已经确认上调&#xff08;从2024年3月1日开始调整&#xff09;&#xff0c;由原本的555美元上调至575美元&#xff0c;根据h率换算&#xff0c;575美元≈4100元。既然国外的报名…

公司调研 | 空间机械臂GITAI | 日企迁美

最近做的一些公司 / 产品调研没有从技术角度出发&#xff0c;而更关注宏观发展&#xff1a;主营方向、产品介绍、商业化落地情况、融资历程、公司愿景、创始人背景等。部分调研放在知乎上&#xff0c;大部分在飞书私人链接上 最近较关注人形Robot的发展情况&#xff0c;欢迎感兴…