StreamingT2V文本生成视频多模态大模型，即将开源！

StreamingT2V文本生成视频多模态大模型，即将开源！

news/2024/12/29 13:48:41/文章来源:https://blog.csdn.net/qq_45156060/article/details/137269337

1、前言

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。

虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美，但在高速运动方面非常优秀，这为开发长视频模型提供了技术思路。

研究人员表示，理论上，StreamingT2V可以无限扩展视频的长度，并正在准备开源该视频模型。

论文地址：https://arxiv.org/abs/2403.14773

github地址：https://github.com/Picsart-AI-Research/StreamingT2V（即将开源）

2、介绍

传统视频模型一直受训练数据、算法等困扰，最多只能生成10秒视频。Sora的出现将文生视频领域带向了一个全新的高度，突破了诸多技术瓶颈，仅通过文本就能生成最多1分钟的视频。

而StreamingT2V采用了创新的自回归技术框架，通过条件注意力、外观保持和随机混合三大模块，极大的延长了视频的时间，同时保证动作的连贯性。

简单来说，StreamingT2V使用了一种“击鼓传花”的方法，每一个模块通过提取前一个视频块中的表示特征，来保证动作一致性、文本语义还原、视频完整性等。

2.1、条件注意力模块

条件注意力模块是一种“短期记忆”,通过注意力机制从前一个视频块中提取特征,并将其注入到当前视频块的生成中,实现了流畅自然的块间过渡,同时保留了高速运动特征。

先使用图像编码器对前一个视频块的最后几帧(例如20帧)进行逐帧编码,得到相应的特征表示，并将这些特征送入一个浅层编码器网络(初始化自主模型的编码器权重)进行进一步编码。

然后将提取到的特征表示注入到StreamingT2V的UNet的每个长程跳跃连接处，从而借助前一视频块的内容信息来生成新的视频帧,但不会受到先前结构、形状的影响。

2.2、外观保持模块

为了保证生成视频全局场景、外观的一致性，StreamingT2V使用了外观保持这种“长期记忆”方法。

外观保持从初始图像（锚定帧）中提取高级场景和对象特征，并将这些特征用于所有视频块的生成流程。这样做可以帮助在自回归过程中，保持对象和场景特征的连续性。

此外，现有方法通常只针对前一个视频块的最后一帧进行条件生成，忽视了自回归过程中的长期依赖性。通过使用外观保持，可以使用初始图像中的全局信息，从而更好地捕捉到自回归过程中的长期依赖性。

2.3、随机混合模块

前两个模块保证了StreamingT2V生成的视频大框架，但是在分辨率、质量方面还有欠缺，而随机混合模块主要用来增强视频的分辨率。

如果直接增强质量会耗费大量AI算力、时间，所以，随机混合采用了自回归增强的方法。

首先，研究人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有重叠的。然后,利用一个高分辨率的视频模型,对每一个视频块进行增强,得到对应的高分辨率视频块。

例如，有两个重叠的视频块A和B,重叠部分包含20帧。对于重叠部分的每一帧,随机混合模块会从A块和B块中各取出一帧,然后对这两帧进行加权平均,生成一个新的混合帧。通过这种方式,重叠部分的每一帧都是A块和B块对应帧的随机混合。

而对于不重叠的部分,随机混合模块则直接保留原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中进行增强。

研究人员指出，如果让相邻的两个视频块直接共享完全相同的重叠帧,会导致视频在过渡处出现不自然的冻结和重复效果。而随机混合模块通过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡更加平滑自然。

实验数据显示, StreamingT2V生成的1分钟、2分钟长视频，不仅保持了高分辨率和清晰画质,整体的时间连贯性也得到了很大提升。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/298844.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【鹅厂摸鱼日记(一)】(工作篇)认识八大技术架构

【鹅厂摸鱼日记(一)】(工作篇)认识八大技术架构

💓博主CSDN主页:杭电码农-NEO💓 ⏩专栏分类:重生之我在鹅厂摸鱼⏪ 🚚代码仓库:NEO的学习日记🚚 🌹关注我🫵带你学习更多知识 🔝🔝 认识八大架构 1. 前言2. 架构简介&…

阅读更多...

uniapp：小程序腾讯地图程序文件qqmap-wx-jssdk.js 文件一直找不到无法导入

uniapp：小程序腾讯地图程序文件qqmap-wx-jssdk.js 文件一直找不到无法导入

先看问题： 在使用腾讯地图api时无法导入到qqmap-wx-jssdk.js文件解决方法：1、打开qqmap-wx-jssdk.js最后一行然后导入：这里是我的路径位置，可以根据自己的路径位置进行更改导入最后在生命周期函数中输出： 运行效果…

阅读更多...

159 Linux C++ 通讯架构实战14，epoll 函数代码实战

159 Linux C++ 通讯架构实战14，epoll 函数代码实战

ngx_epoll_init函数的调用 //（3.2）ngx_epoll_init函数的调用（要在子进程中执行） //四章，四节 project1.cpp：nginx中创建worker子进程； //nginx中创建worker子进程 //官方nginx ,一个…

阅读更多...

为“自研”的KV数据库编写JDBC驱动

为“自研”的KV数据库编写JDBC驱动

一觉醒来，受到梦的启发，自研了一套K/V数据库系统，因为"客户"一直催促我提供数据库的JDBC驱动，无奈之下，只好花费一个上午的时间为用户编写一个。我们知道，JDBC只定义一系列的接口, 具体的实现需…

阅读更多...

python 利用xpath 爬取一周天气

python 利用xpath 爬取一周天气

需求： 爬取中国天气网指定城市一周的天气，以天津为例实现： 1，先找到一周的数据位置。 divs html.xpath("//div[classhanml]") 2，再遍历每天。 trs div.xpath("./div/div[2]/table//tr[position…

阅读更多...

springboot实战---5.最简单最高效的后台管理系统开发

springboot实战---5.最简单最高效的后台管理系统开发

🎈个人主页：靓仔很忙i 💻B 站主页：👉B站👈 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏：SpringBoot 🤝希望本文对您有所裨益，如有不足之处&…

阅读更多...

JS详解-设计模式

JS详解-设计模式

工厂模式： 单例模式： // 1、定义一个类class SingleTon{// 2、添加私有静态属性static #instance// 3、添加静态方法static getInstance(){// 4、判断实例是否存在if(!this.#instance){// 5、实例不存在，创建实例this.#instance new Single…

阅读更多...

蓝桥备赛——前缀和

蓝桥备赛——前缀和

题干我的 Code（50%样例）对于上述题目的思路，我的想法是使用两个list存储对应的索引，一个存储头索引，一个存储结束索引。然后使用全排列，计算所有列表元素之间的索引差，大于等于k的作为符合条件的，使用count计数器加一。 k=int(input()) s,c1,c2=map(str,input()…

阅读更多...

FebHost：什么是土耳其.TR域名？

FebHost：什么是土耳其.TR域名？

当前互联网高速发展,一个国家的顶级域名已成为其网络形象的重要标识。近期,土耳其国家顶级域名”.TR”引起了广泛关注,成为业界热议的话题。作为代表土耳其共和国的国家顶级域名(ccTLD),.TR域名于1991年首次引入,由土耳其科技和信息技术部负责管理。除了常见的”.com.tr”、”…

阅读更多...

服务器硬件构成与性能要点：CPU、内存、硬盘、RAID、网络接口卡等关键组件的基础知识总结

服务器硬件构成与性能要点：CPU、内存、硬盘、RAID、网络接口卡等关键组件的基础知识总结

文章目录服务器硬件基础知识CPU（中央处理器）内存（RAM）硬盘RAID（磁盘阵列）网络接口卡（NIC）电源散热器主板显卡光驱服务器硬件基础知识服务器是一种高性能计算机，用于在…

阅读更多...

深度学习十大算法之深度Q网络（DQN）

深度学习十大算法之深度Q网络（DQN）

一、简介深度Q网络（DQN）是一种结合了深度学习和强化学习的算法，它在近年来成为了人工智能领域的一个热点。DQN首次被引入是在2013年，由DeepMind的研究人员开发。它标志着深度学习技术在解决高维度决策问题上的一大突破。 DQN的…

阅读更多...

Netty源码分析一启动流程剖析

Netty源码分析一启动流程剖析

我们知道Netty框架是基于NIO网络编程模型实现的，本篇文章就基于NIO的启动流程来剖析Netty启动流程的源码 NIO启动流程首先我们先来看一下NIO的启动流程 //1 netty 中使用 NioEventLoopGroup （简称 nio boss 线程）来封装线程和 selector S…

阅读更多...

[C++初阶]初识C++（二）

[C++初阶]初识C++（二）

建议先看完上篇：[C初阶]初识C(一)—————命名空间和缺省函数-CSDN博客本篇部分代码和文案来源：百度文库，知乎，比特就业课 1.函数重载自然语言中，一个词可以有多重含义，人们可以通过上下文来判断该词真…

阅读更多...

Linux目录结构知识

Linux目录结构知识

一、认识Linux目录 1) Linux目录结构知识 1） win: 目录顶点是盘符 C/D/E 。所有的目录结构都在不同的盘符下面，不同的盘之间不能沟通的。 2） Linux: 目录顶点是 / ，称为根。所有的目录结构都在根下面，他的目录之间都…

阅读更多...

基于SpringBoot Vue养老院管理

基于SpringBoot Vue养老院管理

一、📝功能介绍基于SpringBoot Vue养老院管理角色：管理员、企业、老人子女、老人管理员：管理员登录进入养老院管理系统可以对系统首页、个人中心、服务人员管理、老人管理、老人子女管理、老人档案管理、社区活动管理、活动记录管理、床…

阅读更多...

LogicFlow 在HTML中的引入与使用

LogicFlow 在HTML中的引入与使用

LogicFlow 在HTML中的引入与使用 LogicFlow的引入与使用，相较于BPMNJS相对容易一些，更加灵活一些，但是扩展代码可能写得更多一些。示例展示使用方式这个的使用方式就简单很多了，利用cdn把js下载下来，引入到HTML文…

阅读更多...

【Linux】HTTP协议

【Linux】HTTP协议

HTTP协议 1.认识URL2.urlencode和urldecode3.HTTP协议格式4.HTTP协议基本工作流程5.HTTP的方法6.HTTP的状态码7.HTTP常见Header8.长连接9.cookie&&session会话保持10.基本工具(postman,fiddler) 喜欢的点赞，收藏，关注一下把！ 目前基本…

阅读更多...

JDK安全剖析之安全处理入门

JDK安全剖析之安全处理入门

0.前言 Java 安全包括大量 API、工具以及常用安全算法、机制和协议的实现。Java 安全 API 涵盖了广泛的领域，包括加密、公钥基础设施、安全通信、身份验证和访问控制。Java 安全技术为开发人员提供了编写应用程序的全面安全框架，还为用户或管理员提供了…

阅读更多...

$相对论中关于光速不变理解的补充$

相对论中关于光速不变理解的补充

近几个月在物理直播间聊爱因斯坦相对论，发现好多人在理解爱因斯坦相对论关于基本假设，普遍认为光速是不变的，质能方程中光速的光速不变的，在这里我对这个假设需要做一个补充，他是基于质能方程将光速C 在真是光速变化曲…

阅读更多...

平衡二叉树，红黑树，B树和B+树的区别及其应用场景

平衡二叉树，红黑树，B树和B+树的区别及其应用场景

平衡二叉树基础数据结构左右平衡高度差大于1会自旋每个节点记录一个数据平衡二叉树（AVL） AVL树全称G.M. Adelson-Velsky和E.M. Landis，这是两个人的人名。平衡二叉树也叫平衡二叉搜索树（Self-balancing binary search tree…

阅读更多...

最新文章

推荐文章