超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大阿里发布MovieDreamer,纯AI生成电影引爆热议!

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。

对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。

不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

相关链接

论文链接:https://arxiv.org/pdf/2407.16655

项目主页:https://aim-uofa.github.io/MovieDreamer/

github链接:https://github.com/aim-uofa/MovieDreamer

论文阅读

MovieDreamer:连贯长视觉序列的分层生成

摘要

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer,这是一种新颖的分层框架,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测视觉标记序列,然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程,将复杂的故事分解为可管理的场景捕捉。此外,我们使用多模式脚本,通过详细的角色信息和视觉风格丰富场景描述,增强场景之间的连续性和角色身份。我们在各种电影类型中进行了广泛的实验,表明我们的方法不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

方法

MovieDreamer 的框架。我们的自回归模型将多模态脚本作为输入,并预测关键帧的标记。然后将这些标记渲染成图像,形成用于扩展视频生成的锚帧。我们的方法确保视觉叙事的长期连贯性和短期保真度,同时很好地保留角色的身份。

我们提出了一种用于生成扩展视频序列的新框架,该框架利用自回归模型的优势实现长期时间一致性,并利用扩散模型实现高质量图像渲染。我们的方法以多模态脚本为条件,以自回归方式预测关键帧标记,并使用这些帧作为锚点来生成全长视频。我们的方法提供了灵活性,可以支持零样本生成以及少样本场景,在这些场景中,生成结果需要遵循给定的风格。我们特别注意在多模态脚本设计、自回归训练和扩散渲染过程中保留角色的身份。

效果

故事结果

我们的 MovieDreamer 能够生成非常长的故事结果,并且能够很好地保存多个角色。

角色 ID 保存

MovieDreamer 能够以零镜头方式在长时间跨度内保留角色身份。

视频结果

MovieDreamer与现有的长视频生成方法正交,但从中受益。 现有的长视频生成方法通常侧重于以一张图片或文字作为输入来生成一段长视频,确保数十秒的高质量结果。然而,将它们扩展到生成几分钟的长视频需要极大的计算量,而生成几个小时的长视频则几乎是不可能的。我们从不同的角度解决了这个问题,即通过分层的方式生成长视频。具体来说,我们首先生成关键帧,这些关键帧作为生成长视频的锚帧。此外,我们的范式统一了长故事生成和长视频生成。首先,我们在生成内容的长度方面超越了现有的方法,无论是在故事生成还是视频生成方面,同时确保质量不会下降。其次,我们的生成质量也超过了目前最先进的方法,这在评估指标中得到了证明。最后,我们的方法非常灵活,允许使用一些目前高质量的闭源视频生成模型来创建具有丰富叙事的高质量长视频,同时很好地保留了多个角色的一致性。 MovieDreamer + Luma

与现有方法相比

首先,我们的生成范式可以生成丰富的叙事内容,在时长方面显著超越现有方法。我们生成的长内容并非简单的循环。其次,定量指标有力地证明了我们的方法在生成长内容的同时还能确保高质量的结果。

更多结果

结论

我们提出 MovieDreamer 来解决生成具有复杂叙事的长时视觉内容的挑战。该方法巧妙地结合了自回归和扩散的优点,并且能够生成长视频。此外,我们设计了多模式脚本,旨在在生成的序列中保持角色一致性。我们进一步引入了 ID 保留渲染,以更好地保留角色 ID,并支持由于上下文建模而进行的少量电影创作。这项工作可能为未来自动化长时视频制作的进步开辟令人兴奋的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/385621.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图解分布式事务中的2PC与Seata方案

文章目录 文章导图什么是2PC解决传统2PC方案XA方案DTP模型举例:新用户注册送积分总结: Seata方案设计思想执行流程举例:新用户注册送积分 Seata实现2PC事务(AT模式)前提整体机制写隔离读隔离实际案例理解要点说明核心代…

uniapp小程序中富文本内容渲染图片不展示的问题

文章目录 1.从后端请求的数据中图片是这样的2.前端我是用Uview中的u-parse组件3.这样修改去掉富文本中的所有反斜杠4.完美解决 1.从后端请求的数据中图片是这样的 <p><img src\\\"https://zhangsanfengcode.cn:8084/images/2024-06-28a257befe.jpg\\\" alt…

如何使用 SQLite ?

SQLite 是一个轻量级、嵌入式的关系型数据库管理系统&#xff08;RDBMS&#xff09;。它是一种 C 库&#xff0c;实现了自给自足、无服务器、零配置、事务性 SQL 数据库引擎。SQLite 的源代码是开放的&#xff0c;完全在公共领域。它被广泛用于各种应用程序&#xff0c;包括浏览…

关于 OSPF 序列号范围 0x80000001-0x7FFFFFFF 正本清源

注&#xff1a;机翻&#xff0c;未校对。 正本&#xff1a;RFC 2328 OSPF Version 2 中相关解释 April 1998 12.1.6. LS sequence number 12.1.6. 序列号 The sequence number field is a signed 32-bit integer. It is used to detect old and duplicate LSAs. The space …

【OSS对象存储】Springboot集成阿里云OSS + 私有化部署Minio

【OSS对象存储】Springboot集成阿里云OSS 私有化部署Minio 一、摘要二、POM依赖三、配置文件四、表结构设计五、代码实现5.1 代码包结构5.2 API封装5.3 增删改查 六、扩展6.1 Minio配置https访问 一、摘要 掌握阿里云OSS、私有化部署Minio两种对象存储的使用方式运用工厂策略…

【C++指南】内存管理(上)

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《数据结构与算法》 期待您的关注

vue上传Excel文件并直接点击文件列表进行预览

本文主要内容&#xff1a;用elementui的Upload 组件上传Excel文件&#xff0c;上传后的列表采用xlsx插件实现点击预览表格内容效果。 在项目中可能会有这样的需求&#xff0c;有很多种方法实现。但是不想要跳转外部地址&#xff0c;所以用了xlsx插件来解析表格&#xff0c;并展…

总结一些vue3小知识3

总结一些vue3小知识1&#xff1a;http://t.csdnimg.cn/C5vER 总结一些vue3小知识2&#xff1a;http://t.csdnimg.cn/sscid 1.限制时间选择器只能选择后面的日期 说明&#xff1a;disabled-date属性是一个用来判断该日期是否被禁用的函数&#xff0c;接受一个 Date 对象作为参…

科普文:分布式架构中的三高:高并发、高性能、高可用

关于高并发 高并发场景 互联网应用以及云计算的普及&#xff0c;使得架构设计和软件技术的关注点从如何实现复杂的业务逻 辑&#xff0c;转变为如何满足大量用户的高并发访问请求。 一个简单的计算处理过程&#xff0c;如果一旦面对大量的用户访问&#xff0c;整个技术挑战就…

DP 整数拆分不同的二叉搜索树 DAY21

整数拆分&#xff1f; 给定一个正整数 n &#xff0c;将其拆分为 k 个 正整数 的和&#xff08; k > 2 &#xff09;&#xff0c;并使这些整数的乘积最大化。 返回 你可以获得的最大乘积。 示例 1: 输入: n 2 输出: 1 解释: 2 1 1, 1 1 1。示例 2: 输入: n 10 输…

实验2-2-1 温度转换

#include<stdio.h> #include <math.h> int main(){int c,f150;c5*(f-32)/9;printf("fahr 150, celsius %d",c); }

sqlilabs解题方法

Lass1 查询id为1的用户名和密码 查询id为2的用户名和密码 没有回显&#xff0c;不含id-1的行 判断字段数&#xff0c;字段数为3 查询数据库用户名&#xff0c;和数据库名 查询时id必须超出数据库以外&#xff0c;一般用-1 用户名&#xff1a;user() 数据库名&#xff1a;databa…

redis:清除缓存的最简单命令示例

清除redis缓存命令(执行命令列表见截图) 1.打开cmd窗口&#xff0c;并cd进入redis所在目录 2.登录redis redis-cli 3.查询指定队列当前的记录数 llen 队列名称 4.清除指定队列所有记录 ltrim 队列名称 1 0 5.再次查询&#xff0c;确认队列的记录数是否已清除

opencascade AIS_Manipulator源码学习

前言 AIS_Manipulator 是 OpenCASCADE 库中的一个类&#xff0c;用于在3D空间中对其他交互对象或一组对象进行局部变换。该类提供了直观的操控方式&#xff0c;使用户可以通过鼠标进行平移、缩放和旋转等操作。 详细功能 交互对象类&#xff0c;通过鼠标操控另一个交互对象…

【Django】 读取excel文件并在前端以网页形式显示-安装使用Pandas

文章目录 安装pandas写views写urls安装openpyxl重新调试 安装pandas Pandas是一个基于NumPy的Python数据分析库&#xff0c;可以从各种文件格式如CSV、JSON、SQL、Excel等导入数据&#xff0c;并支持多种数据运算操作&#xff0c;如归并、再成形、选择等。 更换pip源 pip co…

在 Postman 中设置全局 token

目录 问题描述解决方案 问题描述 在使用 Postman 进行接口测试时&#xff0c;经常会遇到在 Header 中添加 token 的情况。当接口数量较多时&#xff0c;需要为每个接口进行设置&#xff0c;而且当 token 失效时需要重新获取并设置&#xff0c;这样一来效率较低。 解决方案 下…

MSPM0G3507学习笔记1:开发环境_引脚认识与点灯

今日速通一款Ti的单片机用于电赛&#xff1a;MSPM0G3507 这里默认已经安装好了Keil5_MDK 首先声明一下: 因为是速成&#xff0c;所以需要一定单片机学习基础&#xff0c;然后我写的也不会详细&#xff0c;这个专栏的笔记也就是自己能看懂就行的目标~~~ 文章提供测试代码解…

Matlab进阶绘图第65期—带分组折线段的柱状图

带分组折线段的柱状图是在原始柱状图的基础上&#xff0c;在每组柱状图位置处分别添加折线段&#xff0c;以进行对比或添加额外信息。 由于Matlab中未收录带分组折线段的柱状图的绘制函数&#xff0c;因此需要大家自行设法解决。 本文使用自制的BarwithGroupedLine小工具进行…

「Ant Design」Antd 中卡片如何完全不展示内容区域、按需展示内容区域、不展示标题

前言 下面是默认的 Antd 卡片&#xff0c;由以下区域组成 处理 Antd 的 Card 展示形式大致有下面三种 卡片完全不展示内容区域 const App () > (<Card title"Default size card" extra{<a href"#">More</a>} style{{ width: 300 }}b…

SSRF过滤攻击

SSRF绕过&#xff1a; 靶场地址&#xff1a;重庆橙子科技SSRF靶场 这个是毫无过滤的直接读取&#xff0c;但是一般网站会设置有对SSRF的过滤&#xff0c;比如将IP地址过滤。 下面是常用的绕过方式&#xff1a; 1.环回地址绕过 http://127.0.0.1/flag.php http://017700…