论文笔记:通用世界模型WorldDreamer

整理了WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens 论文的阅读笔记

  • 背景
  • 模型
  • 实验

背景

在这里插入图片描述
  现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战,本文提出了WorldDreamer,这是一个开创性的世界模型,旨在培养对一般世界物理和运动的全面理解,这大大增强了视频生成的能力。 通过把视觉输入映射到离散标记并预测被屏蔽的标记,worlddream将世界建模框架为无监督的视觉序列建模挑战。在此过程中,结合了多模态提示来促进世界模型内的交互。实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。

模型

  WorldDreamer的整体框架如图2所示。初始阶段包括使用视觉标记器将视觉信号(即图像和视频)编码为离散的标记。这些令牌在被STPT处理之前经过精心设计的屏蔽策略。同时,文本信号和动作信号分别编码到嵌入中,作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务,然后由视觉解码器对其进行解码,从而促进多个上下文中的视频生成和编辑。
在这里插入图片描述  为了训练 WorldDreamer,文中构建了 Visual-Text-Action 数据的三元组,其中训练监督仅涉及预测屏蔽的视觉标记,而无需任何额外的监督信号。WorldDreamer还支持没有文本或动作数据的训练,这不仅降低了数据收集的难度,而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时,WorldDreamer可以完成各种视频生成和视频编辑任务:
  图像到视频,仅需要单个图像输入,并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。
  视频风格化,可以输入视频片段,并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格,例如创建秋季主题效果。
  文本到视频,提供语言输入允许 WorldDreamer 预测相应的视频,假设所有视觉标记都被屏蔽。
  视频修复,可以输入视频片段,并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。
  动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验

  文中进行了全面的视觉实验,展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力,以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。
  图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示,根据初始图像输入,Worlddreamer 能够生成高质量的电影景观视频。
在这里插入图片描述
  文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。
在这里插入图片描述  视频修复 如图 7 所示,WorldDreamer 展现出卓越的高质量视频修复能力。
在这里插入图片描述
  视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示,WorldDreamer 令人信服地转换原始视频,在风格化过程中实现真正逼真的结果。在这里插入图片描述  从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示,给定相同的初始帧和不同的驾驶动作,WorldDreamer可以根据不同的驾驶动作(例如控制汽车左转或右转)生成不同的未来视频。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456381.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

雷池社区版有多个防护站点监听在同一个端口上,匹配顺序是怎么样的

如果域名处填写的分别为 IP 与域名,那么当使用进行 IP 请求时,则将会命中第一个配置的站点 以上图为例,如果用户使用 IP 访问,命中 example.com。 如果域名处填写的分别为域名与泛域名,除非准确命中域名,否…

关于写删除接口的一些理解

背景 在前两篇文章中,我讲了如何编写查询接口和新增接口。这篇文章将讲解如何编写删除接口。 “删除”接口的总体思路 一般情况下,删除接口的思路是通过记录的id来删除某一行。在实际工作中,我还没有遇到过使用其他字段来删除记录的情况&am…

TinTin Web3 动态精选:Vitalik 探讨以太坊协议,Solana ETN 开启质押功能

TinTin 快讯由 TinTinLand 开发者技术社区打造,旨在为开发者提供最新的 Web3 新闻、市场时讯和技术更新。TinTin 快讯将以周为单位, 汇集当周内的行业热点并以快讯的形式排列成文。掌握一手的技术资讯和市场动态,将有助于 TinTinLand 社区的开…

Unity-Editor扩展,引擎管理AudioClip,音乐音效快捷播放功能

目录 选择一个Audio 音频文件即会 关键在于三个快捷模式 播放, 自动播放 循环播放 根本不需要Editor扩展开发 没找到虚幻引擎的audio 的管理是怎么样的 参考: 本来,觉得没有快捷方式,播放很不爽 想自定义搞一个&#xff…

win10怎么卸载软件干净?电脑彻底删除软件的方法介绍,一键清理卸载残留!

电脑上经常会下载各种各样的软件来协助我们办公,不同的软件能够满足不同的需求。 但是不少软件可能使用频率没有那么高,甚至完全不使用。这个时候就需要将这些不常用的电脑软件卸载掉了,卸载软件能够释放一定的存储空间,提高电脑…

【WebSocket实战】——创建项目初始架构

这一篇文章主要是为了介绍如何在visual中创建一个项目并服务于我们要做的websockt项目,所以这里如果已经懂得的人,可以直接跳过。 目录 1)创建空白解决方案 2)创建asp.NET Core项目 3)创建winform项目作为客户端1 …

纳斯达克大屏投放:为什么越来越多的企业要投放纳斯达克户外广告

纳斯达克大屏投放:为什么越来越多的企业要投放纳斯达克户外广告 一、纳斯达克户外大屏的独特魅力 在全球商业的舞台上,纳斯达克户外大屏以其无与伦比的影响力和曝光度,成为众多企业竞相追逐的广告投放目标。为什么越来越多的企业选择在纳斯…

react18中的函数组件底层渲染原理分析

react 中的函数组件底层渲染原理 react组件没有局部与全局之分,它是一个整体。这点跟vue的组件化是不同的。要实现 react 中的全局组件,可以将组件挂在react上,这样只要引入了react,就可以直接使用该组件。 函数式组件的创建 …

Nestjs请求处理顺序

刚接触Nestjs的小白不知道Nestjs的请求处理顺序的话,这会非常使得咱们服务端不好使用。 下面是请求处理顺序图: 总结: 守卫(Guards) 守卫是请求处理的第一层,用于确定请求是否应该继续处理。它们通常用于身…

Detectron2和LSTM进行人体动作识别

1. 项目简介 本项目旨在开发一个人体动作识别系统,利用深度学习模型Detectron2和LSTM(长短时记忆网络)实现对视频中人体动作的精确识别与分类。项目背景是由于在现代智能监控、健康管理、体育分析等领域中,对人体动作的自动识别和…

旧电脑安装Win11提示“这台电脑当前不满足windows11系统要求”,安装中断。怎么办?

前言 最近有很多小伙伴也获取了LTSC版本的Win11镜像,很大一部分小伙伴安装这个系统也是比较顺利的。 有顺利安装完成的,肯定也有安装不顺利的。这都是很正常的事情,毕竟这个镜像对电脑硬件要求还是挺高的。 有一部分小伙伴在安装Windows11 …

C++对象模型:关于对象

C语言和C对比 ⭐ 关联知识点:C和C语言区别 (1)C 语言的特点 简洁与高效:C 语言被设计为一种系统级的编程语言,它提供了对硬件的直接访问能力,并且编译后的代码通常非常紧凑,运行效率高。 全…

Java SnakeYaml 反序列化漏洞原理

目录 SnakeYaml 使用 SnakeYAML 序列化与反序列化 SnakeYAML 序列化实现 SnakeYAML 反序列化实现 SnakeYaml 反序列化漏洞 基于 ScriptEngineManager 利用链 漏洞原因分析 SPI 服务提供者发现机制 命令执行 漏洞修复 SnakeYaml SnakeYAML 是一个用于 Java 语言的 YA…

面试题:JVM(一)

1. JVM概述 1.1 JVM的生命周期 说说Java虚拟机的生命周期(阿里) 虚拟机的启动 Java虚拟机的启动是通过引导类加载器(bootstrap class loader)创建一个初始类(initial class)来完成的,这个类是由虚拟机的具体实现指定的。 虚拟机的退出有如下…

接口测试(九)jmeter——关联(JSON提取器)

一、JSON提取器介绍 要检查的响应字段:样本数据源引用名称:可自定义设置引用方法:${引用变量名}匹配数字 匹配数字含义-1表示全部0随机1第一个2第二个…以此类推 缺省值:匹配失败时的默认值ERROR,可以不写 二、js…

2024年双十一有什么好物推荐?盘点2024双十一爆款好物分享

第一款:希亦ACE内衣洗衣机 一句话点评:常出口欧美等多个国家,被超百家专业媒体评为“洗护一体技术之王”,妇科细菌除菌率达99.99%,清洁度高达99.8%! CEYEE希亦是清洁领域的实力大牌子了,也是母…

老照片如何修复变清晰?手把手教你4种模糊照片变清晰方法!

在洋溢着温情的生日聚会上,家人们围坐一堂,总会情不自禁地翻阅那些尘封已久的老照片,一同沉醉于往昔的温情岁月。然而,时光荏苒,许多承载着深情厚意的照片已变得泛黄、模糊,难以再现昔日的清晰与鲜活。但请…

vue2 a-input输入框使用正则限制为数字、英文及中文,出现吞字符和英文字符打断问题

需求是输入框限制数字、英文和中文,原始使用的正则是: replace(/[^a-zA-Z0-9\u4E00-\u9FA5]/g,)1、使用这个正则表达式使用搜狗输入法没问题,使用微软自带输入法后会存在输入英文会吞并当前光标前的字符,也有英文打断问题。 输入…

2024年【制冷与空调设备安装修理】考试及制冷与空调设备安装修理最新解析

题库来源:安全生产模拟考试一点通公众号小程序 制冷与空调设备安装修理考试参考答案及制冷与空调设备安装修理考试试题解析是安全生产模拟考试一点通题库老师及制冷与空调设备安装修理操作证已考过的学员汇总,相对有效帮助制冷与空调设备安装修理最新解…

线上遇到的问题记录(说多了都是泪)

写在前面 我觉得,工作中最有价值的就是及遇到的问题了,特别时线上这种容易让人血压升高的环境中遇到的问题,本文就是记录这些血压升高时刻。 如果你遇到什么真实环境的问题,也欢迎评论或者私信分享给我!!&…