AIGC:生成图像动力学

文章目录

  • 前言
  • 一、介绍
  • 二、方法
    • 2.1、运动预测模块
      • 运动纹理
    • 2.2、图像渲染模块
  • 三、数据集实验
  • 总结


前言

让静态的风景图能够动起来真的很有意思,不得不说CVPR2024 best paper实质名归,创意十足的一篇文章!!!

paper:https://arxiv.org/pdf/2309.07906
demo:https://generative-dynamics.github.io


一、介绍

自然界中的场景总是处于运动状态,如风、水流、呼吸等自然节律产生的振动。虽然人类可以轻松地解释或想象场景中的运动,但训练模型来学习或生成真实的场景运动却极其困难。在现实世界中观察到的运动是场景底层物理动力学的结果,例如,施加在物体上的力根据它们独特的物理属性(如质量、弹性等)做出响应,这些量很难大规模测量和捕捉。

文章实现从单个静止图像生成逼真的长时间像素轨迹通过学习从真实视频序列中提取的运动轨迹,作者开发了一种频域的密集、长期运动表示方法(光谱体积)。该方法**通过频率协调的扩散模型进行预测,能够生成覆盖整个视频的运动纹理,**从而实现如下应用:

(1). 无缝循环视频生成:将静止图像转换为无缝循环的视频。
(2). 交互动态模拟:允许用户与图像中的对象进行交互,模拟对象在用户输入(如拖动和释放点)下的动态响应。
(3). 图像动画:将单个静止图像转换为动态视频,展示自然界中的振荡运动,例如树木在风中的摆动、花朵的摇曳等。

demo :generative-dynamics.github.io.
paper:https://arxiv.org/pdf/2309.07906

二、方法

给定一张图I0,文章的目标是生成一个基于I0的视频{I1, I2, … IT}, 其特征为微风吹过的树,花产生的摇摆运动。整个system包含两个module —— 一个运动预测模块,一个基于图像的渲染模块。首先,使用潜在扩散模型(LDM)预测输入图片的频谱体积,然后通过**逆离散傅里叶变换(IDFT,将频域信号转换为时域信号)**将其转换为运动纹理。接着,利用神经图像基渲染技术将输入的RGB图像动画化。该方法在生成无缝循环动画和模拟交互动态方面有多种应用。


基本流程如下:
首先,使用「潜在扩散模型」为输入图片 I 0 I_{0} I0预测一个神经随机运动纹理(频域)——
请添加图片描述
第二步,使用逆离散傅立叶变换将预测出的随机运动纹理转化为一系列运动位移场(时域)(motion displacement fields)
请添加图片描述
这些运动位移场将用于确定每个输入像素在每一个未来时间步长的位置

2.1、运动预测模块

运动预测模块通过潜在扩散模型(LDM)从单张输入图像预测出表示密集、长期像素运动的频谱体积

运动纹理

运动纹理定义了一系列时变的2D位移映射( displacement map)
请添加图片描述
F t ( p ) F_{t}(p) Ft(p)表示每个像素坐标p,定义了输入图像 I 0 I_{0} I0中的p像素在未来时间t的位置。为了在时间t生成一个未来帧,可以使用相应的位移映射,从 I 0 I_{0} I0中拾取像素,从而得到一个前向变形的图像
请添加图片描述


正如之前在计算机图形研究中所证明的,许多自然运动,特别是振荡运动,可以描述为一小组谐振子(harmonic oscillators)的叠加,这些谐振子用不同的频率、振幅和相位表示

一种引入运动的随机性的方法是整合噪声场。但正如之前研究结果表明的,直接在预测的运动场的空间和时间域内添加随机噪声通常会导致不现实或不稳定的动画。

更进一步,采用上面定义的时间域内的运动纹理意味着需要预测T个2D位移场,才能生成一个包含T帧的视频片段。为了避免预测如此大的输出表示,许多先前的动画方法要么自回归地生成视频帧,要么通过额外的时间嵌入独立预测每个未来的输出帧。

然而,这两种策略都不能确保生成的视频帧在长期内具有时间上的一致性,而且都可能产生随时间漂移或发散的视频。

为了解决上述问题,研究人员在频率域中表示输入场景的每像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一种多模态的图像到图像的转换任务。

研究人员采用潜在扩散模型(LDM)生成由一个4*K(K为一个超参数,为作者所选取的频率分量数量)通道的2D运动光谱图组成的随机运动纹理其中K << T是建模的频率数,而在每个频率上,需要四个标量来表示x和y维度的复傅立叶系数(可表示幅值和相位, 也就是说通过这四个标量可以计算出在设定固定频率下的幅值和相位)
请添加图片描述

下图展示了这些神经随机运动纹理
请添加图片描述


那么,应该如何选择研究人员表示的 K 输出频率呢?实时动画之前的研究说明,大多数自然振荡运动主要由低频分量(low-frequency component)组成。

为了验证这一假设,研究人员计算了从1000个随机抽样的5秒真实视频剪辑中提取出来的运动的平均功率谱。如下图所示,功率主要集中在低频分量上
请添加图片描述
动作的频谱随着频率的增加呈指数下降。这表明大多数自然振动动作确实可以由低频项很好地表示。

在实践中,研究人员发现前K=16个傅里叶系数足以在一系列真实视频和场景中真实地重现原始的自然动作


训练过程中,采用频率自适应归一化技术,对傅里叶系数进行调整,防止高频分量过小而导致的生成误差。随后,模型通过迭代去噪,从高斯噪声逐步逼近真实的频谱体积。最后,通过逆离散傅里叶变换将预测的频谱体积转换为时间域的运动纹理,生成未来帧的像素运动轨迹。这一模块使得从静态图像生成逼真、连贯的动态视频成为可能。运动预测模块结构如图所示。
请添加图片描述

2.2、图像渲染模块

首先,通过逆离散傅里叶变换将频谱体积转换为时间域的运动纹理,运动纹理描述了每个像素在未来时间步的位置变化。接着,模块对输入的RGB图像进行多尺度特征提取,生成一系列特征图。利用最大值点云映射策略,将特征图中的像素根据运动纹理映射到未来帧的位置。然后,通过图像合成网络对映射后的特征图进行细化和填充,生成无缝、逼真的动画帧。在生成无缝循环视频时,模块会应用运动指导,确保视频的起始帧和结束帧在位置和速度上保持一致。通过这一系列步骤,基于图像的渲染模块成功地将静态图像转化为动态视频,实现了逼真、连贯的动画效果。

请添加图片描述

请添加图片描述

三、数据集实验

文章收集3015个展示自然振荡运动的视频,并将其分为训练集和测试集。首先从视频中提取运动轨迹生成频谱体积,然后使用这些数据训练潜在扩散模型(LDM),模型能够预测单张输入图像的频谱体积,并通过逆离散傅里叶变换将其转换为时间域的运动纹理,生成未来帧的像素运动轨迹

请添加图片描述

请添加图片描述

总结

论文提出了一种从单张静止图像建模自然振荡动态的新方法。该方法从真实世界视频集合中学习,并在扩散模型预测中表现出高效。通过基于图像的渲染模块,频谱体积用于动画未来的视频帧,生成逼真的动画,给未来生成模型的应用带来更多可能!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/495950.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cesium入门学习二

之前学习了cesium的一些基本操作&#xff0c;现在学习cesium怎么加载模型&#xff0c;以及一些其他操作。 1.学习汇总目录 第一篇&#xff1a;cesium入门学习一-CSDN博客 2.cesium效果显示以及代码 2.1 加载模型并显示 效果&#xff1a; js代码&#xff1a; // 创建 Ces…

路由策略

控制层流量 --- 路由协议传递路由信息时产生的流量 数据层流量 --- 设备访问目标地址时产生的流量 所谓的路由策略----在控制层面转发流量的过程中&#xff0c;截取流量&#xff0c;之后修改流量再转发或不转发的技术&#xff0c;最终达到影响路由器路由表的生成&#xff0c…

网络安全 - Cross-site scripting

1.1.1 摘要 在本系列的第一篇博文中&#xff0c;我向大家介绍了SQL Injection常用的攻击和防范的技术。这个漏洞可以导致一些非常严重的后果&#xff0c;但幸运的是我们可以通过限制用户数据库的权限、使用参数化的SQL语句或使用ORM等技术来防范SQL Injection的发生&#xff0c…

一、Hadoop概述

文章目录 一、Hadoop是什么二、Hadoop发展历史三、Hadoop三大发行版本1. Apache Hadoop2. Cloudera Hadoop3. Hortonworks Hadoop四、Hadoop优势1. 高可靠性2. 高扩展性3. 高效性4. 高容错性五、Hadoop 组成1. Hadoop1.x、2.x、3.x区别2. HDFS 架构概述3. YARN 架构概述4. MapR…

信息安全管理与评估赛题第9套

全国职业院校技能大赛 高等职业教育组 信息安全管理与评估 赛题九 模块一 网络平台搭建与设备安全防护 1 赛项时间 共计180分钟。 2 赛项信息 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 第一阶段 网络平台搭建与设备安全防护 任务1 网络平台搭建 XX:XX- XX:XX 50 任务2…

低代码开发中 DDD 领域驱动的页面权限控制

在低代码开发的领域中&#xff0c;应用安全与灵活性是两大关键考量因素。领域驱动设计&#xff08;DDD&#xff09;作为一种在软件设计领域广泛应用且颇具影响力的方法论&#xff0c;正逐渐在低代码开发的页面权限控制方面展现出其独特的价值与潜力。本文旨在客观地探讨如何借助…

目录jangow-01-1.0.1靶机

靶机 ip&#xff1a;192.168.152.155 把靶机的网络模式调成和攻击机kali一样的网络模式&#xff0c;我的kali是NAT模式, 在系统启动时(长按shift键)直到显示以下界面 ,我们选第二个&#xff0c;按回车。 继续选择第二个&#xff0c;这次按 e 进入编辑页面 接下来&#xff0c;…

微信小程序 不同角色进入不同页面、呈现不同底部导航栏

遇到这个需求之前一直使用的小程序默认底部导航栏&#xff0c;且小程序默认入口页面为pages/index/index&#xff0c;要使不同角色呈现不同底部导航栏&#xff0c;必须要在不同页面引用不同的自定义导航栏。本篇将结合分包&#xff08;subPackages&#xff09;展开以下三步叙述…

【GeekBand】C++设计模式笔记15_Proxy_代理模式

1. “接口隔离” 模式 在组件构建过程中&#xff0c;某些接口之间直接的依赖常常会带来很多问题&#xff0c;甚至根本无法实现。采用添加一层间接&#xff08;稳定&#xff09;接口&#xff0c;来隔离本来互相紧密关联的接口是一种常见的解决方案。典型模式 FacadeProxyAdapte…

网络安全之接入控制

身份鉴别 ​ 定义:验证主题真实身份与其所声称的身份是否符合的过程&#xff0c;主体可以是用户、进程、主机。同时也可实现防重放&#xff0c;防假冒。 ​ 分类:单向鉴别、双向鉴别、三向鉴别。 ​ 主题身份标识信息:密钥、用户名和口令、证书和私钥 Internet接入控制过程 …

UE5 崩溃问题汇总!!!

Using bundled DotNet SDK version: 6.0.302 ERROR: UnrealBuildTool.dll not found in "..\..\Engine\Binaries\DotNET\UnrealBuildTool\UnrealBuildTool.dll" 在你遇到这种极奇崩溃的BUG &#xff0c;难以解决的时候。 尝试了N种方法&#xff0c;都不行的解决方法。…

docker 搭建集群

准备3台机器&#xff1a; #dockermaster 192.168.31.150 sudo hostnamectl set-hostname dockermaster #初始化主节点 docker swarm init --advertise-addr 192.168.31.150 #查看集群是否搭建成功 docker node ls #dockernode1 192.168.31.151 sudo hostnamectl set-hostname …

关于埃斯顿机器人文件导出或者系统日志导出

关于埃斯顿机器人文件导出或者日志导出&#xff0c;登录模式&#xff0c;选择高级设置&#xff0c;控制器备份恢复 选择U盘导入地址&#xff0c;点击导出&#xff0c;等待时间30秒就可以查看文件格式和系统日志

golang标准库SSH操作示例

文章目录 前言一、了解SSH二、重要知识点1.安装ssh库2.ssh库重要知识牢记 三、模拟连接远程服务器并执行命令四、SSH与os/exec标准库下执行命令的几种方式对比五、SSH库下三种执行命令方式演示5.1. session.CombinedOutput()示例5.2. session.Run()示例5.3. session.Start()、s…

嵌入式轻量级开源操作系统:HeliOS的使用

嵌入式轻量级开源操作系统:HeliOS的使用 &#x1f4cd;项目地址&#xff1a;https://github.com/heliosproj/HeliOS HeliOS项目是一个社区交付的开源项目&#xff0c;用于构建和维护HeliOS嵌入式操作系统&#xff08;OS&#xff09;。HeliOS是一个功能齐全的操作系统&#xff0…

解决:excel鼠标滚动幅度太大如何调节?

在excel里为什么滚动一次跳过很多行呢&#xff1f;很不方便。。。 1. 问题&#xff1a; 一开始单元格从第1行开始&#xff1a; 鼠标轻轻滚动一下后&#xff0c;直接跳到第4行&#xff1a; 鼠标在word和浏览器里都是好好的。在excel里为什么不是滚动一次跳过一行呢&#xff…

kubernetes Gateway API-部署和基础配置

文章目录 1 部署2 最简单的 Gateway3 基于主机名和请求头4 重定向 Redirects4.1 HTTP-to-HTTPS 重定向4.2 路径重定向4.2.1 ReplaceFullPath 替换完整路径4.2.2 ReplacePrefixMatch 替换路径前缀5 重写 Rewrites5.1 重写 主机名5.2 重写 路径5.2.1 重新完整路径5.2.1 重新部分路…

Docker服务发现新纪元:探索Consul的无限魅力

作者简介&#xff1a;我是团团儿&#xff0c;是一名专注于云计算领域的专业创作者&#xff0c;感谢大家的关注 •座右铭&#xff1a; 云端筑梦&#xff0c;数据为翼&#xff0c;探索无限可能&#xff0c;引领云计算新纪元个人主页&#xff1a;团儿.-CSDN博客 目录 前言&…

湖南引力:低代码助力实现智慧养老管理系统

“低代码开发宛如一座神奇的桥梁&#xff0c;它以简洁高效的方式连接起创意与应用&#xff0c;降低了开发门槛&#xff0c;为企业和开发者带来前所未有的便捷与可能&#xff0c;开启了快速实现软件梦想的新征程。” ——王港&#xff0c;湖南引力科技有限公司 湖南引力科技有…

mongodb和Cassandra

mongodb的一致性问题&#xff1a; 15.MongoDB的一致性(读关注与写关注)_mongo w选项-CSDN博客 孤儿节点问题&#xff1a; 技术干货 | MongoDB 偶遇孤儿文档及处理方法-腾讯云开发者社区-腾讯云 分片集群MongoDB迁移前清除孤儿文档 由数据迁移至MongoDB导致的数据不一致问题…