[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

​​​​​​Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models

L Mandelli, S Berretti - arXiv preprint arXiv:2409.11920, 2024

通过时间和空间组合扩散模型生成复杂的3D人物动作

摘要

本文提出了一种新的方法,用于生成在训练阶段从未见过的3D人物动作。该方法利用GPT模型的人类动作知识,将复杂动作分解为在训练中观察到的简单动作。然后,这些简单动作通过扩散模型的特性重新组合成单一、逼真的动画。作者声称,这种分解和简单动作的重新组合可以合成准确表示复杂输入动作的动画。这种方法在推理阶段进行操作,并且可以与任何预训练的扩散模型集成,从而实现训练数据集中不存在的动作类别的合成。

技术背景: 生成3D人物动作是计算机图形学和机器学习领域的一个活跃研究方向。该项技术在视频游戏,电影制作和影视娱乐等领域有广泛的应用。随着深度学习技术的发展,研究者们提出了多种方法来生成更自然、逼真的人物动作。不过,先前的研究主要集中在基于文本的条件生成,但这些方法在生成动作时严重依赖于训练数据集中已有的动作。

发展历史: 早期的方法主要依赖于运动捕捉数据的统计模型。近年来,随着深度学习技术的发展,研究者们开始使用生成对抗网络(GANs)、变分自编码器(VAEs)和扩散模型等方法来生成3D人物动作。最近,采用Diffusion Models技术的方法逐步受到重视,该类方法在生成质量和控制方面均有较好的表现。

技术挑战: 

  • 如何生成训练数据中未出现过的动作类别。
  • 如何有效地将复杂的动作分解为简单的、已知的动作,并在生成过程中重新组合。

具体困难:

  • 现有的生成模型通常需要重新训练以包含新的动作类别。
  • 动作的复杂性和多样性使得分解和重组成为一个挑战。

如何破局?

  • 分解与重组: 使用GPT模型将复杂动作分解为简单动作,然后利用扩散模型的属性将这些简单动作重新组合成复杂的动作。
  • 推理阶段操作: MCD方法在推理阶段操作,可以与任何预训练的扩散模型集成,以合成训练数据中不存在的动作类别。

创新点

  1. 提出了一种在训练阶段后从未见过的动作类别的生成方法。
  2. 提出了一种新的通用方法,用于时间和空间上的人体动作组合,无约束条件。
  3. 通过将已知数据集分割成简单和复杂动作,证明了所提出方法的有效性。
  4. 展示了通过同时使用多个文本注释来实现比传统文本条件生成更好的结果。

算法模型

  • MCD (Motion Composition Diffusion): 一种用于在训练阶段后生成未见过的行动的方法。MCD将文本注释分解成训练集中存在的一个或多个已知子动作,每个子动作都有开始和结束时间。在推理过程中,通过扩散去噪的每一步,分别处理每个子动作,然后根据它们各自的开始和结束时间将它们组合起来。
  • GPT分解模块: 使用GPT模型来将输入动作分解成基本动作。
  • 扩散模型: 在推理过程中,用于生成基于分解子动作的最终动作。

实验效果

  • 数据集: 使用HumanML3D和KitML数据集进行实验。
  • 指标: 使用TMR模型评估生成动作与文本之间的相似度,计算M2M(动作与动作之间的相似度)和M2T(生成动作与文本之间的相似度)。
  • 结果: 在两个数据集上,MCD方法在检索得分、嵌入相似度和FID值方面均优于仅使用文本条件生成的动作。
  • 重要数据:
    • R1, R3, R10: 检索得分显示MCD方法在生成动作的语义对齐方面表现更好。
    • M2M, M2T: 嵌入相似度表明MCD生成的动作与原始动作的分布更接近。
    • FID: 生成动作的分布与原始数据集的分布相似度更高。

重要结论: 

MCD方法能够在不需要重新训练新模型的情况下,在推理阶段生成训练集中未包含的动作类别。通过将数据集分割为基础动作和复杂动作,并与仅使用文本条件生成的动作以及最新的动作组合方法进行比较,证明了MCD方法的有效性。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的方法,用于生成训练阶段未出现过的复杂3D人物动作,这对于动画制作、虚拟现实等领域具有重要意义。
- 实验结果表明,所提出的方法在多个评估指标上均优于现有技术,特别是在处理复杂动作生成任务时。
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/434185.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring AOP - 注解方式实现

前文已经讨论了基于配置文件方式实现Spring AOP&#xff08;Spring AOP - 配置文件方式实现&#xff09;&#xff0c;本文采用注解的方式实现前文相同的功能。配置步骤如下&#xff1a; 1、项目增加aop依赖&#xff08;pom.xml) <dependency><groupId>org.springfr…

linux 安装 tomcat9、java环境

一、安装 Java环境 1. 下载文件 https://repo.huaweicloud.com/java/jdk/ 或者网盘&#xff1a;通过网盘分享的文件&#xff1a;jdk-8u192-linux-x64.tar.gz 链接: https://pan.baidu.com/s/1V3pQWzgSLJxdrUdmmKueRA 提取码: qspw 2. 查看Linux系统是否有自带的jdk&#xf…

代码随想录_刷题记录_第四次

二叉树 — 理论基础 种类&#xff1a; 满二叉树&#xff08;所有层的节点都是满的&#xff0c;k&#xff1a;深度 节点数量&#xff1a;2^k - 1&#xff09;完全二叉树&#xff08;除了最后一层&#xff0c;其余层全满&#xff0c;并且最后一层从左到右连续&#xff09;二叉搜…

C语言扫盲

文章目录 C版本C语言特征GCCprintf数据类型函数指针内存管理void指针 Struct结构和Union结构typedef预处理器make工具cmake工具Projectintegral of sinc functionemulator embedded systeman event schedule 补充在线Linux终端安装Linux参考 建议还是国外教材学习…人家的PPT比…

【ESP32】Arduino开发 | I2C控制器+I2C主从收发例程

有关I2C控制器的详细介绍放在了IDF开发的文章中&#xff0c;跳转栏目目录可以找到对应的文章。 1. API Arduino启动时就已经实例化了两个I2C设备类&#xff0c;分别对应Wire和Wire1对象。 1.1 初始化 bool begin(int sda, int scl, uint32_t frequency0); // returns true, i…

【2023工业3D异常检测文献】PointCore: 基于局部-全局特征的高效无监督点云异常检测器

PointCore: Efficient Unsupervised Point Cloud Anomaly Detector Using Local-Global Features 1、Background 当前的点云异常检测器可以分为两类&#xff1a; &#xff08;1&#xff09;基于重建的方法&#xff0c;通过自动编码器重建输入点云数据&#xff0c;并通过比较原…

召回09 双塔模型+自监督学习

引入&#xff1a; 自监督学习改进双塔模型&#xff0c;可以提升业务指标。自监督学习是把物品塔学习得更习的更好。 长尾物品的曝光和点击数量太少&#xff0c;训练的样本次数不够。自监督可以更好地学习长尾数据的物品表征。 双塔模型的训练&#xff1a; 线上召回的时候不用纠…

【tbNick专享】虚拟机域控、成员服务器、降级等管理

在 VMware 中完成四台域控服务器、一台成员服务器的创建、降级域控为成员服务器&#xff0c;并创建子域的操作。 1. 创建四台域控和一台成员服务器 1.1 在 VMware 中创建虚拟机 启动 VMware Workstation&#xff1a; 打开 VMware Workstation&#xff0c;点击 “创建新的虚拟…

AIGC学习笔记—minimind详解+训练+推理

前言 这个开源项目是带我的一个导师&#xff0c;推荐我看的&#xff0c;记录一下整个过程&#xff0c;总结一下收获。这个项目的slogan是“大道至简”&#xff0c;确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型&#xff08;LLM&#xff09;&#xff0c;通过从零…

十分钟实现内网连接,配置frp

十分钟实现内网连接&#xff0c;配置frp 一.frp是什么&#xff1f;其实是一款实现外网连接内网的一个工具&#xff0c;个人理解&#xff0c;说白了就像是teamviwer一样&#xff0c;外网能访问内网。 利用处于内网或防火墙后的机器&#xff0c;对外网环境提供 http 或 https 服…

CSS04-Chrome调试工具

Chrome 浏览器提供了一个非常好用的调试工具&#xff0c;可以用来调试我们的 HTML结构和 CSS 样式。

Redis实战(使用Scan,Lua脚本,一次扣多个库存,多线程并发使用,并发获取分布式锁,BItMap实现签到和在线统计)

1.使用Scan 2.lua脚本操作Redis 一次扣减一个商品库存 一次扣减多个商品的库存 Testvoid test100() {String key "product.1";stringRedisTemplate.opsForValue().set("product.1","10");stringRedisTemplate.opsForValue().set("produc…

在一个.NET Core项目中使用RabbitMQ进行即时消息管理

为了在一个.NET Core项目中使用RabbitMQ进行即时消息管理&#xff0c;以下是详细的全程操作指南&#xff0c;包括安装、配置、编写代码和调试使用。 一、安装RabbitMQ 1. 安装Erlang RabbitMQ依赖Erlang&#xff0c;因此需要先安装Erlang。 Windows: 下载并运行Erlang安装…

千亿数据-异地容灾-查询打印——MySQL大数据优化

1. 数据备份策略 - 定期全量备份&#xff1a;制定周期性的全量数据备份计划&#xff0c;确保数据的完整性。 - 增量备份&#xff1a;在全量备份之间进行增量备份&#xff0c;减少备份时间和存储空间。 2. 数据存储 - 分布式存储&#xff1a;利用分布式存储系统来存…

港科夜闻 | 香港科大颁授荣誉大学院士予五位杰出人士

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、香港科大颁授荣誉大学院士予五位杰出人士。香港科大9月24日向五位杰出人士颁授荣誉大学院士&#xff0c;他们分别为包弼德教授、简吴秋玉女士、高秉强教授、吴永顺先生及容永祺博士(按姓氏英文字母排序)。荣誉大学院士颁…

多无人机通信(多机通信)+配置ssh服务

目录 多机通信 设备 主从机通信设置 配置从机 配置主机 测试 正式启用 MAVROS通信 多机通信 多机通信是实现机器人编队的基础&#xff0c;通过网络搭建通信链路。我们这里用中心节点网络通信&#xff0c;所有数据需有经过中心节点&#xff0c;所以&#xff0c;中心节点…

C++黑暗迷宫

目录 开头程序程序的流程图程序游玩的效果下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。 程序 #include <iostream> #include <cstdlib> #include <ctime> using namespace std; struct near {int i;int ia;int ix;int iy;int iwalk; }; v…

单片机长短按简单实现

单片机长短按简单实现 目录 单片机长短按简单实现1 原理2 示例代码2.1 按键实现 3 测试log4 其他实现方式 1 原理 按键检测和处理的步骤如下&#xff1a; 1&#xff1a;定时扫描按键&#xff08;使用定时器定时扫描&#xff0c;也可以用软件延时或者系统心跳之类的方式&#…

信息安全工程师(21)安全协议

前言 安全协议是建立在密码体制基础上的一种交互通信协议&#xff0c;它运用密码算法和协议逻辑来实现认证、密钥分配、数据机密性、完整性和抗否认性等安全目标。 一、定义与目的 安全协议旨在确保网络环境中信息交换的安全性&#xff0c;通过密码技术和协议逻辑来保护数据的机…

AIGC入门:Comfyui整合包,解压即用!

整合包获取方式放在文末了 今天给大家分享的Comfyui的整合包&#xff0c;无需复杂的操作&#xff0c;解压即可使用。 整合包已经打包好了&#xff0c;获取方式放在文末&#xff0c;需要的朋友可以自行领取哦。 什么是Comfyui ComfyUI采用节点式的操作方式&#xff0c;这种方…