大模型时代的具身智能系列专题(十三)

迪士尼研究中心

瑞士苏黎世迪斯尼研究中心致力于不同领域的业务活动,其中包括电影、电视、公园和度假村以及消费产品。我们针对所有这些领域进行科研工作。我们开发能使我们将后道生产元素整合到前级生产中的技术。由此可节省许多昂贵的效果,这些效果最多会占用整个影片制造60%的预算。迪斯尼研究中心在苏黎世和匹兹堡有两个大型外部基地,其产品极为相似。第三个迪斯尼研究实验室的总部位于好莱坞。那里工作的主要是迪斯尼的科研人员,几乎没有大学生。马库斯·戈洛斯(Markus Gross)是苏黎世瑞士联邦理工学院的信息技术教授,计算机图形学实验室主任以及瑞士迪斯尼科研中心总监。

主题相关作品

  • RobotMDM

RobotMDM

摘要

生成运动模型的最新进展取得了显著成果,使得从文本描述中合成逼真的人体运动成为可能。这些运动学方法虽然在视觉上很有吸引力,但通常会产生不符合物理约束的运动,从而产生阻碍现实世界部署的伪影。为了解决这个问题,我们引入了一种新方法,将运动学生成模型与基于物理的角色控制相结合。我们的方法首先训练一个奖励代理来预测下游不可微分控制任务的性能,提供一个高效且可微分的损失函数。然后,该奖励模型用于微调基线生成模型,确保生成的动作不仅多样化,而且在物理上也适用于现实世界场景。我们处理的结果是机器人运动扩散模型 (RobotMDM),这是一个文本条件运动学扩散模型,可与基于强化学习的跟踪控制器交互。我们在具有挑战性的人形机器人上展示了该方法的有效性,证实了它在动态环境中的实际效用和稳健性。

核心技术概要

RobotMDM的创新点在于将运动扩散模型与基于强化学习的跟踪控制器结合,使机器人角色能够生成符合物理规律的动作。该系统的工作流程主要包括以下几个步骤:
运动扩散模型的训练:首先,研究人员使用大量人类动作数据集训练了一个文本条件运动扩散模型,该模型能够根据文本描述生成相关的动作。例如,当输入"一个人挥右手"时,模型可以生成相应的挥手动作。
奖励代理模型的引入:为了确保生成的动作不仅视觉上逼真,还符合物理约束,研究人员引入了一个奖励代理模型,该模型能够评估生成动作的物理可行性,并根据评估结果调整生成模型的权重。
物理跟踪控制器的部署:在生成动作之后,机器人通过一个基于强化学习的控制器来执行这些动作。该控制器能够实时调整机器人的姿态,确保动作在物理上可行且准确。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

实验与分析

研究团队在多种场景下对RobotMDM进行了严格的实验测试,验证了其在实际机器人应用中的表现。
以下为实验中的两个关键场景:

  • 踢腿实验:系统生成了一个踢腿动作,并通过控制器实时跟踪。传统模型生成的动作由于力道过大,导致机器人失去平衡,而RobotMDM则调整了动作强度,使得机器人在完成踢腿动作的同时,保持了身体的稳定性。
  • 坐姿实验:在另一个实验中,机器人被要求执行一个坐在椅子上的动作。传统模型会生成一个悬空坐姿,而RobotMDM通过检测动作的物理不合理性,将坐姿调整为蹲姿,从而避免了悬空现象。

运动学运动生成
在这里插入图片描述

在这里插入图片描述
物理对齐

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用场景

RobotMDM的优势在于其高度的灵活性和适应性,能够处理多样化的动作需求。以下是几个典型的应用场景:
人类动作模仿:RobotMDM能够通过文本描述生成符合人类动作模式的机器人动作。例如,"一个人进行右手上勾拳"这一指令,系统会生成对应的上勾拳动作,并确保机器人能够在高速运动中保持平衡和稳定。
机器人交互与娱乐:得益于RobotMDM的多样化生成能力,机器人可以在复杂的交互场景中执行动态动作,比如娱乐机器人在表演中需要与观众进行互动,或在虚拟现实游戏中扮演角色。
实际场景中的运动优化:相比传统方法,RobotMDM生成的动作不仅能在模拟环境中测试,还能在实际机器人上部署。它大大减少了动作生成过程中不自然的动态不平衡现象,如失去重心或关节过度旋转等。

未来展望与结语

RobotMDM展示了在生成物理可行的机器人动作方面的巨大潜力。随着该技术的进一步发展,我们可以预见它将在多个领域发挥关键作用,包括服务机器人、娱乐机器人以及工业机器人。通过持续优化生成模型和控制器的结合,未来的机器人将能够更加智能地与人类互动,执行复杂的任务。
RobotMDM不仅解决了机器人动作生成中的物理不合理性问题,还通过创新的扩散模型与强化学习控制器的结合,提供了一个高度灵活、适应性强的解决方案。随着技术的进步,机器人角色的动作生成将更加自然和智能,为更多实际场景提供技术支持。

参考

  • https://la.disneyresearch.com/publication/robot-motion-diffusion-model-motion-generation-for-robotic-characters/
  • https://www.greaterzuricharea.com/zh-hans/success-stories/disney-research

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/475807.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA2023设置控制台日志输出到本地文件

1、Run->Edit Configurations 2、选择要输出日志的日志,右侧,IDEA2023的Logs在 Modify option 里 选中就会展示Logs栏。注意一定要先把这个日志文件创建出来,不然不会自动创建日志文件的 IDEA以前版本的Logs会直接展示出来 3、但是…

o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源LLaVA-o1:一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地参与到总结、视觉解释、逻辑推理和结论生成的顺序阶段。 LLaVA-o1超过了一些更大甚至是闭源模型的性能,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.…

AJAX的基本使用

AJAX的基本使用 🎉🎉🎉欢迎来到我的博客,我是一名自学了2年半前端的大一学生,熟悉的技术是JavaScript与Vue.目前正在往全栈方向前进, 如果我的博客给您带来了帮助欢迎您关注我,我将会持续不断的更新文章!!!🙏🙏&#x…

DDei在线设计器V1.2.43版发布

2024-11-21-----V1.2.43 一、bug 修复 1. 修复只读情况下,连线依然可以通过特殊点调整的 bug 2. 修复了同一页面多个实例时,部分方法只会引用最后一个实例的问题 3. 修复了组合控件和容器控件改变容器后没有清理的问题,优化了容器的实现 4. …

C++进阶:哈希表实现

目录 一:哈希表的概念 1.1直接定址法 1.2哈希冲突 1.3负载因子 1.4实现哈希函数的方法 1.4.1除法散列法/除留余数法 1.4.2乘法散列法 1.4.3全域散列法 1.5处理哈希冲突 1.5.1开放地址法 线性探测 二次探测 ​编辑 双重散列 1.5.2链地址法 二.代码实现 2.1开放地址…

鸿蒙NEXT开发案例:血型遗传计算

【引言】 血型遗传计算器是一个帮助用户根据父母的血型预测子女可能的血型的应用。通过选择父母的血型,应用程序能够快速计算出孩子可能拥有的血型以及不可能拥有的血型。这个过程不仅涉及到了简单的数据处理逻辑,还涉及到UI设计与交互体验的设计。 【…

(十八)JavaWeb后端开发案例——会话/yml/过滤器/拦截器

目录 1.业务逻辑实现 1.1 登录校验技术——会话 1.1.1Cookie 1.1.2session 1.1.3JWT令牌技术 2.参数配置化 3.yml格式配置文件 4.过滤器Filter 5.拦截器Interceptor 1.业务逻辑实现 Day10-02. 案例-部门管理-查询_哔哩哔哩_bilibili //Controller层/*** 新增部门*/Pos…

2024.5 AAAiGLaM:通过邻域分区和生成子图编码对领域知识图谱对齐的大型语言模型进行微调

GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding 问题 如何将特定领域知识图谱直接整合进大语言模型(LLM)的表示中,以提高其在图数据上自…

amd显卡和nVidia显卡哪个好 amd和英伟达的区别介绍

AMD和英伟达是目前市场上最主要的两大显卡品牌,它们各有自己的特点和优势,也有不同的适用场景和用户群体。那么,AMD显卡和英伟达显卡到底哪个好?它们之间有什么区别?我们又该如何选择呢?本文将从以下几个方…

接口加密了怎么测?

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 1、定义加密需求 确定哪些数据需要进行加密。这可以是用户敏感信息、密码、身份验证令牌等。确定使用的加密算法,如对称加密(如AES&am…

接口上传视频和oss直传视频到阿里云组件

接口视频上传 <template><div class"component-upload-video"><el-uploadclass"avatar-uploader":action"uploadImgUrl":on-progress"uploadVideoProcess":on-success"handleUploadSuccess":limit"lim…

springboot基于数据挖掘的广州招聘可视化分析系统

摘 要 基于数据挖掘的广州招聘可视化分析系统是一个创新的在线平台&#xff0c;旨在通过深入分析大数据来优化和改善广州地区的招聘流程。系统利用Java语言、MySQL数据库&#xff0c;结合目前流行的 B/S架构&#xff0c;将广州招聘可视化分析管理的各个方面都集中到数据库中&a…

VIM的下载使用与基本指令【入门级别操作】

VIM——超级文本编辑器 在当今时代&#xff0c;功能极其复杂的代码编辑器和集成开发环境&#xff08;IDE&#xff09;有很多。 但如果只想要一个超轻量级的代码编辑器&#xff0c;用于 Unix、C 或其他语言/系统&#xff0c;而不需要那些华而不实的功能&#xff0c;该怎么办呢&…

心情追忆-首页“毒“鸡汤AI自动化

之前&#xff0c;我独自一人开发了一个名为“心情追忆”的小程序&#xff0c;旨在帮助用户记录日常的心情变化及重要时刻。我从项目的构思、设计、前端&#xff08;小程序&#xff09;开发、后端搭建到最终部署。经过一个月的努力&#xff0c;通过群聊分享等方式&#xff0c;用…

开源代码统计工具cloc的简单使用

一.背景 公司之前开发了个小系统&#xff0c;要去申请著作权&#xff0c;需要填写代码数量。应该怎么统计呢&#xff1f;搜索了一下&#xff0c;还是用开源工具cloc吧&#xff01;我的操作系统是windows&#xff0c;代码主要是java项目和vue项目。 二.到哪里找 可以去官方下载…

基于单片机的条形码识别结算设计

本设计基于单片机的条形码辨识与结算系统。该系统主要用于超市、商场等场所的商品结算&#xff0c;实现了在超市内对不同种类商品进行自动识别及自动分类结算的功能。该系统由STM32F103C8T6单片机、摄像头、显示、蜂鸣器报警、按键和电源等多个模块构成。该系统可实现商品自动识…

进程间通信的信号艺术:机制、技术与实战应用深度剖析

目录 1 什么是信号 2 为什么要有信号 3 对于信号的反应 3.1 默认行为 3.2 signal()函数 -- 自定义行为对信号做出反应 3.3 对信号进行忽略 4 信号的产生的类型 4.1 kill命令 4.2 键盘输入产生信号 4.3 系统调用接口 4.3.1 kill() 4.3.2 raise() 函数 4.4 软件条件 …

美畅物联丨JT/T 808 终端设备如何加入畅联云平台

在道路运输行业中&#xff0c;JT/T 808终端设备的应用正变得越来越广泛&#xff0c;把该设备接入畅联云平台&#xff0c;能够达成更高效的车辆管理与监控功能。今天&#xff0c;我们就来探讨一下JT/T 808终端设备接入畅联云平台的步骤与要点。 一、了解畅联云平台接入要求 首先…

【微服务】SpringBoot 整合ELK使用详解

目录 一、前言 二、为什么需要ELK 三、ELK介绍 3.1 什么是elk 3.2 elk工作原理 四、ELK搭建 4.1 搭建es环境 4.1.1 获取es镜像 4.1.2 启动es容器 4.1.3 配置es参数 4.1.4 重启es容器并访问 4.2 搭建kibana 4.2.1 拉取kibana镜像 4.2.2 启动kibana容器 4.2.3 修改…

jenkins的安装(War包安装)

‌Jenkins是一个开源的持续集成工具&#xff0c;基于Java开发&#xff0c;主要用于监控持续的软件版本发布和测试项目。‌ 它提供了一个开放易用的平台&#xff0c;使软件项目能够实现持续集成。Jenkins的功能包括持续的软件版本发布和测试项目&#xff0c;以及监控外部调用执行…