计算机视觉和机器人技术中的下一个标记预测与视频扩散相结合

一种新方法可以训练神经网络对损坏的数据进行分类,同时预测下一步操作。 它可以为机器人制定灵活的计划,生成高质量的视频,并帮助人工智能代理导航数字环境。

在这里插入图片描述
Diffusion Forcing 方法可以对嘈杂的数据进行分类,并可靠地预测任务的下一步,例如帮助机器人完成操纵任务。 在一项实验中,它帮助机械臂将玩具水果重新排列到圆形垫子上的目标位置,尽管开始时位置随机且存在视觉干扰。 鸣谢:图片:Mike Grimmett/MIT CSAIL Mike Grimmett/MIT CSAIL

在当前的人工智能潮流中,序列模型因其分析数据和预测下一步行动的能力而大受欢迎。 例如,你可能用过 ChatGPT 这样的下一个标记预测模型,它可以预测序列中的每个单词(标记),从而形成用户查询的答案。 还有像 Sora 这样的全序列扩散模型,通过对整个视频序列进行连续 “去噪”,将单词转换成炫目逼真的视觉效果。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员对扩散训练方案提出了一个简单的改动,使这种序列去噪变得更加灵活。

在应用于计算机视觉和机器人等领域时,下一标记词模型和全序列扩散模型都需要权衡能力。 Next-token 模型可以产生不同长度的序列。 然而,它们在生成这些序列的同时,并不了解远期的理想状态–比如将序列生成导向 10 个标记之外的某个目标–因此需要额外的机制来进行远期(长期)规划。 扩散模型可以执行这种未来条件采样,但缺乏下一个标记模型生成可变长度序列的能力。

CSAIL 的研究人员希望将两种模型的优势结合起来,因此他们创造了一种名为 "Diffusion Forcing"的序列模型训练技术。 这一名称来源于 “教师强化”(Teacher Forcing),它是一种传统的训练方案,将完整的序列生成分解成更小、更容易的下一个标记生成步骤(就像一位好老师简化复杂的概念一样)。

扩散强化发现了扩散模型和教师强化之间的共同点: 它们都使用从未加掩码的标记预测加掩码(噪声)标记的训练方案。 在扩散模型中,它们会逐渐向数据中添加噪声,这可以看作是部分掩蔽。 麻省理工学院研究人员的 "扩散强化法 "可以训练神经网络净化标记集,去除每个标记中不同数量的噪声,同时预测下几个标记。 结果:一个灵活、可靠的序列模型为机器人和人工智能代理带来了更高质量的人工视频和更精确的决策。

通过整理嘈杂的数据并可靠地预测任务的下一步,扩散强化技术可以帮助机器人忽略视觉干扰,完成操作任务。 它还能生成稳定一致的视频序列,甚至引导人工智能代理通过数字迷宫。 这种方法有可能让家用机器人和工厂机器人适应新的任务,并改善人工智能生成的娱乐效果。

"序列模型的目的是以已知的过去为条件,预测未知的未来,这是一种二进制掩蔽。 然而,掩蔽并不需要是二进制的,"第一作者、麻省理工学院电子工程与计算机科学(EECS)博士生、CSAIL 成员陈博源说。 利用 "扩散强化 "技术,我们为每个标记添加了不同程度的噪声,从而有效地起到了分数掩码的作用。 在测试时,我们的系统可以 "解除 “标记集合的屏蔽,并在不久的将来以较低的噪音水平扩散一个序列。 它知道在其数据中应该相信什么,以克服分布外输入”。

在多项实验中,"扩散强化 "技术在忽略误导数据的情况下执行任务,同时预测未来的行动。

例如,当将其应用到机械臂中时,它可以帮助在三个圆形垫子上交换两个玩具水果,这是一系列需要记忆的长视距任务中的一个最简单的例子。 研究人员通过在虚拟现实中对机器人进行远距离控制(或远程操作)来训练机器人。 机器人通过摄像头模仿用户的动作进行训练。

为了生成视频,他们在谷歌 DeepMind 实验室模拟器创建的 "Minecraft "游戏玩法和丰富多彩的数字环境中进行了扩散强化训练。 与类似 Sora 的全序列扩散模型和类似 ChatGPT 的下一个标记模型等同类基线相比,该方法在给定单帧视频时,能生成更稳定、分辨率更高的视频。 这些方法生成的视频似乎并不一致,后者有时甚至无法生成超过 72 帧的工作视频。

Diffusion Forcing 不仅能生成花哨的视频,还能充当运动规划器,引导人们朝着期望的结果或奖励前进。 得益于其灵活性,Diffusion Forcing 可以独特地生成不同视距的计划,执行树状搜索,并将 "远期未来比近期未来更不确定 "这一直觉融入其中。 在求解二维迷宫的任务中,Diffusion Forcing 的表现优于六种基线方法,它能更快地生成通往目标位置的计划,这表明它可以成为未来机器人的有效规划器。

在每次演示中,Diffusion Forcing 都充当全序列模型、下一个标记预测模型或两者兼而有之。 陈博士认为,这种多用途方法有可能成为 "世界模型 "的强大支柱。"世界模型 "是一种人工智能系统,可以通过在数十亿互联网视频上进行训练来模拟世界的动态。 这样,机器人就能根据周围环境想象自己需要做什么,从而执行新颖的任务。 例如,如果你要求机器人在没有经过训练的情况下打开一扇门,模型可以制作一段视频,向机器展示如何打开门。

该团队目前正寻求将他们的方法扩展到更大的数据集和最新的变压器模型,以提高性能。 他们打算扩大工作范围,建立一个类似于 ChatGPT 的机器人大脑,帮助机器人在没有人类示范的情况下在新环境中执行任务。"通过扩散强化,我们正在迈出一步,将视频生成和机器人技术更紧密地结合在一起,"资深作者、麻省理工学院助理教授兼 CSAIL 成员 Vincent Sitzmann 说,他在 CSAIL 中领导着场景表示小组。 “最后,我们希望能利用互联网上视频中存储的所有知识,让机器人为日常生活提供帮助。 还有许多令人兴奋的研究挑战,比如机器人如何通过观察人类来学习模仿人类,即使他们自己的身体与我们的身体如此不同!”

Paper: “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473840.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024-11-17 -MATLAB三维绘图简单实例

1. x -1:0.05:1; y x; [X, Y] meshgrid(x, y); f (X, Y) (sin(pi * X) .* sin(pi * Y)) .^ 2.*sin(2.*X2.*Y); mesh(X, Y, f(X, Y)); % 调用函数f并传递X和Y xlabel(X-axis); ylabel(Y-axis); zlabel(Z-axis); title(Surface Plot of (sin(pi * X) .* sin(pi * Y)) .^ 2.*…

WebAssembly在桌面级应用开发中的探索与实践

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 WebAssembly在桌面级应用开发中的探索与实践 WebAssembly在桌面级应用开发中的探索与实践 WebAssembly在桌面级应用开发中的探索…

第二十一周学习周报

目录 摘要Abstract1. LSTM原理2. LSTM反向传播的数学推导3. LSTM模型训练实战总结 摘要 本周的学习内容是对LSTM相关内容的复习,LSTM被设计用来解决标准RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM通过引入门控机制来控制信息的流动,从而…

《Spring 基础之 IoC 与 DI 入门指南》

一、IoC 与 DI 概念引入 Spring 的 IoC(控制反转)和 DI(依赖注入)在 Java 开发中扮演着至关重要的角色,是提升代码质量和可维护性的关键技术。 (一)IoC 的含义及作用 IoC 全称为 Inversion of…

Vulnhub靶场案例渗透[9]- HackableIII

文章目录 一、靶场搭建1. 靶场描述2. 下载靶机环境3. 靶场搭建 二、渗透靶场1. 确定靶机IP2. 探测靶场开放端口及对应服务3. 扫描网络目录结构4. 敏感数据获取5. 获取shell6. 提权6.1 敏感信息获取6.2 lxd提权 一、靶场搭建 1. 靶场描述 Focus on general concepts about CTF…

抖音热门素材去哪找?优质抖音视频素材网站推荐!

是不是和我一样,刷抖音刷到停不下来?越来越多的朋友希望在抖音上创作出爆款视频,但苦于没有好素材。今天就来推荐几个超级实用的抖音视频素材网站,让你的视频内容立刻变得高大上!这篇满是干货,直接上重点&a…

如何轻松导出所有 WordPress URL 为纯文本格式

作为一名多年的 WordPress 使用者,我深知管理一个网站的复杂性。从迁移网站、设置重定向到整理内容结构,每一步都需要精细处理。而拥有所有 URL 的清单,不仅能让这些工作变得更加简单,还能为后续的管理提供极大的便利。其实&#…

vue项目使用eslint+prettier管理项目格式化

代码格式化、规范化说明 使用eslintprettier进行格式化,vscode中需要安装插件ESLint、Prettier - Code formatter,且格式化程序选择为后者(vue文件、js文件要分别设置) 对于eslint规则,在格式化时不会全部自动调整&…

Ubuntu 18.04 配置sources.list源文件(无法安全地用该源进行更新,所以默认禁用该源)

如果你 sudo apt update 时出现诸如 无法安全地用该源进行更新,所以默认禁用该源 的错误,那就换换源吧,链接: https://mirror.tuna.tsinghua.edu.cn/help/ubuntu/ 注意版本: 修改源文件: sudo nano /etc…

5. langgraph中的react agent使用 (从零构建一个react agent)

1. 定义 Agent 状态 首先,我们需要定义 Agent 的状态,这包括 Agent 所持有的消息。 from typing import (Annotated,Sequence,TypedDict, ) from langchain_core.messages import BaseMessage from langgraph.graph.message import add_messagesclass …

【网络】什么是交换机?switch

交换机(Switch)意为“开关”,是一种用于电(光)信号转发的网络设备。以下是关于交换机的详细解释: 一、交换机的基本定义 功能:交换机能为接入交换机的任意两个网络节点提供独享的电信号通路&am…

【AlphaFold3】开源本地的安装及使用

文章目录 安装安装DockerInstalling Docker on Host启用Rootless Docker 安装 GPU 支持安装 NVIDIA 驱动程序安装 NVIDIA 对 Docker 的支持 获取 AlphaFold 3 源代码获取基因数据库获取模型参数构建将运行 AlphaFold 3 的 Docker 容器 参考 AlphaFold3: https://github.com/goo…

【免越狱】iOS砸壳 可下载AppStore任意版本 旧版本IPA下载

软件介绍 下载iOS旧版应用,简化繁琐的抓包流程。 一键生成去更新IPA(手机安装后,去除App Store的更新检测)。 软件界面 支持系统 Windows 10/Windows 8/Windows 7(由于使用了Fiddler库,因此需要.Net环境…

shell 100例

1、每天写一个文件 (题目要求) 请按照这样的日期格式(xxxx-xx-xx每日生成一个文件 例如生成的文件为2017-12-20.log,并且把磁盘的使用情况写到到这个文件中不用考虑cron,仅仅写脚本即可 [核心要点] date命令用法 df命令 知识补充&#xff1…

Acrobat Pro DC 2023(pdf免费转化word)

所在位置 通过网盘分享的文件:Acrobat Pro DC 2023(64bit).tar 链接: https://pan.baidu.com/s/1_m8TT1rHTtp5YnU8F0QGXQ 提取码: 1234 --来自百度网盘超级会员v4的分享 安装流程 打开安装所在位置 进入安装程序 找到安装程序 进入后点击自定义安装,这里…

linux之调度管理(5)-实时调度器

一、概述 在Linux内核中,实时进程总是比普通进程的优先级要高,实时进程的调度是由Real Time Scheduler(RT调度器)来管理,而普通进程由CFS调度器来管理。 实时进程支持的调度策略为:SCHED_FIFO和SCHED_RR。 SCHED_FIFO&#xff…

在arm64架构下, Ubuntu 18.04.5 LTS 用命令安装和卸载qt4、qt5

问题:需要在 arm64下安装Qt,QT源码编译失败以后,选择在线安装! 最后安装的版本是Qt5.9.5 和QtCreator 4.5.2 。 一、ubuntu安装qt4的命令(亲测有效): sudo add-apt-repository ppa:rock-core/qt4 sudo apt updat…

Qt 之 qwt和QCustomplot对比

QWT(Qt Widgets for Technical Applications)和 QCustomPlot 都是用于在 Qt 应用程序中绘制图形和图表的第三方库。它们各有优缺点,适用于不同的场景。 以下是 QWT 和 QCustomPlot 的对比分析: 1. 功能丰富度 QWT 功能丰富&a…

实用教程:如何无损修改MP4视频时长

如何在UltraEdit中搜索MP4文件中的“mvhd”关键字 引言 在视频编辑和分析领域,有时我们需要深入到视频文件的底层结构中去。UltraEdit(UE)和UEStudio作为强大的文本编辑器,允许我们以十六进制模式打开和搜索MP4文件。本文将指导…

使用nossl模式连接MySQL数据库详解

使用nossl模式连接MySQL数据库详解 摘要一、引言二、nossl模式概述2.1 SSL与nossl模式的区别2.2 选择nossl模式的场景三、在nossl模式下连接MySQL数据库3.1 准备工作3.2 C++代码示例3.3 代码详解3.3.1 初始化MySQL连接对象3.3.2 连接到MySQL数据库3.3.3 执行查询操作3.3.4 处理…