PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架

2025年1月7号,由杨德杰、赵子敬、刘洋联合提出PlanLLM,一种基于可微调大型语言模型(LLM)的跨模态联合学习框架,用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块,PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制,实现了对新步骤和任务的泛化能力。

该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升,展现了其在弱监督学习中的有效性。

一、研究背景

视频程序规划(给定视频起始和目标状态生成动作步骤序列)是具身AI的关键能力。早期方法依赖全监督视觉-文本标注,但成本高昂。近年弱监督方法兴起,仅需文本动作序列,通过编码器-解码器结构学习隐式视觉空间。引入LLM的方法(如SCHEMA)利用语言模型扩展动作描述,提升解码性能,但仍受限于封闭集标签和固定语义。

目前遇到困难和挑战:

1、封闭集标签泛化不足:现有方法将动作步骤编码为one-hot向量,无法处理开放世界场景(无法生成未见过的新步骤)。

2、常识与实例语义冲突:基于世界常识的固定动作描述(如“粉碎食物”)可能与具体视觉状态(如“粉碎机中的鹰嘴豆泥”)不符,导致推理错误。

3、语义关系未被利用:步骤间的语义关联(如“剥蒜”与“放入碎浆机”)未被显式建模,限制任务连贯性。

二、让我们一起来看一下PlanLLM

PlanLLM 框架主要由三个部分组成:特征提取、互信息最大化和LLM增强规划

1、输入阶段

PlanLLM的输入包括视频的起始状态(start state)和目标状态(goal state)的视频帧。这些视频帧分别代表了任务的初始条件和最终目标,例如在烹饪场景中,起始状态可能是“原材料”,目标状态可能是“成品菜肴”。

2、特征提取(Feature Extraction)

视觉特征提取:使用预训练的视觉编码器(如S3D网络)对起始状态和目标状态的视频帧进行编码,提取样本特定的视觉信息。这些视觉嵌入能够捕捉到视频帧中的关键视觉细节。

文本特征提取:使用预训练的语言编码器(如CLIP)对动作步骤描述进行编码,提取世界级别的常识信息。这些文本嵌入能够提供关于动作步骤的语义背景。

3、互信息最大化(Mutual Information Maximization)

视觉状态交互:通过自注意力机制处理视觉状态嵌入,增强视觉状态之间的上下文关联。

Q-Former框架:将处理后的视觉嵌入和文本嵌入输入到Q-Former架构中,生成跨模态的联合步骤嵌入。这一过程通过最大化视觉和语言嵌入之间的互信息,将样本特定的视觉信息与世界级别的文本常识结合。

互信息最大化损失:通过优化视觉-语言对比(VLC)损失和视觉-语言匹配(VLM)损失,进一步强化视觉和语言嵌入之间的关联。

4. LLM增强规划(LLM Enhanced Planning)

自由形式规划输出:将联合步骤嵌入和视觉状态嵌入输入到大型语言模型(LLM)中,LLM的解码器直接生成自由形式的动作步骤描述。这种自由形式的输出能够处理开放词汇的任务,即生成未在训练集中出现的新动作步骤。

两阶段训练方案:首先固定LLM,训练特征提取和互信息最大化模块,以对齐视觉和语言嵌入到LLM的输入空间;然后通过LoRA技术微调LLM,优化规划任务。

5. 输出阶段

PlanLLM能够处理两种类型的任务:

封闭集合动作步骤分类:对于传统的动作步骤分类任务,LLM增强的步骤解码分支输出动作步骤的ID。

开放词汇规划任务:对于开放词汇的规划任务,LLM生成自由形式的规划输出,并将生成的描述和新的文本动作步骤标签编码为向量。然后通过计算描述和标签之间的相似性,检索出最匹配的动作步骤标签。

整个工作流程通过跨模态联合学习,充分利用了视觉信息和语言模型的强大推理能力,实现了从视频帧到动作步骤序列的高效规划。

三、让我们一起展望PlanLLM 应用场景

比如:在我们汽车零部件组装车间

我们有智能机器人,它的工作是在汽车零部件组装车间里,将各种零部件组装成一个完整的汽车座椅。这个任务听起来很复杂,但有了PlanLLM,机器人就能轻松搞定。

1、任务目标

机器人的目标是将一堆散件(比如座椅框架、海绵垫、皮套等)组装成一个完整的汽车座椅。起始状态是这些零部件散落在工作台上,目标状态是一个组装好的座椅。

2、PlanLLM的工作过程

首先,机器人通过摄像头获取工作台上的视频帧,这些视频帧会被送到PlanLLM的视觉特征提取模块。PlanLLM会分析这些视频帧,识别出当前的起始状态(散件状态)和目标状态(完整座椅)。然后,PlanLLM的文本特征提取模块会根据任务要求,提取相关的动作步骤描述,比如“拿起座椅框架”“安装海绵垫”“套上皮套”等。

接下来,PlanLLM的互信息最大化模块会将视觉信息和文本描述结合起来,生成一个综合的动作步骤规划。这个规划会告诉机器人,先拿起座椅框架,然后把海绵垫放在框架上,接着套上皮套,最后固定好所有部件。

最后,PlanLLM的LLM增强规划模块会根据生成的规划,进一步细化每个动作步骤。比如,它会告诉机器人,拿起海绵垫的时候,要小心不要变形,套皮套的时候,要注意对齐缝线等。

3、机器人的执行

机器人接收到PlanLLM生成的详细规划后,就开始按照规划一步步执行。它先用机械臂拿起座椅框架,然后精准地把海绵垫放在框架上,接着小心翼翼地套上皮套,最后用螺丝刀固定好所有部件。整个过程就像一个熟练的工人一样,有条不紊地完成任务。

PlanLLM在智能机器人和自动化任务中的巨大潜力。它不仅能让机器人完成复杂的任务,还能让机器人更加智能、灵活和高效。

整理文章中三个常用的教学视频数据集

数据集:CrossTask

数据集地址:CrossTask|教育技术数据集|视频分析数据集

数据集:COIN

数据集地址:COIN Dataset|视频分析数据集|数据集数据集

数据集:NIV

数据集地址:敬请期待

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13714.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WGCLOUD监控系统部署教程

官网地址:下载WGCLOUD安装包 - WGCLOUD官网 第一步、环境配置 #安装jdk 1、安装 EPEL 仓库: sudo yum install -y epel-release 2、安装 OpenJDK 11: sudo yum install java-11-openjdk-devel 3、如果成功,你可以通过运行 java …

6-图像金字塔与轮廓检测

文章目录 6.图像金字塔与轮廓检测(1)图像金字塔定义(2)金字塔制作方法(3)轮廓检测方法(4)轮廓特征与近似(5)模板匹配方法6.图像金字塔与轮廓检测 (1)图像金字塔定义 高斯金字塔拉普拉斯金字塔 高斯金字塔:向下采样方法(缩小) 高斯金字塔:向上采样方法(放大)…

DeepSeek-V3 与 DeepSeek R1 对比分析:技术与应用的全面解析

一、背景 在当今科技飞速发展的时代,深度学习技术如同一股强大的浪潮,席卷了自然语言处理(NLP)、计算机视觉(CV)以及多模态模型等众多领域。从智能语音助手到图像识别技术,从文本生成工具到多模…

基于 Spring Cloud + Spring AI + VUE 的知识助理平台介绍以及问题

前言(一些废话) 在看这篇文章的各位大佬,感谢你们留出几分钟时间,来看这个产品介绍,其实重点说实话,不是这个产品怎么样。而是在最后有一个郁结在心里的几个问题,希望大佬们能给出一些建议。万…

IEEE 802.3/802.2 | LLC / SNAP

注:本文为 “IEEE 802.3/802.2 | LLC / SNAP” 相关文章合辑。 未整理去重。 第三篇部分内容出自第二篇。 802.2 协议 haoay321 2010-01-28 20:52:02 LLC 协议 LLC(Logic Link Control,逻辑链路控制)是 IEEE 802.2 协议中规定…

【Elasticsearch】Geo-distance聚合

geo_distance聚合的形状是圆形。它基于一个中心点(origin)和一系列距离范围来计算每个文档与中心点的距离,并将文档分配到相应的距离范围内。这种聚合方式本质上是以中心点为圆心,以指定的距离范围为半径的圆形区域来划分数据。 为…

Chapter 4-1. Troubleshooting Congestion in Fibre Channel Fabrics

This chapter covers the following topics: 本章包括以下内容: Congestion troubleshooting methodology and workflow. Hints and tips for troubleshooting congestion. Cisco MDS NX-OS commands for troubleshooting congestion. Case studies demonstrating troubleshoo…

【字节青训营-7】:初探 Kitex 字节微服务框架(使用ETCD进行服务注册与发现)

本文目录 一、Kitex概述二、第一个Kitex应用三、IDL四、服务注册与发现 一、Kitex概述 长话短说,就是字节跳动内部的 Golang 微服务 RPC 框架,具有高性能、强可扩展的特点,在字节内部已广泛使用。 如果对微服务性能有要求,又希望…

设计模式Python版 享元模式

文章目录 前言一、享元模式二、享元模式示例 前言 GOF设计模式分三大类: 创建型模式:关注对象的创建过程,包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式:关注类和对象之间的组合&…

蓝桥杯嵌入式备赛(三)—— LED +按键 + LCD

目录 一、LED1、原理图介绍2、程序代码 二、按键1、原理图介绍2、程序代码 三、LCD1、原理图介绍2、程序代码 一、LED 1、原理图介绍 如果所示,STM32G431RBT6中有八个LED,由八个GPIO控制,分别为PC8-15,当输出为低电平时点亮。其中…

IDEA 中集成 Maven,配置环境、创建以及导入项目

目录 在 IntelliJ IDEA 中集成 Maven 并配置环境 1. 打开 IDEA 设置 2. 定位 Maven 配置选项 3. 配置 Maven 路径 4. 应用配置 创建 Maven 项目 1. 新建项目 2. 选择项目类型 3. 配置项目信息 4. 确认 Maven 设置 5. 完成项目创建 导入 Maven 项目 1. 打开导入窗口…

javaEE-6.网络原理-http

目录 什么是http? http的工作原理: 抓包工具 fiddler的使用 HTTP请求数据: 1.首行:​编辑 2.请求头(header) 3.空行: 4.正文(body) HTTP响应数据 1.首行:​编辑 2.响应头 3.空行: 4.响应正文…

链式结构二叉树(递归暴力美学)

文章目录 1. 链式结构二叉树1.1 二叉树创建 2. 前中后序遍历2.1 遍历规则2.2 代码实现图文理解 3. 结点个数以及高度等二叉树结点个数正确做法: 4. 层序遍历5. 判断是否完全二叉树 1. 链式结构二叉树 完成了顺序结构二叉树的代码实现,可以知道其底层结构…

复制粘贴小工具——Ditto

在日常工作中,复制粘贴是常见的操作,但Windows系统自带的剪贴板功能较为有限,只能保存最近一次的复制记录,这对于需要频繁复制粘贴的用户来说不太方便。今天,我们介绍一款开源、免费且功能强大的剪贴板增强工具——Dit…

【Unity3D小功能】Unity3D中实现超炫按钮悬停效果

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享QQ群:398291828小红书小破站 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 先来看一下效果图: 感觉这种效果…

优化深度神经网络

训练集、开发集(验证集)、测试集 偏差与方差 正则化 L2正则 Dropout 随机丢弃部分神经元输入,经常用于计算机视觉的神经网络内,因为通常没有足够的训练数据,很容易出现过拟合的问题 数据增强 训练集规一化 可以使其图像更均匀,…

从java角度对比nodejs、fastapi,同步和异步区别

我之前一直用java语言编程,最近一年用python fastapi和nodejs nestjs开发了一些项目,站在java程序员的角度谈谈异步编程和同步编程的区别,主要在两方面 处理请求,java常用的tomcat是多线程处理请求并执行代码,同步阻塞…

《图解设计模式》笔记(五)一致性

十一、Composite模式:容器与内容的一致性 像文件夹与文件一样,文件夹中可以放子文件夹与文件,再比如容器中可以放更小的容器和具体内容。 Composite模式:使容器与内容具有一致性,创造出递归结构。 Composite&#x…

爬虫学习笔记之Robots协议相关整理

定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

电脑可以自己换显卡吗?怎么操作

电脑是否可以自己换显卡主要取决于电脑的类型(台式机或笔记本)以及电脑的硬件配置。以下是对这一问题的详细解答及操作步骤: 一、判断电脑是否支持更换显卡 台式机:大多数台式电脑都支持更换显卡。只要主板上有PCIe插槽&#xff…