2025年1月7号,由杨德杰、赵子敬、刘洋联合提出PlanLLM,一种基于可微调大型语言模型(LLM)的跨模态联合学习框架,用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块,PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制,实现了对新步骤和任务的泛化能力。
该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升,展现了其在弱监督学习中的有效性。
一、研究背景
视频程序规划(给定视频起始和目标状态生成动作步骤序列)是具身AI的关键能力。早期方法依赖全监督视觉-文本标注,但成本高昂。近年弱监督方法兴起,仅需文本动作序列,通过编码器-解码器结构学习隐式视觉空间。引入LLM的方法(如SCHEMA)利用语言模型扩展动作描述,提升解码性能,但仍受限于封闭集标签和固定语义。
目前遇到困难和挑战:
1、封闭集标签泛化不足:现有方法将动作步骤编码为one-hot向量,无法处理开放世界场景(无法生成未见过的新步骤)。
2、常识与实例语义冲突:基于世界常识的固定动作描述(如“粉碎食物”)可能与具体视觉状态(如“粉碎机中的鹰嘴豆泥”)不符,导致推理错误。
3、语义关系未被利用:步骤间的语义关联(如“剥蒜”与“放入碎浆机”)未被显式建模,限制任务连贯性。
二、让我们一起来看一下PlanLLM
PlanLLM 框架主要由三个部分组成:特征提取、互信息最大化和LLM增强规划
1、输入阶段
PlanLLM的输入包括视频的起始状态(start state)和目标状态(goal state)的视频帧。这些视频帧分别代表了任务的初始条件和最终目标,例如在烹饪场景中,起始状态可能是“原材料”,目标状态可能是“成品菜肴”。
2、特征提取(Feature Extraction)
视觉特征提取:使用预训练的视觉编码器(如S3D网络)对起始状态和目标状态的视频帧进行编码,提取样本特定的视觉信息。这些视觉嵌入能够捕捉到视频帧中的关键视觉细节。
文本特征提取:使用预训练的语言编码器(如CLIP)对动作步骤描述进行编码,提取世界级别的常识信息。这些文本嵌入能够提供关于动作步骤的语义背景。
3、互信息最大化(Mutual Information Maximization)
视觉状态交互:通过自注意力机制处理视觉状态嵌入,增强视觉状态之间的上下文关联。
Q-Former框架:将处理后的视觉嵌入和文本嵌入输入到Q-Former架构中,生成跨模态的联合步骤嵌入。这一过程通过最大化视觉和语言嵌入之间的互信息,将样本特定的视觉信息与世界级别的文本常识结合。
互信息最大化损失:通过优化视觉-语言对比(VLC)损失和视觉-语言匹配(VLM)损失,进一步强化视觉和语言嵌入之间的关联。
4. LLM增强规划(LLM Enhanced Planning)
自由形式规划输出:将联合步骤嵌入和视觉状态嵌入输入到大型语言模型(LLM)中,LLM的解码器直接生成自由形式的动作步骤描述。这种自由形式的输出能够处理开放词汇的任务,即生成未在训练集中出现的新动作步骤。
两阶段训练方案:首先固定LLM,训练特征提取和互信息最大化模块,以对齐视觉和语言嵌入到LLM的输入空间;然后通过LoRA技术微调LLM,优化规划任务。
5. 输出阶段
PlanLLM能够处理两种类型的任务:
封闭集合动作步骤分类:对于传统的动作步骤分类任务,LLM增强的步骤解码分支输出动作步骤的ID。
开放词汇规划任务:对于开放词汇的规划任务,LLM生成自由形式的规划输出,并将生成的描述和新的文本动作步骤标签编码为向量。然后通过计算描述和标签之间的相似性,检索出最匹配的动作步骤标签。
整个工作流程通过跨模态联合学习,充分利用了视觉信息和语言模型的强大推理能力,实现了从视频帧到动作步骤序列的高效规划。
三、让我们一起展望PlanLLM 应用场景
比如:在我们汽车零部件组装车间
我们有智能机器人,它的工作是在汽车零部件组装车间里,将各种零部件组装成一个完整的汽车座椅。这个任务听起来很复杂,但有了PlanLLM,机器人就能轻松搞定。
1、任务目标
机器人的目标是将一堆散件(比如座椅框架、海绵垫、皮套等)组装成一个完整的汽车座椅。起始状态是这些零部件散落在工作台上,目标状态是一个组装好的座椅。
2、PlanLLM的工作过程
首先,机器人通过摄像头获取工作台上的视频帧,这些视频帧会被送到PlanLLM的视觉特征提取模块。PlanLLM会分析这些视频帧,识别出当前的起始状态(散件状态)和目标状态(完整座椅)。然后,PlanLLM的文本特征提取模块会根据任务要求,提取相关的动作步骤描述,比如“拿起座椅框架”“安装海绵垫”“套上皮套”等。
接下来,PlanLLM的互信息最大化模块会将视觉信息和文本描述结合起来,生成一个综合的动作步骤规划。这个规划会告诉机器人,先拿起座椅框架,然后把海绵垫放在框架上,接着套上皮套,最后固定好所有部件。
最后,PlanLLM的LLM增强规划模块会根据生成的规划,进一步细化每个动作步骤。比如,它会告诉机器人,拿起海绵垫的时候,要小心不要变形,套皮套的时候,要注意对齐缝线等。
3、机器人的执行
机器人接收到PlanLLM生成的详细规划后,就开始按照规划一步步执行。它先用机械臂拿起座椅框架,然后精准地把海绵垫放在框架上,接着小心翼翼地套上皮套,最后用螺丝刀固定好所有部件。整个过程就像一个熟练的工人一样,有条不紊地完成任务。
PlanLLM在智能机器人和自动化任务中的巨大潜力。它不仅能让机器人完成复杂的任务,还能让机器人更加智能、灵活和高效。
整理文章中三个常用的教学视频数据集
数据集:CrossTask
数据集地址:CrossTask|教育技术数据集|视频分析数据集
数据集:COIN
数据集地址:COIN Dataset|视频分析数据集|数据集数据集
数据集:NIV
数据集地址:敬请期待