PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架

2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块，PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制，实现了对新步骤和任务的泛化能力。

该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升，展现了其在弱监督学习中的有效性。

一、研究背景

视频程序规划（给定视频起始和目标状态生成动作步骤序列）是具身AI的关键能力。早期方法依赖全监督视觉-文本标注，但成本高昂。近年弱监督方法兴起，仅需文本动作序列，通过编码器-解码器结构学习隐式视觉空间。引入LLM的方法（如SCHEMA）利用语言模型扩展动作描述，提升解码性能，但仍受限于封闭集标签和固定语义。

目前遇到困难和挑战：

1、封闭集标签泛化不足：现有方法将动作步骤编码为one-hot向量，无法处理开放世界场景（无法生成未见过的新步骤）。

2、常识与实例语义冲突：基于世界常识的固定动作描述（如“粉碎食物”）可能与具体视觉状态（如“粉碎机中的鹰嘴豆泥”）不符，导致推理错误。

3、语义关系未被利用：步骤间的语义关联（如“剥蒜”与“放入碎浆机”）未被显式建模，限制任务连贯性。

二、让我们一起来看一下PlanLLM

PlanLLM 框架主要由三个部分组成：特征提取、互信息最大化和LLM增强规划

1、输入阶段

PlanLLM的输入包括视频的起始状态（start state）和目标状态（goal state）的视频帧。这些视频帧分别代表了任务的初始条件和最终目标，例如在烹饪场景中，起始状态可能是“原材料”，目标状态可能是“成品菜肴”。

2、特征提取（Feature Extraction）

视觉特征提取：使用预训练的视觉编码器(如S3D网络）对起始状态和目标状态的视频帧进行编码，提取样本特定的视觉信息。这些视觉嵌入能够捕捉到视频帧中的关键视觉细节。

文本特征提取：使用预训练的语言编码器(如CLIP)对动作步骤描述进行编码，提取世界级别的常识信息。这些文本嵌入能够提供关于动作步骤的语义背景。

3、互信息最大化（Mutual Information Maximization）

视觉状态交互：通过自注意力机制处理视觉状态嵌入，增强视觉状态之间的上下文关联。

Q-Former框架：将处理后的视觉嵌入和文本嵌入输入到Q-Former架构中，生成跨模态的联合步骤嵌入。这一过程通过最大化视觉和语言嵌入之间的互信息，将样本特定的视觉信息与世界级别的文本常识结合。

互信息最大化损失：通过优化视觉-语言对比（VLC）损失和视觉-语言匹配（VLM）损失，进一步强化视觉和语言嵌入之间的关联。

4. LLM增强规划（LLM Enhanced Planning）

自由形式规划输出：将联合步骤嵌入和视觉状态嵌入输入到大型语言模型（LLM）中，LLM的解码器直接生成自由形式的动作步骤描述。这种自由形式的输出能够处理开放词汇的任务，即生成未在训练集中出现的新动作步骤。

两阶段训练方案：首先固定LLM，训练特征提取和互信息最大化模块，以对齐视觉和语言嵌入到LLM的输入空间；然后通过LoRA技术微调LLM，优化规划任务。

5. 输出阶段

PlanLLM能够处理两种类型的任务：

封闭集合动作步骤分类：对于传统的动作步骤分类任务，LLM增强的步骤解码分支输出动作步骤的ID。

开放词汇规划任务：对于开放词汇的规划任务，LLM生成自由形式的规划输出，并将生成的描述和新的文本动作步骤标签编码为向量。然后通过计算描述和标签之间的相似性，检索出最匹配的动作步骤标签。

整个工作流程通过跨模态联合学习，充分利用了视觉信息和语言模型的强大推理能力，实现了从视频帧到动作步骤序列的高效规划。

三、让我们一起展望PlanLLM 应用场景

比如：在我们汽车零部件组装车间

我们有智能机器人，它的工作是在汽车零部件组装车间里，将各种零部件组装成一个完整的汽车座椅。这个任务听起来很复杂，但有了PlanLLM，机器人就能轻松搞定。

1、任务目标

机器人的目标是将一堆散件（比如座椅框架、海绵垫、皮套等）组装成一个完整的汽车座椅。起始状态是这些零部件散落在工作台上，目标状态是一个组装好的座椅。

2、PlanLLM的工作过程

首先，机器人通过摄像头获取工作台上的视频帧，这些视频帧会被送到PlanLLM的视觉特征提取模块。PlanLLM会分析这些视频帧，识别出当前的起始状态（散件状态）和目标状态（完整座椅）。然后，PlanLLM的文本特征提取模块会根据任务要求，提取相关的动作步骤描述，比如“拿起座椅框架”“安装海绵垫”“套上皮套”等。

接下来，PlanLLM的互信息最大化模块会将视觉信息和文本描述结合起来，生成一个综合的动作步骤规划。这个规划会告诉机器人，先拿起座椅框架，然后把海绵垫放在框架上，接着套上皮套，最后固定好所有部件。

最后，PlanLLM的LLM增强规划模块会根据生成的规划，进一步细化每个动作步骤。比如，它会告诉机器人，拿起海绵垫的时候，要小心不要变形，套皮套的时候，要注意对齐缝线等。

3、机器人的执行

机器人接收到PlanLLM生成的详细规划后，就开始按照规划一步步执行。它先用机械臂拿起座椅框架，然后精准地把海绵垫放在框架上，接着小心翼翼地套上皮套，最后用螺丝刀固定好所有部件。整个过程就像一个熟练的工人一样，有条不紊地完成任务。

PlanLLM在智能机器人和自动化任务中的巨大潜力。它不仅能让机器人完成复杂的任务，还能让机器人更加智能、灵活和高效。