ALIGN: Tuning Multi-mode Token-level Prompt Alignment across Modalities

在这里插入图片描述

文章汇总

当前的问题

目前的工作集中于单模提示发现，即一种模态只有一个提示，这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重，因为视觉和文本概念及其对齐都需要推断。此外，仅用全局特征来表示图像和标记是不可靠的[29,30]，可能会失去目标物体的局部区域特征，导致次优分类。

1:TPT 单文本提示

2:VPT 单视觉提示

3:PLOT 通过OT(最优传输距离)寻找与图像特征最相关的prompt

4:MPT 多模态提示，即文本和图像都有提示

动机

通过分层OT(optimal transport)结合了多模态和令牌级对齐。

解决办法

首先，每个图像以及它的标签分别有 $M$ 组视觉提示和 $N$ 组文本提示。

对应一组样本（图像和标签），我们先

寻找最佳提示(第一个OT)

现在我们有 $M$ 组视觉提示 $\{v^m\}^M_{m=1}$ 和 $N$ 组文本提示 $\{t^n\}^N_{n=1}$ ，其中每个 $v^m\in R^{d_v \times b}$ 和 $t^n \in R^{d_l \times b}$ 都是长度为 $b$ 的可学习提示序列。在数学上，我们使用两个经验分布 $P$ 和$ Q $来建模两种模态的集合:

其中 $x_m$ 和 $y_n$ 表示 $d$ 维潜在空间的第 $m$ 个视觉输出和第 $n$ 个文本输出。它们被进一步建模为标记级嵌入上的离散分布，这将在后面介绍。Eq. 3平等地看待每个提示，并采用均匀分布的方式对权重进行建模。有了这两个语义集 $P$ 和 $Q$ ，图像和标签之间的距离不再是先将每个图像和标签表示为单个点，然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念，从而产生更好的表示。因此，距离可以表示为一个熵正则化的提示级OT问题[42]:

其中 $\lambda>0$ 为正则化权值， $C\in R^{M\times N}$ 为视觉集 $x$ 与文本集 $y$ 之间的代价矩阵， $T\in R^{M\times N}$ 为有边际约束的待学习传输计划，如 $T1_N=1/M,T^T1_M=1/N$ 。注意， $T_{mn}$ 衡量的是从第 $m$ 个视觉提示到第 $n$ 个文本提示的传递概率，较大的值意味着两个提示之间跨模态的高语义连接。因此，Eq. 4估计了 $P$ 和 $Q$ 之间的期望运输成本，为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是，Eq. 4中的代价矩阵 $C$ 对 $T$ 的学习起着至关重要的作用，直观地看，两点之间的传输代价越大，传输概率就越低。

对于每组视觉提示和每组文本提示的组合，如图中的 $C_{2,3}$ (第2组视觉提示和第3组文本提示的组合)，我们都考量它的token级别的传输代价。

考量视觉patch和文本token之间的传输成本

我们将视觉输出 $x$ 和文本输出 $y$ 指定为标记嵌入的两个经验分布(这里为了清晰起见，我们省略了下标 $m$ 和 $n$ ):

式中 $r=[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b]$ 为输出的长度为 $J = b + O$ 的视觉patch, $s=[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}]$ 是长度为 $b+k_l$ 的输出文本标记。与代表提示级特征的 $z$ 和 $h$ 不同， $x$ 和 $y$ 在CLIP的共享嵌入空间中收集令牌级特征。自然地，在token级OT中，代价矩阵 $\hat C \in R^{J\times L}$ 定义为 $\hat C_{jl}=1-\text{sim}(r_j,s_l)$ ，它衡量视觉patch和文本token之间的传输成本。因此， $x$ 和 $y$ 之间的距离是token级OT的总运输成本:

其中，传输计划 $\hat T\in R^{J\times L}$ 表示第 $j$ 个视觉pacth传输到第 $l$ 个token特征，提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵，同时考虑了提示和令牌级别的功能:

其中 $\beta$ 是一个权衡参数，控制令牌级成本的权重。前两项是提示级特征之间的余弦距离，最后一项是token级集之间的OT距离。通过这种方式，Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 $T$ 能够在 $M$ 个视觉特征和 $N$ 个文本特征之间进行细粒度匹配，从而实现详细的对齐和更好的表示。

模型的预测

一旦Eq. 4被计算出来，我们按照之前的工作[17]，预测图像 $X_j$ 的标签为:

式中， $C^{j,k}$ 为第 $j$ 个图像和第 $k$ 个标签的代价矩阵。注意，在我们的模型中，分类器 $Q_k$ 的权重可以看作是标签 $k$ 的 $N$ 个文本提示上的离散均匀分布，其中包含多个与类相关的语义，从而提高了分类结果。由于Sinkhorn算法可微分，通过最小化以下交叉熵损失，可以对所提模型的所有参数进行端到端优化:

其中， $y_X$ 为图像 $X$ 的单热标签向量。由于采用OT公式，我们提出的ALIGN的目标是学习 $M$ 个视觉提示序列和 $N$ 个文本提示序列，而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。

摘要

视觉语言模型在提示调整方面的进步强调了它们在增强开放世界视觉概念理解方面的潜力。然而，之前的工作主要集中在单模态(每种情态只有一个提示)和整体层面(图像或句子)的语义对齐上，未能捕捉到样本多样性，导致次优提示发现。为了解决这一限制，我们提出了一个多模式令牌级调优框架，该框架利用最佳传输来学习和对齐一组跨模式的提示令牌。具体来说，我们依赖于两个基本因素:1)多模式提示发现，它保证了不同的语义表示;2)令牌级对齐，它有助于探索细粒度的相似性。因此，相似性可以计算为模态特定集之间的分层运输问题。在流行的图像识别基准上进行的大量实验表明，我们的方法具有优越的泛化和少样本能力。定性分析表明，习得的提示符号具有捕捉不同视觉概念的能力。代码可在https://github.com/wds2014/ALIGN上获得。

1.介绍

最近，提示调优在使大型预训练视觉语言模型(PVLs)如CLIP[1]和BLIP[2]适应下游任务方面取得了重大进展[3-6]。一个典型的PVL模型由两个分支网络组成:文本和图像编码器。这些网络用于提取相应的模态特征。PVL通常在web规模的图像-文本对上进行对比预训练，这鼓励视觉概念与共享语义空间中的自然语言保持一致。提示调优背后的核心思想之一是将下游任务制定为原始的预训练管道。例如，CLIP用一个手动提示模板““a photo of a {class}”来设计类别描述，它在通用图像识别中工作得很好。与全微调不同，在微调中，整个模型使用特定于任务的目标进行调整，需要高昂的计算成本，并带来知识转移问题的风险[7-9]，提示调优则固定模型参数并优化提示向量，提示向量作为演示来帮助提取与任务相关的特征。这大大有利于通过PVLs表示，即使在没有训练样本的情况下执行零样本推理。

然而，识别PVLs的最佳提示并不是一项简单的任务，它通常需要解决文本和视觉模式之间复杂的语义对齐问题。受神经语言模型(NLP)的提示学习[10,7,11]的启发，提出了一种称为文本提示调优(TPT)的方法来学习CLIP文本编码器的连续提示嵌入，例如，“X X X X X {class}”，其中“X”表示可学习向量[3,4]。通过特定任务损失优化，学习到的提示嵌入提取了编码在固定参数中的预训练知识，比手工方法具有更好的灵活性和效率[1]。为了提高TPT在未见类上的泛化性，许多研究试图从梯度流[12,13]、原型和作文提示学习[14-16]中给出解决方案。学习单模提示往往无法捕捉到不同的概念，各种方法都倾向于基于集成学习[1]、最优传输[17]和贝叶斯推理[18-20]来探索多个提示，从而显示出鲁棒对齐和更好的性能。

与TPT并行，视觉提示调谐(visual prompt tuning, VPT)侧重于CLIP图像编码器的patch嵌入空间[6]。VPT将图像视为一个补丁序列，并引入视觉提示来增强图像表示，例如，“X X X X X {image}”，其中“image”表示图像补丁序列。VPT提供了一种简单高效的提取任务相关视觉特征的思路，已被广泛应用于许多视觉任务，如视频理解[21]、领域自适应[22]、迁移学习[23]和图像分割[24-26]。最近出现了将TPT和VPT结合起来学习多模态提示的研究趋势[27,28]。然而，他们目前集中于单模提示发现，即一种模态只有一个提示，这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重，因为视觉和文本概念及其对齐都需要推断。此外，仅用全局特征来表示图像和标记是不可靠的[29,30]，可能会失去目标物体的局部区域特征，导致次优分类。

图1:最近的提示调优方法中的对齐比较。提出的ALIGN同时学习多模态多模提示，从而实现全面对齐。

为此，本工作开发了一个全面的提示调优框架，其中通过构建提示和令牌级最佳传输(OT)来学习多模式多模式提示。形式上，在向模态特定的编码器提供多个提示输入后，我们的提示级OT将每个图像视为视觉提示空间上的离散分布 $P$ ，并将每个标签视为文本提示空间上的离散分布 $Q$ 。有了这样的表述，分类任务就变成了测量 $P$ 和 $Q$ 之间的距离。此外，伴随着全局提示级特征，patch(或token)嵌入捕获目标对象的局部区域特征(或类别描述)。这激发了令牌级OT，其中每个提示输出都被建模为令牌嵌入空间上的离散分布。然后在视觉补丁和文本标记之间计算成本矩阵，从而实现标记级对齐。至关重要的是，提示级OT中的成本矩阵(衡量来自两个域的提示之间的传输成本)现在被转换为集成全局特征和令牌级OT的输出。这种分层连接使得使用详细的标记和补丁特征来预测标签成为可能，从而提高了准确性。

总之，我们的方法提供了一个新的提示调优框架，该框架通过分层OT结合了多种模式和令牌级对齐。提示级OT从图像和语言领域学习类的不同语义，而令牌级OT探索令牌嵌入之间的细粒度对齐。值得注意的是，通过不同的超参数设置，所提出的模型的变体涵盖了许多以前的工作，为跨不同应用的轻松适应提供了灵活性。本文的主要贡献如下:

•我们提出了一个用于多模态提示调优的多模式令牌级对齐框架，其中学习了多个提示以改进视觉和文本模式的表示。通过特殊的设置，许多以前的作品可以边缘到我们的框架中。

•我们将提示调优任务表述为分布匹配问题，并开发了提示和令牌级OT，以原则性和优雅的解决方案来处理该任务。

•我们将我们的方法应用于少样本分类、数据集迁移学习和领域泛化。在广泛使用的数据集上的实验结果表明了该模型的优越性。

2.背景

2.1 多模态提示微调

多模态提示调谐(Multi-modal prompt tuning, MPT)[28,27]是一项新开发的任务，它可以联合学习PVLs的文本和视觉提示。联合调谐范例不是单独优化单峰提示，而是利用PVLs的两个分支网络，而且在训练期间允许两种模式之间的交互，从而实现动态对齐。例如，我们使用基于CLIP的视觉转换器(ViT)，它由ViT作为图像编码器 $f$ 和transformer作为语言编码器 $g$ 组成。给定输入图像 $X\in R^{H\times W \times 3}$ 和 $K$ 个标签名称 $\{{class}_k\}^K_{k=1}$ 。MPT首先将 $b$ 个可学习的标记作为视觉提示 $\{v_i\in R^{d_v}\}^b_{i=1}$ ，并将另一组 $b$ 个可学习的标记作为文本提示 $\{t_i\in R^{d_l}\}^b_{i=1}$ 。将它们与图像补丁和类名连接起来，可以得到CLIP的输出如下:

其中 $< c l s >, < eos >$ 为虚拟令牌， $[e_1,\ldots,e_O]$ 为 $O$ 个图像补丁嵌入， $[w_{k,1},\ldots,w_{k,k_l}]$ 是长度为 $k_l$ 的第 $k$ 类token嵌入。在 $f$ 和 $g$ 的自关注层堆叠后，CLIP输出标记嵌入，并将 $z$ 和 $h_k$ 分别视为图像和标签的提示级特征。实证研究表明，通过视觉-语言映射函数如 $v = F (t)$ 投射语言提示 $t$ ，比独立学习语言提示 $t$ 更有效地获得视觉提示 $v$ [28,6]。最后，MPT根据余弦相似度得分估计 $x$ 的标签:

式中 $\tau$ 为固定温度参数。MPT统一了TPT和VPT的思想，同时对视觉提示符 $v$ 和文本提示符 $t$ 进行直接调优。Eq. 1表示文本编码器 $g$ 以分类提示作为输入，输出 $h$ 作为相应的分类器权值。由于CLIP中预先训练的知识，MPT保留了执行开集分类的能力。注意CLIP中的编码器 $f$ 和 $g$ 都是冻结的，只有提示序列 $v$ 和 $t$ 在下游训练期间被优化。这个过程可以看作是引导编码器提取任务相关特征的一个引导步骤。

2.2 最优运输距离

最优传输(Optimal transport, OT)是测量两个分布之间距离的有效工具，在最近的机器学习研究中被广泛使用，如文本分析[31-33]、计算机视觉[34 - 39]和生成模型[40,41]。在这里，我们回顾离散OT匹配，详细信息请参阅[42]。给定两组数据点 $X=\{x_i\}^m_{i=1}$ 和 $Y=\{y_j\}^n_{j=1}$ ，其离散分布分别表示为 $p=\sum^m_{i=1}{a_i \delta_{x_i}}$ 和 $q=\sum^m_{j=1}{b_i \delta_{y_i}}$ 。 $\in \Delta^m ,b \in \Delta^n$ ，其中 $\Delta^m$ 为 $R^m$ 的简单概率。我们定义 $X$ 和 $Y$ 之间的成本矩阵为 $C=(C_{ij}) \in R^{m\times n}_{\ge 0}$ ，其中 $C_{ij}=c(x_i,y_j)$ 为从 $x_i$ 到 $y_j$ 的运输成本， $C$ 为成本函数。OT的目标是以最小的成本将 $p$ 传输到 $q$ :

其中 $<\cdot,\cdot>$ 表示Frobenius点积， $\in \mathbb{R}^{m\times n}_{> 0}$ 表示要学习的传输方案。然后在 $m\times n$ 空间的所有联合概率上最小化OT距离，并具有两个边缘约束 $\Pi(p,q):=\{T:T 1_n=a,T^T1_m=b\}$ ，其中 $1_m$ 表示 $m$ 维的全1向量。由于在Eq. 2中直接学习最优计划 $T$ 对于大规模问题可能会很耗时，因此来自[42,43]的Sinkhorn距离引入了对传输计划 $h(T)=\sum_{m,n}-T_{mn}\text{In}(T_{mn})$ 的熵约束，因此得到的算法在几次迭代内估计出 $T$ ，具有更好的灵活性和可扩展性。

3. 提出的方法

3.1 总体方法

图2:(a)提议的ALIGN的框架。ALIGN通过将特定于模式的分布与分层OT对齐来学习PVLs的多个提示。(b) ALIGN图像嵌入的t-SNE可视化。

在本节中，我们将介绍我们提出的模型的技术细节，该模型名为ALIGN，它是一个用于优化传输的多模式提示调整的整体框架(如图2所示)。得益于精心设计的多模式令牌级对齐模块，大多数现有工作可以通过特殊设置合并到我们的ALIGN中。从直观上讲，人类学习一个具有各种概念的类，这些概念提供了足够的语义特征，如颜色、布局、形状等，从而将其与其他类区分开来[17]。受此启发，本作品的目标之一是同时学习 $M$ 个视觉提示和 $N$ 个文本提示。具体来说，我们首先引入提示级OT，其中每个图像和标签都被建模为 $M$ 维视觉空间和 $N$ 维文本空间上的离散分布 $P$ 和 $Q$ 。此外，我们没有将提示输出表示为单个点，例如全局特征 $z$ 和 $h$ ，而是提取了CLIP中隐含的令牌级知识。回顾一下，第 $k$ 类的第 $n$ 个文本提示输出包含 $b + k_l$ 个标记嵌入，图像的第 $m$ 个视觉提示输出包含 $b + O$ 个补丁嵌入，它们捕获了相应模态的局部区域特征。这促使我们开发令牌级别的OT，为细粒度的对齐进行令牌级别的比较。因此， $P$ 和 $Q$ 中的第 $m$ 和 $n$ 个点本身被进一步建模为共享令牌嵌入空间上的离散分布。由于令人信服的两级OT连接，其中提示级OT中的成本矩阵由令牌级OT的输出获得，学习的传输计划捕获提示和令牌级特征，这提供了一种原则和优雅的方法来估计标签和图像集之间的距离。

3.2 多模式token级提示对齐

在MPT学习单模提示来描述类并基于提示级特征估计相似性的基础上，我们的目标是探索文本和视觉域的多模式表示，并进行细粒度对齐以提高预测精度。现在我们有 $M$ 组视觉提示 $\{v^m\}^M_{m=1}$ 和 $N$ 组文本提示 $\{t^n\}^N_{n=1}$ ，其中每个 $v^m\in R^{d_v \times b}$ 和 $t^n \in R^{d_l \times b}$ 都是长度为 $b$ 的可学习提示序列。在数学上，我们使用两个经验分布 $P$ 和 $Q$ 来建模两种模态的集合:

其中 $\lambda>0$ 为正则化权值， $C\in R^{M\times N}$ 为视觉集 $x$ 与文本集 $y$ 之间的代价矩阵， $T\in R^{M\times N}$ 为有边际约束的待学习传输计划，如 $T1_N=1/M,T^T1_M=1/N$ 。注意， $T_{mn}$ 衡量的是从第 $m$ 个视觉提示到第 $n$ 个文本提示的传递概率，较大的值意味着两个提示之间跨模态的高语义连接。因此，Eq. 4估计了 $P$ 和 $Q$ 之间的期望运输成本，为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是，Eq. 4中的代价矩阵 $C$ 对 $T$ 的学习起着至关重要的作用，直观地看，两点之间的传输代价越大，传输概率就越低。

一个自然的选择是用全局特征 $C_{mn}=1-\text{sim}(z^m,h^n)$ 来指定 $C$ ，其中 $z^m,h^n$ 分别表示第 $m$ 个视觉提示和第 $n$ 个文本提示的提示级特征。然而，上述定义主要强调提示级表示，并且可能具有有限的捕获详细令牌级特征的能力，例如，图像中的不同补丁可能捕获不同的局部区域特征。因此，获得的传输计划可能无法反映 $P$ 和 $Q$ 之间的真实关系。为此，我们进一步引入考虑两个提示之间的令牌级对齐的令牌级OT。具体来说，我们将视觉输出 $x$ 和文本输出 $y$ 指定为标记嵌入的两个经验分布(这里为了清晰起见，我们省略了下标 $m$ 和 $n$ ):

一旦Eq. 4被计算出来，我们按照之前的工作[17]，预测图像 $X_j$ 的标签为:

4.相关工作

单模态提示微调:有两种单模态提示调音的故事情节，TPT和VPT。前者关注PLV的语言分支，对连续嵌入空间中的快速学习感兴趣。作为代表性作品之一，CoOp[3]使用一组可学习的向量对提示上下文进行建模，并显示出比密集调优的手动提示有很大改进。为了解决未见类别的弱泛化性，CoCoOp[4]通过显式地对图像实例进行条件反射来扩展CoOp，这将注意力从特定的类集转移到每个输入实例，从而实现更强的泛化性能。PLOT[17]不是单模提示学习，而是利用提示与图像patch之间的OT距离学习多个文本提示，实现多元提示调优。ProDA[19]首先成熟地设计了多个提示，然后利用高斯分布对提示嵌入进行建模，对提示的不确定性进行建模。相应的，vpt指的是在图像输入空间中预先添加视觉补丁，这也显示了将vpt用于下游任务的令人印象深刻的结果。例如，Jia等[6]将可训练的视觉提示向量引入到每个Transformer层的图像patch序列中，并与线性头部一起学习。尽管这些模型在各种视觉任务上表现良好，但它们被设计为学习单模态提示，无法利用预训练的多模态知识。

多模态提示调优:超越单模态提示调优，MPT是最近引入的一项任务，它可以同时学习文本提示和视觉提示。这种联合调优策略不仅提取了多模态知识，而且支持跨模态提示之间的动态对齐，显示出更好的泛化。Zang等人[27]提出了一个统一的提示调整框架(UPT)[27]，它在不同的模态之间共享一个初始提示，并设计了一个微小的网络来共同生成特定于模态的提示。几乎与UPT平行，Khattak等人[28]提出了多模态提示调谐（MaPLe），并采用投影矩阵明确地对其语言对应的视觉提示进行条件调整，允许梯度的相互传播以促进协同。相比之下，本工作旨在学习多模态多模提示，以更好地满足多样化综合表征的要求。此外，与通过全局提示级特征来衡量图像和标签之间的相似性不同，我们将每个提示建模为标记级嵌入空间上的经验分布，并在分层OT框架下将提示和标记级特征结合起来计算相似性得分，这为PVL适应下游任务提供了一种新颖而优雅的工具。

5.实验

图3:7个数据集的小样本学习结果（其他数据集的更详细结果见附录表）d . 1)。红色实线表示ALIGN方法，虚线表示各种基线。所有结果以三个种子的平均值报告。

表1：在11个数据集上从基础到新。提示是从16发基本设置中学习的。我们报告了基集（base）、新集（new）及其调和均值(H)的分类精度，其中 $H = (2 \times ba se \times n e w) / (ba se + n e w)$ 。最好的结果被突出显示。

表2:跨数据集迁移学习准确率结果。这里我们使用关键字母来表示数据集。最好的结果被突出显示。

表3:跨域概化精度结果。最好的结果被突出显示。

6.结论

提出了一种新的多模式令牌级对齐框架，用于最优运输下的多模式提示调整。我们首先使用提示级OT对跨模式的多模式提示进行建模，然后通过将每个提示本身视为令牌嵌入空间上的集合来引入令牌级OT。通过成本矩阵耦合这些两级OT，通过结合提示级特征和标记级嵌入来获得最终预测，从而实现细粒度对齐。大量的实验表明，我们提出的模型在四种设置下达到了竞争性能。就局限性而言，用户可能仍然需要较大的GPU内存来加载预训练的PVL权重，以便将提议的模型应用于测试过程。一个潜在的解决方案是将提示调优与知识蒸馏结合起来。我们把它留给未来的研究。由于对PVL的开放世界视觉概念的理解，我们的模型显示出有希望的零样本/少样本图像识别能力，这有可能鼓励研究人员获得新的更好的方法来提示调整。我们的工作可能会间接导致负面影响，如果有一个足够恶意或不知情的选择，少样本的分类任务。