ALIGN: Tuning Multi-mode Token-level Prompt Alignment across Modalities

在这里插入图片描述

文章汇总

当前的问题

目前的工作集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类。

1:TPT 单文本提示

2:VPT 单视觉提示

3:PLOT 通过OT(最优传输距离)寻找与图像特征最相关的prompt

4:MPT 多模态提示,即文本和图像都有提示

动机

通过分层OT(optimal transport)结合了多模态和令牌级对齐。

解决办法

首先,每个图像以及它的标签分别有 M M M组视觉提示和 N N N组文本提示。

对应一组样本(图像和标签),我们先

寻找最佳提示(第一个OT)

现在我们有 M M M组视觉提示 { v m } m = 1 M \{v^m\}^M_{m=1} {vm}m=1M N N N组文本提示 { t n } n = 1 N \{t^n\}^N_{n=1} {tn}n=1N,其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vmRdv×b t n ∈ R d l × b t^n \in R^{d_l \times b} tnRdl×b都是长度为 b b b的可学习提示序列。在数学上,我们使用两个经验分布 P P P和$ Q $来建模两种模态的集合:

其中 x m x_m xm y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布,这将在后面介绍。Eq. 3平等地看待每个提示,并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P Q Q Q,图像和标签之间的距离不再是先将每个图像和标签表示为单个点,然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念,从而产生更好的表示。因此,距离可以表示为一个熵正则化的提示级OT问题[42]:

其中 λ > 0 \lambda>0 λ>0为正则化权值, C ∈ R M × N C\in R^{M\times N} CRM×N为视觉集 x x x与文本集 y y y之间的代价矩阵, T ∈ R M × N T\in R^{M\times N} TRM×N为有边际约束的待学习传输计划,如 T 1 N = 1 / M , T T 1 M = 1 / N T1_N=1/M,T^T1_M=1/N T1N=1/M,TT1M=1/N。注意, T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率,较大的值意味着两个提示之间跨模态的高语义连接。因此,Eq. 4估计了 P P P Q Q Q之间的期望运输成本,为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是,Eq. 4中的代价矩阵 C C C T T T的学习起着至关重要的作用,直观地看,两点之间的传输代价越大,传输概率就越低

对于每组视觉提示和每组文本提示的组合,如图中的 C 2 , 3 C_{2,3} C2,3(第2组视觉提示和第3组文本提示的组合),我们都考量它的token级别的传输代价。

考量视觉patch和文本token之间的传输成本

我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见,我们省略了下标 m m m n n n):

式中 r = [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r=[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r=[e~1,,e~O,v~1,,v~b]为输出的长度为 J = b + O J=b+O J=b+O的视觉patch, s = [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s=[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s=[t~1,,t~b,w~k,1,,w~k,kl]是长度为 b + k l b+k_l b+kl的输出文本标记。与代表提示级特征的 z z z h h h不同, x x x y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地,在token级OT中,代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^RJ×L定义为 C ^ j l = 1 − sim ( r j , s l ) \hat C_{jl}=1-\text{sim}(r_j,s_l) C^jl=1sim(rj,sl),它衡量视觉patch和文本token之间的传输成本。因此, x x x y y y之间的距离是token级OT的总运输成本:

其中,传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征,提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵,同时考虑了提示和令牌级别的功能:

其中 β \beta β是一个权衡参数,控制令牌级成本的权重。前两项是提示级特征之间的余弦距离,最后一项是token级集之间的OT距离。通过这种方式,Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配,从而实现详细的对齐和更好的表示。

模型的预测

一旦Eq. 4被计算出来,我们按照之前的工作[17],预测图像 X j X_j Xj的标签为:

式中, C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意,在我们的模型中,分类器 Q k Q_k Qk的权重可以看作是标签 k k k N N N个文本提示上的离散均匀分布,其中包含多个与类相关的语义,从而提高了分类结果。由于Sinkhorn算法可微分,通过最小化以下交叉熵损失,可以对所提模型的所有参数进行端到端优化:

其中, y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式,我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列,而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。

摘要

视觉语言模型在提示调整方面的进步强调了它们在增强开放世界视觉概念理解方面的潜力。然而,之前的工作主要集中在单模态(每种情态只有一个提示)和整体层面(图像或句子)的语义对齐上,未能捕捉到样本多样性,导致次优提示发现。为了解决这一限制,我们提出了一个多模式令牌级调优框架,该框架利用最佳传输来学习和对齐一组跨模式的提示令牌。具体来说,我们依赖于两个基本因素:1)多模式提示发现,它保证了不同的语义表示;2)令牌级对齐,它有助于探索细粒度的相似性。因此,相似性可以计算为模态特定集之间的分层运输问题。在流行的图像识别基准上进行的大量实验表明,我们的方法具有优越的泛化和少样本能力。定性分析表明,习得的提示符号具有捕捉不同视觉概念的能力。代码可在https://github.com/wds2014/ALIGN上获得。

1.介绍

最近,提示调优在使大型预训练视觉语言模型(PVLs)如CLIP[1]和BLIP[2]适应下游任务方面取得了重大进展[3-6]。一个典型的PVL模型由两个分支网络组成:文本和图像编码器。这些网络用于提取相应的模态特征。PVL通常在web规模的图像-文本对上进行对比预训练,这鼓励视觉概念与共享语义空间中的自然语言保持一致。提示调优背后的核心思想之一是将下游任务制定为原始的预训练管道。例如,CLIP用一个手动提示模板““a photo of a {class}”来设计类别描述,它在通用图像识别中工作得很好。与全微调不同,在微调中,整个模型使用特定于任务的目标进行调整,需要高昂的计算成本,并带来知识转移问题的风险[7-9],提示调优则固定模型参数并优化提示向量,提示向量作为演示来帮助提取与任务相关的特征。这大大有利于通过PVLs表示,即使在没有训练样本的情况下执行零样本推理。

然而,识别PVLs的最佳提示并不是一项简单的任务,它通常需要解决文本和视觉模式之间复杂的语义对齐问题。受神经语言模型(NLP)的提示学习[10,7,11]的启发,提出了一种称为文本提示调优(TPT)的方法来学习CLIP文本编码器的连续提示嵌入,例如,“X X X X X {class}”,其中“X”表示可学习向量[3,4]。通过特定任务损失优化,学习到的提示嵌入提取了编码在固定参数中的预训练知识,比手工方法具有更好的灵活性和效率[1]。为了提高TPT在未见类上的泛化性,许多研究试图从梯度流[12,13]、原型和作文提示学习[14-16]中给出解决方案。学习单模提示往往无法捕捉到不同的概念,各种方法都倾向于基于集成学习[1]、最优传输[17]和贝叶斯推理[18-20]来探索多个提示,从而显示出鲁棒对齐和更好的性能。

与TPT并行,视觉提示调谐(visual prompt tuning, VPT)侧重于CLIP图像编码器的patch嵌入空间[6]。VPT将图像视为一个补丁序列,并引入视觉提示来增强图像表示,例如,“X X X X X {image}”,其中“image”表示图像补丁序列。VPT提供了一种简单高效的提取任务相关视觉特征的思路,已被广泛应用于许多视觉任务,如视频理解[21]、领域自适应[22]、迁移学习[23]和图像分割[24-26]。最近出现了将TPT和VPT结合起来学习多模态提示的研究趋势[27,28]。然而,他们目前集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类

图1:最近的提示调优方法中的对齐比较。提出的ALIGN同时学习多模态多模提示,从而实现全面对齐。

为此,本工作开发了一个全面的提示调优框架,其中通过构建提示和令牌级最佳传输(OT)来学习多模式多模式提示。形式上,在向模态特定的编码器提供多个提示输入后,我们的提示级OT将每个图像视为视觉提示空间上的离散分布 P P P,并将每个标签视为文本提示空间上的离散分布 Q Q Q。有了这样的表述,分类任务就变成了测量 P P P Q Q Q之间的距离。此外,伴随着全局提示级特征,patch(或token)嵌入捕获目标对象的局部区域特征(或类别描述)。这激发了令牌级OT,其中每个提示输出都被建模为令牌嵌入空间上的离散分布。然后在视觉补丁和文本标记之间计算成本矩阵,从而实现标记级对齐。至关重要的是,提示级OT中的成本矩阵(衡量来自两个域的提示之间的传输成本)现在被转换为集成全局特征和令牌级OT的输出。这种分层连接使得使用详细的标记和补丁特征来预测标签成为可能,从而提高了准确性。

总之,我们的方法提供了一个新的提示调优框架,该框架通过分层OT结合了多种模式和令牌级对齐。提示级OT从图像和语言领域学习类的不同语义,而令牌级OT探索令牌嵌入之间的细粒度对齐。值得注意的是,通过不同的超参数设置,所提出的模型的变体涵盖了许多以前的工作,为跨不同应用的轻松适应提供了灵活性。本文的主要贡献如下:

•我们提出了一个用于多模态提示调优的多模式令牌级对齐框架,其中学习了多个提示以改进视觉和文本模式的表示。通过特殊的设置,许多以前的作品可以边缘到我们的框架中。

•我们将提示调优任务表述为分布匹配问题,并开发了提示和令牌级OT,以原则性和优雅的解决方案来处理该任务。

•我们将我们的方法应用于少样本分类、数据集迁移学习和领域泛化。在广泛使用的数据集上的实验结果表明了该模型的优越性。

2.背景

2.1 多模态提示微调

多模态提示调谐(Multi-modal prompt tuning, MPT)[28,27]是一项新开发的任务,它可以联合学习PVLs的文本和视觉提示。联合调谐范例不是单独优化单峰提示,而是利用PVLs的两个分支网络,而且在训练期间允许两种模式之间的交互,从而实现动态对齐。例如,我们使用基于CLIP的视觉转换器(ViT),它由ViT作为图像编码器 f f f和transformer作为语言编码器 g g g组成。给定输入图像 X ∈ R H × W × 3 X\in R^{H\times W \times 3} XRH×W×3 K K K个标签名称 { c l a s s k } k = 1 K \{{class}_k\}^K_{k=1} {classk}k=1K。MPT首先将 b b b个可学习的标记作为视觉提示 { v i ∈ R d v } i = 1 b \{v_i\in R^{d_v}\}^b_{i=1} {viRdv}i=1b,并将另一组 b b b个可学习的标记作为文本提示 { t i ∈ R d l } i = 1 b \{t_i\in R^{d_l}\}^b_{i=1} {tiRdl}i=1b。将它们与图像补丁和类名连接起来,可以得到CLIP的输出如下:

其中 < c l s > , < e o s > <cls>,<eos> <cls>,<eos>为虚拟令牌, [ e 1 , … , e O ] [e_1,\ldots,e_O] [e1,,eO] O O O个图像补丁嵌入, [ w k , 1 , … , w k , k l ] [w_{k,1},\ldots,w_{k,k_l}] [wk,1,,wk,kl]是长度为 k l k_l kl的第 k k k类token嵌入。在 f f f g g g的自关注层堆叠后,CLIP输出标记嵌入,并将 z z z h k h_k hk分别视为图像和标签的提示级特征。实证研究表明,通过视觉-语言映射函数如 v = F ( t ) v = F(t) v=F(t)投射语言提示 t t t,比独立学习语言提示 t t t更有效地获得视觉提示 v v v[28,6]。最后,MPT根据余弦相似度得分估计 x x x的标签:


式中 τ \tau τ为固定温度参数。MPT统一了TPT和VPT的思想,同时对视觉提示符 v v v和文本提示符 t t t进行直接调优。Eq. 1表示文本编码器 g g g以分类提示作为输入,输出 h h h作为相应的分类器权值。由于CLIP中预先训练的知识,MPT保留了执行开集分类的能力。注意CLIP中的编码器 f f f g g g都是冻结的,只有提示序列 v v v t t t在下游训练期间被优化。这个过程可以看作是引导编码器提取任务相关特征的一个引导步骤。

2.2 最优运输距离

最优传输(Optimal transport, OT)是测量两个分布之间距离的有效工具,在最近的机器学习研究中被广泛使用,如文本分析[31-33]、计算机视觉[34 - 39]和生成模型[40,41]。在这里,我们回顾离散OT匹配,详细信息请参阅[42]。给定两组数据点 X = { x i } i = 1 m X=\{x_i\}^m_{i=1} X={xi}i=1m Y = { y j } j = 1 n Y=\{y_j\}^n_{j=1} Y={yj}j=1n,其离散分布分别表示为 p = ∑ i = 1 m a i δ x i p=\sum^m_{i=1}{a_i \delta_{x_i}} p=i=1maiδxi q = ∑ j = 1 m b i δ y i q=\sum^m_{j=1}{b_i \delta_{y_i}} q=j=1mbiδyi a ∈ Δ m , b ∈ Δ n a \in \Delta^m ,b \in \Delta^n aΔm,bΔn,其中 Δ m \Delta^m Δm R m R^m Rm的简单概率。我们定义 X X X Y Y Y之间的成本矩阵为 C = ( C i j ) ∈ R ≥ 0 m × n C=(C_{ij}) \in R^{m\times n}_{\ge 0} C=(Cij)R0m×n,其中 C i j = c ( x i , y j ) C_{ij}=c(x_i,y_j) Cij=c(xi,yj)为从 x i x_i xi y j y_j yj的运输成本, C C C为成本函数。OT的目标是以最小的成本将 p p p传输到 q q q:

其中 < ⋅ , ⋅ > <\cdot,\cdot> <,>表示Frobenius点积, T ∈ R > 0 m × n T \in \mathbb{R}^{m\times n}_{> 0} TR>0m×n表示要学习的传输方案。然后在 m × n m\times n m×n空间的所有联合概率上最小化OT距离,并具有两个边缘约束 Π ( p , q ) : = { T : T 1 n = a , T T 1 m = b } \Pi(p,q):=\{T:T 1_n=a,T^T1_m=b\} Π(p,q):={T:T1n=a,TT1m=b},其中 1 m 1_m 1m表示 m m m维的全1向量。由于在Eq. 2中直接学习最优计划 T T T对于大规模问题可能会很耗时,因此来自[42,43]的Sinkhorn距离引入了对传输计划 h ( T ) = ∑ m , n − T m n In ( T m n ) h(T)=\sum_{m,n}-T_{mn}\text{In}(T_{mn}) h(T)=m,nTmnIn(Tmn)的熵约束,因此得到的算法在几次迭代内估计出 T T T,具有更好的灵活性和可扩展性。

3. 提出的方法

3.1 总体方法

图2:(a)提议的ALIGN的框架。ALIGN通过将特定于模式的分布与分层OT对齐来学习PVLs的多个提示。(b) ALIGN图像嵌入的t-SNE可视化。

在本节中,我们将介绍我们提出的模型的技术细节,该模型名为ALIGN,它是一个用于优化传输的多模式提示调整的整体框架(如图2所示)。得益于精心设计的多模式令牌级对齐模块,大多数现有工作可以通过特殊设置合并到我们的ALIGN中。从直观上讲,人类学习一个具有各种概念的类,这些概念提供了足够的语义特征,如颜色、布局、形状等,从而将其与其他类区分开来[17]。受此启发,本作品的目标之一是同时学习 M M M个视觉提示和 N N N个文本提示。具体来说,我们首先引入提示级OT,其中每个图像和标签都被建模为 M M M维视觉空间和 N N N维文本空间上的离散分布 P P P Q Q Q。此外,我们没有将提示输出表示为单个点,例如全局特征 z z z h h h,而是提取了CLIP中隐含的令牌级知识。回顾一下,第 k k k类的第 n n n个文本提示输出包含 b + k l b + k_l b+kl个标记嵌入,图像的第 m m m个视觉提示输出包含 b + O b + O b+O个补丁嵌入,它们捕获了相应模态的局部区域特征。这促使我们开发令牌级别的OT,为细粒度的对齐进行令牌级别的比较。因此, P P P Q Q Q中的第 m m m n n n个点本身被进一步建模为共享令牌嵌入空间上的离散分布。由于令人信服的两级OT连接,其中提示级OT中的成本矩阵由令牌级OT的输出获得,学习的传输计划捕获提示和令牌级特征,这提供了一种原则和优雅的方法来估计标签和图像集之间的距离。

3.2 多模式token级提示对齐

在MPT学习单模提示来描述类并基于提示级特征估计相似性的基础上,我们的目标是探索文本和视觉域的多模式表示,并进行细粒度对齐以提高预测精度。现在我们有 M M M组视觉提示 { v m } m = 1 M \{v^m\}^M_{m=1} {vm}m=1M N N N组文本提示 { t n } n = 1 N \{t^n\}^N_{n=1} {tn}n=1N,其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vmRdv×b t n ∈ R d l × b t^n \in R^{d_l \times b} tnRdl×b都是长度为 b b b的可学习提示序列。在数学上,我们使用两个经验分布 P P P Q Q Q来建模两种模态的集合:

其中 x m x_m xm y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布,这将在后面介绍。Eq. 3平等地看待每个提示,并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P Q Q Q,图像和标签之间的距离不再是先将每个图像和标签表示为单个点,然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念,从而产生更好的表示。因此,距离可以表示为一个熵正则化的提示级OT问题[42]:

其中 λ > 0 \lambda>0 λ>0为正则化权值, C ∈ R M × N C\in R^{M\times N} CRM×N为视觉集 x x x与文本集 y y y之间的代价矩阵, T ∈ R M × N T\in R^{M\times N} TRM×N为有边际约束的待学习传输计划,如 T 1 N = 1 / M , T T 1 M = 1 / N T1_N=1/M,T^T1_M=1/N T1N=1/M,TT1M=1/N。注意, T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率,较大的值意味着两个提示之间跨模态的高语义连接。因此,Eq. 4估计了 P P P Q Q Q之间的期望运输成本,为计算图像和标签之间的相似度提供了一个原理解决方案。

值得注意的是,Eq. 4中的代价矩阵 C C C T T T的学习起着至关重要的作用,直观地看,两点之间的传输代价越大,传输概率就越低。

一个自然的选择是用全局特征 C m n = 1 − sim ( z m , h n ) C_{mn}=1-\text{sim}(z^m,h^n) Cmn=1sim(zm,hn)来指定 C C C,其中 z m , h n z^m,h^n zm,hn分别表示第 m m m个视觉提示和第 n n n个文本提示的提示级特征。然而,上述定义主要强调提示级表示,并且可能具有有限的捕获详细令牌级特征的能力,例如,图像中的不同补丁可能捕获不同的局部区域特征。因此,获得的传输计划可能无法反映 P P P Q Q Q之间的真实关系。为此,我们进一步引入考虑两个提示之间的令牌级对齐的令牌级OT。具体来说,我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见,我们省略了下标 m m m n n n):

式中 r = [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r=[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r=[e~1,,e~O,v~1,,v~b]为输出的长度为 J = b + O J=b+O J=b+O的视觉patch, s = [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s=[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s=[t~1,,t~b,w~k,1,,w~k,kl]是长度为 b + k l b+k_l b+kl的输出文本标记。与代表提示级特征的 z z z h h h不同, x x x y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地,在token级OT中,代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^RJ×L定义为 C ^ j l = 1 − sim ( r j , s l ) \hat C_{jl}=1-\text{sim}(r_j,s_l) C^jl=1sim(rj,sl),它衡量视觉patch和文本token之间的传输成本。因此, x x x y y y之间的距离是token级OT的总运输成本:

其中,传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征,提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵,同时考虑了提示和令牌级别的功能:

其中 β \beta β是一个权衡参数,控制令牌级成本的权重。前两项是提示级特征之间的余弦距离,最后一项是token级集之间的OT距离。通过这种方式,Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配,从而实现详细的对齐和更好的表示。

一旦Eq. 4被计算出来,我们按照之前的工作[17],预测图像 X j X_j Xj的标签为:

式中, C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意,在我们的模型中,分类器 Q k Q_k Qk的权重可以看作是标签 k k k N N N个文本提示上的离散均匀分布,其中包含多个与类相关的语义,从而提高了分类结果。由于Sinkhorn算法可微分,通过最小化以下交叉熵损失,可以对所提模型的所有参数进行端到端优化:

其中, y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式,我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列,而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。

4.相关工作

单模态提示微调:有两种单模态提示调音的故事情节,TPT和VPT。前者关注PLV的语言分支,对连续嵌入空间中的快速学习感兴趣。作为代表性作品之一,CoOp[3]使用一组可学习的向量对提示上下文进行建模,并显示出比密集调优的手动提示有很大改进。为了解决未见类别的弱泛化性,CoCoOp[4]通过显式地对图像实例进行条件反射来扩展CoOp,这将注意力从特定的类集转移到每个输入实例,从而实现更强的泛化性能。PLOT[17]不是单模提示学习,而是利用提示与图像patch之间的OT距离学习多个文本提示,实现多元提示调优。ProDA[19]首先成熟地设计了多个提示,然后利用高斯分布对提示嵌入进行建模,对提示的不确定性进行建模。相应的,vpt指的是在图像输入空间中预先添加视觉补丁,这也显示了将vpt用于下游任务的令人印象深刻的结果。例如,Jia等[6]将可训练的视觉提示向量引入到每个Transformer层的图像patch序列中,并与线性头部一起学习。尽管这些模型在各种视觉任务上表现良好,但它们被设计为学习单模态提示,无法利用预训练的多模态知识。

多模态提示调优:超越单模态提示调优,MPT是最近引入的一项任务,它可以同时学习文本提示和视觉提示。这种联合调优策略不仅提取了多模态知识,而且支持跨模态提示之间的动态对齐,显示出更好的泛化。Zang等人[27]提出了一个统一的提示调整框架(UPT)[27],它在不同的模态之间共享一个初始提示,并设计了一个微小的网络来共同生成特定于模态的提示。几乎与UPT平行,Khattak等人[28]提出了多模态提示调谐(MaPLe),并采用投影矩阵明确地对其语言对应的视觉提示进行条件调整,允许梯度的相互传播以促进协同。相比之下,本工作旨在学习多模态多模提示,以更好地满足多样化综合表征的要求。此外,与通过全局提示级特征来衡量图像和标签之间的相似性不同,我们将每个提示建模为标记级嵌入空间上的经验分布,并在分层OT框架下将提示和标记级特征结合起来计算相似性得分,这为PVL适应下游任务提供了一种新颖而优雅的工具。

5.实验

图3:7个数据集的小样本学习结果(其他数据集的更详细结果见附录表)d . 1)。红色实线表示ALIGN方法,虚线表示各种基线。所有结果以三个种子的平均值报告。

表1:在11个数据集上从基础到新。提示是从16发基本设置中学习的。我们报告了基集(base)、新集(new)及其调和均值(H)的分类精度,其中 H = ( 2 × b a s e × n e w ) / ( b a s e + n e w ) H = (2 × base × new)/(base + new) H=(2×base×new)/(base+new)。最好的结果被突出显示。

表2:跨数据集迁移学习准确率结果。这里我们使用关键字母来表示数据集。最好的结果被突出显示。

表3:跨域概化精度结果。最好的结果被突出显示。

6.结论

提出了一种新的多模式令牌级对齐框架,用于最优运输下的多模式提示调整。我们首先使用提示级OT对跨模式的多模式提示进行建模,然后通过将每个提示本身视为令牌嵌入空间上的集合来引入令牌级OT。通过成本矩阵耦合这些两级OT,通过结合提示级特征和标记级嵌入来获得最终预测,从而实现细粒度对齐。大量的实验表明,我们提出的模型在四种设置下达到了竞争性能。就局限性而言,用户可能仍然需要较大的GPU内存来加载预训练的PVL权重,以便将提议的模型应用于测试过程。一个潜在的解决方案是将提示调优与知识蒸馏结合起来。我们把它留给未来的研究。由于对PVL的开放世界视觉概念的理解,我们的模型显示出有希望的零样本/少样本图像识别能力,这有可能鼓励研究人员获得新的更好的方法来提示调整。我们的工作可能会间接导致负面影响,如果有一个足够恶意或不知情的选择,少样本的分类任务。

参考资料

论文下载(NeurIPS 2023)

https://arxiv.org/abs/2309.13847

代码地址

https://github.com/wds2014/ALIGN

附录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/461099.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux学习笔记 Ubuntu下的守护进程supervisor安装与多项目部署

我这里首先是在本地WSL上进行安装&#xff0c;WSL2的是ubuntu 24.04&#xff0c;之后又再正式环境的ubuntu 20.04上安装&#xff0c;再次记录一下。 1、首先安装supervisor apt install -y supervisor 2、创建配置文件 echo_supervisord_conf > /etc/supervisor/supervisor…

Linux特种文件系统--tmpfs文件系统前传:虚拟内存子系统

虚拟内存子系统是操作系统中的一个重要组成部分&#xff0c;它负责管理和优化计算机的内存使用。虚拟内存的概念允许操作系统为每一个进程创建一个虚拟地址空间&#xff0c;这个空间比实际物理内存要大得多。虚拟内存子系统通过将部分虚拟地址映射到物理内存&#xff0c;部分映…

【测试工具】通过Jmeter压测存储过程

目录 一、存储过程准备1.1、 建立空表1.2、 建立存储过程1.3、调试 二、测试工具准备三、工具配置及执行3.1、配置JDBC Connection Configuration&#xff1a;3.2、配置吞吐量控制器3.3、配置JDBC Request 一、存储过程准备 1.1、 建立空表 CREATE TABLE test_data ( id NUMB…

安宝特分享 | AR技术引领:跨国工业远程协作创新模式

在当今高度互联的工业环境中&#xff0c;跨国合作与沟通变得日益重要。然而&#xff0c;语言障碍常常成为高效协作的绊脚石。安宝特AR眼镜凭借其强大的多语言自动翻译和播报功能&#xff0c;正在改变这一局面&#xff0c;让远程协作变得更加顺畅。 01 多语言翻译优势 安宝特A…

vivado-vitis-2024.1 ps_hello_world 实验

实验环境 vivado&#xff1a;2024.1 vitis&#xff1a;2024.1 核心板&#xff1a;ZYNQ-7020 实验内容 实验PS端串口打印 "Hello world " 硬件配置 打开vivado2024&#xff0c;新建一个工程 点击 Create Block Design 开始IP配置 首先连接线 然后点击自动连接…

[GXYCTF 2019]Ping Ping Ping 题解(多种解题方式)

知识点: 命令执行 linux空格绕过 反引号绕过 变量绕过 base64编码绕过 打开页面提示 "听说php可以执行系统函数&#xff1f;我来康康" 然后输入框内提示输入 bjut.edu.cn 输入之后回显信息,是ping 这个网址的信息 输入127.0.0.1 因为提示是命令…

《神经网络助力战场车辆及部件损毁识别与评估》

《神经网络助力战场车辆及部件损毁识别与评估》 一、战场车辆损毁评估的重要意义二、传统战场车辆损毁评估方法&#xff08;一&#xff09;视觉评估法&#xff08;二&#xff09;仪器检测技术 三、神经网络在战场车辆损毁评估中的应用案例&#xff08;一&#xff09;射击毁伤评…

K8S配置storage-class

简介 Kubernetes支持NFS存储&#xff0c;需要安装nfs-subdir-external-provisioner&#xff0c;它是一个存储资源自动调配器&#xff0c;它可将现有的NFS服务器通过持久卷声明来支持Kubernetes持久卷的动态分配。该组件是对Kubernetes NFS-Client Provisioner的扩展&#xff0…

Redis 主从同步 总结

前言 相关系列 《Redis & 目录》《Redis & 主从同步 & 源码》《Redis & 主从同步 & 总结》《Redis & 主从同步 & 问题》 参考文献 《Redis的主从复制和哨兵机制详解》 概述 简介 主从同步的本质是数据复制机制。主从同步机制用于将master…

Android 圆形进度条CircleProgressView 基础版

一个最基础的自定义View 圆形进度条&#xff0c;可设置背景色、进度条颜色&#xff08;渐变色&#xff09;下载进度控制&#xff1b;可二次定制度高&#xff1b; 核心代码&#xff1a; Overrideprotected void onDraw(NonNull Canvas canvas) {super.onDraw(canvas);int mW g…

得物App 3D球鞋博物馆亮相两博会,打造沉浸式消费新体验

近日&#xff0c;2024中国体育文化博览会、中国体育旅游博览会&#xff08;简称“两博会”&#xff09;在苏州国际展览中心拉开帷幕。得物App携手Apple Vision Pro共同打造的3D球鞋博物馆亮相两博会上海展区&#xff0c;并通过3D技术为观众呈现独特的沉浸式消费新体验。 在3D球…

node.js下载、安装、设置国内镜像源(永久)(Windows11)

目录 node-v20.18.0-x64工具下载安装设置国内镜像源&#xff08;永久&#xff09; node-v20.18.0-x64 工具 系统&#xff1a;Windows 11 下载 官网https://nodejs.org/zh-cn/download/package-manager 版本我是跟着老师选的node-v20.18.0-x64如图选择 Windows、x64、v20.18…

【Leetcode】单调栈

单调栈 单调栈是一种高效的栈结构&#xff0c;常用来解决数组中元素顺序相关的问题&#xff0c;如“下一个更大元素”等。其核心思想是通过维护栈内元素的单调性&#xff0c;并记录元素的间顺序关系&#xff0c;以减少不必要的比较操作。通常情况下&#xff0c;由于每个元素入…

【技术点】用SQL语言操作关系型数据库Mysql中的数据(有练习资料)

用SQL语言操作关系型数据库Mysql中的数据 一、增删改查增数据删数据改数据查数据 二、触发器三、视图 练习题目链接 前言&#xff1a; 之前操作的时候大多时候都是用GPT生成的sql语句&#xff08;有一说一真的实用&#xff09;&#xff0c;但是缺少自己完整独立完成sql语句书写…

ELK之路第四步——整合!打通任督二脉

ELK之路第四步——整合&#xff01;打通任督二脉 前言1.架构2.下载资源3.整合开始1.分别启动三个es2.启动kibana3.新建filebeat_logstash.yml配置文件4.修改logstash的启动配置文件5.启动logstash6.启动filebeat7.Kibana查看 4.结语 前言 在开始本篇之前&#xff0c;你需要用到…

从CAB到PAB Oracle的AI 23.6(之一)

Oracle的CAB和PAB 这是甲骨文的客户大会Oracle China Customer Advisory Board Metting CAB缩写。和Oracle China Partner Advisory Board Metting PAB缩写。 这已经不是我第一次参加了。虽然现在有信创&#xff0c;但是技术人讨论技术还是要纯粹一点。所为纯粹就像精武英雄中…

electron知识整理和问题汇总

知识整理 1.electron进程间通讯 快速通道 electron进程间通讯 2.关于electron-vue里的app.asar 快速通道 关于electron-vue里的app.asar 3.获取版本号等信息 remote.app.getVersion(); //加载应用程序的版本号。 如果应用程序的 package. json 文件中找不到版本号, 则返回…

ROS(快速初步入门)

目录 一、节点与节点管理器 二、通信方式 三、参数 四、文件系统 五、ROS命令行工具 六、创建工作空间与功能包 1&#xff09;工作空间 2&#xff09;创建功能包 七、发布者Publisher的代码实现 八、订阅者Subscriber的编程实现 九、自定义话题并使用 十、Client客户…

leetcode-62-不同路径

题解&#xff1a; 1、设dp[i][j]代表到达(i,j)点最多的路径&#xff1b;题目要求机器人每次只能向右或向下走一步&#xff0c;所以到达(i,j)点的最多路径为到达(i-1,j)的最多路径与到达(i,j-1)的最多路径之和。即dp[i][j]dp[i-1][j]dp[i][j-1]。 2、初始化一个M*N的矩阵dp,将…

【问题解决】pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

今天配置完poetry环境变量之后pnpm不能用了 具体报错 pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写&#xff0c;如果包括路径&#xff0c;请确保路径正确&#xff0c;然后再试一次。 所在位置 行:1 字符: 1pnpm run dev~~~~ Ca…