小心空隙!文本视频检索中的无监督域自适应
- 摘要
- 介绍
- 方法
- 总体框架
- Concept Preservation
- 结论
摘要
什么时候我们可以期望文本视频检索系统在不同于其训练域的数据集上有效地工作?在这项工作中,我们通过无监督的领域适应的视角来研究这个问题,其中的目标是在查询时存在领域转移的情况下匹配自然语言查询和视频内容。这种系统具有重要的实际应用,因为它们能够推广到新的数据源,而不需要相应的文本注释。我们做出了以下贡献:(1)提出了UDAVR(视频检索的无监督域自适应)基准,并将其用于研究存在域移位时的文本视频检索性能。(2) 我们提出了概念感知伪查询(CAPQ),这是一种学习区分性和可转移性特征的方法,可以弥补这些跨域差异,从而使用源域监控实现有效的目标域检索。(3) 我们表明,在UDAVR上,CAPQ优于其他域适应策略。
介绍
给定一个自然语言查询和一个视频池,文本视频检索的目标是根据视频内容与查询的匹配程度对视频进行排序。到目前为止,该领域的大部分工作都依赖于训练数据和测试数据来自同一领域的假设。因此,在不同领域中使用文本-视频检索方法可以收集相应的注释,从而可以在目标数据上重新训练或微调模型。
我们考虑较少限制性的公式,其中模型能够访问源域上的标记数据,并且仅在感兴趣的目标域上未标记的数据,通常称为无监督域自适应(UDA)的设置。
迄今为止,用于文本视频检索的无监督域自适应在文献中受到的关注有限。
在这项工作中,我们提出了一个新的基准,使研究文本-视频检索任务在这一制度下。为此我们利用现有数据集从图1中突出显示的四个领域。
视频检索的无监督域自适应(UDA VR)基准。在这项工作中,我们重新利用来自四个领域的现有数据集来研究在没有目标领域监督的情况下的文本-视频检索任务。这四个领域的视频不仅在视觉构图和持续时间上不同,而且在重点和文字描述的风格上也不同。
意思就是在这四个数据集上进行试验
经验风险最小化的简单应用在适应检索模型时会遇到两种域转移:视频内容/风格转移和描述分布转移。
经验风险最小化
意思就是这些不同的数据集,他们的视频内容/风格和描述都是不一样的。
为了应对这些挑战,我们提出了用于跨域文本视频检索的概念感知伪查询(CAPQ)框架,该框架包括两个技术贡献:一个概念保留正则化器,旨在增强所学嵌入的可传递性(其对视觉和描述分布移位的不变性);以及一种伪标记算法,其目的是确保它们尽可能具有区分性,以便在不访问描述分布的情况下提高目标域上的检索性能。
此外,为了缓解由于简单的伪标签应用而hubness problem(其中一小部分数据样本变得“流行”,即它们形成了许多样本的最近邻居)
枢纽点问题(Hubness problem)
这其实是高维空间中固有的问题:在高维空间中,某些点会成为大多数点的最近邻点
我们提出了一个迭代的互斥选择机制,以避免过度利用少量的伪标签候选项。
综上所述,我们做出了以下贡献:(1)我们提出了第一个自然语言文本-视频无监督域适应基准UDAVR,并使用它来评估现有方法对该任务的适用性。(2)提出了CAPQ方法,该方法利用源监督和未标记的目标数据来实现良好的目标域检索性能。(3)我们证明CAPQ优于单一来源泛化和其他领域适应策略,如最大平均差异变量、对抗学习策略和拟议基准上的交通模型。
方法
总体框架
在本节中,我们描述了视频检索设置中域自适应的总体框架,我们假设访问成对文本和视频样本的源域 S = { v S , t S } S=\{{v^S, t^S}\} S={vS,tS},以及未成对视频的目标域 t = v T t ={v^T} t=vT。本文的目标是构建一个能够学习区分性和可转移性特征的模型,以弥合跨领域差异,为目标领域检索学习良好的联合嵌入空间。它必须在不了解目标域文本分布的情况下这样做。
在这种设置下学习一个好的联合嵌入空间的主要挑战包括:(1)实现对视觉内容/风格变化和描述分布变化的鲁棒性;(2)通过源域学习可转移到未知开放集(自由形式的目标查询)的判别特征。
(图像)合成器(hallucinator)
绿色箭头和红色箭头分别表示来自源域和目标域的信息流。首先,我们采用一组冻结的、预先训练的专家模型F,提取通用特征 F ( v S ) F(v^S) F(vS)和 F ( v T ) F(v^T) F(vT),覆盖一系列语义概念。然后,文本和视频编码器将通用特征投射到文本-视频联合嵌入空间中,生成 φ v i d ( v S ) φ_{vid}(v^S) φvid(vS)、 φ v i d ( v T ) φ_{vid}(v^T) φvid(vT)和 φ t e x t ( t S ) φ_{text}(t^S) φtext(tS)可迁移的判别特征。这些特性是通过多模态的Concept-Preservation-Loss和Ranking-Loss来实现的,要在没有目标文本 t T t^T tT的情况下启用目标域中的排名损失,我们设计了一个新的伪文本选择模块,从嵌入 φ t e x t ( t S ) φ_{text}(t^S) φtext(tS)的无偏源文本池中为 φ v i d ( v T ) φ_{vid}(v^T) φvid(vT)选择“伪文本”。
特征提取:我们首先采用一个冰冻特征提取器F,它包含一个模型集合(通常在文献中被称为专家,通过预先训练(在图像分类、动作识别等任务上)在源域和目标域视频上提取特征。描述符 F ( v S ) F(v^S) F(vS)和 F ( v T ) F(v^T) F(vT)旨在形成内容的通用表示(在大范围的数据集上预训练得到的)。
也就是在图像分类或动作识别等任务上进行预训练的模型,并冻结作为特征extrator,用来提起source和target域视频特征。
视频和文本编码器:video encoder φ v i d φ_{vid} φvid将F(v)作为输入,并投影到视频文本联合嵌入空间
text encoder φ t e x t φ_{text} φtext首先使用预训练的word-level embeddings将每个query sentence t映射到一个特征向量集合,然后通过NetVLAD来聚合这些word-level embeddings,并将最终的文本特征投影到视频文本联合嵌入空间中
Transferable:为了使特征具有可转移性,我们的目标是减少两个域之间的视频嵌入偏移和描述分布偏移。这可以通过利用多模态专家的预训练模型通过概念保留损失的约束来实现。(也就是可以使用一种方法解决),视频编码器φvid和文本编码器φText、概念选择器ψC和幻觉器ψhw协同工作以最小化concept preservation loss LP,目的是来保留先前获得的知识,通过惩罚无法保留预训练模型提供的判别信号的联合空间嵌入。
这段其实不太明白啊
这样,我们可以
(1)在该约束下隐式地减少联合空间中的源和视频嵌入移位;
(2) 鼓励文本编码器将给定样式 A s ( v ) A_s(v) As(v)的注释映射到更通用的 φ t e x t φ_{text} φtext,其中函数 A s ( ⋅ ) A_s(·) As(⋅)表示与源域注释关联的描述样式。此设计的目的是使 φ t e x t ( t ) φ_{text}(t) φtext(t)能够更广泛地访问成对video中的各种语义概念,原则上可以利用这些概念来回答来自目标领域的未知查询。
Discriminative:特征应该是有区别的,例如,成对的文本和视频的嵌入应该在一起,而不匹配的文本和视频的嵌入应该在很远的地方。直观地,我们可以通过一个排名lossl来使用可用的训练对{vS, tS},以使嵌入尽可能具有区别性,但只在源域中,而不是在目标域中。为了解决这个问题,我们提出一个文本互斥选择机制,从最好的无偏文本嵌入集合中选择,并将其分配给目标视频作为目标伪查询嵌入 P T P^T PT,然后,我们通过最小化目标域{vT,pT}中伪对之间的second ranking Loss L t L_t Lt来优化联合视频文本嵌入空间。,最小化损失。
Concept Preservation
旨在保存之前获得的知识,使关节空间中的视频和文本特征都可以转移。
先这样
例如,视频检索系统通常使用经过预训练的模型在ImageNet上执行图像分类(该模型随后将构成特征提取器f的一部分)。在这种情况下,概念选择器表示预训练模型的最终线性层,该层负责将通用描述符 F ( v ) F(v) F(v)的片段转换为ImageNet 1000个概念的分布。
将两个源和目标的概念选择器投影到他们的各自的分布,也就是上面的两条线,
接下来,作者使用预测得到的概念分布y作为一种信号来鼓励视频文本联合嵌入保存预训练模型所具有的概念知识,具体地,作者构建了一个hallucinator ψH (两层MLP),使得embeddings φvid 和 φtext的预测yˆ ∈ RC与 y 保持一致,对于视频和文本,作者使用了相同的ψH ,隐式的对齐两个不同的模态
Discussion on Multi-Modality Features:
由于在视频文本检索任务中, 最近的一些工作是使用了多模态预训练模型特征,作者说明,通过使用Nm个特征提取器{F n, n ∈ [1, 2, …, N M] } .,CAPQ同样可以直接适用于多模态setting,将公式(3)扩展为multi-concept preservation loss
Discriminative Joint Space Learning
使用contrastive margin loss(对比损失)来训练source域的视频文本对,来得到更有鉴别性的嵌入特征
给定来自源域的视频文本对,我们可以通过最小化对比度边际损失来训练判别嵌入进行检索
为了更好地完成跨领域检索任务,我们提出改进联合视频-文本嵌入空间(由ls训练而来)以适应识别目标领域检索的要求。为此,我们提出了一种伪文本选择机制,从无偏文本嵌入φtext(tS)的集合中选择“最佳”,并将“最佳”分配给目标videovTas目标伪文本嵌入pt。(主要就是这个吧,选择最佳的,然后给 P t P_t Pt),我们通过最小化目标视频嵌入 φ v i d ( F ( v T ) ) φ_{vid}(F(v^T)) φvid(F(vT))和所选伪查询嵌入ptas之间的二阶损失ltt来细化关节空间
互斥选择算法
(作者所说的无偏是指对特定的注释器分布无偏))
给定一个无偏文本嵌入φ text(tS),作者通过选择和target视频相似度分数最高的文本嵌入作为伪标签,
但是单单这样做会存在一个问题,尤其对于训练初期,对于target video vi的伪标签文本嵌入,也可能会和同时和其他视频vj产生更高的分数
因此作者设计了一种互斥伪标签选择,通过使用双向softmax操作,首先给定一个相似度矩阵S,沿着文本维度使用softmax,得到Stext,再沿着视频维度使用softmax,得到Svideo,然后将Stext和Svideo相成得到最终的相似度S’
本文提出的互排式伪文本选择方法是专门针对跨模态检索任务而设计的,该方法首先查找所有候选文本和视频,建立平滑的相似度图,最后分配不与其他不同视频查询最接近的“最佳”伪文本。这是与分类任务中使用的传统伪标签机制的关键区别,在传统伪标签机制中,当为不同的视觉查询(即属于同一簇的那些查询)分配相同的伪标签时,不会产生任何惩罚。
[我这里对于无标签的选择有点疑惑,如果存在这种极端问题,就是某些视频确实没有相关的的文本,或者说文本的相关度并不高呢,以及无偏文本集合的选择]
结论
在这项工作中,我们提出了一个新的基准,并在此背景下研究了文本视频检索的无监督域自适应任务。我们介绍了CAPQ框架,并表明它优于标准的域自适应技术。