论文笔记:Mind-the-Gap,Unsupervised Domain Adaptation for Text-Video Retrieval

小心空隙!文本视频检索中的无监督域自适应

  • 摘要
  • 介绍
  • 方法
    • 总体框架
    • Concept Preservation
  • 结论

摘要

什么时候我们可以期望文本视频检索系统在不同于其训练域的数据集上有效地工作?在这项工作中,我们通过无监督的领域适应的视角来研究这个问题,其中的目标是在查询时存在领域转移的情况下匹配自然语言查询和视频内容。这种系统具有重要的实际应用,因为它们能够推广到新的数据源,而不需要相应的文本注释。我们做出了以下贡献:(1)提出了UDAVR(视频检索的无监督域自适应)基准,并将其用于研究存在域移位时的文本视频检索性能。(2) 我们提出了概念感知伪查询(CAPQ),这是一种学习区分性和可转移性特征的方法,可以弥补这些跨域差异,从而使用源域监控实现有效的目标域检索。(3) 我们表明,在UDAVR上,CAPQ优于其他域适应策略。

介绍

给定一个自然语言查询和一个视频池,文本视频检索的目标是根据视频内容与查询的匹配程度对视频进行排序。到目前为止,该领域的大部分工作都依赖于训练数据和测试数据来自同一领域的假设。因此,在不同领域中使用文本-视频检索方法可以收集相应的注释,从而可以在目标数据上重新训练或微调模型。

我们考虑较少限制性的公式,其中模型能够访问源域上的标记数据,并且仅在感兴趣的目标域上未标记的数据,通常称为无监督域自适应(UDA)的设置。

迄今为止,用于文本视频检索的无监督域自适应在文献中受到的关注有限。

在这项工作中,我们提出了一个新的基准,使研究文本-视频检索任务在这一制度下。为此我们利用现有数据集从图1中突出显示的四个领域。
在这里插入图片描述

视频检索的无监督域自适应(UDA VR)基准。在这项工作中,我们重新利用来自四个领域的现有数据集来研究在没有目标领域监督的情况下的文本-视频检索任务。这四个领域的视频不仅在视觉构图和持续时间上不同,而且在重点和文字描述的风格上也不同。

意思就是在这四个数据集上进行试验

经验风险最小化的简单应用在适应检索模型时会遇到两种域转移:视频内容/风格转移和描述分布转移。


经验风险最小化


意思就是这些不同的数据集,他们的视频内容/风格和描述都是不一样的。

为了应对这些挑战,我们提出了用于跨域文本视频检索的概念感知伪查询(CAPQ)框架,该框架包括两个技术贡献:一个概念保留正则化器,旨在增强所学嵌入的可传递性(其对视觉和描述分布移位的不变性);以及一种伪标记算法,其目的是确保它们尽可能具有区分性,以便在不访问描述分布的情况下提高目标域上的检索性能。

此外,为了缓解由于简单的伪标签应用而hubness problem(其中一小部分数据样本变得“流行”,即它们形成了许多样本的最近邻居)

 枢纽点问题(Hubness problem)
这其实是高维空间中固有的问题:在高维空间中,某些点会成为大多数点的最近邻点

我们提出了一个迭代的互斥选择机制,以避免过度利用少量的伪标签候选项。

综上所述,我们做出了以下贡献:(1)我们提出了第一个自然语言文本-视频无监督域适应基准UDAVR,并使用它来评估现有方法对该任务的适用性。(2)提出了CAPQ方法,该方法利用源监督和未标记的目标数据来实现良好的目标域检索性能。(3)我们证明CAPQ优于单一来源泛化和其他领域适应策略,如最大平均差异变量、对抗学习策略和拟议基准上的交通模型。

方法

总体框架

在本节中,我们描述了视频检索设置中域自适应的总体框架,我们假设访问成对文本和视频样本的源域 S = { v S , t S } S=\{{v^S, t^S}\} S={vS,tS},以及未成对视频的目标域 t = v T t ={v^T} t=vT。本文的目标是构建一个能够学习区分性和可转移性特征的模型,以弥合跨领域差异,为目标领域检索学习良好的联合嵌入空间。它必须在不了解目标域文本分布的情况下这样做。

在这种设置下学习一个好的联合嵌入空间的主要挑战包括:(1)实现对视觉内容/风格变化和描述分布变化的鲁棒性;(2)通过源域学习可转移到未知开放集(自由形式的目标查询)的判别特征。

(图像)合成器(hallucinator)
在这里插入图片描述

绿色箭头和红色箭头分别表示来自源域和目标域的信息流。首先,我们采用一组冻结的、预先训练的专家模型F,提取通用特征 F ( v S ) F(v^S) F(vS) F ( v T ) F(v^T) F(vT),覆盖一系列语义概念。然后,文本和视频编码器将通用特征投射到文本-视频联合嵌入空间中,生成 φ v i d ( v S ) φ_{vid}(v^S) φvid(vS) φ v i d ( v T ) φ_{vid}(v^T) φvid(vT) φ t e x t ( t S ) φ_{text}(t^S) φtext(tS)可迁移的判别特征。这些特性是通过多模态的Concept-Preservation-Loss和Ranking-Loss来实现的,要在没有目标文本 t T t^T tT的情况下启用目标域中的排名损失,我们设计了一个新的伪文本选择模块,从嵌入 φ t e x t ( t S ) φ_{text}(t^S) φtexttS的无偏源文本池中为 φ v i d ( v T ) φ_{vid}(v^T) φvidvT选择“伪文本”。

特征提取:我们首先采用一个冰冻特征提取器F,它包含一个模型集合(通常在文献中被称为专家,通过预先训练(在图像分类、动作识别等任务上)在源域和目标域视频上提取特征。描述符 F ( v S ) F(v^S) F(vS) F ( v T ) F(v^T) F(vT)旨在形成内容的通用表示(在大范围的数据集上预训练得到的)。

也就是在图像分类或动作识别等任务上进行预训练的模型,并冻结作为特征extrator,用来提起source和target域视频特征。

视频和文本编码器:video encoder φ v i d φ_{vid} φvid将F(v)作为输入,并投影到视频文本联合嵌入空间

text encoder φ t e x t φ_{text} φtext首先使用预训练的word-level embeddings将每个query sentence t映射到一个特征向量集合,然后通过NetVLAD来聚合这些word-level embeddings,并将最终的文本特征投影到视频文本联合嵌入空间中

Transferable:为了使特征具有可转移性,我们的目标是减少两个域之间的视频嵌入偏移和描述分布偏移。这可以通过利用多模态专家的预训练模型通过概念保留损失的约束来实现。(也就是可以使用一种方法解决),视频编码器φvid和文本编码器φText、概念选择器ψC和幻觉器ψhw协同工作以最小化concept preservation loss LP,目的是来保留先前获得的知识,通过惩罚无法保留预训练模型提供的判别信号的联合空间嵌入。

这段其实不太明白啊

这样,我们可以
(1)在该约束下隐式地减少联合空间中的源和视频嵌入移位;
(2) 鼓励文本编码器将给定样式 A s ( v ) A_s(v) Asv的注释映射到更通用的 φ t e x t φ_{text} φtext,其中函数 A s ( ⋅ ) A_s(·) As表示与源域注释关联的描述样式。此设计的目的是使 φ t e x t ( t ) φ_{text}(t) φtext(t)能够更广泛地访问成对video中的各种语义概念,原则上可以利用这些概念来回答来自目标领域的未知查询。

Discriminative特征应该是有区别的,例如,成对的文本和视频的嵌入应该在一起,而不匹配的文本和视频的嵌入应该在很远的地方。直观地,我们可以通过一个排名lossl来使用可用的训练对{vS, tS},以使嵌入尽可能具有区别性,但只在源域中,而不是在目标域中。为了解决这个问题,我们提出一个文本互斥选择机制,从最好的无偏文本嵌入集合中选择,并将其分配给目标视频作为目标伪查询嵌入 P T P^T PT,然后,我们通过最小化目标域{vT,pT}中伪对之间的second ranking Loss L t L_t Lt来优化联合视频文本嵌入空间。,最小化损失。
在这里插入图片描述

Concept Preservation

旨在保存之前获得的知识,使关节空间中的视频和文本特征都可以转移。

先这样
在这里插入图片描述
例如,视频检索系统通常使用经过预训练的模型在ImageNet上执行图像分类(该模型随后将构成特征提取器f的一部分)。在这种情况下,概念选择器表示预训练模型的最终线性层,该层负责将通用描述符 F ( v ) F(v) F(v)的片段转换为ImageNet 1000个概念的分布。

将两个源和目标的概念选择器投影到他们的各自的分布,也就是上面的两条线,

接下来,作者使用预测得到的概念分布y作为一种信号来鼓励视频文本联合嵌入保存预训练模型所具有的概念知识,具体地,作者构建了一个hallucinator ψH (两层MLP),使得embeddings φvid 和 φtext的预测yˆ ∈ RC与 y 保持一致,对于视频和文本,作者使用了相同的ψH ,隐式的对齐两个不同的模态

Discussion on Multi-Modality Features:
由于在视频文本检索任务中, 最近的一些工作是使用了多模态预训练模型特征,作者说明,通过使用Nm个特征提取器{F n, n ∈ [1, 2, …, N M] } .,CAPQ同样可以直接适用于多模态setting,将公式(3)扩展为multi-concept preservation loss
在这里插入图片描述

Discriminative Joint Space Learning
使用contrastive margin loss(对比损失)来训练source域的视频文本对,来得到更有鉴别性的嵌入特征

给定来自源域的视频文本对,我们可以通过最小化对比度边际损失来训练判别嵌入进行检索

为了更好地完成跨领域检索任务,我们提出改进联合视频-文本嵌入空间(由ls训练而来)以适应识别目标领域检索的要求。为此,我们提出了一种伪文本选择机制,从无偏文本嵌入φtext(tS)的集合中选择“最佳”,并将“最佳”分配给目标videovTas目标伪文本嵌入pt。(主要就是这个吧,选择最佳的,然后给 P t P_t Pt),我们通过最小化目标视频嵌入 φ v i d ( F ( v T ) ) φ_{vid}(F(v^T)) φvid(F(vT))和所选伪查询嵌入ptas之间的二阶损失ltt来细化关节空间

互斥选择算法

(作者所说的无偏是指对特定的注释器分布无偏))
给定一个无偏文本嵌入φ text(tS),作者通过选择和target视频相似度分数最高的文本嵌入作为伪标签,在这里插入图片描述
但是单单这样做会存在一个问题,尤其对于训练初期,对于target video vi的伪标签文本嵌入,也可能会和同时和其他视频vj产生更高的分数

因此作者设计了一种互斥伪标签选择,通过使用双向softmax操作,首先给定一个相似度矩阵S,沿着文本维度使用softmax,得到Stext,再沿着视频维度使用softmax,得到Svideo,然后将Stext和Svideo相成得到最终的相似度S’
在这里插入图片描述

本文提出的互排式伪文本选择方法是专门针对跨模态检索任务而设计的,该方法首先查找所有候选文本和视频,建立平滑的相似度图,最后分配不与其他不同视频查询最接近的“最佳”伪文本。这是与分类任务中使用的传统伪标签机制的关键区别,在传统伪标签机制中,当为不同的视觉查询(即属于同一簇的那些查询)分配相同的伪标签时,不会产生任何惩罚。

[我这里对于无标签的选择有点疑惑,如果存在这种极端问题,就是某些视频确实没有相关的的文本,或者说文本的相关度并不高呢,以及无偏文本集合的选择]

结论

在这项工作中,我们提出了一个新的基准,并在此背景下研究了文本视频检索的无监督域自适应任务。我们介绍了CAPQ框架,并表明它优于标准的域自适应技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29212.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“detail“: “Unsupported media type \“text/plain\“ in request.“

在使用 Postman 的过程中,使用 POST 请求传输数据时,Postman 反馈如下错误 "detail": "Unsupported media type \"text/plain\" in request." 这是由于在传输数据过程中格式选择错误的原因 只要将右下角的 Text 格式转换为…

Dual-stream Network for Visual Recognition论文记录

太长不看版:作者提出了一种DS-net,受resnet启发,设置了4个stage,分别下采样为原图的4,8,16,32倍小。每个stage中含有不同数量的block,作用是可以将输入的tensor按照channel划分为两部…

图像超分辨率论文笔记

持续更新 Progressive Multi-Scale Residual Network for Single Image Super-Resolution 论文链接:https://arxiv.org/pdf/2007.09552.pdf代码:PMRN (暂未公开)发表时间:2020.7网络结构: 1)包…

【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection

* Exploring Temporal Coherence for More General Video Face Forgery Detection 题目:探索更一般的视频人脸伪造检测的时间相干性 1.概述 时间相干性网络组成: 第一阶段是一个全时间卷积网络(FTCN)。FTCN的关键见解是 将空间卷…

视频超分辨率论文笔记

持续更新 Video Super-Resolution via Deep Draft-Ensemble Learning 论文链接:http://openaccess.thecvf.com/content_iccv_2015/papers/Liao_Video_Super-Resolution_via_ICCV_2015_paper.pdf代码:http://www.cse.cuhk.edu.hk/leojia/projects/DeepS…

【超分辨率】SRCNN论文笔记

论文名称:Image Super-Resolution Using Deep Convolutional Networks 论文下载地址:https://arxiv.org/pdf/1501.00092.pdf 翻译参考:https://blog.csdn.net/PPLLO_o/article/details/90040801 1.论文概述 1.SRCNN算是深度学习在图像超分辨…

版面分析:[ICCV2017] Fast CNN-based document layout analysis

论文链接:https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w18/Oliveira_Fast_CNN-Based_Document_ICCV_2017_paper.pdf 自动文档布局分析是认知计算和从文档图像中提取信息的过程中的关键步骤,如特定领域知识数据库创建、图形和图像…

论文笔记之数据增广(1):mixup

mixup:BEYOND EMPIRICAL RISK MINIMIZATION 文章:https://arxiv.org/pdf/1710.09412.pdf 代码:github 作者:张宏毅 mixupBEYOND EMPIRICAL RISK MINIMIZATION 摘要背景 引入贡献 方法 公式理解 实验讨论 摘要 如今大规模深度…

【图像超分辨率重建】——EnhanceNet论文精读笔记

2017-EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis(EnhanceNet) 基本信息 作者: Mehdi S. M. Sajjadi Bernhard Scholkopf Michael Hirsch 期刊: ICCV 引用: * 摘要: 单一图像超分辨率是指从…

旷视CVPR2019图卷积多标签图像识别Multi-Label Image Recognition with Graph Convolutional Networks论文详解

背景:GCN刚出来,很多很容易想到的idea会被运用起来,很容易产生一些paper。我们解析此篇论文,了解其中原理,一来看看如何将图卷积应用于目前技术上,二来看到底如何快速的把准确率刷到state of the art以便发…

Hierarchical Modular Network for Video Captioning【论文阅读】

Hierarchical Modular Network for Video Captioning 发表:CVPR 2022代码:HMNidea:现有方法在有监督学习的框架下比较生成句子与标注,没有对语义有详尽的探索。基于此,作者考虑从三个层面来连接视频特征和语义&#x…

CVPR2019超分辨率文章:Meta-SR,任意输入upsample factor的超分辨率网络

论文地址 CVPR2019的新文章,主要是针对以前超分辨率问题中需要固定上采样因子的问题作出的改进。 摘要 随着DNN的发展,超分辨率技术得到了巨大的改进。但是,超分辨率问题中的任意scale factor问题被忽视了很久。前面的很多工作都是把不同s…

GAIDC大会:飞桨邀你来大模型技术与应用论坛

深度学习大规模预训练模型的兴起,以其极强的通用能力和突破性的效果,正推动通用人工智能(AGI)快速发展,并带来了AI研发应用新范式,逐步改变AI生态格局。近期以大规模语言模型为基础的技术工作,展…

人工智能大模型多场景应用原理解析

​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan 前言 在上篇文章《人工智能大模型之ChatGPT原理解析》中分享了一些大模型之ChatGPT的核心原理后,收到大量读者的反馈,诸如:在了解了核心原理后想进一步了解未来的发展…

3日行程安排

22号 13:30出发到峡山码头坐船--横山岛景区 峡山码头 船费:来回70r 固定开船时间:9:30,12:00,14:00 或者🈵️12人自动开船,最晚4点有船返回 岛上风景 逛山海“小普陀”寺庙普南禅院,被誉为宁…

托福备考经验心得

综述 托福备考准备经验与心得。全部都是个人的反思,带有个人的观点色彩,按需自取即可。首先是几个深刻的经验教训: 对备考的强度要有一个基本的把握,之前一方面在忙别的事情一方面备考感觉自己成效不是特别明显 (可能是我本人能…

初识托福TOEFL口语

对于想要准备托福的童鞋,并不怎么了解托福考试内容的可以看一看,本文主要给大家分享下托福考试中口语部分介绍。 托福考试中总共有4个部分,第一个部分是Reading(阅读),第二个部分是(Listening&…

chatgpt赋能Python-pycharm自动纠错

Pycharm自动纠错:提高开发效率,减少犯错 随着Python语言的流行,Pycharm成为了众多Python工程师的首选IDE之一。Pycharm具有丰富的功能,其中之一就是自动纠错。本文将介绍Pycharm自动纠错的优点和如何正确使用它来提高开发效率&am…

KFC - VME = 50

KFC - VME 50 CalHeightFromPointToPlane.java_spencer_tseng的博客-CSDN博客

kfc 商家地址获取

简单获取商家地址(kfc) 学习源址 基本的查找url,请求方式我也是在上面的链接中学到的,在此就不赘述了,只是重点分享和记录一下自己遇到的一些bug 代码 import requestsurl http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyw…