Probabilistic Embeddings for Cross-Modal Retrieval 论文阅读

Probabilistic Embeddings for Cross-Modal Retrieval 论文阅读

  • Abstract
  • 1. Introduction
  • 2. Related work
  • 3. Method
    • 3.1. Building blocks for PCME
      • 3.1.1 Joint visual-textual embeddings
      • 3.1.2 Probabilistic embeddings for a single modality
    • 3.2. Probabilistic cross-modal embedding (PCME)
      • 3.2.1 Model architecture
      • 3.2.2 How does our loss handle multiplicity, really?
      • 3.2.3 Test-time variants
  • 4. Experiments
  • 5. Conclusion

文章信息:

在这里插入图片描述

发表于:2021 CVPR

原文链接:https://openaccess.thecvf.com/content/CVPR2021/html/Chun_Probabilistic_Embeddings_for_Cross-Modal_Retrieval_CVPR_2021_paper.html

源码:https://github.com/naver-ai/pcme

Abstract

跨模态检索方法通过为来自多个模态的样本构建一个公共表示空间,通常涉及视觉和语言领域。对于图像及其对应的文字说明,由于其对应关系的多样性,这项任务尤其具有挑战性。给定一个图像(或文字说明),可能有多个文字说明(或图像)同样合理。在本文中,我们认为确定性函数不足以捕捉这种一对多的对应关系。相反,我们提出使用概率跨模态嵌入(PCME),在这种方法中,来自不同模态的样本被表示为公共嵌入空间中的概率分布。由于诸如COCO这样的常用基准在跨模态匹配的标注上并不完全,我们建议进一步在CUB数据集上进行检索评估,该数据集虽然较小但标注完整,涵盖了所有可能的图像-文字配对。我们对PCME进行了广泛的消融实验,证明它不仅提高了检索性能,相比其确定性对照组,还提供了不确定性估计,使嵌入更加可解释。

1. Introduction

在这里插入图片描述

图1.我们提出使用概率嵌入来表示图像和它们的字幕在一个适合于跨模态检索的公共嵌入空间中的概率分布。这些分布很好地模拟了视觉场景中出现的概念的多样性所导致的不确定性,并且隐含地执行了这些概念之间的多对多匹配。

给定来自不同模态的查询和数据库,跨模态检索的任务是检索与查询最相关的数据库项。大多数关于该主题的研究都集中在图像和文本模态上 [5, 9, 25, 51, 58]。通常,方法通过估计嵌入函数,将视觉和文本输入映射到一个公共嵌入空间中,这样跨模态检索任务就简化为熟悉的欧几里得空间中的最近邻检索任务 [9, 51]。

为多个模态构建一个公共表示空间是一个具有挑战性的任务。考虑一张图像,展示了一群人在站台上准备上火车(图1)。对此图像可能有多个合适的文字说明。“人们在站台上等候上火车”和“地铁进站停在一个大站台”是COCO [5] 标注者给出的两个选项。因此,公共表示必须处理图像可能对应多个不同的文字说明这一事实。反过来,给定一个文字说明,可能存在该说明在视觉形式上的多种体现。图像-文本配对中这种多对多的对应关系部分源于模态之间的不同性质。视觉场景的所有不同组成部分都在一张照片中被全面且被动地捕捉,而语言描述则是基于对场景中关键相关概念的有意识选择。因此,图像和文本模态的公共表示空间需要能够建模双向的一对多映射。

依赖普通函数的标准方法无法满足这一必要条件:它们只能量化一对一的关系 [9, 51]。已经有一些方法尝试引入多义性。例如,Song 和 Soleymani [45] 通过让嵌入函数为给定输入提出K个候选表示,提出了多义性视觉语义嵌入(PVSE)。PVSE已被证明在匹配任务中成功捕捉了多义性,并在构建于一对一函数的基线上取得了改进。其他人 [25] 则通过预训练的对象检测器获得区域嵌入,建立了多个区域-词汇的匹配。这一策略在显著提升性能的同时,也带来了显著的计算成本增加。

在这项工作中,我们提出了概率跨模态嵌入(PCME)。我们认为,概率映射是一种有效的表示工具,它不需要像基于检测的方法那样明确表示多对多关系,并且还提供了许多优势。首先,PCME生成的不确定性估计能够带来一些有用的应用,如估计查询的难度或失败的可能性。其次,概率表示能够构建一个更丰富的嵌入空间,在其中集合代数有意义,而确定性方法只能表示相似性关系。第三,PCME可以与确定性检索系统互补。虽然一对一对应的假设对于该方法有害,但同样的假设也在评估基准中引入了混乱。例如,MS-COCO [5] 在跨模态匹配的标注上并不全面。最好的解决方案是明确并人工标注所有的图像-文字配对以进行评估。然而,这一过程难以扩展,尤其是对于像COCO这样的大规模数据集。相反,我们提出使用CUB [55] 构建一个较小但更干净的跨模态检索基准,并提供更合理的评估指标。

我们的贡献如下:

(1) 我们提出了概率跨模态嵌入(PCME),以在跨模态检索中正确表示联合嵌入空间中的一对多关系。

(2) 我们识别了现有跨模态检索基准的缺陷,并提出了替代解决方案。

(3) 我们利用PCME提供的不确定性估计对联合嵌入空间进行了分析,并展示了如何产生直观的属性。

2. Related work

Cross-modal retrieval.在这项工作中,我们关注图像与文本的跨模态检索。大量研究致力于学习度量空间,以共同嵌入图像和句子 [8, 9, 10, 18, 25, 45, 47]。早期的研究 [11, 23] 依赖于典型相关分析(CCA)[13] 来构建联合嵌入空间。Frome 等人 [10] 使用基于两种模态构建的三元组的铰链排序损失。Wang 等人 [51] 扩展了这一想法,通过对单模态的三元组进行训练,以保持每种模态在联合空间中固有的结构。Faghri 等人 [9] 提出使用三元组损失来学习这种空间,并仅针对查询-正样本对采样最难的负样本。

依赖单一全局表示的一个缺点是,它无法表示图像或文字说明中存在的语义概念的多样性。先前的研究 [16, 54] 观察到视觉语义嵌入空间中存在一对一和多对多匹配的差异,这些空间通过为每个图像或文字说明使用一个或多个嵌入表示来表征。Song 和 Soleymani [45] 通过对局部描述符应用多头自注意力机制,为每个图像或句子构建了多个全局表示。其他方法使用区域级和词汇级描述符,通过多对多匹配构建全局图像-文本相似性。Li 等人 [25] 采用图卷积网络 [22] 对从 Faster-RCNN [40] 检测器获得的区域建议进行语义推理。Veit 等人 [49] 提出了条件嵌入方法来解决多个标签的多样性问题,但它不依赖于联合嵌入空间,因此无法直接应用于跨模态检索。

最近,解决多对多图像-句子匹配最成功的方法是通过在独立的区域级编码器之上附加联合视觉和文本推理模块 [24, 28, 30, 31, 34, 53, 54, 60]。此类方法大多涉及跨模态注意力网络,并在跨模态检索任务中报告了最新的成果。然而,这也导致了测试时计算成本的大幅增加:查询和每个数据库条目形成的配对都需要经过推理模块。为了提高可扩展性,我们选择基于直接利用联合嵌入空间且兼容大规模索引的方法。

最后,与我们的工作同时进行的Wray等人 [56] 研究了跨模态视频检索,并讨论了评估中一对一对应假设的类似局限性。他们建议使用基于字幕计算的语义相似代理,以便在标准视频检索数据集上进行更可靠的评估。

Probabilistic embedding.数据的概率表示在机器学习中有着悠久的历史 [32]。2014年,概率表示被引入到词嵌入中 [50],因为它能够优雅地处理语言中的固有层次结构。自那时以来,一系列研究探索了不同的分布家族来表示词汇 [26, 35, 36]。最近,概率嵌入被引入视觉任务中。Oh等人 [37] 提出了对冲实例嵌入(HIB),以处理度量学习中的一对多对应关系,而其他工作则将概率嵌入应用于人脸理解 [43, 3]、二维到三维姿势估计 [46]、说话人分离 [44] 和原型嵌入 [42]。我们的工作将HIB扩展到图像和文字说明之间的联合嵌入,以表示两个领域中不同的细粒度层次,并隐式捕捉由此产生的一对多关联。最近,Schönfeld等人 [41] 利用变分自编码器 [20] 进行零样本识别。他们的潜在空间在概念上与我们相似,但学习和使用方式完全不同:他们使用2-Wasserstein距离作为分布对齐损失,并在上面学习分类器,而PCME使用概率对比损失,使我们能够直接使用潜在特征进行检索。据我们所知,PCME是首个将概率嵌入用于多模态检索的工作。

3. Method

在这里插入图片描述

图2。方法概述。展示了概率跨模态嵌入(PCME)的视觉和文本编码器。每种模态输出在 R D \mathbb{R}^D RD 中的均值和方差向量,这些向量表示 R D \mathbb{R}^D RD 中的正态分布。

在本节中,我们将介绍我们的概率交叉模态嵌入(PCME)框架,并讨论其概念工作和优势。

我们首先定义跨模态检索任务。设 D = ( C , I ) \mathcal{D}=(\mathcal{C},\mathcal{I}) D=(C,I) 表示视觉和语言数据集,其中 I \mathcal{I} I 是图像集, C \mathcal{C} C 是文字说明集。两个集合通过真实匹配连接在一起。对于文字说明 c ∈ C c\in\mathcal{C} cC (分别地,对于图像 i ∈ I i\in\mathcal{I} iI),对应的图像集合(分别地,文字说明集合)由 τ ( c ) ⊆ I \tau(c)\subseteq\mathcal{I} τ(c)I (分别地 τ ( i ) ⊆ C \tau(i)\subseteq\mathcal{C} τ(i)C)给出。请注意,对于每个查询 q q q,可能存在多个跨模态匹配 ( ∣ τ ( q ) ∣ > 1 ) (|\tau(q)| > 1) (τ(q)>1)。处理这种多样性将是我们研究的核心重点。

跨模态检索方法通常学习一个嵌入空间 R D \mathbb{R}^D RD,以便将“相似性”的主观概念量化为两个向量之间的距离。为此,学习了两个嵌入函数 f V f_{\mathcal{V}} fV f T f_{\mathcal{T}} fT,用于将图像和文本样本映射到公共空间 R D \mathbb{R}^D RD 中。

3.1. Building blocks for PCME

我们为PCME引入了两个关键要素:联合视觉-文本嵌入和概率嵌入。

3.1.1 Joint visual-textual embeddings

我们描述了如何学习视觉和文本编码器。随后,我们介绍了此前解决跨模态关联多样性的尝试。

Visual encoder f V . f_{\mathcal{V}}. fV. 我们使用 ResNet 图像编码器 [14]。设 z v = g V ( i ) : I → R h × w × d v z_v=g_{\mathcal{V}}(i):\mathcal{I}\to\mathbb{R}^{h\times w\times d_v} zv=gV(i):IRh×w×dv 表示全局平均池化 (GAP) 层之前的输出。视觉嵌入通过 v = h ν ( z v ) ∈ R D v=h_\nu(z_v)\in\mathbb{R}^D v=hν(zv)RD 计算,在最简单的情况下, h ν h_\nu hν 是 GAP 后接一个线性层。我们修改了 h V h_{\mathcal{V}} hV,使其预测的是分布,而不是一个点。

Textual encoder f T . f_{\mathcal{T}}. fT. 给定一个文字说明 c c c,我们构建词汇级描述符的数组 z t = g T ( c ) ∈ R L ( c ) × d t z_t=g_{\mathcal{T}}(c)\in\mathbb{R}^{L(c)\times d_t} zt=gT(c)RL(c)×dt,其中 L ( c ) L(c) L(c) c c c 中的词数。我们使用预训练的 GloVe [38]。句子级特征 t t t 由双向 GRU [6] 生成: t = h T ( z t ) t=h_\mathcal{T}(z_t) t=hT(zt),它位于 GloVe 特征之上。

Losses used in prior work. 联合嵌入通常通过对比损失或三元组损失学习 [9,10]。

Polysemous visual-semantic embeddings (PVSE) [45] 旨在为跨模态检索建模一对多匹配关系。PVSE 在视觉和文本特征之上采用多头注意力模块,以对每个模态编码 K K K 个可能的嵌入。对于视觉情况,每个视觉嵌入 v k ∈ R D v^k\in\mathbb{R}^D vkRD,其中 k ∈ { 1 , … , K } k\in\{1,\ldots,K\} k{1,,K},其计算公式为:
v k = LN ( h V ( z v ) + s ( w 1 att V k ( z v ) z v ) ) v^k=\text{LN}\left(h_\mathcal{V}(z_v)+s(w^1\text{att}_\mathcal{V}^k(z_v)z_v)\right) vk=LN(hV(zv)+s(w1attVk(zv)zv))
其中, w 1 ∈ R d v × D w^1\in\mathbb{R}^{d_v\times D} w1Rdv×D 是全连接层的权重, s s s 是 Sigmoid 函数,LN 是层归一化 (LayerNorm) [1],att V k _{\mathcal{V}}^{k} Vk 表示视觉自注意力 att ν _{\nu} ν 的第 k k k 个注意力头。文本嵌入 t k t^k tk 对于 k ∈ { 1 , … , K } k\in\{1,\ldots,K\} k{1,,K} 通过多头注意力对称地给出:
t k = LN ( h T ( z t ) + s ( w 2 att C k ( z t ) z t ) ) t^k=\text{LN}\left(h_{\mathcal{T}}(z_{t})+s(w^{2}\text{att}_{\mathcal{C}}^{k}(z_{t})z_{t})\right) tk=LN(hT(zt)+s(w2attCk(zt)zt))
PVSE 通过多实例学习 (MIL) 目标来学习视觉和文本编码器,其中仅监督 K 2 K^{2} K2 个可能视觉-文本嵌入对中最优的那个配对。

3.1.2 Probabilistic embeddings for a single modality

我们的PCME将每个样本建模为一个分布,基于Hedged Instance Embeddings (HIB) [37]进行扩展,这是一种用于表示实例为分布的单模态方法。HIB 是对比损失 [12] 的概率类比。HIB 训练一个概率映射 p θ ( z ∣ x ) p_\theta(z|x) pθ(zx),它不仅保留了成对语义相似性,还代表了数据中的内在不确定性。我们在此描述HIB的关键组成部分。

Soft contrastive loss.为了训练 p θ ( z ∣ x ) p_\theta(z|x) pθ(zx) 捕捉成对相似性,HIB 提出了对比损失 [12] 的软版本,该损失广泛用于训练深度度量嵌入。对于一对样本 ( x α , x β ) (x_\alpha, x_\beta) (xα,xβ),损失定义为:
在这里插入图片描述
其中 p θ ( m ∣ x α , x β ) p_\theta(m|x_\alpha,x_\beta) pθ(mxα,xβ)是匹配概率。

Factorizing match probability.[37] 将 p θ ( m ∣ x α , x β ) p_\theta(m|x_\alpha, x_\beta) pθ(mxα,xβ) 分解为基于嵌入的匹配概率 p ( m ∣ z α , z β ) p(m|z_\alpha, z_\beta) p(mzα,zβ) 和编码器 p θ ( z ∣ x ) p_\theta(z|x) pθ(zx)。这是通过蒙特卡罗估计实现的:

在这里插入图片描述

其中 z j z^j zj 是从嵌入分布 p θ ( z ∣ x ) p_\theta(z|x) pθ(zx) 中采样的。为了使梯度能够流动,嵌入分布应当是适合重参数化技巧 [21] 的。

Match probability from Euclidean distances.我们计算样本匹配概率如下:

在这里插入图片描述

其中 ( a , b ) (a, b) (a,b) 是可学习的标量, s ( ⋅ ) s(\cdot) s() 是 Sigmoid 函数。

3.2. Probabilistic cross-modal embedding (PCME)

我们描述了如何学习一个联合嵌入空间,以便使用 PCME 实现概率表示。

3.2.1 Model architecture

在这里插入图片描述

图3。头模块。视觉和文本头 ( h ν , h τ ) (h_\nu, h_\tau) (hν,hτ) 具有相同的结构,除了特定于模态的模块(a)。均值(b)和方差(c)的计算有所不同:方差模块不涉及 sigmoid 函数 s ( ⋅ ) s(\cdot) s()、LayerNorm (LN) 和 L2 投影。

PCME 的概述如图 2 所示。PCME 将图像 i i i 和文字说明 c c c 表示为在相同嵌入空间 R D \mathbb{R}^D RD 上的正态分布,分别为 p ( v ∣ i ) p(v|i) p(vi) p ( t ∣ c ) p(t|c) p(tc)。我们用均值向量和对角协方差矩阵在 R D \mathbb{R}^D RD 中来参数化正态分布。

在这里插入图片描述

其中 z v = g V ( i ) z_v = g_\mathcal{V}(i) zv=gV(i) 是特征图, z t = g T ( c ) z_t = g_\mathcal{T}(c) zt=gT(c) 是特征序列 ( § 3.1.1 ) (\S\color{red}3.1.1) (§3.1.1)。对于每种模态,两个头模块 h μ h^\mu hμ h σ h^\sigma hσ 分别计算均值向量和方差向量。接下来将描述这两个模块。

Local attention branch.受到 PVSE 架构的启发 ( § 3.1.1 ) (\S\color{red}3.1.1) (§3.1.1),我们考虑在图像和文本编码器的头模块 ( h μ , h σ ) (h^\mu, h^\sigma) (hμ,hσ) 中追加一个局部注意力分支。具体细节见图 3。局部注意力分支包括对空间特征的自注意力聚合,然后是一个带有 Sigmoid 激活函数的线性层。我们将通过消融实验展示,这个额外的分支有助于更有效地聚合空间特征,从而提高性能。

Module for µ versus σ.。图 3 展示了头模块 h μ h^\mu hμ h σ h^\sigma hσ。对于 h V μ h_\mathcal{V}^\mu hVμ h T μ h_\mathcal{T}^\mu hTμ,我们在局部注意力分支中应用 Sigmoid,并添加残差输出。随后应用 LayerNorm (LN) [1] 和 L2 投影操作 [45,48]。对于 h V σ h_\mathrm{\mathcal{V}}^\sigma hVσ h T σ h_\mathrm{\mathcal{T}}^\sigma hTσ,我们发现 Sigmoid 和 LN 操作过度限制了表示,导致不良的 uncertainty 估计(在 §D 中讨论)。因此,我们不对 uncertainty 模块使用 Sigmoid、LN 和 L2 投影。

Soft cross-modal contrastive loss.学习联合概率嵌入的目标是学习映射 p ( v ∣ i ) = p θ v ( v ∣ i ) p(v|i) = p_{\theta_v}(v|i) p(vi)=pθv(vi) p ( t ∣ c ) = p θ t ( t ∣ c ) p(t|c) = p_{\theta_t}(t|c) p(tc)=pθt(tc) 的参数。我们采用公式 ( 1 ) (\color{red}1) (1) 中的概率嵌入损失,其中匹配概率现在基于交叉模态对 ( i , c ) (i, c) (i,c) L e m b ( θ v , θ t ; i , c ) {\mathcal{L}}_{\mathrm{emb}}(\theta_v, \theta_t; i, c) Lemb(θv,θt;i,c),其中 θ = ( θ v , θ t ) \theta = (\theta_v, \theta_t) θ=(θv,θt) 是视觉和文本编码器的参数。匹配概率现在定义为视觉和文本特征的函数: p θ ( m ∣ i , c ) ≈ 1 J 2 ∑ j = 1 J ∑ j ′ = 1 J s ( − a ∥ v j − t j ′ ∥ 2 + b ) p_\theta(m|i, c) \approx \frac{1}{J^2} \sum_{j=1}^J \sum_{j'=1}^J s(-a \|v^j - t^{j'}\|_2 + b) pθ(mi,c)J21j=1Jj=1Js(avjtj2+b),其中 v j v^j vj t j ′ t^{j'} tj 遵循公式 (4) 中的分布。

Additional regularization techniques.我们考虑两种额外的损失函数来正则化学习到的不确定性。参考文献 [37],我们通过引入学习到的分布与标准正态分布 N ( 0 , I ) \mathcal{N}(0,I) N(0,I) 之间的 KL 散度损失,来防止学习到的方差趋近于零。我们还使用了最近在文献 [52] 中引入的均匀性损失,该损失是在小批量中的所有嵌入之间计算的。更多细节请参见 §A.1。

Sampling SGD mini-batch.我们首先从 G \mathcal{G} G 中采样 B B B 个真实图像-标题匹配对 ( i , c ) (i, c) (i,c)。在采样的子集中,我们考虑每一个由真实匹配决定的正负对。这将导致在我们的小批量中有 B B B 个匹配对和 B ( B − 1 ) B(B-1) B(B1) 个不匹配对。

Measuring instance-wise uncertainty.为每个输入预测的协方差矩阵表示数据的固有不确定性。对于标量不确定性度量,我们取协方差矩阵的行列式,或等效地取 σ \sigma σ 的几何均值。直观上,这测量了分布的体积。

3.2.2 How does our loss handle multiplicity, really?

我们进行梯度分析,以研究我们在方程 (1) 中的损失函数如何处理交叉模态匹配中的多重性以及学习数据中的不确定性。在 §A.2 中,我们进一步将其与 PVSE (§3.1.1, [45]) 使用的多实例学习(MIL)损失进行关联。
我们首先定义距离对数值: l j j ′ : = − a ∥ v j − t j ′ ∥ 2 + b l_{jj^{\prime }} := - a\| v^j - t^{j^{\prime }}\| _2 + b ljj:=avjtj2+b,并比较不同 ( j , j ′ ) (j, j^{\prime}) (j,j) 值下的监督量。为此,取 l j j ′ l_{jj^{\prime }} ljj 的梯度。

在这里插入图片描述

w j j ′ : = e ± l j j ′ ∑ α α ′ e ± l α α ′ w_{jj'} := \frac{e^{\pm l_{jj'}}}{\sum_{\alpha \alpha'} e^{\pm l_{\alpha \alpha'}}} wjj:=ααe±lααe±ljj,其中 ± \pm ± 表示匹配的正负性。

我们首先观察到,如果 w j j ′ = 1 w_{jj^{\prime}}=1 wjj=1,那么公式 (5) 就完全是来自软对比损失(公式 (1))的监督。因此,正是 w j j ′ w_{jj^{\prime}} wjj 这一项使得模型能够学习多重性并表示相关的不确定性。

为了研究 w j j ′ w_{jj^{\prime}} wjj 的行为,首先假设 ( v , t ) (v, t) (v,t) 是一个正对。此时, w j j ′ w_{jj^{\prime}} wjj 是 pairwise logits 的 softmax。因此,距离较小的对 ∥ v j − t j ′ ∥ 2 \|v^j - t^{j^{\prime}}\|_2 vjtj2 会比距离较大的对具有更大的权重 w j j ′ w_{jj^\prime} wjj。类似地,如果 ( v , t ) (v, t) (v,t) 是一个负对,则 w j j ′ w_{jj^{\prime}} wjj 会在距离较远的对上分配更大的权重,而在距离较近的对上分配较小的权重。换句话说, w j j ′ w_{jj^{\prime}} wjj 对那些在嵌入空间中正确预测距离关系的对赋予更多权重。这种奖励结构使得错误的相似度预测不会受到显著惩罚,只要至少有一个正确的相似度预测即可。这种奖励机制鼓励嵌入生成更多的多样样本,并通过非零的 σ \sigma σ 预测来对结果进行保留。

3.2.3 Test-time variants

与使用交叉模态推理模块的方法不同(如 [24,28,30,31,34,53,54,60]),PCME 在测试时计算匹配概率的过程简化为计算成对的欧几里得距离。这意味着,PCME 的概率嵌入可以以多种方式用于计算测试时的匹配概率,不同的变体具有不同的计算复杂性。这些选项分为两组:

  1. 基于采样的变体。类似于训练阶段,可以使用 Monte-Carlo 采样(见公式(2))来近似匹配概率。假设有 J J J 个样本,这需要对每个匹配进行 O ( J 2 ) O(J^2) O(J2) 次距离计算,以及为每个数据库条目分配 O ( J 2 ) O(J^2) O(J2) 的空间。这意味着 J J J 在测试时复杂性中扮演了重要角色。

  2. 非采样变体。可以直接使用基于 μ \mu μ 的距离来近似匹配概率。在这种情况下,时间和空间复杂度变为 O ( 1 ) O(1) O(1)。我们在实验中对这种变体(“仅 μ \mu μ”)进行了消融,因为它与确定性方法直接可比。我们还可以使用任何具有闭式表达式的分布距离度量来处理高斯分布。例如,2-Wasserstein 距离、Jensen-Shannon (JS) 散度和预期似然核 (ELK)。我们也对这些进行了消融。每种概率距离的详细信息可以在 §B 中找到。

4. Experiments

在这里插入图片描述

在这里插入图片描述

5. Conclusion

我们提出了概率跨模态嵌入(Probabilistic Cross-Modal Embedding,PCME),该方法在嵌入空间中学习多模态数据的概率表示。该概率框架为建模图像和描述对之间广泛存在的一对多关联提供了一种强大的工具。据我们所知,这是首个在多模态任务中使用概率嵌入的方法。我们对PCME进行了广泛的消融实验,结果表明它不仅在检索性能上优于其确定性对应方法,还提供了不确定性估计,使得嵌入更加具有可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/423603.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Xcode 16 RC (16A242) 发布下载,正式版下周公布

Xcode 16 RC (16A242) - Apple 平台 IDE IDE for iOS/iPadOS/macOS/watchOS/tvOS/visonOS 请访问原文链接:https://sysin.org/blog/apple-xcode-16/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org Xcode 16 的新功…

开源项目低代码表单FormCreate中通过接口加载远程数据选项

在开源项目低代码表单 FormCreate 中,fetch 属性提供了强大的功能,允许从远程 API 加载数据并将其应用到表单组件中。通过灵活的配置,fetch 可以在多种场景下发挥作用,从简单的选项加载到复杂的动态数据处理。 源码地址: Github …

软考中项(第三版) 项目成本管理总结

前言 系统集成项目管理工程师考试(简称软考中项),其中案例分析也是很大一部分考试内容,目前正在学习中,现总结一些可能会考到的知识点供大家参考。 1.1、项目成本管理总线索 1、项目成本失控的原因 (1&a…

每日处理250亿个事件,Canva如何应对数据洪流

在这个数据被称为“新石油”的时代,如何有效地处理海量信息流显得尤为重要。作为广受欢迎的设计平台,Canva不仅因其用户友好的界面而备受关注,还因其高效利用Amazon Kinesis管理每日高达250亿个事件而成为热议焦点。让我们深入探讨Canva是如何…

Java 算法:随机抽题

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 ✨特色专栏&#xff1a…

W外链怎么做微信推广链接?

"W外链"通常指的是一种可以创建短链接或者特殊功能的链接服务,这些链接可以用来在微信等社交平台上进行推广。由于微信对直接链接分享有一定的限制,使用这类服务可以帮助绕过这些限制,从而实现更有效的推广。 以下是使用W外链创建微…

Mysql JSON结果不能IN

开发中遇到这样一种场景,举例说音乐的专辑包含歌曲,假设歌曲放在music表,专辑放在album表,而专辑与歌曲的绑定关系,要么就存一个关联表music_ablum,要么就存一个json字段(music_list)在album表。 存一个关…

【Unity踩坑】使用Input System后UI EventSystem的冲突

在项目中使用Input System,在UI中添加了元素后,再次运行出现下面的错误: InvalidOperationException: You are trying to read Input using the UnityEngine.Input class, but you have switched active Input handling to Input System pac…

关于 vue/cli 脚手架实现项目编译运行的源码解析

1.vue项目运行命令解析 在日常开发中,vue 项目通过vue-cli-service脚手架包将项目运行起来,常用的命令例如: npm run serve npm run build 上述执行命令实际一般对应为项目中 package.json 文件的 scripts属性中编写的脚本命令,在…

亚马逊、沃尔玛、敦煌网、Target塔吉特、Temu环境搭建测评技术!

海外跨境电商各大主要平台正不断力推半托管模式,不断对商家开出众多吸引和扶持政策。全托管是指电商平台全面负责店铺的运营,包括仓储、配送、售后等,而商家主要负责提供货品。半托管模式则基本由商家自主经营,平台只负责仓配物流…

延迟退休,如何影响程序员?

随着人们对长寿的期待增加,延迟退休的趋势逐渐成为了现实。而对于已经面临35岁危机的程序员们来说,延迟退休可能是一个更常见的问题。 可以对照速查一下,延迟法定退休年龄时间表公布,你什么时候能退休? 对照速查&…

单机快速部署开源、免费的分布式任务调度系统——Apache DolphinScheduler

本文主要为大家介绍Apache DolphinScheduler的单机部署方式,方便大家快速体验。 环境准备 需要Java环境,这是一个老生常谈的问题,关于Java环境的安装与配置期望大家都可以熟练掌握。 验证java环境 java -version 下载安装包并解压 使用wg…

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而,尽管它们能够实现最先进的结果,大多数方法的计算开销很大,需要大量资源来实时运行。在下文中,我们基于之前的工作,开发了SRT3D&…

低空经济火爆:先考个无人机飞行执照傍身

随着低空经济的火爆,考取无人机飞行执照成为了越来越多人的选择。这不仅是对自身技能的提升,更是对未来职业发展的有力支撑。以下是对考取无人机飞行执照相关信息的详细解析: 一、低空经济与无人机飞行执照的关联性 低空经济作为战略性新兴…

Apache DolphinScheduler 跨工作流复杂依赖功能详解

大家好,我叫高楚枫,来自阿里云 EMR 团队的开发工程师,同时也是 Apache DolphinScheduler 的 PMC 成员之一。 今天非常高兴能在这里和大家分享关于跨工作流复杂依赖的功能详解。 引言 在现代的数据处理和调度过程中,工作流的依赖…

城市治理如何提升效率?推荐搭建城市综合治理平台!

随着城市化的快速发展,城市治理面临着前所未有的挑战。交通拥堵、环境污染、公共安全等问题日益凸显,传统的治理模式已难以满足现代城市的需求。在这样的背景下,提升城市治理效率成为了一个亟待解决的问题。本文将探讨如何通过搭建城市综合治…

Linux下如何使用CMake实现动态库的封装与调用

一、动态库的封装 1.创建工程 首先创建一个qt工程(这里我采用的是ui工程) 这里选择Widget工程 名字取一个和动态库相关的即可,我这里取的UIDLL 这里选择CMake 这里我选择命名为Dynamic kits采用Qt 5.14.2 GCC 64bit,之后直接下一…

智慧人居视音频解决方案探究和技术实现

智慧人居技术背景 智慧人居是一种利用先进技术和智能化系统,旨在提升居住环境的舒适性、便捷性和安全性的新型居住模式。随着物联网、大数据、人工智能等技术的不断发展,智慧人居正朝着更加智能化、个性化、集成化的方向发展。 智慧人居通过集成各种智…

c/c++ *和后置++的优先级

有时不记得c/c里运算符的优先级&#xff0c;最简单的办法就是写一个测试程序&#xff0c;这样更能直接地了解&#xff0c;如下面这个简单的代码&#xff1a; #include <stdio.h> #include <stdlib.h> #include <string.h>int main(int argc, char *argv[]) …

代码随想录刷题day32丨动态规划理论基础,509. 斐波那契数, 70. 爬楼梯, 746. 使用最小花费爬楼梯

代码随想录刷题day32丨动态规划理论基础&#xff0c;509. 斐波那契数&#xff0c; 70. 爬楼梯&#xff0c; 746. 使用最小花费爬楼梯 1.动态规划理论基础 动态规划&#xff0c;英文&#xff1a;Dynamic Programming&#xff0c;简称DP&#xff0c;如果某一问题有很多重叠子问题…