DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

文章目录

  • 摘要
  • 1.问题的提出
    • 引出当前研究的不足与问题
      • 属性不平衡问题
      • 属性共现问题
    • 解决方案
  • 2.数据集和模型构建
    • 数据集
    • 传统的零样本学习范式v.s. DUET学习范式
    • DUET 模型总览
    • 属性级别对比学习
      • ==正负样本解释:==
  • 3.结果分析
    • VIT-based vision transformer encoder.
    • 消融研究
      • 消融研究解释
  • 4.结论与启示
    • 结论总结
    • 启发
        • PLMs的潜在语义知识引入
        • 多模态,跨模态整合
        • 细粒度角度考虑

在这里插入图片描述
原文链接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886

该论文设计了一种新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。

摘要

零样本学习(ZSL)旨在预测在训练期间从未出现样本的未知类别。作为类别级视觉特征的注释,属性是零样本图像分类的广泛使用的语义信息。然而,由于缺乏细粒度的注释以及属性不平衡和共现问题,目前的方法常常无法区分图像之间的微妙视觉差异。在本文中,作者提出了一种基于Transformer的端到端ZSL方法,命名为DUET,通过自监督多模态学习范式整合了来自预训练语言模型(PLMs)潜在语义知识。具体而言,论文中(1)开发了一个跨模态语义定位网络来研究模型从图像中分离语义属性的能力;(2)采用了属性级对比学习策略,进一步增强模型对细粒度视觉特征的区分能力,克服属性共现和不平衡问题;(3)提出了 考虑多模型目标的多任务学习策略。论文中发现,DUET在三个标准ZSL基准和一个带有知识图的ZSL基准上均取得了最先进的性能,其组成部分是有效的,预测是可解释的。

1.问题的提出

引出当前研究的不足与问题

零样本学习(Zero-shot learning, ZSL)旨在预测在训练期间从未出现过样本的未知类别。对于零样本图像分类来说,最有效且广泛使用的语义信息是属性,它们用于描述类别级别视觉特征。然而当前的方法难以区分图像间的微妙视觉差异,这不仅来源于细粒度属性注释的不足,还由于属性间的不平衡和共现现象。

属性不平衡问题

即有些属性频繁出现而有些属性很少出现
例如,在零样本场景分类数据集 SUN中,属性“树”和“云”分别与 301 和 318 个类相关联 ,而“铁路”和“消防”只与15和10个类相关联。

属性共现问题

例如,“花”与“叶”一起出现了39次,但单独的“花”只出现了10次;

这种分布偏差可能会影响模型对那些包含稀有属性或新属性组合的看不见的类的判断。

图一
图一

解决方案

在本文中,作者提出了一种基于Transformer的端到端零样本学习方法(DUET),它通过自监督的多模态学习范式将来自预训练语言模型的潜在语义知识进行整合
贡献如下:
(1)开发了一个跨模态语义基准网络,以研究模型从图像中分离语义属性的能力;
(2)应用了基于属性级对比学习的策略,进一步增强模型对细粒度视觉特征的区分能力,克服属性的共现和不平衡问题
(3)提出了多任务学习策略考虑多模型目标。该方法可以同时在连续型的属性向量和离散型/结构化属性特征场景下工作,具有比较好的迁移泛化能力

关于监督学习,无监督学习,半监督学习,自监督学习,强化学习等
自监督学习 | (1) Self-supervised Learning入门
强化学习与监督学习和无监督学习有什么区别?
【深度学习】04 机器学习类型:监督学习 半监督学习 无监督学习 强化学习视频
深度学习常见名词概念:Sota、Benchmark、Baseline、端到端模型、迁移学习等的定义

2.数据集和模型构建

数据集

  • 三个配备标准属性的 ZSL 基准数据集 AWA2、CUB、SUN及其在(Xian 等人,2019)中提出的分割
  • 以及知识图谱基准数据集 AWA2-KG,它与 AWA2 具有相同的分割,但包含有关层次类和属性的语义信息,用于评估。

传统的零样本学习范式v.s. DUET学习范式

传统的零样本学习模式主要强调利用更多外部类别知识、进行数据增强,或研究更好的视觉编码器。相比而言,该框架强调跨模态模型的知识迁移(图二所示)。

传统:强调利用更多外部类别知识、进行数据增强,或研究更好的视觉编码器
DUET:强调跨模态模型的知识迁移
在这里插入图片描述
图二

DUET 模型总览

在这里插入图片描述
图三

DUET由三部分组成:
(1)特征到序列转换(FST)模块,它将每个类的属性统一为文本格式;
(2) 跨模态语义定位 (CSG) 模块,可通过跨模态掩模重建 (CMR) 将知识从 PLM 转移到视觉变换器编码器;
(3)属性级对比学习(ACL)模块,以自监督的方式增强CSG中的信号。

利用预训练语言模型(PLMs)的知识,以自监督的方式将知识转移到视觉转换器编码器中,从而实现对细粒度语义的有效定位。具体来说,其利用基于提示(prompt)的特征序列转换(FST),将不同类型的属性转换为文本序列。通过跨模态的语义定位网络(CSG,Cross-modal Semantic Grounding)和属性级对比学习(ACL,attribute-level contrastive learning)机制,利用跨模态的掩码复原(CMR,cross-modal mask reconstruction)训练目标从PLM中传递语义知识,同时缓解属性不平衡和共现问题,提高模型对细粒度视觉特征的区分能力。

属性级别对比学习

本文引入了一个巧妙的属性级别对比学习的模式,让模型来重点关注那些整体相似的图像中,容易造成困扰的细粒度特征差异。

  • 第一步是属性值序列化,文章从nlp中广泛运用的prompt中获得启发,借鉴表格预训练中的序列化模式,将图片属性值以key: [value,…]的形式进行文本序列化。这样做的好处是可以兼容多种不同的属性格式,包括知识图谱(KG)形式,向量形式,离散格式。当然,为了增加属性分布的多样性(diversity),作者对属性列表进行了基于概率的剪枝(attributes pruning),目的是为了防止模型因为属性的频繁共现而陷入懒惰学习。
    在这里插入图片描述

  • 跨模态的掩码复原。图像和文本同时输入,文本掩码,让模型强制从图像信息中获得相关属性来恢复掩码。这种方法其实在早期的多模态预训练模型中非常见,目的是让模型对齐视觉/语言的理解。而本文用一种巧妙的方法,让视觉模型的零样本学习能力得到了强化:
    – 使用预训练的语言模型(Bert)+预训练视觉模型(ViT,Swin,DeiT等),通过添加跨模态注意力层(cross-attention layer)进行桥接,而不是直接用多模态预训练模型。这样的好处是可以最大程度利用语言模型的语义信息和视觉模型的理解能力
    – 在视觉模型选择上,规避掉了使用ImageNet-21K进行预训练的模型,避免零样本测试过程中样本泄露。(测试集的图片不应该在预训练过程见过)
    属性级别的对比学习(Attribute-level Contrastive Learning)。本文的核心贡献点,可以用图1c表示:对于一个目标样本,选择与其整体特征相似度高的作为负样本,与其整体特性相似度低的作为正样本。对于一个正负样本对,其需要与目标样本有公共的属性key(比如“羽毛图案”),在这种情况下,对负样本的要求是,其他属性尽可能相似,而“羽毛图案”不同; 对正样本的要求是,其他属性尽可能不同,而“羽毛图案”相同;最后,在属性的掩码-恢复过程中,模型被迫找到两个差异悬殊图片中细粒度的属性交集,两个非常相似图片中细粒度的属性差异,从而实现属性感知的解耦。

正负样本解释:

对于目标样本:
正样本:与其整体特性相似度,其他属性尽可能不同,而“羽毛图案”相同
负样本:与其整体特征相似度,其他属性尽可能相似,而“羽毛图案”不同
正负样本对,需要与目标样本有公共的属性key(比如“羽毛图案”)
在这里插入图片描述

3.结果分析

在这里插入图片描述
本文作为语言模型在零样本学习上的第一次尝试,在不同数据集上取得了优越甚至sota的效果。其中较为明显地看到,在 标准ZSL数据集(AWA2,CUB,SUN)上,相比于传统ResNet-based的方法,视觉预训练模型对于可见类的预测效果有明显提升(Seen class)。而在 K-ZSL数据集 上,模型也可以达到SOTA效果。此外,模型还获得了细粒度属性预测的附带能力,这是相比传统模型的额外优势。
在这里插入图片描述

VIT-based vision transformer encoder.

为了进一步了解论文中的模型,论文中报告了使用 ViT-base(Dosovitskiy 等人,2021)作为视觉编码器的 DUET 结果。对比于 2 个最近的基于 ViT 的 ZSL 方法,ViT-ZSL 和 IEAM-ZSL 。如图 4(b) 所示,DUET 大幅超越了这两种方法,并且也超过了论文中的 SOTA 性能 (H) 4.8%。这表明论文中的 DUET 极大地改善了原始vision transformer较差的 ZSL 能力。可以认为,通过插入更好的vision transformer encoder,性能将进一步提高。

消融研究

在这里插入图片描述

消融研究解释

(1) 冻结language transformer encoder时,性能急剧下降。虽然它可以减少整体可学习参数,但它使模型更难理解提示、文本属性和视觉特征之间的特殊关系。

(2)仅用prompt作为无提示的序列输入
(3)仅concatenating attribute作为无提示的序列输入
论文中观察到采用半序列化属性的 FST 策略确实有利于论文中的模型,提高了 4.3%。

(4)随机屏蔽属性

属性短语掩码(APM)。论文中应用 APM 策略在每个步骤中屏蔽完整的属性短语,然后敦促模型恢复它。论文中认为属性集合中频率较低的判别属性更重要。因此,论文中通过**线性加权随机采样(LWRS)**策略对要屏蔽的目标属性进行采样

(5)不进行属性剪枝
(6)放弃class-level对比学习导致下降0.8%。这一点是因为对比学习可以通过缩小潜在空间中类内的距离来帮助模型学习更好的视觉表示。
(7)应用完整的CSG

此外,论文中的可插拔 ACL 模块在 CSG 的基础上进一步将性能提高了3.5%,这说明这两个模块都是有益的。

属性级对比学习(ACL)模块

4.结论与启示

结论总结

在本文中,论文中提出了一种名为 DUET 的端到端 ZSL 框架,以解决零样本图像分类中众所周知的属性不平衡和共现问题。论文中设计了一种具有新颖的属性级对比学习机制的跨模态语义定位网络,以增强模型对新类的判别能力,可以很好地解决零样本学习中的属性不平衡和共现问题。通过广泛的消融研究以及在具有实值和二元值属性的四个 ZSL 基准上与相当多最先进的方法进行比较,论文中证明了 DUET 的有效性及其对解释的支持。

启发

PLMs的潜在语义知识引入

DUET通过整合PLMs中的潜在语义知识,采用自监督多模态学习,在ZSL任务上取得了卓越的性能。可以认为,利用PLMs的知识能够有效提高ZSL的性能。

多模态,跨模态整合

DUET引入了一个跨模态语义定位网络,用于分离图像中的语义属性。在ZSL中,理解图像中的语义属性可能是提高性能的关键因素。
文本+图像 信息整合

细粒度角度考虑

DUET采用了属性级对比学习策略,以进一步提高模型对细粒度视觉特征的区分能力,克服了属性不平衡和共现的问题。
类级别 —> 属性级别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/235924.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RTL编码(1)——概述

一、RTL级描述 RTL(Register Transfer Level)级:寄存器+组合逻辑,其功能与时序用Verilog HDL(以下简称Verilog)或VHDL代码描述。 RTL描述包含了同步数字电路最重要的三个特征:组合逻…

【Python】编程练习的解密与实战(三)

​🌈个人主页:Sarapines Programmer🔥 系列专栏:《Python | 编程解码》⏰诗赋清音:云生高巅梦远游, 星光点缀碧海愁。 山川深邃情难晤, 剑气凌云志自修。 目录 🪐1. 初识Python &a…

[BJDCTF2020]ZJCTF,不过如此

题目源码&#xff1a; <?phperror_reporting(0); $text $_GET["text"]; $file $_GET["file"]; if(isset($text)&&(file_get_contents($text,r)"I have a dream")){echo "<br><h1>".file_get_contents($tex…

vscode 创建文件自动添加注释信息

随机记录 目录 1. 背景介绍 2. "Docstring Generator"扩展 2.1 安装 2.2 设置注释信息 3. 自动配置py 文件头注释 1. 背景介绍 在VS Code中&#xff0c;您可以使用扩展来为新创建的Python文件自动添加头部注释信息。有几个常用的扩展可以实现此功能&#xff0…

im6ull学习总结(三-五)freetype显示正行字

知识补充 笛卡尔坐标系 这里笛卡尔坐标系就是初高中学的直角坐标系的第一象限 lcd坐标系则不同 这两个坐标系如何转换 观察两个坐标系 点&#xff08;x,y&#xff09;的x坐标在两个坐标系中相同&#xff0c;纵坐标&#xff08;y&#xff09;存在着yV-yV V是整个屏幕的行数的像…

Mysql是怎么运行的(上)

文章目录 Mysql是怎么运行的Mysql处理一条语句的流程连接管理解析与优化存储引擎 基本配置配置文件系统变量状态变量字符集四种重要的字符集MySQL中的utf8和utf8mb4各级别的字符集和比较规则MySQL中字符集的转换排序规则产生的不同的排序结果 InnoDB存储引擎介绍COMPACT行格式介…

PostgreSQL内存浅析

体系结构 &#xff08;https://www.postgresql.fastware.com/blog/lets-get-back-to-basics-postgresql-memory-components&#xff09; &#xff08;http://geekdaxue.co/read/fcantsql/qts5is) 共享内存 linux的共享内存实现 (https://momjian.us/main/writings/pgsql/insi…

解锁前端新潜能:如何使用 Rust 锈化前端工具链

前言 近年来&#xff0c;Rust的受欢迎程度不断上升。首先&#xff0c;在操作系统领域&#xff0c;Rust 已成为 Linux 内核官方认可的开发语言之一&#xff0c;Windows 也宣布将使用 Rust 来重写内核&#xff0c;并重写部分驱动程序。此外&#xff0c;国内手机厂商 Vivo 也宣布…

如何利用ChatGPT快速生成月报?

随着每个月的结束&#xff0c;个人和团队经常需要编写月报来回顾和总结。这项任务通常消耗大量时间和精力。幸运的是&#xff0c;借助ChatGPT&#xff0c;这个过程可以变得更加简单和高效。接下来&#xff0c;我将详细介绍如何利用ChatGPT快速生成月报&#xff0c;从而帮助你节…

回归预测 | Matlab基于CPO-BP基于冠豪猪算法优化BP神经网络的数据多输入单输出回归预测

回归预测 | Matlab基于CPO-BP基于冠豪猪算法优化BP神经网络的数据多输入单输出回归预测 目录 回归预测 | Matlab基于CPO-BP基于冠豪猪算法优化BP神经网络的数据多输入单输出回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.CPO-BP回归基于冠豪猪优化算法[24年新…

Redis(四)事务

文章目录 事务Redis事务 vs 数据库事务常用命令总结 事务 一个队列中、一次性、顺序性、排他性执行一系列命令 官网https://redis.io/docs/interact/transactions/ Redis事务 vs 数据库事务 概述详述1、单独的隔离操作Redis的事务仅仅是保证事务里的操作会被连续独占的执行&a…

【AI视野·今日Sound 声学论文速览 第四十三期】Mon, 8 Jan 2024

AI视野今日CS.Sound 声学论文速览 Mon, 8 Jan 2024 Totally 6 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Sound Papers MusicAOG: an Energy-Based Model for Learning and Sampling a Hierarchical Representation of Symbolic Music Authors Yikai Qian, Tia…

leetcode面试经典150题——50 快乐数

题目&#xff1a;快乐数 描述&#xff1a; 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为&#xff1a; 对于一个正整数&#xff0c;每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1&#xff0c;也可能是 无限循环 但始终变…

Element-ui图片懒加载

核心代码 <el-image src"https://img-blog.csdnimg.cn/direct/2236deb5c315474884599d90a85d761d.png" alt"我是图片" lazy><img slot"error" src"https://img-blog.csdnimg.cn/direct/81bf096a0dff4e5fa58e5f43fd44dcc6.png&quo…

【Redis】Redis面试热点

Redis 集群有哪些方案&#xff1f; 主从复制&#xff1a;解决了高并发问题 哨兵模式&#xff1a;解决了高并发&#xff0c;高可用问题 分片集群&#xff1a;解决了海量数据存储&#xff0c;高并发写的问题 主从复制 图示&#xff1a; 主从复制&#xff1a;单节点 Redis 并发…

2023 Gartner® 云数据库管理系统魔力象限发布 PingCAP 入选“荣誉提及”

近日&#xff0c;全球 IT 市场研究和咨询 公司 Gartner 发布最新报告《Magic Quadrant™ for Cloud Database Management Systems》&#xff08;云数据库管理系统魔力象限&#xff09;&#xff0c; 企业级开源分布式数据库厂商 PingCAP 入选“荣誉提及” 。前不久&#xff0c;P…

STL之list

目录 list定义和结构 list容器模板接受两个参数&#xff1a; list容器的特点 双向性 动态大小 不连续存储 实例 代码输出 需要注意的点 list常用函数 代码示例 list定义和结构 list的使用频率不高&#xff0c;在做题时极少遇到需要使用list的情景。 list是一种双向…

php多小区智慧物业管理系统源码带文字安装教程

多小区智慧物业管理系统源码带文字安装教程 运行环境 服务器宝塔面板 PHP 7.0 Mysql 5.5及以上版本 Linux Centos7以上 统计分析以小区为单位&#xff0c;统计如下数据&#xff1a;小区总栋数、小区总户数、小区总人数、 小区租户数量、小区每月收费金额统计、小区车位统计、小…

小程序系列--4.协同工作和发布

一、小程序成员管理 1. 成员管理的两个方面 2. 不同项目成员对应的权限 3. 开发者的权限说明 4. 添加项目成员和体验成员 二、小程序的版本 1、小程序的版本 三、发布上线 1. 小程序发布上线的整体步骤 一个小程序的发布上线&#xff0c;一般要经过上传代码 -> 提…

Unity中URP下深度图的线性转化

文章目录 前言一、_ZBufferParams参数有两组值二、LinearEyeDepth1、使用2、Unity源码推导&#xff1a;3、使用矩阵推导&#xff1a; 三、Linear01Depth1、使用2、Unity源码推导3、数学推导&#xff1a; 前言 在之前的文章中&#xff0c;我们实现了对深度图的使用。因为&#…