【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

news/2024/12/24 1:38:33/文章来源:https://blog.csdn.net/weixin_51293984/article/details/138866110

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的类感知提示调优的VLM
KgCoOp为baseline，进行改进，把 $w_{clip}$ 进行投影，然后与Learnable prompts进行结合。

Abstract

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器

问题：
这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布

解决：
提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中，可以生成一个动态的类感知分类器，以增强对不可见域的可辨别性。
推断阶段，TKE动态地生成与unseen类相关的类感知提示，可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识，特别是测试图像，从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示，然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE：投影class-level embedding $W^{clip}$ ，得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括两层

下投影层
使用权重 $W_{down}$ 将 $W^{clip}$ 其投成低维特征
上投影层
使用权重 $W_{up}$ 将 $W^{dwon}$ 其投成高维特征
得到
![[TCPg5.png]]
再重塑成
![[TCPg6.png]]
插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp，比较了近年来的方法
在这里插入图片描述

消融实验

Prompt长度：M=8最好
不同模板的效果：可学习prompt最好
Dmid的作用：128时效果最好
类感知prompt拼接到哪：第8层最好

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/327821.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

您可以使用WordPress创建的19种网站类型

您可以使用WordPress创建的19种网站类型

当人们决定为什么他们应该使用WordPress时，我们经常会被问到“WordPress可以做[空白]吗？答案大多是肯定的。在本文中，我们将向您展示您可以使用WordPress创建的19种不同类型的网站，而无需学习任何编程技巧。目录隐藏 1 开始使用…

阅读更多...

html--地图

html--地图

<!DOCTYPE html> <html lang"en"> <head><meta charset"utf-8"><title>ECharts</title><script src"js/esl.js"></scr…

阅读更多...

SpringBoot项目的项目部署全过程

SpringBoot项目的项目部署全过程

一、前端安装nginx 1.将提前准备好的nginx的安装包上传到Linux中/opt目录下(我用的是Xftp) 2.解压 2.1:在xshell中解压该文件: tar -zxvf nginx-1.20.1.tar.gz 2.2:进入解压后的目录 cd nginx-1.20.1/ 2.3:安装需要的依赖 yum -y install zlib zlib-devel openssl openssl-de…

阅读更多...

【Doris的安装与部署】

【Doris的安装与部署】

1 集群规划和环境准备 Doris作为一款MPP架构的OLAP数据库，可以在绝大多数主流的商用服务器上运行。 1.1 环境要求一般推荐使用Linux系统，版本要求是CentOS 7.1及以上或者Ubuntu 16.04及以上，这也是目前服务器市场最主流的操作系统。操作…

阅读更多...

在 CSS 中使用 text-emphasis 来增强文本的趣味性

在 CSS 中使用 text-emphasis 来增强文本的趣味性

在CSS中设置文本样式的方法有很多。您可以更改颜色、大小、字体，甚至添加阴影和轮廓等效果。但最近，我了解到一个我以前没有听说过的时尚 CSS 属性，它非常棒！ 它被称为文本强调（text-emphasis）&#xff0c…

阅读更多...

1725 ssm资产管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

1725 ssm资产管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java ssm资产管理系统是一套完善的web设计系统（系统采用SSM框架进行设计开发，springspringMVCmybatis），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采用B/…

阅读更多...

基于STM32F401RET6智能锁项目(BS82166A_3触摸按键)

基于STM32F401RET6智能锁项目(BS82166A_3触摸按键)

一、BS81x 特征 • 工作电压：2.2V~5.5V • 低待机电流 • 自动校准功能 • 可靠的触摸按键检测 • 自动切换待机 / 工作模式 • 最长按键输出时间检测 • 具备抗电压波动功能 • Level Hold，可选高有效或低有效 • NMOS 输出内建上拉电阻 /CMOS 直接输出…

阅读更多...

TypeScript学习日志-第二十三天（装饰器Decorator）

TypeScript学习日志-第二十三天（装饰器Decorator）

装饰器Decorator 一、类装饰器 ClassDecorator 其中返回的 target 是 Http 的构造函数，有了构造函数就不会去破坏其自身原有的结构，当我们 Http 里面有多个属性或者方法的，当是我们不想看或者改变它，这时候可以在构造函数中增加即…

阅读更多...

【C++】每日一题 17 电话号码的字母组合

【C++】每日一题 17 电话号码的字母组合

给定一个仅包含数字 2-9 的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意 1 不对应任何字母。可以使用回溯法来解决这个问题。首先定义一个映射关系将数字与字母对应起来…

阅读更多...

数学建模——线性回归模型

数学建模——线性回归模型

目录 1.线性回归模型的具体步骤和要点： 1.收集数据： 2.探索性数据分析： 3.选择模型： 4.拟合模型： 5.评估模型： 1.R平方（R-squared）： 2.调整R平方（Ad…

阅读更多...

2024CCPC全国邀请赛（郑州）暨河南省赛

2024CCPC全国邀请赛（郑州）暨河南省赛

2024CCPC全国邀请赛（郑州站）暨河南省赛一铜一银，虽不是线下第一次参赛但是第一次拿xcpc奖牌，还有个国赛奖真是不戳。感谢学长，感谢队友！ 虽然遗憾没有冲到省赛金，不过还有icpc商丘&#xff08…

阅读更多...

Golang RPC实现-day01

Golang RPC实现-day01

导航 Golang RPC实现一、主体逻辑设计二、服务设计1、监听和接收请求2、处理请求(1)服务结构体定义(2)确认请求方和服务方编解码格式(3)循环读取请求(4)解析请求的内容(5)响应请求三、读取和发送数据到连接中代码 Golang RPC实现先来一个最简单的版本，后续更新。…

阅读更多...

蜜蜂收卡系统加油卡充值卡礼品卡自定义回收系统源码前后端开源uniapp可打包app

蜜蜂收卡系统加油卡充值卡礼品卡自定义回收系统源码前后端开源uniapp可打包app

本文来自：蜜蜂收卡系统加油卡充值卡礼品卡自定义回收系统源码前后端开源uniapp可打包app - 源码1688 卡券绿色循环计划—— 一项旨在构建卡券价值再利用生态的社会责任感项目。在当前数字化消费日益普及的背景下，大量礼品卡、优惠券因各种原因未能有效…

阅读更多...

天软特色因子看板（2024.05 第3期）

天软特色因子看板（2024.05 第3期）

阅读更多...

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（三）

基于 LlaMA 3 + LangGraph 在windows本地部署大模型（三）

基于 LlaMA 3 LangGraph 在windows本地部署大模型 （三） 大家继续看 https://lilianweng.github.io/posts/2023-06-23-agent/的文档内容第二部分：内存记忆的类型记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多…

阅读更多...

PLL-分频器

PLL-分频器

概念分频器的性能一般用四个参数来规定:(1)分频比，(2)最大允许输入频率fmax，(3)功耗，(4)最小允许输入电压摆幅(也叫“灵敏度”)。虽然分频器的相位噪声也很重要，但在大多数情况下它可以忽略不计。把一般分频器的输入灵敏度画成…

阅读更多...

HTML常用标签-表单标签

HTML常用标签-表单标签

表单标签 1 表单标签2 表单项标签2.1 单行文本框2.2 密码框2.3 单选框2.4 复选框2.5 下拉框2.6 按钮2.7 隐藏域2.8 多行文本框2.9 文件标签 1 表单标签表单标签,可以实现让用户在界面上输入各种信息并提交的一种标签. 是向服务端发送数据主要的方式之一 form标签,表单标签,其内…

阅读更多...

2024年小学生古诗文大会备考：吃透历年真题和知识点（持续）

2024年小学生古诗文大会备考：吃透历年真题和知识点（持续）

根据往年的安排，2024年小学生古诗文大会预计这个月就将启动。该如何备考2024年小学生古诗文大会呢？根据往期的经验，只要吃透这些真题和背后的知识点，通过上海小学生古诗文大会的初选（初赛）一点问题都没有。…

阅读更多...

中国196个城市边界

中国196个城市边界

中国196个城市的城市边界形状文件是通过对Li等人（2018）的输出进行处理和过滤生成的。根据全球人工不可渗透区域 （GAIA） 数据绘制全球城市边界。城市建成区边界是城市研究中的一个重要指标，在很多城市研究中都会涉及到…

阅读更多...

优先级队列(堆)

目录 leetcode题目一、数组中两元素的最大乘积二、最后一块石头的重量三、数据流中的第 K 大元素四、前K个高频元素五、前K个高频单词六、数据流的中位数七、有序矩阵中的第K小的元素八、根据字符出现频率排序 leetcode题目一、数组中两元素的最大乘积 146…

阅读更多...

最新文章

推荐文章