【视觉提示学习】3.21论文随想

. . Frontiers of Information Technology & Electronic Engineering. 2024, 25(1): 42-63 https://doi.org/10.1631/FITEE.2300389

中文综述,根据里面的架构,把视觉提示学习分成两类,一类是单模态提示学习(以vit为代表),一类是多模态提示学习(以clip为代表)接下来就是顺藤摸瓜去看对应的论文。

https://arxiv.org/pdf/2203.12119   Visual Prompt Tuning 

VPT:像是高效微调。图a是卷积神经网络适应新任务时的策略,仅微调部分参数,如检测头,偏置项等等,图b是vpt的工作,冻结backbone,在输入时引端入一部分参数作为prompt,微调输入参数与检测头。

探索了两个版本,一个浅提示,一个深提示,浅提示就是只在最开始的encoder层加一组p个连续的d维嵌入(即prompts),深提示就是每个encoder开始都会加。

【与主线无关的记录】:1.迁移学习在卷积神经网络(ConvNet)的视觉任务中已经得到了广泛研究,并引入了许多技术,包括侧调(side tuning)、残差适配器(residual adapter)、偏置调整(bias tuning)等。为了基准测试目的,我们重点关注以下两种代表性方法:适配器(Adapters)和BitFit。适配器在每个Transformer层内部插入额外的轻量级模块。一个适配器模块通常包括一个线性降维投影,随后是一个非线性激活函数,以及一个线性升维投影,同时带有残差连接。与插入新模块不同,[8]提出在微调卷积神经网络时,仅更新偏置项并冻结其余骨干网络参数。BitFit[5]将这种技术应用于Transformer,并验证了其在语言模型调整中的有效性。2.结果图有个蛮有意思的,mark一下 t-SNE.

Learning Common and Specific Visual Prompts for Domain Generalization

问题公式化定义:

CSVPT算法:说到底,原先VPT是一个任务训练一组常数prompt张量,现在变成了不仅仅是训练一组常数,还要训练一个网络,将输入的图片放到网络里面的输出作为prompt张量。【也就是文章中提到的特定提示和共通提示】最后把二者相加。【感觉这里有点像做了个残差连接 合起来的效果只会是只升不降的?后面看消融实验也是 只有特定提示的效果降了】

也是设计了两种具体的实现方式:CSVPT-Shallow和CSVPT-Deep。

【与主线无关的记录】:1.尽管深度学习在许多领域取得了显著的成功,但它依赖于训练和测试数据是独立同分布(i.i.d.)的假设。(5. Z. Shen, J. Liu, Y. He, X. Zhang, R. Xu, H. Yu, and P. Cui, “Towards out-ofdistribution generalization: A survey,” arXiv preprint arXiv:2108.13624, 2021. 4273)然而,这一假设在实际应用中并不总是成立。当在不同条件下或从不同来源收集数据时,测试数据往往来自与训练数据不同的分布。分布外(OOD)问题显著降低了深度模型的性能。近年来,DG算法取得了进展,其中最常见的是学习跨领域的不变特征和将模型参数分解为共享和领域特定的组件。然而,一些研究人员发现,在多样化的DG基准测试中,没有任何现有的DG方法能够显著优于简单的基线模型。这是因为训练和测试分布之间的差异太大,仅从训练领域中无法学习到领域不变特征或获得出色的共享 - 特定分解。2.分解学习可以分为以下三类:特征分解学习:尝试将特征表示分解为两部分,即领域特定部分和领域共通部分。之后,我们可以仅使用领域共通特征,或将其与增强的领域特定特征结合用于预测。预测器分解学习:例如CSD,它学习一个领域共通的预测器(有助于泛化)和一个领域特定的预测器(可能会损害泛化)。在训练完成后丢弃领域特定的预测器,仅使用共通预测器进行预测。梯度分解学习:例如AndMask,仅在不同领域的梯度指向同一方向时更新权重,即保留领域共通的梯度分量。3.当训练和测试数据是独立同分布时,全微调通常优于线性探测。然而,一些研究人员指出,全微调可能会扭曲预训练特征,并在分布外表现不佳,因为在分布内的训练数据特征被大幅更新,而分布外数据的特征变化较小。Ananya Kumar等人提出了一种两步方法(先线性探测,然后全微调)来解决这一问题。此外,一些研究人员利用预训练模型中的互信息正则化,称为互信息正则化与预训练模型(Mutual Information Regularization with Oracle,MIRO),以防止过拟合和特征扭曲。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37653.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的“校园招聘网站”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“校园招聘网站”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统整体功能图 局部E-R图 系统首页界面 系统注册…

爱普生晶振FC2012AA汽车ADAS主控制系统的理想选择

在汽车智能化的浪潮中,先进驾驶辅助系统(ADAS)正迅速成为现代汽车的核心技术之一。ADAS 系统通过集成多种传感器、摄像头和高性能芯片,实现对车辆周围环境的实时监测和智能决策,为驾驶者提供全方位的安全保障。而在这一…

基于 ABAP RESTful 应用程序编程模型开发 OData V4 服务

一、概念 以个人图书管理为例,创建一个ABAP RESTful 应用程序编程模型项目。最终要实现的效果: 用于管理书籍的程序。读取、修改和删除书籍。 二、Data Model-数据模型 2.1 创建项目基础数据库表 首先,创建一个图书相关的表,点…

阿里云平台服务器操作以及发布静态项目

目录: 1、云服务器介绍2、云服务器界面3、发布静态项目1、启动nginx2、ngixn访问3、外网访问测试4、拷贝静态资源到nginx目录下并重启nginx 1、云服务器介绍 2、云服务器界面 实例详情:里面主要显示云服务的内外网地址以及一些启动/停止的操作。监控&…

注意力机制,本质上是在做什么?

本文以自注意机制为例,输入一个4*4的矩阵 如下: input_datatorch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ],dtypetorch.float) 得到Q和K的转置如下。 此时,计算QK^T ,得到如下结果 第一行第一个位置就是第一条样本和第…

C语言-数组指针和指针数组

指针 数组指针与指针数组 数组指针 定义 概念:数组指针是指向数组的指针,本质上还是指针 特点: ①先有数组,后有指针 ②它指向的是一个完整的数组 一维数组指针 语法: 数据类型 (*指针变量名)[容量]; 案例&a…

【前四届会议均已完成独立出版及EI检索 | 河南大学、河南省科学院主办,多高校单位承协办】第五届信号图像处理与通信国际学术会议(ICSIPC 2025)

第五届信号图像处理与通信国际学术会议(ICSIPC 2025) 2025 5th International Conference on Signal Image Processing and Communication(ICSIPC 2025) 会议官网:http://www.icsipc.org 【论文投稿】 会议时间&…

AI 时代的通信新范式:MCP(模块化通信协议)的优势与应用

文章目录 引言 1. 传统 API 的局限性2. MCP(模块化通信协议)的核心优势2.1 更好的模块化支持2.2 低耦合性与灵活性2.3 高性能数据传输2.4 适配分布式 AI 计算架构 3. AI 时代的 MCP 应用案例4. 结论:AI 时代的通信新范式 引言 在 AI 驱动的现…

Linux 文件系统的日志模式与性能影响

在 Linux 文件系统中,**日志模式(Journaling Mode)** 是文件系统保证数据一致性和快速恢复的核心机制,但不同的日志模式会对性能产生显著影响。以下是详细分析及优化建议: --- ### **一、日志模式的核心分类** Linux…

TISAX认证注意事项的详细介绍

TISAX(Trusted Information Security Assessment Exchange)认证的注意事项犹如企业在信息安全领域航行时必须遵循的灯塔指引,至关重要且不容忽视。以下是对TISAX认证注意事项的详尽阐述: 首先,企业需深入研读并理解TI…

Nodejs 项目打包部署方式

方式一:PM2 一、准备工作 确保服务器上已安装 Node.js 环境建议使用 PM2 进行进程管理(需要额外安装) 二、部署步骤 1.首先在服务器上安装 PM2(推荐): npm install -g pm22.将项目代码上传到服务器&…

springboot整合modbus实现通讯

springboot整合modbus4j实现tcp通讯 前言 本文基于springboot和modbus4j进行简单封装,达到开箱即用的目的,目前本方案仅实现了tcp通讯。代码会放在最后,按照使用方法操作后就可以直接使用 介绍 在使用本方案之前,有必要对modb…

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

论文地址:Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要 近年来,多行为推荐模型取得了显著成功。然而,许多模型未充分考虑不同行为之间的共性与差异性,以…

C/C++蓝桥杯算法真题打卡(Day6)

一、P8615 [蓝桥杯 2014 国 C] 拼接平方数 - 洛谷 方法一&#xff1a;算法代码&#xff08;字符串分割法&#xff09; #include<bits/stdc.h> // 包含标准库中的所有头文件&#xff0c;方便编程 using namespace std; // 使用标准命名空间&#xff0c;避免每次调用…

纯vue手写流程组件

前言 网上有很多的vue的流程组件&#xff0c;但是本人不喜欢很多冗余的代码&#xff0c;喜欢动手敲代码&#xff1b;刚开始写的时候&#xff0c;确实没法下笔&#xff0c;最后一层一层剥离&#xff0c;总算实现了&#xff1b;大家可以参考我写的代码&#xff0c;可以拿过去定制…

[特殊字符][特殊字符][特殊字符][特殊字符][特殊字符][特殊字符]壁紙 流光染墨,碎影入梦

#Cosplay #&#x1f9da;‍♀️Bangni邦尼&#x1f430;. #&#x1f4f7; 穹妹 Set.01 #后期圈小程序 琼枝低垂&#xff0c;霜花浸透夜色&#xff0c;风起时&#xff0c;微光轻拂檐角&#xff0c;洒落一地星辉。远山隐于烟岚&#xff0c;唯余一抹青黛&#xff0c;勾勒出天光水…

kafka压缩

最近有幸公司参与kafka消息压缩&#xff0c;背景是日志消息量比较大。kafka版本2.4.1 一、确认压缩算法 根据场景不同选择不同。如果是带宽敏感患者推荐高压缩比的zstd&#xff0c;如果是cpu敏感患者推荐lz4 lz4和zstd底层都使用的是lz77算法&#xff0c;具体实现逻辑不同&am…

Java EE(14)——网络原理——UDPTCP数据报的结构

前言 本文主要介绍传输层的两个知名协议——UDP&TCP&#xff08;想了解其他层协议请移步Java EE(12)——初始网络&#xff09; 一.传输层的作用 传输层主要实现端对端的数据传输&#xff0c;在传输层的数据报中会包含源端口/目的端口的信息。端口的作用就是标识主机中的…

ccfcsp2701如此编码

//如此编码 #include<iostream> using namespace std; int main(){int n,m;cin>>n>>m;int a[21],b[21],c[21];for(int i1;i<n;i){cin>>a[i];}c[0]1;for(int i1;i<n;i){c[i]c[i-1]*a[i];}b[1](m%c[1])/c[0];int s1,s20;for(int i2;i<n;i){s2s2…

麒麟操作系统安装人大金仓数据库

如果你想拥有你从未拥有过的东西&#xff0c;那么你必须去做你从未做过的事情 在当前数字化转型和信息安全备受重视的背景下&#xff0c;众多公司积极推进国产化改造进程。在操作系统领域&#xff0c;统信、open 欧拉、中标麒麟、银河麒麟等国产操作系统崭露头角&#xff0c;逐…