CLIP论文CLIP 改进工作串讲

文章目录

    • CLIP
    • ViLT
    • CLIP 改进工作串讲
      • Lseg(Language -driven semantic segmentation)
      • Group ViT(Semantic Segmentation Emerges from Text Supervision)
      • ViLD
      • GLIP_V1/V2(Ground Language-Image Pre-train)
      • CLIP Passo
      • CLIP4Clip
      • Action CLIIP
      • CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?
      • Audio CLIP:Extend CLIP to Image,Text and Audio(语音)
      • point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021
      • Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022
      • CLIP改动总结:

本文章总结于李沐&&bryanyzhu的精讲论文 视频

CLIP

CLIP 论文逐段精读【论文精读】
CLIP的贡献:打破了之前这种固定种类标签的范式。无论在收集数据集的时候,还是在训练模型的时候,不需要像imageNet那样做1000类,直接搜集这种图片文本的配对,用无监督的方式预测他的相似性。处理数据更方便,训练模型也更方便,在推理的时候更方便
可以在zero shot做各种各样的分类任务

ViLT

ViLT 论文精读
主要创新点: 把目标检测从多模态学习的框架中给移除了
VLP任务需要将图片像素转化成离散性,语义性的特征。而目标检测天然就是离散化过程,目标检测将图片返回成多个bounding box,bounding box就是一个又一个物体,具有明确语义信息,且又是离散化,直接用ROI(Region of Interest:感兴趣区域)抽特征即可。且下游任务与目标检测相似
但目标检测抽图像特征太贵

CLIP 改进工作串讲

CLIP串讲

Lseg(Language -driven semantic segmentation)

Group ViT(Semantic Segmentation Emerges from Text Supervision)

ViLD

ViLD:超越Supervised的Zero-Shot检测器

GLIP_V1/V2(Ground Language-Image Pre-train)

CLIP Passo

利用CLIP绘画
Semantically-Aware Object Sketching图像生成抽象的简笔画

CLIP4Clip

视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务
CLIP4clip:An Empirical Study of CLIP for End to End Video Clip R

Action CLIIP

任务:动作识别,加了时序信息的分类任务。
Action CLIIP:A New Paradigm for Video Action Recognition(动作识别)
研究动机:
对于有监督学习来说需要标签,但是对于视频理解尤其动作识别,怎么定义这些标签是很困难的事情。因为对于物体来说,标记标签是很容易的,用单词打标签,但是对于动作识别来说,是用一个短语来描述动作,例如open xxx,有很多含义,潜在的label space是接近无穷的,首先标记很多类别的话费用很高,当类别很多的时候softmax无法工作,常见的分类算法就不够用了。如果只标大类的话,遇到子类,细粒度的类依旧没法识别
如果能摆脱这种带标签的数据,如果真的能够从很多很多这种海量的视频数据里先去学一个比较好的特征,然后再去zero shot或者few shot的做下游任务,那其实是最理想的,由此想到clip,因为clip本身就能做很好的zero shot
在这里插入图片描述

CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?

CLIP 扩展到其他领域
主要贡献:拿预训练好的CLIP模型当做这个视觉编码器的初始化参数,然后在下游的各种各样的Vision Language下游任务上去做Fine-tune,看看CLIP的这个初始化参数是否好用

Audio CLIP:Extend CLIP to Image,Text and Audio(语音)

在这里插入图片描述

point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021

把CLIP中已经学到的这么好的2D表征迁移到3D领域来
建立2D与3D的桥梁:将3D点云投射到2D平面上,得到2D深度图
文本明确告诉模型这是一个点云:Point Cloud Depth Map of a [CLASS]
在这里插入图片描述

Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022

与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)
感觉这个很巧妙就是把深度估计变成基于文本的visual grounding,连续的变成离散化的了
把一个深度估计问题转化成文本理解的问题
在这里插入图片描述

CLIP改动总结:

CLIP模型改动的三点

1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。

2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。
在尽量不改变原来大模型的参数,只是加一些可调的模块去训练一点点(按百分之一甚至万分之一的参数),然后就能在下游任务中工作的很好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466348.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++builder中的人工智能(9)如何在C++中创建AI二进制/Heaviside步进函数

什么是二进制步进函数?我们应该使用二进制步进函数还是Heaviside步进函数?二进制步进函数和Heaviside步进函数是同一回事吗?什么是单位步进函数?通过学习如何在C中创建AI二进制/Heaviside步进函数,它将帮助你使用C IDE…

数据结构-数组(稀疏矩阵转置)和广义表

目录 1、数组定义 1)数组存储地址计算示例①行优先②列优先 2)稀疏矩阵的转置三元组顺序表结构定义 ①普通矩阵转置②三元组顺序表转置稀疏矩阵③稀疏矩阵的快速转置 3)十字链表结构定义 2、广义表定义 1)基本操作①GetHead②GetT…

云集电商:如何通过 OceanBase 实现降本 87.5%|OceanBase案例

云集电商,一家聚焦于社交电商的电商公司,专注于‘精选’理念,致力于为会员提供超高性价比的全品类精选商品,以“批发价”让亿万消费者买到质量可靠的商品。面对近年来外部环境的变化,公司对成本控制提出了更高要求&…

【React.js】AntDesignPro左侧菜单栏栏目名称不显示的解决方案

作者:CSDN-PleaSure乐事 欢迎大家阅读我的博客 希望大家喜欢 使用环境:WebStorm 目录 问题概述 原因 解决方案 解决方法 潜在问题修改 最终效果呈现 额外内容 管理员界面路由配置 WebStorm背景更换 法一: 法二: 问题概…

一文透彻了解电容

文章目录 一、电容的作用二、电容的选择三、电容的分类四、多层陶瓷电容五、钽电容替代电解电容的误区六、旁路电容的应用问题七、电容的等效串联电阻 ESR八、电解电容的电参数九、电容器参数的基本公式十、电源输入端的 X,Y 安全电容 一、电容的作用 作为无源元件之一的电容&…

Python OpenCV 傅里叶变换

傅里叶变换 傅里叶变换比较难和不容易理解,有错的地方请见谅 傅里叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。也就是说,傅里叶变换是一种特殊的积分变换,它能将满足一定条件的…

如何调整pdf的页面尺寸

用福昕阅读器打开pdf,进入打印页面,选择“属性”,在弹出的页面选择“高级” 选择你想调成的纸张尺寸,然后打印,打印出来的pdf就是调整尺寸后的pdf

WPF中如何简单的使用CommunityToolkit.Mvvm创建一个项目并进行 增删改查

目录 开始前准备的数据库dbblog如下: 第一步:创建项目后下载四个NuGet程序包 第二步:删除原本的MainWindow.XAML文件 并创建如下的目录结构 然后在View文件夹下面创建Login.XAML和Main.XAML 并且在App.XAML中将启动项改为Login.X…

基于python多准则决策分析的汽车推荐算法设计与实现

摘要 随着汽车市场的快速发展和消费者需求的多样化,汽车选择变得愈加复杂。为了帮助消费者在众多汽车选项中做出明智的决策,基于多准则决策分析(MCDA)的汽车推荐算法应运而生。本研究旨在设计和实现一种基于 Python 的汽车推荐系…

xftp连接中不成功 + sudo vim 修改sshd_config不成功的解决方法

我们使用sudo vim不成功,但是我们使用sudo su就可以 了! root用户权利更大! 喵的,终于成功了,一个xftp连接半天不成功。(添加上面的内容就可以连接成功了↑)

vue:Transition

1. Transition 1. 基本用法 <Transition> 是Vue 提供的 “内置组件动画组件”&#xff0c;与一般的CSS过渡动画不同的是&#xff0c;它通过在特点时刻给元素或组件增加、移除类名来实现——在一个元素或组件进入和离开 DOM 时应用过渡动画。 下面是一个基本用法&#…

Python 中的字符串匹配算法

在 Python 中&#xff0c;字符串匹配算法用于在一个字符串中寻找一个子串的出现位置&#xff0c;这是许多文本处理任务的核心。下面我将介绍几种常用的字符串匹配算法以及它们在 Python 中的实现方式。 1、问题背景 在 Python 中&#xff0c;字符串匹配是一个非常重要的操作&a…

配置本地策略路由示例

组网需求 RouterA与RouterB间有两条链路相连。 用户希望实现本机下发的不同长度的报文通过不同的下一跳地址进行转发&#xff0c;其中&#xff1a; 长度为64&#xff5e;1400字节的报文设置192.168.1.2作为下一跳地址。长度为1401&#xff5e;1500字节的报文设置192.168.2.2…

【大数据学习 | kafka高级部分】文件清除原理

2. 两种文件清除策略 kafka数据并不是为了做大量存储使用的&#xff0c;主要的功能是在流式计算中进行数据的流转&#xff0c;所以kafka中的数据并不做长期存储&#xff0c;默认存储时间为7天 那么问题来了&#xff0c;kafka中的数据是如何进行删除的呢&#xff1f; 在Kafka…

推荐一款基于Flash的交互式园林设计工具:Garden Planner

Garden Planner是一款由Artifact Interactive开发的基于Flash的交互式园林设计工具。它允许用户以拖放的方式安排植物、树木、建筑物和各种对象&#xff0c;使园林规划变得简单直观。此外&#xff0c;Garden Planner提供工具来快速创建铺路、路径和围栏&#xff0c;帮助用户设计…

微信小程序开发,诗词鉴赏app,诗词推荐实现(二)

微信小程序开发&#xff0c;诗词鉴赏app&#xff08;一&#xff09;&#xff1a; https://blog.csdn.net/jky_yihuangxing/article/details/143501681微信小程序开发&#xff0c;诗词鉴赏app&#xff0c;诗词推荐实现&#xff08;二&#xff09;:https://blog.csdn.net/jky_yih…

关于诊断中的各种时间参数

前言&#xff1a; 因为不会转载&#xff0c;故在这里贴出原文连接&#xff0c;写的非常好&#xff01;条理清晰&#xff0c;一遍看懂king110108 原文链接&#xff1a;UDS之时间参数总结篇_uds时间参数-CSDN博客 以下内容是我自己对这篇文章的一些备注和理解&#xff0c;以及从测…

技术干货|HyperMesh CFD功能详解:虚拟风洞 Part 2

在上期 Part 1文章中&#xff0c;我们介绍了从 v2023 版本开始&#xff0c;虚拟风洞VWT&#xff08;Virtual Wind Tunnel&#xff09;模块合并到HyperMesh CFD中。用户在VWT模块中完成LBM求解器ultraFluidX的前处理设置&#xff0c;导出参数文件XML和模型文件STL&#xff0c;并…

H7-TOOL的CAN/CANFD助手增加帧发送成功标识支持, 继续加强完善功能细节

2.27版本固件正式携带此功能&#xff0c;包括之前做的负载率检测和错误信息展示也将集成到这个版本固件中。 对于接收&#xff0c;我们可以直接看到效果&#xff0c;而发送不行&#xff0c;所以打算在发送的地方展示下发送成功标识。CAN发送不像串口&#xff0c;需要等待应答后…

mysql5安装

1.下载安装包 https://downloads.mysql.com/archives/community/ mysql-5.7.44-1.el7.x86_64.rpm-bundle.tar tar -xvf mysql-5.7.44-1.el7.x86_64.rpm-bundle.tar2.安装依赖 yum -y install perl yum -y install net-tools yum install numactl libaio libaio-devel -y也可…