【多模态大模型】系列1:CLIP【多模态领域开山之作】

目录

  • 1 模型结构
  • 2 伪代码
  • 3 Loss计算方法

官方网站:https://openai.com/index/clip/
论文:Learning Transferable Visual Models From Natural Language Supervision
GitHub:https://github.com/openai/CLIP
Colab:https://colab.research.google.com/github/openai/clip/blob/master/notebooks/Interacting_with_CLIP.ipynb

CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。

1 模型结构

模型总览图如下图所示,具体的流程如下:

  • 模型的输入是一个图像文本对,例如下图的输入图片是一条狗,对应的文本是pepper也是一条狗。
  • 图片通过图片编码器得到一些特征,这里的编码器既可以是ResNet,也可以是Vision Transformer。
  • 句子通过文本编码器也得到一些文本特征。
  • 每个train batch里都有N个这样的图片文本对,就会得到N个图片的特征(IN)和N个文本的特征(TN),CLIP就是在这些特征上去做对比学习。对比学习非常灵活,只需要正样本和负样本的定义,其他都是正常套路。在这里,配对的图片文本对是一个正样本,因为它们描述的是同一个东西,所以特征矩阵里沿着对角线方向上的都是正样本,不是对角线上的元素都是负样本。这里我们有N个正样本和N2-N个负样本。有了正负样本,模型可以通过对比学习的方式去训练起来了,完全不需要任何收工的标注。

对于这种无监督的训练方式,例如对比学习,需要大量的数据,所以OpenAI专门去收集了这样的数据集,里面有4亿个图片和文本对,而且这些数据清理得非常好,质量非常高,这也是CLIP能这么强大的主要原因之一。

模型总览图

CLIP没有分类头,如何做Zero-shot推理呢?作者想出了一个巧妙的利用自然语言的方法,叫prompt template。

这里拿ImageNet做例子:CLIP先把ImageNet里1000类变成一个句子:A photo of a {object}.,用1000类里的物体名去替代句子里的object,从而把一个单词变成了一个句子。这1000个句子通过预训练好的文本编码器,就会得到1000个文本的特征。

这里为什么要做prompt template呢?直接用1000个单词去抽取文本特征也是可以的,但是模型在训练的时候每次看到的都是一个句子,如果在推理的时候把所有的文本都变成一个单词,这样就跟在训练时看到的文本不太一样了,所以效果会稍有下降。而且怎么变成句子也是很有讲究的,所以CLIP论文最后还提出了prompt engineering 和 prompt ensemble这两种方式进一步提升模型的准确率,而不需要重新训练模型。

在推理的时候,不论这时候来了任何一张图片,只要把这张扔给图片的编码器,得到图片特征之后,去跟所有的文本特征计算相似度(cosine similarity)。图像特征跟哪个文本特征最相似,就把对应的句子挑出来,从而完成了分类任务。

2 伪代码

伪代码

3 Loss计算方法

CLIP采用对称损失函数,简单来说,就是对相似度矩阵分别从行方向和列方向计算Loss,最后取两者的平均。

Loss
对称Loss

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15076.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现 目录 SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来(优…

idea整合deepseek实现AI辅助编程

1.File->Settings 2.安装插件codegpt 3.注册deepseek开发者账号,DeepSeek开放平台 4.按下图指示创建API KEY 5.回到idea配置api信息,File->Settings->Tools->CodeGPT->Providers->Custom OpenAI API key填写deepseek的api key Chat…

k8s部署elasticsearch

前置环境:已部署k8s集群,ip地址为 192.168.10.1~192.168.10.5,总共5台机器。 1. 创建provisioner制备器(如果已存在,则不需要) 制备器的具体部署方式,参考我之前的文章:k8s部署rab…

(done) openMP学习 (Day13: 线程私有数据和如何支持库(Pi again),蒙特卡洛计算 Pi,线性同余法)

url: https://dazuozcy.github.io/posts/introdution-to-openmp-intel/#23-%E5%8F%AF%E6%80%95%E7%9A%84%E4%B8%9C%E8%A5%BF%E5%86%85%E5%AD%98%E6%A8%A1%E5%9E%8Batomicsflushpairwise%E5%90%8C%E6%AD%A5%20 视频:https://www.bilibili.com/video/BV1SW411s7ST?s…

借助AI,轻松读好书

读书笔记 AI可以帮助我们写读书笔记,通过智能化的分类和标注技术,将我们的笔记进行分类整理,使其更加清晰易懂,帮助我们高效,准确,深入的总结和掌握书中的知识,实现更好的学习和成长。 《异类》…

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯语言模型的发展历程:从统计方法到大规模预训练模型的演化1 统计语言模型(Statistical Language Model, SLM):统…

活动预告 |【Part1】Microsoft Azure 在线技术公开课:基础知识

课程介绍 参加“Azure 在线技术公开课:基础知识”活动,培养有助于创造新的技术可能性的技能并探索基础云概念。参加我们举办的本次免费培训活动,扩充自身的云模型和云服务类型知识。你还可以查看以计算、网络和存储为核心的 Azure 服务。 活…

python 语音识别方案对比

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

C# OpenCvSharp 部署MOWA:多合一图像扭曲模型

目录 说明 效果 项目 代码 下载 参考 C# OpenCvSharp 部署MOWA:多合一图像扭曲模型 说明 算法模型的paper名称是《MOWA: Multiple-in-One Image Warping Model》 ariv链接 https://arxiv.org/pdf/2404.10716 效果 Stitched Image 翻译成中文意思是&…

【Java】线上故障排查实战

引言 JVM命令详细可以看前一篇文章,本篇文章基于之前的命令做一次简单的线上故障排查分析 JVM常见命令 实战 1. 一般显示都是Linux系统,我们排查winodows系统想知道CPU和内存使用情况,打开任务管理器就可以出现图形化界面,而L…

编译spring 6.2.2

如何编译Spring 6.2.2 下载spring 6.2.2 首先,下载spring 6.2.2,地址:下载 解压到你的目录下。 下载gradle 下载gradle,这是spring项目的依赖管理工具,本文下载的是8.12.1 gradle下载 下载合适的JDK 本文下载的是…

深度求索(DeepSeek)的AI革命:NLP、CV与智能应用的技术跃迁

Deepseek官网:DeepSeek 引言:AI技术浪潮中的深度求索 近年来,人工智能技术以指数级速度重塑全球产业格局。在这场技术革命中,深度求索(DeepSeek)凭借其前沿的算法研究、高效的工程化能力以及对垂直场景的…

Android Studio超级详细讲解下载、安装配置教程(建议收藏)

博主介绍:✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神,答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战,深受全网粉丝喜爱与支持✌有…

计算机毕业设计Python+Vue.js游戏推荐系统 Steam游戏推荐系统 Django Flask 游 戏可视化 游戏数据分析 游戏大数据 爬虫

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

版本更新|OpenCSG AutoHub v0.2.8

AutoHub v0.2.8现已发布! AutoHub v0.2.8本次更新致力于提升用户体验、增强系统的兼容性和流畅性。通过优化单页应用的支持、提示语推荐功能以及新增页面跳转支持,用户在执行工作流时能够更加高效、便捷。同时,针对界面的多项优化&#xff0…

DeepSeek-R1模型的数学原理(说人话)

文章目录 1、什么是GRPO2、数学原理3、比喻4、流程总结 🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,前三年专注于Java领域学习,擅长web应用开发,目前已转行人工智能领域。 🦅个人…

智慧停车场解决方案(文末联系,领取整套资料,可做论文)

一、方案概述 本智慧停车场解决方案旨在通过硬件设备与软件系统的深度整合,实现停车场的智能化管理与服务,提升车主的停车体验,优化停车场运营效率。 二、硬件架构 硬件设备说明: 车牌识别摄像机:安装在停车场入口和…

对“云原生”的初印象

一、背景 最近因为在工作中以及一些技术博客中听的比较火的一个关键词 "云原生",于是产生了好奇,云原生到底是什么东西?自己对云原生也是一个纯小白,于是带着这个问题去好好了解一下,什么是"云原生&qu…

物联网软件开发与应用方向应该怎样学习,学习哪些内容,就业方向是怎样?(文末领取整套学习视频,课件)物联网硬件开发与嵌入式系统

随着物联网技术的飞速发展,物联网软件开发与应用方向成为了众多开发者关注的焦点。那么,如何在这个领域中脱颖而出呢?本文将为你提供一份详细的学习指南,帮助你从零开始,逐步掌握物联网软件开发与应用的核心技能。 一…

数据结构-基础

1、概念: 程序 数据结构 算法 2、程序的好坏 可读性,稳定性,扩展性,时间复杂度,空间复杂度。 3、数据结构 是指存储、组织数据的方式,以便高效地进行访问和修改。通过选择适当的数据结构, 能…