VisionTransformer（ViT）详细架构图

VisionTransformer（ViT）详细架构图

news/2024/12/26 11:33:57/文章来源:https://blog.csdn.net/wizardforcel/article/details/133438092

这是原版的架构图，少了很多东西。

这是我根据源码总结出来的详细版

在这里插入图片描述

有几点需要说明的，看架构图能看懂就不用看注释了。

（1）输入图片必须是 224x224x3 的，如果不是就把它缩放到这个尺寸。

（2）Tranformer要的是嵌入向量的序列，大概是SeqLen, HidSize形状的二维数组，然后图像是H, W, C的三维数组，想把它塞进去必须经过一步转换，这是嵌入模块做的事情。

简单来讲就是切成大小为16*16*3的片段（Patch）然后每个片段都经过一步线性映射转换为长度768的一维向量。这一步在代码中通过一个Conv2d来一次性完成。

我们的这个卷积层，包含768 个大小为16*16*3的卷积核，步长等于卷积核大小。也就是说，它相当于把图像切成16*16*3的片段，然后每个片段和每个卷积核相乘并求和得到一个值。每个片段一共产生768个值，顺序排列得到一个一维向量，就是它的嵌入向量，然后所有片段的嵌入向量再顺序排列，得到整个图片的嵌入序列，就是这样。

（3）之后会在序列开头添加一个特殊的嵌入向量，是<CLS>，这个嵌入向量没有其它意义，只代表输出的这个位置的嵌入，应该计算为整个图像的类别嵌入。

（4）之后会添加位置嵌入，不是编码，因为它是可以学习的，也就是不锁定梯度。很多 Tranformer 都是位置嵌入，因为它是锁梯度的。

（5）位置嵌入之后会有个Dropout层，在论文原图中没有，似乎很多Bert或者GPT变体都会有这个东西。

（6）之后经过 12 个 TF 块，这个块和 Bert 是一样的，没有啥魔改。

（7）TF块之后会有个LayerNorm，原图里没有，这个也是很多变体里面出现过的。

（8）因为我们要分类，或者说论文中采用分类任务，需要取类别嵌入，也就是SeqLen维度的第一个元素。

（9）之后经过一个线性+Tanh，论文里面说只有预训练时期需要这个，迁移的时候可以直接扔掉。

（10）之后是线性+Softmax，用于把类别嵌入转化成图像属于各类的概率。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/145339.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

哈希表hash_table

哈希表hash_table

一个人为什么要努力？ 我见过最好的答案就是：因为我喜欢的东西都很贵，我想去的地方都很远，我爱的人超完美。文章目录哈希表的引出unordered系列的关联式容器底层结构哈希的概念开放寻址法拉链法（哈希桶）拉…

阅读更多...

睿趣科技：新手抖音开店卖什么产品好

睿趣科技：新手抖音开店卖什么产品好

抖音已经成为了一款年轻人热爱的社交媒体应用，同时也成为了一种全新的电商平台。对于新手来说，抖音开店卖什么产品是一个备受关注的问题。在这篇文章中，我们将探讨一些适合新手的产品选择，帮助他们在抖音上开店获得成功。流行时尚…

阅读更多...

面向对象特性分析大全集

面向对象特性分析大全集

面向对象特性分析先进行专栏介绍面向对象总析前提小知识分类浅析封装浅析继承浅析多态面向对象编程优点abc 核心思想实际应用总结封装概念详解关键主要目的核心思想优点12 缺点12 Java代码实现封装特性继承概念详解语法示例关键主要目的核心思想优点12 缺点12 Java代码实现…

阅读更多...

【网络协议】TCP报文格式

【网络协议】TCP报文格式

1.源端口和目的端口源端口字段占16比特，用来写入源端口号。源端口号用来标识发送该TCP报文段的应用进程。目的端口字段占16比特，用来写入目的端口号。目的端口号用来标识接收该TCP报文段的应用进程。 2.序号当序号增加到最后一个时，下…

阅读更多...

MySQL 的 C 语言接口

MySQL 的 C 语言接口

1. mysql_init MYSQL *mysql_init(MYSQL *mysql); mysql_init函数的作用：创建一个 MYSQL 对象（该对象用于连接数据库）。 mysql_init函数的参数： ① mysql：MYSQL 结构体指针，一般设置为 NULL 。 mysql_init函…

阅读更多...

PL/SQL+cpolar公网访问内网Oracle数据库

PL/SQL+cpolar公网访问内网Oracle数据库

文章目录前言1. 数据库搭建2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射 3. 公网远程访问4. 配置固定TCP端口地址4.1 保留一个固定的公网TCP端口地址4.2 配置固定公网TCP端口地址4.3 测试使用固定TCP端口地址远程Oracle 前言 Oracle，是甲骨文公司的一款关系…

阅读更多...

JVM111

JVM111

JVM1 字节码与多语言混合编程字节码我们平时说的java字节码， 指的是用java语言编译成的字节码。准确的说任何能在jvm平台上执行的字节码格式都是一样的。所以应该统称为:jvm字节码。不同的编译器，可以编译出相同的字节码文件，字节码文件…

阅读更多...

十五、异常（4）

十五、异常（4）

本章概要 Java 标志异常特例：RuntimeException 使用 finally 进行清理 finally 用来做什么？在 return 中使用 finally缺憾：异常丢失 Java 标准异常 Throwable 这个 Java 类被用来表示任何可以作为异常被抛出的类。Throwable 对象可分为两…

阅读更多...

配置OSPF路由

配置OSPF路由

OSPF路由 1.OSPF路由 1.1 OSPF简介 OSPF(Open Shortest Path First，开放式最短路径优先）路由协议是另一个比较常用的路由协议之一，它通过路由器之间通告网络接口的状态，使用最短路径算法建立路由表。在生成路由表时，…

阅读更多...

LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】

LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】

文章目录 2.大语言模型基础2.1、编码器和解码器架构2.2、注意力机制2.2.1、注意力机制（Attention）2.2.2、自注意力机制（Self-attention）2.2.3、多头自注意力（Multi-headed Self-attention） 2.3、transforme…

阅读更多...

华为摄像头智能安防监控解决方案

华为摄像头智能安防监控解决方案

云时代来袭，数字化正在从园区办公延伸到生产和运营的方方面面，智慧校园，柔性制造，掌上金融和电子政务等，面对各种各样的新兴业态的涌现，企业需要构建一张无所不联、随心体验、业务永续的全无线网络&#xf…

阅读更多...

国内大语言模型的相对比较：ChatGLM2-6B、BAICHUAN2-7B、通义千问-6B、ChatGPT3.5

国内大语言模型的相对比较：ChatGLM2-6B、BAICHUAN2-7B、通义千问-6B、ChatGPT3.5

一、前言国产大模型有很多，比如文心一言、通义千问、星火、MOSS 和 ChatGLM 等等，但现在明确可以部署在本地并且开放 api 的只有 MOOS 和 ChatGLM。MOOS 由于需要的 GPU 显存过大（不量化的情况下需要80GB，多轮对话还是会爆显存…

阅读更多...

TSM动作识别模型【详解】

TSM动作识别模型【详解】

文章目录本文使用的是somethingv2数据集，解压后是如下形式； 由于该压缩数据进行了分卷操作，需要合并后才能进行解压。首先我们将下面4个json文件剪贴到其他文件夹，只保留00-19的文件，然后在该文件夹下打开cmd&#xf…

阅读更多...

【图像分割】图像检测（分割、特征提取）、各种特征（面积等）的测量和过滤（Matlab代码实现）

【图像分割】图像检测（分割、特征提取）、各种特征（面积等）的测量和过滤（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

Python 笔记06（Mysql数据库）

Python 笔记06（Mysql数据库）

一基础 1.1 安装 MySQL下载参考：MySQL8.0安装配置教程【超级详细图解】-CSDN博客测试是否安装并正确配置环境变量： 1.2 查看服务器是否正常运行 1.3 显示数据库 show databases; 1.4 退出 exit 1.5 python 连接 1.6 查主机IP ipconfig

阅读更多...

一篇文章教你自动化测试如何解析excel文件？

一篇文章教你自动化测试如何解析excel文件？

前言自动化测试中我们存放数据无非是使用文件或者数据库，那么文件可以是csv，xlsx，xml，甚至是txt文件，通常excel文件往往是我们的首选，无论是编写测试用例还是存放测试数据，excel都是很方便的。…

阅读更多...

SpringBoot使用Docker并上传至DockerHub

SpringBoot使用Docker并上传至DockerHub

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情文章目录 1.系列文章2.构建docker镜像的方式3.docker操作3.1 安装docker3.2 查看docker镜像3.3 本地运行docker3.4 修改tag3.5 推送docker镜像3.6 远端server拉取d…

阅读更多...

Linux 集锦之最常用的几个命令

Linux 集锦之最常用的几个命令

Linux最常用的几个命令 Linux系统中的命令那是相当地丰富，不同的版本可能还有不同的命令，不过Linux核心自带的命令大概有几百个，这个不管是什么发行版一般都是共用的。如果希望探索Linux的所有命令，可能不太实际&#xf…

阅读更多...

树莓派基本配置（2）

树莓派基本配置（2）

安装motion $sudo apt-get update $sudo apt-get install motion配置motion sudo nano /etc/default/motionsudo nano /etc/motion/motion.conf主要改这些参数 //让Motion作为守护进程运行 daemon on ... //用这个端口号来读取数据 stream_port 8081 ... //网络上其它主机…

阅读更多...

力扣刷题-哈希表-求两个数组的交集

力扣刷题-哈希表-求两个数组的交集

349 求两个数组的交集题意：给定两个数组，编写一个函数来计算它们的交集。注意：输出结果中的每个元素一定是唯一的。我们可以不考虑输出结果的顺序。提示： 1 < nums1.length, nums2.length < 1000 0 < nums1[i], …

阅读更多...

最新文章

推荐文章