【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs Transformers) 的介绍合集(五)

文章目录

    • 一、MoCo v3
    • 二、AmoebaNet
    • 三、Residual Multi-Layer Perceptrons
    • 四、FractalNet
    • 五、LV-ViT
    • 六、RepVGG
    • 七、Transformer in Transformer
    • 八、SimpleNet
    • 九、SpineNet
    • 十、Bottleneck Transformer
    • 十一、ZFNet
    • 十二、DetNet
    • 十三、Invertible Rescaling Network
    • 十四、SNet
    • 十五、Focal Transformers

一、MoCo v3

在这里插入图片描述
在这里插入图片描述

二、AmoebaNet

AmoebaNet 是通过正则化进化架构搜索发现的卷积神经网络。 搜索空间是 NASNet,它指定具有固定外部结构的图像分类器空间:称为单元的类似 Inception 的模块的前馈堆栈。 发现的架构如右图所示。

在这里插入图片描述

三、Residual Multi-Layer Perceptrons

残差多层感知器(ResMLP)是一种完全基于多层感知器构建的图像分类架构。 它是一个简单的残差网络,交替出现 (i) 线性层,其中图像块在通道之间独立且相同地交互,以及 (ii) 两层前馈网络,其中通道每个块独立交互。 在网络的末端,补丁表示被平均池化,并馈送到线性分类器。

由于没有自注意力层,层归一化被更简单的仿射变换所取代,这使得训练更加稳定。 仿射算子应用于每个残差块的开始(“预归一化”)和结束(“后归一化”)。 作为预归一化,Aff 取代了 LayerNorm,而不使用通道统计。

在这里插入图片描述

四、FractalNet

FractalNet 是一种卷积神经网络,它避开残差连接,转而采用“分形”设计。 它们涉及重复应用简单的扩展规则来生成其结构布局是精确截断的分形的深层网络。 这些网络包含不同长度的交互子路径,但不包括任何直通或残余连接; 每个内部信号在被后续层看到之前都经过滤波器和非线性变换。

在这里插入图片描述

五、LV-ViT

LV-ViT 是一种视觉转换器,使用标记标签作为训练目标。 与 ViT 的标准训练目标不同,ViT 的标准训练目标是在额外的可训练类标记上计算分类损失,标记标记利用所有图像块标记以密集的方式计算训练损失。 具体来说,标记标记将图像分类问题重新表述为多个标记级识别问题,并为每个补丁标记分配由机器注释器生成的单独位置特定的监督。

在这里插入图片描述

六、RepVGG

RepVGG 是一种 VGG 风格的卷积架构。 它具有以下优点:

该模型具有类似 VGG 的普通(又称前馈)拓扑 1,没有任何分支。 即,每一层都将其唯一的前一层的输出作为输入,并将输出馈送到其唯一的下一层。
该模型的主体仅使用 3 × 3 卷积和 ReLU。
具体架构(包括特定深度和层宽度)是在没有自动搜索、手动细化、复合缩放或其他繁重设计的情况下实例化的。

在这里插入图片描述

七、Transformer in Transformer

Transformer 是一种最初应用于 NLP 任务的基于自注意力的神经网络。 最近,提出了纯基于变压器的模型来解决计算机视觉问题。 这些视觉转换器通常将图像视为一系列补丁,而忽略每个补丁内部的内在结构信息。 在本文中,我们提出了一种新颖的 Transformer-iN-Transformer (TNT) 模型,用于对块级和像素级表示进行建模。 在每个 TNT 块中,外部变压器块用于处理补丁嵌入,内部变压器块从像素嵌入中提取局部特征。 像素级特征通过线性变换层投影到补丁嵌入的空间,然后添加到补丁中。 通过堆叠 TNT 块,我们构建了用于图像识别的 TNT 模型。

在这里插入图片描述

八、SimpleNet

SimpleNet 是一个 13 层的卷积神经网络。 该网络采用同构设计,利用 3 × 3 内核进行卷积层,使用 2 × 2 内核进行池化操作。 唯一不使用 3 × 3 内核的层是第 11 层和第 12 层,这些层使用 1 × 1 卷积核。 特征图下采样是使用非重叠 2 × 2 最大池进行的。 为了解决梯度消失和过拟合问题,SimpleNet 还在任何 ReLU 非线性之前使用了移动平均分数为 0.95 的批量归一化。

在这里插入图片描述

九、SpineNet

SpineNet 是一个卷积神经网络主干,具有尺度排列的中间特征和跨尺度连接,是通过神经架构搜索在对象检测任务中学习到的。

在这里插入图片描述

十、Bottleneck Transformer

Bottleneck Transformer (BoTNet) 是一种图像分类模型,它结合了多种计算机视觉任务的自注意力,包括图像分类、对象检测和实例分割。 通过仅在 ResNet 的最后三个瓶颈块中将空间卷积替换为全局自注意力,并且没有其他任何更改,该方法在实例分割和对象检测方面显着改进了基线,同时还减少了参数,并且延迟开销最小。

在这里插入图片描述

十一、ZFNet

ZFNet是一个经典的卷积神经网络。 该设计的动机是可视化中间特征层和分类器的操作。 与 AlexNet 相比,滤波器尺寸减小,卷积步长也减小。

在这里插入图片描述

十二、DetNet

DetNet 是用于目标检测的主干卷积神经网络。 与传统的 ImageNet 分类预训练模型不同,DetNet 即使包含额外的阶段也能保持特征的空间分辨率。 DetNet 尝试通过采用低复杂度的扩张瓶颈结构来保持效率。

在这里插入图片描述

十三、Invertible Rescaling Network

可逆缩放网络(IRN)是用于图像缩放的网络。 根据奈奎斯特-香农采样定理,在降尺度过程中高频内容会丢失。 理想情况下,我们希望保留所有丢失的信息以完美地恢复原始HR图像,但存储或传输高频信息是不可接受的。 为了很好地应对这一挑战,可逆重缩放网络(IRN)以分布的形式捕获有关丢失信息的一些知识,并将其嵌入到模型的参数中以减轻不适定性。 给定 HR 图像,IRN 不仅将其缩小为 LR 图像 y,而且还将特定于案例的高频内容嵌入到辅助的与案例无关的潜在变量中,其边际分布服从固定的预先指定的分布(例如,各向同性高斯)。 基于这个模型,我们使用随机抽取的样本来自逆升级过程的预先指定的分布,它包含在升级过程中可以拥有的最多信息。

在这里插入图片描述

十四、SNet

SNet 是一种卷积神经网络架构和对象检测主干,用于 ThunderNet 两级对象检测器。 SNet 使用 ShuffleNetV2 基本块,但将所有 3×3 深度卷积替换为 5×5 深度卷积。

在这里插入图片描述

十五、Focal Transformers

焦点自注意力的构建是为了使 Transformer 层可扩展到高分辨率输入。 该方法不是以细粒度处理所有令牌,而是仅在本地处理细粒度令牌,而在全局处理汇总令牌。 因此,它可以覆盖与标准自注意力一样多的区域,但成本要低得多。 图像首先被分割成块,从而产生视觉标记。 然后是补丁嵌入层,由具有相同大小的滤波器和步幅的卷积层组成,将补丁投影到隐藏特征中。 然后,该空间特征图被传递到焦点 Transformer 块的四个阶段。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/132556.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SVN 索引版本与打包版本号不匹配

今天突然遇到了一个问题,SVN上传不了,错误提示如下: 解决方法: 1.其实,这是SVN库不小心搞坏了,只能重新再创建一个SVN仓库了。

Redis:分布式锁误删原因分析

一、线程阻塞 例如,线程一获取分布式锁,但是线程一阻塞时间过长,导致锁超时释放。此时线程二获取分布式锁。当线程一阻塞结束后,释放分布式锁,但是释放的却是线程二的锁。此时线程二就不安全了,线程三也可…

Linux下修改jar包中的配置文件application.conf

文件位置 jar包文件工程目录 打包后解压jar包目录 提取和上传 jar tf XXX.jar # 获取包内文件 application.conf是jar包的配置文件,如果修改需要 提取文件 jar xf my-app.jar application.conf 修改后上传文件 jar uf my-app.jar application.conf

解决开了burp suite ,火狐访问不了其他网站的问题

问题描述: 有软件正在阻止 Firefox 安全地连接至此网站 www.baidu.com 很像是一个安全(连接加密)的网站,但我们未能与它建立安全连接。这个问题是由 PortSwigger CA 所造成,它是您的计算机或您所在网络中的软件。 您…

为什么Proteus串口无法正常显示

我以前就可以正常显示,但是最近一段时间,发现串口无法正常显示,试了很多办法都不行, 然后今天干好有点时间就刷了个机,然后居然就好了, 这就说明:Proteus不正常可能是病毒破坏了某个文件导致异…

HSRP(热备份路由选择协议)的概念,原理与配置实验

作者:Insist-- 个人主页:insist--个人主页 梦想从未散场,传奇永不落幕,持续更新优质网络知识、Python知识、Linux知识以及各种小技巧,愿你我共同在CSDN进步 目录 一、了解HSRP协议 1. 什么是HSRP协议 2、HSRP协议的…

java和fastjson

1.java是如何跨平台通信的 java--->class字节码--->jvm虚拟机运行 2.使因为jvm只会读文件名 如果不一致 则无法找到文件 3.main 函数说明java代码的接口 被使用 4.java和class后缀的区别 java是当前编写的代码文件 class是编译后的文件 5.void 没有返回值 这…

Django系列:Django简介与MTV架构体系概述

Django系列 Django简介与MTV架构体系概述 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/132890054 【介…

Canny图像算法仿真

目录 一、简要说明 1.1 算法流程 第一步,图像降噪。 第二步,计算图像梯度,得到可能边缘。 第三步,非极大值抑制。 第四步,双阈值筛选。 1.2 验证流程: 二、操作步骤 第一步:获取图像 …

代码随想录算法训练营第48天|198. 打家劫舍,213. 打家劫舍 II,337. 打家劫舍 III

198. 打家劫舍 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个…

国产洗碗机打响超越战

“征服世界的将是这样一些人:开始的时候,他们试图找到梦想中的乐园。最终,当他们无法找到时,就亲自创造了它。”诺贝尔文学奖获得者萧伯纳的这句话,适用于许多中国行业和企业,洗碗机就是其中之一。 对热爱…

Zabbix监控平台部署流程

Zabbix WEB、Zabbix Server、Zabbix Database放在一台服务器;(192.168.10.12)Zabbix Agent部署在被监控服务器上 (192.168.10.11)Zabbix Porxy 单独部署在一台服务器上(被监控服务器少于500台可以不部署&am…

C#: 未能加载文件或程序集“xxx“

导入数据时,发生了异常,错误日志如下: 2023-09-11 09:20:49,304 [125] FATAL [(null)] - NPOI.POIXMLException ---> System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加…

矿山边坡安全监测及预警系统解决方案

1.建设背景 近年来,矿山安全问题一直受到国家和社会的高度关注。为了全面提升矿山安全生产水平,国家矿山安全监察局和各省级非煤矿山安全监管部门开展了一项重大举措:推广并实施露天矿山边坡监测系统。 矿山边坡和排土场安全是露天矿山安全生…

第2章_瑞萨MCU零基础入门系列教程之面向过程与面向对象

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…

使用C#开发163邮件发送功能

创建SMTP服务器(发送邮件需要SMTP服务器代发) 这里介绍创建网易SMTP(SMTP是邮件通讯格式)服务器: 1.先注册一个163网易邮箱 2.注册成功后登陆该邮箱 3.在该邮箱中找到设置>POP3/SMTP/IMAP点击进入,如下…

【C语言】每日一题(半月斩)——day2

目录 一.选择题 1、以下程序段的输出结果是( ) 2、若有以下程序,则运行后的输出结果是( ) 3、如下函数的 f(1) 的值为( ) 4、下面3段程序代码的效果一样吗( ) 5、对于下面的说法,正确的是&#xf…

OPENCV实现人类识别(包括眼睛、鼻子、嘴巴)

人脸识别步骤 # -*- coding:utf-8 -*- """ 作者:794919561 日期:2023/9/14 """ import cv2 import numpy as np # load xml face_xml = cv2.CascadeClassifier(F:\\learnOpenCV\\opencv\\data\\haarcascades\\haarcascade_frontalface_defaul…

怎么获取别人店铺的商品呢?

jd.item_search_shop(获得店铺的所有商品) 为了进行电商平台 的API开发,首先我们需要做下面几件事情。 1)开发者注册一个账号 2)然后为每个JD应用注册一个应用程序键(App Key) 。 3)下载JDAPI的SDK并掌握基本的API…

使用“vue init mpvue/mpvue-quickstart“初始化mpvue项目时出现的错误及解决办法

当使用"vue init mpvue/mpvue-quickstart"初始化 mpvue 项目时出现 "vue-cli Failed to download repo mpvue/mpvue-quickstart: connect ETIMEDOUT IP地址"原因是 github 的 IP 解析失败,连接超时 解决办法:更改最新的 github 的 …