基于ViT的无监督工业异常检测模型汇总

基于ViT的无监督工业异常检测模型汇总

    • 论文1:RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection(2024)
      • 1.1 主要思想
      • 1.2 系统框架
    • 论文2:Inpainting Transformer for Anomaly Detection(2021)
      • 2.1 主要思想
      • 2.2 模型架构
    • 论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)
      • 3.1 主要思想
      • 3.2 模型架构
      • 3.3 缺陷
    • 论文4:ADTR: Anomaly Detection Transformer with Feature Reconstruction(2022)
      • 4.1 主要内容
      • 4.2 模型结构
    • 论文5:A Unified Model for Multi-class Anomaly Detection(2022)—— 多分类无监督异常检测统一模型
      • 5.1 主要内容
      • 5.2 模型架构
    • 论文6:Exploring Plain ViT Features for Multi-class Unsupervised Visual Anomaly Detection(2024)- 多分类无监督异常检测统一模型
      • 6.1 主要内容
      • 6.2 模型架构
    • 7. 总结
      • 7.1 ViT的可用优势
      • 7.2 ViT的劣势

论文1:RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection(2024)

1.1 主要思想

所提出的模型结合了传统的基于重建的方法和基于补丁的方法的优势。输入图像被细分为块,并使用 Vision Transformer 进行编码。然后将生成的特征馈送到解码器中以重建原始图像,从而使网络学习代表正常图像方面的特征(网络训练的唯一数据)。同时,高斯混合密度网络对 transformer 编码特征的分布进行建模,以估计该潜在空间中正常数据的分布。使用此模型检测异常会自动允许其定位,因为 transformer 编码的特征与位置信息相关联。

1.2 系统框架

在这里插入图片描述
使用基于重建的方法在全局级别检测到异常,通过应用于编码图像块的高斯混合模型进行定位。

论文2:Inpainting Transformer for Anomaly Detection(2021)

2.1 主要思想

区别与CNN,该论文作者采取基于自注意力机制的纯Transformer结构,将异常检测问题转换为图像覆盖修补问题。其解决方案实质上是基于图像重构的,其创新点在于采取自注意力机制进行全局的图像重建,重建后的图像与原图进行对比,差异部分就是异常部分。关于如何重建,还是由仅通过正常样本的训练得到的重建网络做到的。

2.2 模型架构

在这里插入图片描述

  • 每个Transformer块的输入输出都是一个序列(左侧)
  • inmatic 网络架构由一些简单的 Transformer 块堆栈组成。每个Transformer 由 MFSA 和多层感知器 (MLP) 组成。(右侧)
  • 对最后一个Transformer块的输出序列进行了平均,得到了一个向量,该向量用于通过映射得到扁平化的补丁像素空间。

对这些Transformer块进行训练,可以根据相邻的补丁对覆盖的图像块进行很好的修复。

推理和检测部分的实施过程是先生成完整的修复图像,然后使用重建后的图像和原始之间的差异来计算像素级异常图。

论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)

3.1 主要思想

该篇论文的解决方案实质上还是基于图像重构的方式,针对重建方式的不稳定和调整困难,以及采用大数据集预训练网络特征空间泛化能力差的问题,研究者采用了一些新颖的思想去改进:

  • 为避免预训练模型特征表示的不稳定性,在训练时采用冻结骨干网进行训练;
  • 为更好的估计深度特征,采用特征级别进行重建(重要结论:正常样本和异常样本在特征空间中更容易区分);
  • 构建了一个基于Transformer的多级自动编码器作为重建网络,利用提取到的正常样本的特征进行了训练;
    • 加入了Transformer注意力模块,全局信息可以得到很好聚合,模型更具泛化能力;
    • 考虑网络性能,降低计算成本,在构建时采用U型的Transformer(网络内部具有跳跃连接);
    • 采用金字塔层次结构,提取不同尺度的异常特征。

3.2 模型架构

在这里插入图片描述
输入图像先使用预训练的CNN主干为输入样本提取多尺度特征,然后使用U-Transformer(多尺度重建模型)进行图像的重建,之后重建之前和重建后会出现重建误差(图中的Reconstruction error),重建误差会作为异常分数输出以及像素级异常区域的检出。

3.3 缺陷

虽然已经采用了改进后的Transformer,但与基于嵌入式的方式相比依然存在模型尺寸大、推理时间长、难部署的问题。模型设计的太过复杂!

论文4:ADTR: Anomaly Detection Transformer with Feature Reconstruction(2022)

4.1 主要内容

三点动机:

  1. 根据较少的语义信息去重建原始像素值,正常区域与异常区域往往像素值相似但是具有不同的语义,因此像素重建的方法往往会引发歧义。正常样本和异常样本在特征空间内往往具有可区分的特征,所以不以重建原始像素值为目标而以重建原始特征为目标。提取特征采用CNN预训练网络去实现。
  2. 以往CNN的重建模型倾向于通过shortcuts去学习一定程度的“相同映射”,这会导致异常区域被很好的重建为异常区域,无法获取有效的重建误差。Transformer中的query embedding可以限制“相同映射”的趋势(有助于区分正常样本和异常样本),所以重建网络采用Transformer进行构建。
  3. 对可以提供少量异常样本的情况进行兼容,使得设计的模型既可以在没有异常图片的情况下训练,也可以在有异常图像的情况下训练。(考虑到了异常可用情况,设计了相应的损失函数)

4.2 模型结构

在这里插入图片描述
方法概述(a)Embedding:应用预先训练的 CNN 主干来提取多尺度特征。(b) Reconstruction:使用Transformer通过辅助可学习查询嵌入来重建特征标记。(c) Comparison:该方法与仅正常样本的情况和异常可用的情况兼容。异常评分图是通过提取和重建特征之间的差异获得的。
模型架构与前篇论文中的模型架构有相似之处,都是采用CNN进行特征的提取,采用Transformer进行重建网络的搭建,但很明显,该篇论文提出的Transformer架构更加简洁。


Transformer 重建网络:

  • 特征图 𝒇∈ℝC×H×W 首先被拆分为 H×W 特征标记。为了减少计算消耗,1×1 应用卷积来减小这些标记的维度,然后再将其馈送到 transformer 中。此外,当 transformer 输出时,它们的维度由另一个 1×1卷积恢复。
  • transformer 编码器将 输入的feature tokens 嵌入到潜在特征空间中。每个编码器层都遵循标准架构 ,具有多头注意、前馈网络 (FFN)、残差连接和归一化。
  • transformer 解码器遵循标准架构,并带有辅助查询嵌入。辅助查询是一个可学习的嵌入与输入的feature tokens具有相同尺寸,Transformer解码器将这些可学习的查询嵌入进行转换使用多头自注意力机制来重建feature token。位置嵌入被加入到 Transformer 模型中,是因为其 自注意力机制本身对输入顺序不敏感(即 permutation-invariant)。Learned position embedding 能让模型从数据中学习位置信息,从而有效地捕获输入序列的顺序依赖关系。

异常得分计算:
从重建网络中可以了解到,解码器的目标是根据可学习的辅助查询重建出解码器的feature token,然后与解码器的feature token进行对比从而根据重建误差得到异常区域。

论文5:A Unified Model for Multi-class Anomaly Detection(2022)—— 多分类无监督异常检测统一模型

5.1 主要内容

当前所有的异常检测方法都只能用一个模型解决一个类别,这种“一个模型只处理一个类别”的separate setting是十分耗费储存空间的,并且无法处理正常样本具有一定多样性的场景 (比如,一种物体有多种正常的型号)。所以该篇论文致力于解决一个更困难的统一设定,那就是用一个模型解决所有类别的异常检测。

该篇论文还是基于重构的思想,深入研究了”恒等映射“的问题(虽然重构模型是在正常样本上训练的,其遇到异常样本同样会重构成功。这使得正常样本和异常样本的重构误差都很小,难以被区分开来)。研究者希望能够从网络结构设计上避免”恒等映射“问题。

通过实验,发现结构上Transformer结构的”恒等映射“问题与MLP和CNN相比是较轻的。研究者们认为具有query embedding的attention可以抑制“恒等映射” 。所以基于Transformer进行了整体模型框架的构建,并做了三点相关改进。

5.2 模型架构

图3:UniAD的框架,由邻居掩码编码器(NME)和分层查询解码器(LQD)组成。LQD中的每一层都采用可学习的查询嵌入来帮助对复杂的训练数据分布进行建模。变压器中的全部注意力被邻居掩码注意力所取代,以避免信息从输入泄漏到输出。特征抖动策略鼓励模型在有噪声的输入下恢复正确的消息。所有这三个改进都有助于模型避免学习“相同的快捷方式
改进1:Layer-wise Query Embedding
通过增加query embedding,来增加其抑制“恒等映射”的能力。以transformer为基础,提出了Layer-wise Query Embedding,即,在decoder的每一层都加入query embedding。

改进2:Neighbor Masked Attention
研究者认为,在传统的Attention中,一个token是可以利用自己的信息的,这可能会防止信息泄漏,即,直接将输入进行输出,形成“恒等映射”。因此,提出了Neighbor Masked Attention,即,一个token是不能利用自己和自己的邻居的信息的。这样,网络就必须通过更远处的token来理解这个点的信息应该是什么,进而在这个过程中理解了正常样本,拟合了正常样本的分布。

改进3:Feature Jittering
受到De-noising Auto-Encoder的启发,设计了一个Feature Jittering策略。即,在输入的feature tokens中加入噪声,而重构的目标依然是未加噪声的feature tokens。因此,Feature Jittering可以将重构任务转化为去噪任务网络通过去除噪声来理解正常样本,并拟合正常样本的分布。同时,恒等映射在这种情况下不能使得loss等于0,也就不是最优解了。

论文6:Exploring Plain ViT Features for Multi-class Unsupervised Visual Anomaly Detection(2024)- 多分类无监督异常检测统一模型

6.1 主要内容

针对异常检测中,异常样本是多类的,以往的异常检测中每个类都需要单独的进行模型的训练,大大增加了模型训练和存储的成本。该篇论文提出了基于Plain ViT的多分类无监督的异常检测(MUAD)框架ViTAD。

6.2 模型架构

对于基于重建方式的异常检测模型,该篇论文抽象出一个基础的框架Meta-AD,包括一个编码器,特征融合器,解码器。与以往采用CNN搭建编码器和解码器的方式不同,该篇论文从Plain ViT 出发,搭建列状的ViT编码器和解码器,并从全局和局部的角度利用一些策略进行了改进。最终得到一个简单有效的基于ViT的模型框架。
在这里插入图片描述
改进前的模型架构:
改进前模型架构
改进后的模型架构:
在这里插入图片描述
论文出发点:

ViT的优势:与更复杂的CNN特征金字塔相比,Plain ViT得益于全局动态建模能力,列状的Plain ViT提供更多出色可用性和使用价值。ViT特征在各个阶段都比CNN的特征更加丰富和多样化,正常图像和异常图像之间的差异更加显著,这一现象表明VIT结构具有更强的建模能力和更大的感受野,可用于AD任务的潜在应用。

橙色数字表示从全局角度做的改进:

第一点:融合模块去除了多尺度跳跃链接,仅仅使用最后一级F作为输入(结构图中没有看到去除多尺度跳跃连接!)
原由:原因是列状的ViT深层特征F,足以包含丰富的纹理和语义属性。早期特征的注入会缩短信息流路经,导致潜在信息的泄露。使得模型能够学习到恒等映射并且影响模型在图像级别的判断能力。
第二点:在推理期间,使用F1, F2, F3来约束计算异常得分图A1,A2,A3,这样可以有效利用不同级别的特征图中的细粒度特征,得到更准确的异常分割图。
第三点:采用更强语义力度的DINO作为预训练数据集以便得到更好的特征提取效果。 (由于ImageNet-1k与AD数据集之间存在领域差异,这种直接的方式效果不佳)

蓝色数字表示从局部角度做的改进:

第一点:在归一化之前使用特征,输入到特征融合模块;

第二点:使用轻量级线性单层作为Fuser结构;(简化模型)

第三点:不维护类token(降低计算复杂度,提高计算性能);

第四点:增加基于ViT解码器位置的嵌入会带来轻微的性能提升。(提供位置信息)

7. 总结

7.1 ViT的可用优势

  • 全局特征提取:Transformer通过自注意力机制对图像的每一部分进行建模,能够从全局的角度捕捉特征。这使得它在提取长距离依赖和图像的全局特征方面表现出色。

  • 自适应性强:Transformer可以灵活调整不同位置之间的权重,因此在处理需要建模复杂关系的任务(如细粒度识别)上更具优势。

  • 不依赖卷积操作:Vision Transformer(ViT)将图像分割为小块后处理,从而避免了局限于局部的卷积操作。每个图像块会与其他图像块进行关联,从而捕捉到更丰富的全局特征

7.2 ViT的劣势

(1)模型结构与CNN相比较为复杂,且计算复杂度高
(2)训练快,推理慢
(3)空间位置信息不敏感,需要额外的位置向量嵌入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466444.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构C语言描述2(图文结合)--有头单链表,无头单链表(两种方法),链表反转、有序链表构建、排序等操作,考研可看

前言 这个专栏将会用纯C实现常用的数据结构和简单的算法;用C基础即可跟着学习,代码均可运行;准备考研的也可跟着写,个人感觉,如果时间充裕,手写一遍比看书、刷题管用很多,这也是本人采用纯C语言…

Python | Leetcode Python题解之第542题01矩阵

题目: 题解: class Solution:def updateMatrix(self, matrix: List[List[int]]) -> List[List[int]]:m, n len(matrix), len(matrix[0])# 初始化动态规划的数组,所有的距离值都设置为一个很大的数dist [[10**9] * n for _ in range(m)]…

ENSP作业——园区网

题目 根据上图,可得需求为: 1.配置交换机上的VLAN及IP地址。 2.设置SW1为VLAN 2/3的主根桥,设置SW2为VLAN 20/30的主根桥,且两台交换机互为主备。 3.可以使用super vlan。 4.上层通过静态路由协议完成数据通信过程。 5.AR1作为企…

【1个月速成Java】基于Android平台开发个人记账app学习日记——第7天,申请阿里云SMS短信服务SDK

系列专栏链接如下,方便跟进: https://blog.csdn.net/weixin_62588253/category_12821860.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12821860&sharereferPC&sharesourceweixin_62588253&sharefromfrom_link 同时篇幅…

让Apache正确处理不同编码的文件避免中文乱码

安装了apache2.4.39以后&#xff0c;默认编码是UTF-8&#xff0c;不管你文件是什么编码&#xff0c;统统按这个来解析&#xff0c;因此 GB2312编码文件内的中文将显示为乱码。 <!doctype html> <html> <head><meta http-equiv"Content-Type" c…

『Django』初识前后端分离

点赞 + 关注 + 收藏 = 学会了 本文简介 在前面的「Django」系列的文章 中使用的是“前后端不分离”的方式去学习 Django,但现在企业比较流行的开发方式是前后端分离。 简单来说,前后端分离就是把前端和后端的工作分配给2个人做,前端主要负责用户界面的开发,后端主要负责…

探索开放资源上指令微调语言模型的现状

人工智能咨询培训老师叶梓 转载标明出处 开放模型在经过适当的指令调整后&#xff0c;性能可以与最先进的专有模型相媲美。但目前缺乏全面的评估&#xff0c;使得跨模型比较变得困难。来自Allen Institute for AI和华盛顿大学的研究人员们进行了一项全面的研究&#xff0c;探索…

搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用

荷兰车辆管理局&#xff08;RDW&#xff09;通过数据驱动的人体工程学评估&#xff0c;将职业健康和安全放在首位。 关键信息 01 改进人体工程学评估&#xff1a;RDW使用Xsens动作捕捉和Scalefit Industrial Athlete进行精确、实时的人体工程学评估&#xff0c;识别并降低与…

文件系统和日志管理 附实验:远程访问第一台虚拟机日志

文件系统和日志管理 文件系统&#xff1a;文件系统提供了一个接口&#xff0c;用户用来访问硬件设备&#xff08;硬盘&#xff09;。 硬件设备上对文件的管理 文件存储在硬盘上&#xff0c;硬盘最小的存储单位是512字节&#xff0c;扇区。 文件在硬盘上的最小存储单位&…

大众汽车合肥社招入职笔试测评SHL题库:综合能力、性格问卷、英语口语真题考什么?

大众汽车合肥社招入职笔试测评包括综合能力测试、性格问卷和英语口语测试。以下是各部分的具体内容&#xff1a; 1. **综合能力测试**&#xff1a; - 这部分测试需要46分钟完成&#xff0c;建议准备计算器和纸笔。 - 测试内容涉及问题解决能力、数值计算能力和逻辑推理能力。 -…

Python进阶之IO操作

文章目录 一、文件的读取二、文件内容的写入三、之操作文件夹四、StringIO与BytesIO 一、文件的读取 在python里面&#xff0c;可以使用open函数来打开文件&#xff0c;具体语法如下&#xff1a; open(filename, mode)filename&#xff1a;文件名&#xff0c;一般包括该文件所…

UE5.4 PCG 自定义PCG蓝图节点

ExecuteWithContext&#xff1a; PointLoopBody&#xff1a; 效果&#xff1a;点密度值与缩放成正比

Transformer和BERT的区别

Transformer和BERT的区别比较表&#xff1a; 两者的位置编码&#xff1a; 为什么要对位置进行编码&#xff1f; Attention提取特征的时候&#xff0c;可以获取全局每个词对之间的关系&#xff0c;但是并没有显式保留时序信息&#xff0c;或者说位置信息。就算打乱序列中token…

Apache Commons Collections 反序列化漏洞

文章目录 前言一、漏洞爆出二、复现环境java集合框架问题JVM反射 三、Apache Commons Collections漏洞原理≤3.2.1CC关键类调用链路POC构造思路POC 前言 Apache Commons Collections是一个扩展了Java标准库里的Collection结构的第三方基础库&#xff0c;它提供了很多强大的数据…

正则表达式1 re.match惰性匹配详解案例

点个关注 re.match() re.match() 函数尝试从字符串的开头开始匹配一个模式&#xff0c;如果匹配成功&#xff0c;返回一个匹配成功的对象&#xff0c;否则返回None。大小写区分&#xff0c;内容匹配不到后面的,只能匹配一个&#xff0c;不能有空格&#xff08;开头匹配&#…

gov企业征信系统瑞数6vmp算法还原

URL aHR0cHM6Ly9zZC5nc3h0Lmdvdi5jbi8今天再来逆向下国家企业征信系统&#xff0c;这个站很卡&#xff0c;兄弟们你们轻点爬&#xff0c;我刷以下页面就转好久的圈圈&#xff0c;这个站两层防护&#xff0c;一层加速乐&#xff0c;一层瑞数&#xff0c;貌似还有极验验证码防护…

代码随想录算法训练营Day55 | 图论理论基础、深度优先搜索理论基础、卡玛网 98.所有可达路径、797. 所有可能的路径、广度优先搜索理论基础

目录 图论理论基础 深度优先搜索理论基础 卡玛网 98.所有可达路径 广度优先搜索理论基础 图论理论基础 图论理论基础 | 代码随想录 图的基本概念 图的种类 大体分为有向图和无向图。 图中的边有方向的是有向图&#xff1a; 图中的边没有方向的是无向图&#xff1a; 图…

【自学笔记】神经网络(1)

文章目录 介绍模型结构层&#xff08;Layer&#xff09;神经元 前向传播反向传播Q1: 为什么要用向量Q2: 不用激活函数会发生什么 介绍 我们已经学习了简单的分类任务和回归任务&#xff0c;也认识了逻辑回归和正则化等技巧&#xff0c;已经可以搭建一个简单的神经网络模型了。 …

详解Python面向对象程序设计

Python面向对象程序设计 1&#xff0c;初识类和对象2&#xff0c;类的定义和使用3&#xff0c;构造方法4&#xff0c;常用的类内置方法4.1&#xff0c;字符串方法&#xff1a;__str__ 4.2&#xff0c;是否小于&#xff1a;__lt__4.3&#xff0c;是否小于等于&#xff1a;__le__…

超级大项目招标:1000台AGV,12月13日截至

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 近期&#xff0c;一个重磅招标项目引发业界广泛关注&#xff1a;焦作机器人应用产业研究院发布总额高达11380万元的机器人采购项目&#xff0c;其中包括1000台AGV&#xff08;无人叉车…