基于Transformer的医学图像分类研究

医学图像分类目前面临的挑战

  1. 医学图像分类需要研究人员同时具备医学图像分析和数字图像的知识背景。
  2. 由于图像尺度、数据格式和数据类别分布的影响,现有的模型方法,如传统的机器学习的识别方法和基于深度卷积神经网络的方法,取得的识别准确度和泛化性是有限的。
  3. 实际场景中,由于医学图像数据的标记成本问题和病例医学图像采集问题,能够获得的有标签医学图像数据是有限的。

现有的医学图像分类方法

  1. 基于统计的分类。分为有监督和无监督两种方式。有监督的统计分类方式通常会将数据划分成训练集和测试集,然后来预测数据的类别标签。常见的概率算法(有监督):最近邻算法、贝叶斯算法;无监督则通过特征分布来区分数据的类别:K均值聚类和模糊聚类算法。
  2. 基于规则的分类。根据设定的一系列规则对特征向量进行分析,后续的过程根据任务的属性设置相应的决策。
  3. 支持向量机。核心思想是寻找给定两个类别之间的最优分离边界。SVM不仅可以用于线性分类场景,还可以在核函数的基础上进行非线性的分类

基于神经网络的分类模式是目前主流的医学图像分类方式,它也可以分为有监督和无监督两种方式。
  1. 有监督的情况下,训练神经网络使得它为每个输入数据分配一个类别标签,然后通过神经网络的预测输出和实际标签之间的误差(即损失函数)来调整神经网络的参数。
  2. 在无监督的情况下,训练样本并不需要有明确的标签信息,神经网络主要探究数据的底层结构和类别实例之间的关联性,根据样本的相似度或不相似度将其划分为一个个簇。

卷积神经网络在医学成像分类过程中的使用方式:

  1. 直接进行训练;
  2. 迁移学习或者微调;
  3. 特征提取器(深度卷积神经网络会移除分类层,将卷积层的输出作为输入图像的特征表示)

卷积神经网络结构

残差网络

模型网络的层数过少会导致训练误差变大,然而不断增加网络层数在可能会带来模型效果的提升的同时也会导致在训练过程过程中网络梯度消失或爆炸的问题。这是因为当网络过深时,由于反向传播过程中导数不断连乘,网络参数的梯度在这过程中会逐渐趋于零或者无穷大,导致网络参数无法进行有效更新。

64通道卷积神经网络

64通道卷积神经网络由四个卷积模块组成,每个卷积模块都包含了一个卷积层、一个批归一化层和一个激活层。此外,对于前两个卷积模块,它们还包含一个额外的2*2最大池化层。卷积层对应的卷积核大小为3*3,通道数为64,卷积核在特征图上的滑动步长为1.

批归一化层在这里的目的是为了对每一批处理的数据进行约束,在一定程度上减少了模型在训练过程中发生过拟合的风险,增强模型的泛化能力。

激活层则是为模型引入非线性元素,同时对于模型参数反向传播时出现梯度消失和爆炸现象起着一定的缓解作用。前两个卷积模块包含的最大池化层主要的作用是对特征图进行下采样。

Transformer

整体结构

编码器由N个相同的编码层组成,每个编码层包含两个子层,分别是多头自注意力层和一个简单全连接前馈网络。同时两个子层之间采用了跳跃连接的方式,并在每个子层之后采用归一化层

每个层对应的输出为:LayerNorm(x+SubLayer(x)),其中SubLayer(x)表示子层。

对于解码器,由N个相同解码层组成。解码层由三个子层组成,解码层比编码层多一个多头自注意力子层。增加的多头自注意力层主要用来执行输出的注意力捕获,这三个子层也采用了跳跃连接的方式进行组织。

多头自注意力模块

多头注意力模块包含多个自注意力模块,它们在通道维度进行拼接,以建模输入序列中不同元素之间的关系

自注意力模块的softmax对应的计算复杂度是关于输入序列长度的平方,因此在输入序列长度过大时会消耗较大的计算资源。

位置编码

由于 Transformer 结构中不包含卷积和递归结构,所以为了使得模型能够利用输入序列的顺序信息,需要引入位置编码来表示元素在序列中的相对位置。位置编码的维度和输入以及输出的嵌入向量一致,所以可以直接相加作为编码器和解码器的输入。

视觉Transformer

ViT首先将输入图像进行转变成一组切片序列,然后将其输入到标准的Transformer的编码器中进行处理,以实现不同的下游任务。

自动化机器学习

自动化机器学习任务的组成包括机器学习算法的选取、结合、以及参数化处理过程。
自动化机器学习方法主要由两个部分组成:一个是搜索空间模型,另一个是遍历搜索空间的优化器

自动化机器学习的目标是在学习工具上构建一个高级别的控制器,用来找到合适的特征、模型以及算法的参数配置。

自动化特征工程的目标是构建一个提升后续模块表现的特征集。

特征金字塔Transformer模型

为了便于理解医学图像分类任务的主要目标,首先建立一个医学图像分类任务的定义。对于给定大小 H × W 且通道数为 C 的输入图像 x R H × W × C ,在MedMNIST 中 H = W = 28 并且 C = 1 3 ,医学图像分类的目标是准确识别图像在对应数据集中的种类 y。
\hat{y}=G(x)
其中, \hat{y}指的是类别预测输出。

模型组件

深度残差网络和Vision Transformer,两个组件分别对应了特征提取和特征建模能力。

Res-Net-18主要由八个基本块组成,每两个基本块组成一个基本层(basic layer)。一般来说,浅层网络主要提取比较泛化的特征信息,而深层网络则可以提取到输入图像更具有特征的特征信息。

Vision Transformer组件则是将一张图像处理成相同尺寸的多个切片,然后被输入到Transformer中。给定一张图像x\in R^{H\times W\times C},它经过变换后成为一系列展平的切片x_{p} \in R^{N\times(P^{2}C)},其中,(P,P)表示每个切片的大小。

一张图像通常首先会被输入到一个卷积神经网络中提取特征,然后模型根据输出的特征图进行分类。神经网络的不同层具备不同的特征信息,但是目前大多数模型都是基于深层特征进行预测。

 整体模型

模型将ResNet-18中的基本层作为特征提取器,将获取的CNN特征图展平为一个线性序列。

模型可以充分使用深度神经网络中低层、中层以及高层的特征输出来进行预测。使用基本层作为特征提取器能够取得比直接使用Vision Transformer更好的效果。

对于ResNet的四个基本层,可以使用符号 B1, B2, B3, B4 来进行表示,同时每个基本层都被看作一个特征提取器

B_{i}=g(B_{i-1})+f(g(B_{i-1})),i=2,3,4

x为输入特征,f表示基本块的一系列运算操作,g表示残差连接,并且g(.)=.+f(.)。各层的输出可以被建模为通过不同尺度来观察输入图像。

多尺度融合决策

对于四个不同层的输出,选取前三个尺度的特征图(B1,B2,B3)并将其输入到三个浅层的ViT中。对于最后一个尺度的特征图输出(B4),它被保留在ResNet-18的原始路径中。

对于Transformer路径部分,首先将输入{b_{i}\in B_{i}\mid i=1,2,3}变换成一系列展平的2D切片,每块切片的大小都为1*1,之后利用可训练的线性投影将矢量化切片映射到一个D维的嵌入空间中。同时,为每个切片添加位置嵌入来保持切片在原图中的位置信息。

Transformer的编码器主要包含两个组件:多头自注意力结构和多层感知机(MLP)模块。通过编码器的处理后,可以获取激活函数a,其处理过程

 对于ResNet原路径部分,最后一层的特征图被输入进一个池化层和一个线性层。最后一层对应的激活向量a_{4}=F_{linear}(F_{pool}b4),b_{4}\in B_{4},接着将四个激活向量进行拼接,并且将最终的预测通过一个softmax或sigmoid函数进行处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/290862.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Laya1.8.4 UI长按选择对应位置释放技能

需求: 需要实现拖拽摇杆选择技能释放位置,释放技能。 原理:首先拆分需求,分为两部分,UI部分和场景部分,UI部分需要实现长按效果,长按后又要有拖动效果,将官方文档的示例代码改了改…

Springboot+MybatisPlus+EasyExcel实现文件导入数据

记录一下写Excel文件导入数据所经历的问题。 springboot提供的文件处理MultipartFile有关方法,我没有具体看文档,但目测比较复杂, 遂了解学习了一下别的文件上传方法,本文第1节记录的是springboot原始的导入文件方法写法&#xf…

【生活】相机/图像各参数

文章目录 专业模式图片编辑-滤镜实体滤镜软件模拟滤镜 图片编辑-增强曝光亮度对比度饱和度自然饱和度色温色调高光阴影HSL色调分离褪色颗粒锐化晕影清晰度暗角 参考 专业模式 第一个参数WB是白平衡,调节色彩的。 第二个是对焦F,近距离拍摄物体&#xf…

Android R 广播注册与发送流程分析

静态广播注册时序图 动态广播注册时序图 发送广播时序图 前言 广播接收器可以分为动态和静态,静态广播接收器就是在 AndroidManifest.xml 中注册的,而动态的广播接收器是在代码中通过 Context#registerReceiver() 注册的。 这里先从静态广播的流程开始…

FANUC机器人故障诊断—报警代码(一)

一、SRVO-050碰撞检测报警 [原因]检测出碰撞 [对策] 1.确认机器人是否碰撞。 2.确认是否正确进行了负载设定。 3.确认是否有过载、过度的加速度附加指令。 4.在长期停用后启动,或者外部气温较低时发生该报警。启动后,先短时间内低速运转设备&#…

uniapp开发App——登陆流程 判断是否登陆,是,进入首页,否,跳转到登录页

一、登陆流程 文字描述:用户进入App,之后就是判断该App是否有用户登陆过,如果有,直接进入首页,否则跳转到登陆页,登陆成功后,进入首页。 流程图如下: 二、在uniapp项目中代码实现 实…

google浏览器网站不安全与网站的连接不安全怎么办?

使用google谷歌浏览器访问某些网站打开时google谷歌浏览器提示网站不安全,与网站的连接不安全,您之所以会看到此警告,是因为该网站不支持https造成的怎么办? 目录 1、打开谷歌google浏览器点击右上角【┇】找到设置

React Native框架开发APP,安装免费的图标库(react-native-vector-icons)并使用详解

一、安装图标库 要使用免费的图标库,你可以使用 React Native Vector Icons 库。 首先,确保你已经安装了 react-native-vector-icons: npm install --save react-native-vector-iconsnpm install --save-dev types/react-native-vector-ic…

vue3使用vuedraggable实现拖拽(有过渡)

1. 安装与使用 vue中vuedraggable安装: pnpm i -S vuedraggablenext或者 yarn add vuedraggablenext注意:vue2和vue3安装的是不同版本的vuedraggable,写法上也会有一些区别。 比如在vue3中使用拖拽,要以插槽的方式,…

从 Azure 部署生成本地 .NET 密钥

作者:Frank Boucher 排版:Alan Wang 通常,示例项目以一些“魔术字符串”开始,这些变量包含与部署或外部资源相关的 URL 和关键信息,我们必须更改这些信息才能使用示例。例如在 .NET 中,它可能如下所示&…

使用vue2实现在线创建组件的功能

前言 我们使用vue2构建了一个项目,项目有个需求:用户可以在线创建vue组件,创建后的组件可以动态编译,项目无需重新部署,就可以在表单等位置引入使用组件。 实现记录 引用vue的esm包 项目中引入vue的代码&#xff0…

【Roadmap to learn LLM】Large Language Models in Five Formulas

by Alexander Rush Our hope: reasoning about LLMs Our Issue 文章目录 Perpexity(Generation)Attention(Memory)GEMM(Efficiency)用矩阵乘法说明GPU的工作原理 Chinchilla(Scaling)RASP(Reasoning)结论参考资料 the five formulas perpexity —— generationattention —— m…

电脑分辨率怎么调,电脑分辨率怎么调整

随着电脑的普及以及网络的发展,我们现在在工作中都离不开对电脑的使用,今天小编教大家设置电脑分辨率,现在我们先了解这个分辨率是什么?通常电脑的显示分辨率就是屏幕分辨率,显示屏大小固定时,显示分辨率越高图像越清…

数据可视化为什么能在智慧港口中发挥作用?

随着全球贸易活动日益频繁,港口作为国际贸易的重要节点,其运营效率与智能化程度直接影响着整个物流链的效能。在此背景下,智慧港口的概念应运而生,它借助先进的信息技术手段对传统港口进行改造升级,其中,数…

【AIGC】如何在Windows/Linux上部署stable diffusion

文章目录 整体安装步骤windows10安装stable diffusion环境要求安装步骤注意事项参考博客其他事项安装显卡驱动安装cuda卸载cuda安装对应版本pytorch安装git上的python包Q&A linux安装stable diffusion安装anaconda安装cudagit 加速配置虚拟环境挂载oss(optional…

Spring Aop 源码解析(下)

ProxyFactory选择cglib或jdk动态代理原理 ProxyFactory在生成代理对象之前需要决定到底是使用JDK动态代理还是CGLIB技术: config就是ProxyFactory对象,把自己传进来了,因为ProxyFactory继承了很多类,其中一个父类就是ProxyConfig // config就是ProxyFactory对象// 是不是…

02正式学习第一天

1、windows上加载socket库 链接输入ws2_32.lib 代码code&#xff1a; #ifdef _WIN32 #include<windows.h> #else #include <sys/socket.h> #include<sys/types.h> #include<unistd.h> #include<cstring> #include<arpa/inet.h> #include…

【Java】LinkedList模拟实现

目录 整体框架IMyLinkedList接口IndexNotLegalException异常类MyLinkedList类成员变量(节点信息)addFirst(头插)addLast(尾插)在指定位置插入数据判断是否存在移除第一个相等的节点移除所有相等的节点链表的长度打印链表释放回收链表 整体框架 IMyLinkedList接口 这个接口用来…

WPF 路由事件 数据驱动 、Window 事件驱动

消息层层传递&#xff0c;遇到安装有事件侦听器的对象&#xff0c;通过事件处理器响应事件&#xff0c;并决定事件是否继续传递&#xff1b; 后置代码中使用AddHandler方法设置事件监听器&#xff0c;该方法的 第一个参数是指定监听的路由事件类型对象&#xff0c; 第二个参数…

微服务demo(四)nacosfeigngateway

一、gateway使用&#xff1a; 1、集成方法 1.1、pom依赖&#xff1a; 建议&#xff1a;gateway模块的pom不要去继承父工程的pom&#xff0c;父工程的pom依赖太多&#xff0c;极大可能会导致运行报错&#xff0c;新建gateway子工程后&#xff0c;pom父类就采用默认的spring-b…