网络首发地址:https://link.cnki.net/urlid/51.1307.tp.20231026.1648.002
摘要:
U-Net以卷积神经网络(CNN)为主干,其易于优化促使在医学图像分割领域的发展,
但只擅长获取局部特征,缺乏长期相关性解释。(就是说,只能很好抓住局部关系,不能很好把握全局关系,就像翻译时只是单词的堆砌,而不是顾及前后让整句话更顺畅合理)
本文主要对近七年U型网络改进工作,Transformer与U型网络的结合,在Synapse和ACDC数据集上进行对比实验,最后证明transformer在图像分割上更有优势。
引言:
医学图像分割技术在CT, MRI,X-Ray,超声等广泛应用。传统技术主要有....,不能解决现代问题。为了解决这一问题,且更好治疗, 诞生了CAD系统,其中重要的就是医学图像处理。
2015提出U-Net奠定了图像分割的发展方向——FCN改进后,拥有完整encode-decode结构,和用于融合高低分辨率的跳跃连接。
本文主要内容(贡献):阐述了从U-Net到Transformer发展过程,以及各个方法论文的研究方法优劣,对不同研究目的提出参考性建议。
基于U-Net的相关改进
1. 从2D扩展到3D的U-Net
2. 残差思想:
milletar对编码器子块引入了残差连接,使用四次下采样操作,有助于减少网络在训练期间占用的的内存,且捕获深层特征。同时其通过非线性转换实现了数据增强。
3.密集思想
黄高博士在DenseNet[26]中提出,在神经网络 中,先前层与后续层相连接共同作为下一层的输入,通过最大 化信息流以消除梯度消失,并加强特征传播、鼓励特征重用。
可以从图像中提取不同尺寸的上下文信息,进一步提升网络 性能。
4.多机制组合
5.多网络模型
即网络与网络两个巧妙连接,如两个U-Net连接起来。
6.编解码器分支
7.基于transformer的变化
Transformer解决了局部性 的归纳偏差,使其更有能力建立非局部的相互关系。(其有位置编码,自注意力机制,能够掌控全局上下文关系。)
名词学习:
数据增强: 就是创建原数据的新变体然后进行训练的过程叫数据增强。创建新变体过程如旋转,剪切,擦除,噪点引入,遮挡,弹性变形,缩放等。 使得模型泛化能力更强,避免过拟合
ReLU 激活函数的定义是:ReLU(x)=max(0,x)ReLU(x)=max(0,x)
额外感受(收获):
算法不仅要考虑合理性,而且还要看训练数据集,是大器官,还是视网膜等微小细节的数据集。
GoogLeNet[22]中的Inception模块将全连接或普通卷积结 构转化为稀疏连接,以解决大量参数导致的过拟合问题[23]
怎么得出模型的优势?(抓住框架中每个模块的各自特征,进行互补或则增强)
文中提到TransUNet,二者结合既保留高分 辨率位置信息又继承低分辨率细节信息。这怎么得出的呢,
就在于CNN特别擅长捕捉局部特征和纹理信息,这些通常在图像的高分辨率表示中更容易被识别。而transformer通过自注意力机制能够捕捉长距离依赖关系,它不受限于局部区域,能够在整个图像范围内建立特征之间的联系,这有助于提取低分辨率的全局上下文信息。
做数据增强的时候可以用他的包,参考视频链接
开始跑实验的时候,最好把维度也打印出来,一方面便于理解,另一方面便于调试。
参考:
https://zhuanlan.zhihu.com/p/574835363(类似综述)