摘要
由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成足够的信息混合,导致视觉感知不自然。为了解决这个问题,作者提出了一种聚合注意力(Aggregated Attention),这是一种基于仿生设计的token混合器,模拟了生物的中央凹视力和连续眼动,同时使特征图上的每个token都具有全局感知能力。此外,作者引入了可学习的token,这些token可以与传统的查询和键进行交互,从而在生成亲和矩阵时不仅仅依赖于查询和键之间的相似性。作者的方法不依赖于堆叠进行信息交换,从而有效避免了深度退化,实现了自然的视觉感知。此外,作者提出了卷积GLU(Convolutional GLU),这是一种通道混合器,填补了GLU和SE机制之间的空白,使每个token基于其最近邻的图像特征拥有通道注意力,从而增强了局部建模能力和模型的鲁棒性。作者结合聚合注意力和卷积GLU创建了一个新的视觉骨干网络,称为TransNeXt。
理论介绍
Convolutional GLU(卷积GLU) 是一种结合了通道注意力机制和最近邻图像特征的模块,用于增强局部建模能力和模型的鲁棒性。Convolutional GLU 的设计:
- GLU(Gated Linear Unit)在自然语言处理任务中表现优于多层感知器(MLP)。GLU 由两个线性投影组成,其中一个投影被激活函数门控。与 SE 机制不同,GLU 的门控信号来自于 token 本身,而不是全局平均池化。
- 简单地在 GLU 的门控分支的激活函数之前添加一个最小形式的 3×3深度卷积,使其结构符合基于最近邻特征的门控通道注意力设计理,称这种方法为卷积GLU。
- 在卷积GLU中,每个 token 都拥有基于其最近邻精细特征的独特门控信号,克服了 SE 机制中全局平均池化过于粗粒度的缺点。该设计还满足了一些不使用位置编码设计的 ViT 模型的需求,这些模型需要深度卷积提供的位置信息。
Convolutional GLU 结构图如下(摘自论文):
理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
下文都是手把手教程,跟着操作即可添加成功
目录
- 摘要
- 理论介绍