一、Large Separable Kernel Attention论文
论文地址:2309.01439.pdf (arxiv.org)
二、Large Separable Kernel Attention注意力结构
LSK通过使用大型可分离卷积核来提升注意力机制的效果。在传统的注意力机制中,常用的是小型卷积核,如1x1卷积,来计算注意力权重和特征表示的关系。然而,这种方法在处理大尺寸输入时可能会导致计算负荷过大,限制了模型的性能。
LSK方法引入了大型可分离卷积核来解决这个问题。可分离卷积是将标准卷积分解为深度可分离卷积和逐点卷积的组合。深度可分离卷积首先对每个输入通道进行独立的卷积计算,然后再对深度维度上的特征进行组合。逐点卷积是指使用1x1的卷积核进行逐点操作。