本文的核心思想,就是将mobilenet与transformer结合起来,通过mobilenet提取局部特征,transformer来提取全局特征。比较突出的是,本文采用了一种全新的并行结构,而不是之前的将cnn模型穿插在VIT中的方法,并且通过bridge,将全局与局部特征进行融合。结构如图所示:
mobilenett以图像为输入堆叠mobile block(或inverted bottleneck)。它利用高效的depthwise和pointwise卷积来提取像素级的局部特征。transformer以一些可学习的token作为输入,与传统的VIT不同,这里的输入包含非常少的随机初始化的token(例如少于6个token),来降低计算成本。叠加multi-head attention和前馈网络(FFN)。这些token用于对图像的全局特征进行编码。
可以看到,在准确率相近的模型中,Mobile-Former模型有相比小的计算量
模型的内部结构如图:
可以看到对于mobilnet->former模块来说,输入为原输入与局部特征融合做attention,计算公式如图:
而对于former->mobilnet模块来说,输入为原输入与全局特征融合做attention,计算公式如图:
同时,作者还最后,还从三个方面介绍了改方法的可解释性,这里就不多介绍。
如有错误,欢迎批评指正!