我们介绍了可变形卷积v4(DCNv4),这是一种为广泛的视觉应用设计的高效且有效的算子。DCNv4通过以下两项关键改进解决了其前身DCNv3的局限性:
- 在空间聚合中移除softmax归一化,以增强其动态特性和表达能力。
- 优化内存访问,减少冗余操作以提高速度。
这些改进使得DCNv4相比DCNv3具有显著更快的收敛速度和处理速度,前向传播速度提高了三倍以上。DCNv4在图像分类、实例和语义分割以及图像生成等任务中表现出色。当集成到生成模型(如潜在扩散模型中的U-Net)中时,DCNv4优于其基线模型,突显了其提升生成模型的潜力。在实际应用中,将InternImage模型中的DCNv3替换为DCNv4,形成FlashInternImage,在无需进一步修改的情况下,实现了高达80%的速度提升和性能改进。DCNv4在速度和效率上的进步,以及在各种视觉任务中的强大表现,显示了其作为未来视觉模型基础构件的潜力。
- 论文英文原名称: Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Visi