Yolo-World网络模型结构及原理分析（三）—

Yolo-World网络模型结构及原理分析（三）——RepVL-PAN

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
- 1. 网络结构
- 2. 特征融合
- 3. 文本引导（Text-guided）
- 4. 图像池化注意力（Image-Pooling Attention）
- 5. 区域文本匹配（Region-Text Matching）
总结

前言

通过前边的YOLO检测器和文本编码器分别得到了特征图像和词向量，那么如何实现二者的融合，以达到目标检测的目的呢？就是通过yolo-world中提出的新的网络架构RepVL-PAN，下边我们来研究一下他是如何工作的。

RepVL-PAN（Re-parameterizable Vision-Language Path Aggregation Network）是YOLO-World中的一个核心网络结构，它通过融合视觉信息和语言信息来提升目标检测的性能。

1. 网络结构

RepVL-PAN基于YOLO架构，并采用特征金字塔网络（FPN）来提取多尺度图像特征，提取图像特征的部分已经在前文讲过，详情参考：Yolo-World网络模型结构及原理分析（一）——YOLO检测器。
它利用Transformer文本编码器（例如CLIP模型）来处理输入文本，生成文本嵌入。这部分也在前文讲过，详情参考：Yolo-World网络模型结构及原理分析（二）——文本编码器

2. 特征融合

通过Top-Down和Bottom-Up的路径来建立特征金字塔，这有助于在不同尺度上融合图像特征。

（1）Top-Down Path：从高层特征图向低层特征图传递信息。这种路径通过上采样操作（如反卷积或插值）将高层的抽象特征图扩展到低层的空间分辨率上。这样可以将高层特征与低层特征结合，使得模型在检测较小目标时具有更好的精度。
（2）Bottom-Up Path：从低层特征图向高层特征图传递信息。这种路径通过卷积操作将低层的细节特征图逐步融合到高层特征图中，从而保留更多的细节信息。这样可以帮助模型在检测较大目标时更好地保留细节信息。
（3）引入Text-guided Cross Stage Partial Layers（T-CSPLayer），这是一种扩展的CSPLayer，它将文本嵌入整合到多尺度图像特征中。图示中的C3,C4,C5就是从YOLO检测器之后获取到的三种不同尺度的特征图，尺寸分别为80x80，40x40，20x20三种尺寸。

3. 文本引导（Text-guided）

T-CSPLayer使用文本嵌入来引导图像特征的更新，通过在CSPLayer后应用max-sigmoid注意力机制来聚合文本特征。
T-CSPLayer结构如图所示：
（1）首先将传进来的特征图进行Split切分，比如一开始传入的特征图为40x40x512，那么切分之后一份是40x40x256，另一份也是40x40x256。
（2）其中一份进入Dark Bottleneck，进行一次普通卷积：使用较小的卷积核（如 1x1 卷积）来减少通道数和计算复杂度。可以有效地压缩特征图中的信息，同时保留重要的特征。然后进行深度可分离卷积：这种卷积方式将标准卷积拆分为深度卷积和逐点卷积两个步骤，从而进一步减少计算量和参数数量。深度卷积在每个通道上独立进行卷积操作，而逐点卷积则在通道间进行卷积。最后进行残差连接来增强模型的训练能力和稳定性。
（3）从Dark Bottleneck输出特征图之后进入Max-Sigmoid，同时text文本向量也进入Max-Sigmoid，在Max-Sigmoid中的处理过程是这样的：比如传进来的特征图是40x40x256，文本向量是3x256（3个词汇：“男”“女”“狗”），在特征图中有40x40=1600个像素点，每个像素点与3个文本提示词逐一计算，看哪个像素点与文本提示词的相关性最大，就给哪个像素点更多的权重（sigmoid）。也就是通过这个操作找到特征图中与文本提示词相关性更大的区域。这样就可以实现文本对图像的更新。
（4）从Max-Sigmoid出来的融合图再与最开始切分之后的特征图拼接，做一个残差连接，生成含有更丰富信息的特征图（注意这里还是特征图，只是有些像素点的权重更大）。

4. 图像池化注意力（Image-Pooling Attention）

为了增强文本嵌入的图像意识，RepVL-PAN使用图像池化操作来更新文本嵌入。
通过在多尺度特征上应用最大池化，生成小区域的patch tokens，然后使用多头注意力机制来更新文本嵌入。

Image-Pooling Attention结构如图所示：

（1）多尺度特征聚合：在I-Pooling Attention中，首先对图像进行多尺度特征提取。这意味着模型会从不同分辨率的图像中提取特征，以捕捉图像的不同层次的信息。
（2）最大池化操作：在提取多尺度特征后，使用最大池化（max pooling）操作来聚合这些特征。最大池化是一种常用的池化技术，它选择每个池化窗口内的最大值作为输出，这有助于保留图像中最重要的信息。
（3）生成Patch Tokens：通过最大池化操作，将每个特征图（80x80，40x40，20x20三种尺寸）聚合成3x3的区域，每个区域生成一个patch token。这样，对于一个给定的图像，总共会生成27个patch tokens（3x3），每个token都是一个特征向量，其维度为D。
（4）更新文本嵌入：生成的patch tokens随后用于更新文本嵌入。这是通过多头注意力机制实现的。具体来说，原始的文本嵌入w与patch tokens （含有文本信息w和图像信息token的向量）进行多头注意力计算，然后将结果加到原始文本嵌入上，得到更新后的文本嵌入w’，实现用图像更新文本嵌入，模型可以在更新文本嵌入时同时考虑来自图像的多个不同区域的特征。

5. 区域文本匹配（Region-Text Matching）

区域-文本匹配的目的是将检测到的图像区域（bounding boxes）与文本中提到的对象类别或名词进行匹配的过程。
区域文本匹配图示：

（1）通过RepVL-PAN网络之后，输出的P3 P4 P5是含有语义信息的特征图，将特征图输入到不同的Head中，首先通过BoxHead预测图像中每个对象的位置，这些位置以边界框（bounding boxes）的形式表示，每个边界框包含了对象的位置和大小信息。
（2）除了边界框，检测器还会为每个检测到的对象生成一个对象嵌入向量（object embeddings）。这个嵌入向量是一个高维空间中的点，它编码了对象的特征信息（每个对象含有语义信息“男”“女”“狗”），使得不同对象之间可以进行比较和区分。
（3）文本对比头（Text Contrastive Head）
通过RepVL-PAN网络之后得到的Image-aware Embeddings也含有了图像信息，object embeddings中含有了语义信息。利用文本对比头计算的相似度分数来匹配文本中提到的类别或名词与图像中的对象。找到对象嵌入与哪个文本嵌入之间的相似性最大。这样，模型不仅能够识别图像中的对象，还能够理解这些对象与用户输入的文本之间的关系。
也就是说YOLO-World 为每个边界框分配一个最匹配的类别或名词。这是基于相似度计算结果，模型会选择与对象嵌入最相似的文本嵌入所对应的类别或名词。
（4）零样本学习能力
YOLO-World 的一个关键特点是其零样本学习能力。这意味着即使在训练数据中没有见过某些类别或名词，模型也能够通过其语言和视觉的联合表示来识别和匹配这些新对象。