【目标检测2024】DetCLIP

算法介绍
CLIP（Contrastive Language-Image Pre-Training）模型是一种多模态预训练神经网络，由OpenAI在2021年发布，是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务，包括OCR，地理定位，动作识别，并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。该模型的核心思想是使用大量图像和文本的配对数据进行预训练，以学习图像和文本之间的对齐关系。该模型具有多模态学习的能力，能够同时理解图像和文本两种不同模态的信息，并在它们之间建立联系。CLIP模型在多个领域都展现出了强大的应用潜力，包括图像分类、图像检索、文本生成、多模态搜索等，尤其适用于零样本学习任务，即模型不需要看到新的图像或文本的训练示例就能进行预测。
算法原理
2.1 VIT

2.2 Transformer

2.3 CLIP

CLIP模型训练分为三个阶段：

（1）Contrastive pre-training：预训练阶段，使用图片-文本对进行对比学习训练；
（2）Create dataset classifier from label text：提取预测类别文本特征；
（3）Use for zero-shot predictiion：进行 Zero-Shoot 推理预测。
CLIP的工作原理可以概括为“对比学习”。对比学习是一种学习相似性度量的方法，其核心思想是通过将同一组数据中的不同样本对进行比较，来学习它们之间的相似度或差异度。在CLIP模型中，对比学习被用来训练模型学习视觉和语言的相互关系。
具体来说，在预训练阶段，CLIP通过对比图像和文本的向量表示，学习它们之间的匹配关系。模型会接收一批图像-文本对作为输入，并尝试将匹配的图像和文本向量在共同的语义空间中拉近，而将不匹配的向量推远，也就是计算类别标签与预测的余弦相似度，相似度最高的标签即是预测的分类结果，这种学习方式使得CLIP能够捕捉到图像和文本之间的深层语义联系，实现跨模态理解。不同于以的分类网络的类别数量是固定的，CLIP给了我们很高的自由度去设置“多项选择题”提供给网络的分类标签不仅数量不固定，内容也是自由的，摆脱了事先定好的分类标签。

此外，在训练过程中，CLIP采用了对比损失函数，包括对比损失（通过最大化正确图像-文本对的相似性和最小化错误图像-文本对的相似性来训练模型）和分类损失（用于训练模型对图像和文本进行多任务分类），这是对称的，意味着对于每个图像-文本对，模型会计算两个方向的损失：图像到文本和文本到图像。这种对称性确保了模型在两个方向上都能有效地学习匹配关系。

算法应用

CLIP多模态训练模型的应用范围广泛，包括但不限于零样本学习、图像分类、文本-图像检索、文本到图像生成以及开放领域的检测分割等任务。这些应用展示了CLIP模型在处理多模态数据时的强大能力和广泛适用性。在医学领域，上海交通大学与上海人工智能实验室联合团队提出了PMC-CLIP模型，从科学文献中构建高质量医疗多模态数据集—PMC-OA数据集，其在规模和丰富程度上超过了以往的工作，涵盖了更丰富的疾病、器官和影像模态，基于该数据集，PMC-CLIP模型在图文互搜、图像分类、视觉问答等下游任务上均能够显著提升性能，具体的数据处理与预训练模式见图4。近年来，CLIP在医学成像领域也受到越来越多的关注，因为它能够编码视觉模型中的广泛知识。在医学领域，现有的CLIP研究可分为两类，一是改进的CLIP预训练（refined CLIP pre-training），二是基于CLIP的应用（CLIP-driven application）。前者试图将CLIP预训练范式，应用到医学图像和相应的临床报告中，以满足医学成像领域的特定要求；后者致力于将预训练的CLIP模型作为所提出方法的关键组成部分，实现各种临床任务（如胸部疾病诊断、多器官分割）。
在中医药信息化发展方面，CLIP也有一些潜在的应用场景值得我们探索，例如CLIP模型可以用于识别中药材的图像，通过学习大量的中药材图像和对应的文本描述，模型能够识别和分类不同的中药材；帮助分析和理解中医药文献中的图像和文本内容，提取关键信息；结合中医的四诊（望、闻、问、切）信息，CLIP模型可以辅助构建智能诊断系统，通过分析患者的舌象、面色等图像信息，结合症状描述，辅助医生进行诊断和治疗建议；帮助构建中医药知识图谱，促进中医药信息的组织和检索，等等。在实际应用中，CLIP模型需要针对中医药领域的特定需求进行适当的调整和优化，例如，通过在中医药相关的数据集上进行微调，以提高模型在该领域的性能和准确性。此外，结合中医药专家知识，可以进一步提升模型的解释能力和应用价值。值得注意的是，CLIP模型在中医药领域的应用还处于探索阶段，需要更多的研究和实践来验证其有效性和可行性。
总结
CLIP技术的出现，标志着多模态学习领域的一次重要突破。它不仅打破了语言与视觉之间的界限，还为人工智能的未来发展开辟了新的道路。然而，CLIP模型也面临着一些挑战，如细粒度分类表现不佳、对未见过的图片类型表现一般、模型训练需要大量的数据和计算资源等，这在一定程度上限制了其普及和应用。随着技术的不断进步和应用的不断拓展，我们相信CLIP将在更多领域发挥重要作用，帮助我们更好地把握人工智能的发展脉搏，推动技术的创新和应用。

DetCLIPv3的特点有三个核心设计：
1.多功能的模型架构：作者导出一个健壮的开集检测框架，并通过集成字幕 Head 进一步赋予其生成能力。
2.高信息密度数据：作者开发了一个自动标注 Pipeline ，利用视觉大型语言模型来细化大规模图像-文本对中的字幕，为训练提供丰富、多粒度的目标标签以增强训练。
3.高效的训练策略：作者采用了一个预训练阶段，使用低分辨率输入，使目标字幕生成器能够从广泛的图像-文本配对数据中高效学习广泛的视觉概念。

	开放词汇目标检测（OVD）领域的近期进展已经实现了识别和定位多种不同目标的能力。然而，这些模型在推理过程中依赖于预定义的目标类别列表，这限制了它们在实际场景中的应用。与目前仅基于类别名称识别物体的开放词汇目标检测（OVD）方法相比，人类认知展现出了更多的灵活性。如图2所示，人类能够以层次化的方式，从不同的粒度理解物体。这种多级识别能力展示了人类丰富的视觉理解能力，这是现代OVD系统尚未达到的。

在这里插入图片描述

DetCLIPv3具有三个核心设计特点：
多功能的模型架构： DetCLIPv3基于一个健壮的开词汇（OV）检测器，并且进一步通过一个物体描述器增强了其生成能力。具体来说，物体描述器利用OV检测器提供的foreground proposals（前景 Proposal ），并通过语言建模训练目标来训练生成每个检测到的物体的分层标签。这种设计不仅允许精确的定位，还能提供视觉概念的详细描述，从而为视觉内容提供更丰富的解释。

高信息密度数据：发展强大的生成能力需要丰富的训练数据，这些数据需充实了详细的物体 Level 描述。这样全面的数据库稀缺（例如，Visual Genome [25]）成为了训练有效物体描述生成器的重大障碍。另一方面，尽管大规模的图像-文本配对数据很丰富，但它们缺乏对每个物体的细粒度标注。为了利用这些数据，作者设计了一个自动标注管线，利用最先进的视觉大型语言模型[7, 35]，该模型能够提供包含丰富层次化物体标签的精细图像描述。通过这个管线，作者得到了一个大规模的数据集（称为GranuCap50M），以增强DetCLIPv3在检测和生成方面的能力。

高效的多阶段训练：与高分辨率输入相关的目标检测训练成本高昂，这对从大量的图像-文本对中学习构成了重大障碍。为了解决这个问题，作者提出了一种高效的多阶段对齐训练策略。这种方法首先利用大规模、低分辨率的图像-文本数据集的知识，然后在高质量、细粒度、高分辨率的数据上进行微调。这种方法确保了全面的视觉概念学习，同时保持了可管理的训练需求。

通过有效的设计，DetCLIPv3在检测和目标 Level 的生成能力上表现出色，例如，采用Swin-T Backbone 网络，在LVIS minival基准测试中取得了显著的47.0零样本固定AP[9]，明显优于先前的模型如GLIPv2[65]，DetCLIPv2[60]和GroundingDINO[36]。此外，它在密集字幕任务上达到18.4 mAP，比先前的SOTA方法GRiT[56]高出2.9 mAP。广泛的实验进一步证明了DetCLIPv3在领域泛化及下游迁移能力方面的优越性。