AI多模态技术介绍：视觉语言模型(VLMs)指南

本文作者：AIGCmagic社区刘一手

在本文中，我们将探讨用于开发视觉语言模型（Vision Language Models，以下简称VLMs）的架构、评估策略和主流数据集，以及该领域的关键挑战和未来趋势。通过了解这些基础方面，读者可以深入了解如何在包括医疗、机器人和媒体等行业中应用VLMs，以创建更复杂且具备上下文感知能力的人工智能系统。

曾经人工智能能够像人类一样有效地理解视觉和文本线索的想法，似乎遥不可及且难以想象。

然而随着多模态AI的出现，我们正在经历一场革命。AI现在可以同时理解多种模态，如文本、图像、语音、面部表情和手势等，以理解我们周围的世界。处理多种模态的能力为AI应用打开了各种途径。

多模态AI的一个主流的应用是视觉语言模型（VLMs）。这些模型可以同时处理和理解语言（文本）和视觉（图像）的模态，以执行高级的视觉语言任务，如视觉问答（VQA）、图像描述和文本到图像搜索。在本文中我们将介绍：

VLMs的主流架构；
VLMs的评估方法；
VLMs的数据集；
VLM的关键挑战、主要应用和未来趋势；

一、VLMs的一般定义

视觉语言模型（VLM）是视觉模型与自然语言模型的融合。它接收图像及其对应的文本描述作为输入，并学习将两种模态的知识关联起来。模型的视觉部分捕捉图像的空间特征，而语言模型则编码文本信息。

来自两种模态的数据，包括检测到的对象、图像的空间布局和文本嵌入，都会相互映射。例如，如果图像中有一只鸟，模型会学习将其与文本描述中的相关关键词关联。

通过这种方式，模型学会理解图像，并将知识转换为自然语言（文本），反之亦然。

VLM的训练

构建VLM涉及预训练基础模型和零样本学习。可以使用迁移学习技术，如知识蒸馏，对模型进行微调，以适应更具体的下游任务。

这些是相对简单的技术，需要较小的数据集和较少的训练时间，同时保持良好的效果。

现代框架则使用各种技术来获得更好的结果，例如：

对比学习。
掩蔽语言-图像建模。
使用Transformer的编码器-解码器模块等。

这些架构能够学习各种模态之间的复杂关系，并提供最先进的结果。接下来，我们将详细讨论这些内容。

二、VLMs的主流架构

让我们来看看一些VLM架构，以及主流模型如CLIP、Flamingo和VisualBert等所使用的学习技术。

2.1 对比学习

对比学习是一种通过理解数据点之间差异来学习的方法。该方法计算数据实例之间的相似度得分，并旨在最小化对比损失。在半监督学习中尤为有用，因为只有少量标记样本指导优化过程，以标记未见过的数据点。

理解猫的外形特征有多种方法，其中一种是将其与相似的猫图像和狗图像进行对比。对比学习模型通过识别面部结构、体型大小和毛发等特征来区分猫和狗。这些模型能够判断哪张图像与原始图像（称为"锚点"）更相似，从而预测其类别。

CLIP是一个运用对比学习的典型模型。它使用文本和视觉编码器来计算文本与图像嵌入之间的相似度。为实现零样本预测，CLIP遵循以下三个步骤：

在预训练阶段同时训练文本和图像编码器，学习图像-文本对的关系

将训练数据集中的类别转换为文字描述

对输入图像进行零样本预测时，估算最匹配的文字描述

2.2 PrefixLM

PrefixLM 是一种主要用于模型预训练的自然语言处理学习技术。它输入部分文本（前缀），并学习预测序列中的下一个词。在视觉语言模型中，PrefixLM 使模型能够基于图像及其对应的前缀文本来预测下一个词序列。它利用视觉 transformer（ViT）将图像划分为一维的图像块序列，每个图像块代表一个局部图像区域。

随后，模型对处理后的图像块应用卷积或线性投影，以生成上下文化的视觉嵌入。对于文本模态，模型将与图像块相关的文本前缀转换为词元嵌入。transformer 的编码器-解码器模块接收视觉和词元嵌入。在这个过程中，模型学习嵌入之间的关系。

SimVLM 是一个采用 PrefixLM 学习方法的流行架构。相比其前身，它具有更简单的 transformer 架构，在多个基准测试中取得了更好的结果。

它使用 transformer 编码器来学习图像-前缀对，并使用 transformer 解码器来生成输出序列。该模型还展示了良好的泛化能力和零样本学习能力。

同样地，VirTex 使用卷积神经网络来提取图像特征，并使用带有 transformer 的文本处理模块来管理文本前缀。通过向文本处理模块输入图像-文本对，你可以端到端地训练模型来预测正确的图像描述。

2.3 Frozen PrefixLM

虽然 PrefixLM 技术需要从头开始训练视觉和文本编码器，但冻结 PrefixLM 允许你使用预训练网络，只更新图像编码器的参数。

例如，下面的架构展示了如何使用预训练语言模型和视觉编码器来实现冻结机制。文本编码器可以来自任何大型语言模型（LLM），视觉编码器也可以是预训练的视觉基础模型。

你可以微调图像编码器，使其图像表示与文本嵌入对齐，从而使模型能够做出更好的预测。

Flamingo 的架构采用了更先进（SOTA）的方法。它使用类似 CLIP 的视觉编码器和一个名为 Chinchilla 的大型语言模型。通过保持 LLM 固定不变，你可以在文本之间交错插入图像来训练视觉编码器。

视觉编码器通过 Perceiver Sampler 处理图像。这种技术可以实现更快的推理速度，使 Flamingo 特别适合少样本学习。

2.4 使用交叉注意力的多模态融合

这种方法通过添加交叉注意力层，利用预训练 LLM 的编码器进行视觉表示学习。VisualGPT 是一个主要的示例，它允许快速调整 LLM 的预训练编码器权重以适应视觉任务。

研究人员从输入图像中提取相关对象，并将它们输入到视觉编码器中。生成的视觉表示随后被输入到解码器中，并根据预训练的 LLM 进行权重初始化。解码器模块通过自恢复激活单元（SRAU）来平衡视觉和文本信息。

SRAU 方法避免了梯度消失的问题，这是深度学习中的一个常见问题，即由于梯度过小导致模型权重无法更新。因此，VisualGPT 的性能优于多个基准模型，如普通 transformer、注意力上的注意力（AoA）transformer 和 X-transformer。

2.5 掩码语言建模（MLM）和图像-文本匹配（ITM）

MLM 在 BERT 等语言模型中的工作原理是通过掩盖或隐藏文本序列的一部分，并训练模型来预测缺失的文本。ITM 则涉及预测句子 Y 是否跟随句子 X。

可以将 MLM 和 ITM 技术应用于视觉任务。下图展示了在 COCO 数据集上训练的 VisualBERT 架构。它通过引入图像序列和带掩码的文本描述来增强 MLM 过程。基于视觉嵌入，其目标是预测缺失的文本。同样地，ITM 预测某个描述文本是否与图像匹配。

2.6 无需训练的方法

你可以直接使用大规模预训练的视觉-语言模型，而无需任何微调。例如，MAGIC 和 ASIF 是免训练框架，旨在预测与输入图像紧密对齐的文本描述。

MAGIC 使用基于 CLIP 生成的图像嵌入的专门评分来指导语言模型的输出。使用这个评分，LLM 生成与图像语义紧密对齐的文本嵌入，使模型能够以零样本方式执行多模态任务。

ASIF 使用相似图像具有相似描述的理念。模型计算训练数据集中查询图像和候选图像之间的相似度。接下来，它比较查询图像嵌入与相应候选图像的文本嵌入。

然后，它预测嵌入与查询图像最相似的描述，从而实现与 CLIP 和 LiT 等模型相当的零样本性能。

2.7 知识蒸馏

这种技术涉及将知识从一个训练良好的大型教师模型转移到参数较少的轻量级学生模型。这种方法允许研究人员从更大的预训练模型中训练视觉语言模型（VLM）。

例如，ViLD 是一个使用知识蒸馏方法开发的流行 VLM。该模型使用预训练的开放词汇图像分类模型作为教师来训练两阶段检测器（学生）。

该模型将文本编码器的文本嵌入与图像嵌入进行匹配。

知识蒸馏将知识从图像编码器转移到骨干模型，以自动生成区域嵌入。在推理过程中，只有骨干模型生成区域嵌入，并将其与未见过的文本嵌入进行匹配。

其目标是根据文本描述在图像中为对象绘制正确的边界框。

三、VLMs的评估方法

VLM 验证涉及评估图像和文本数据之间关系的质量。对于图像描述模型来说，这意味着将生成的描述与真实描述进行比较。

你可以使用各种基于 n-gram 的自动评估策略来比较预测标签的准确性、语义和信息精确度。以下是几个关键的 VLM 评估指标：

BLEU：双语评估替补（BLEU）指标最初是为评估机器翻译任务而提出的。它通过考虑候选句子中有多少词出现在参考句子中，来计算目标文本相对于参考文本（真实值）的精确度。
ROUGE：面向召回率的摘要评估替补（ROUGE）通过考虑参考句子中有多少词出现在候选句子中来计算召回率。
METEOR：显式排序翻译评估指标（METEOR）计算精确度和召回率的调和平均值，对召回率给予更大的权重，并将其与惩罚项相乘。该指标是对其他仅使用精确度或召回率的指标的改进，因为它结合了两者的信息来提供更好的评估。
CIDEr：基于共识的图像描述评估（CIDEr）通过使用 TF-IDF 分数计算参考句子和目标句子之间的平均相似度，将目标句子与一组人工句子进行比较。

四、VLMs的数据集

既然你已经了解了视觉语言模型（VLM）相关的评估指标，了解如何为这些模型整理数据集也是至关重要的。一个合适的数据集为 VLM 的训练和验证提供了肥沃的土壤，并且在决定模型在各种任务中的表现方面起着关键作用。

收集 VLM 的训练数据比传统 AI 模型更具挑战性，因为它涉及多种数据模态的收集和质量保证。Encord Index 通过提供全面的数据管理和整理解决方案来简化这个过程。以下是几个结合图像和文本数据用于多模态训练的数据集：

LAION-5B：实践者使用 LAION-5B 数据集来构建大型预训练 VLM。该数据集包含超过 50 亿个由 CLIP 生成的图像-文本对，包含英语和其他语言的描述，适用于多语言领域。

PMD：公共模型数据集（PMD）最初出现在 FLAVA 论文中，包含 700 亿个图像-文本对。它是从其他大规模数据集（如 COCO、Conceptual Captions（CC）、RedCaps 等）收集而来的数据集合。这个数据集是多模态数据的宝库，有助于稳健的模型训练。

VQA：专家使用 VQA 数据集来微调预训练的 VLM，以用于下游的视觉问答和视觉推理任务。该数据集包含超过 20 万张图像，每张图像有 5 个问题，每个问题有 10 个正确答案和 3 个错误答案。ImageNet：ImageNet 包含超过 1400 万张图像，这些图像根据 WordNet 层次结构进行注释分类。它有助于构建用于简单下游任务的模型，如图像分类和对象识别。