AI的欺骗游戏：揭示多模态大型语言模型的易受骗性

人工智能咨询培训老师叶梓转载标明出处

多模态大型语言模型（MLLMs）在处理包含欺骗性信息的提示时容易生成幻觉式响应。尤其是在生成长响应时，仍然是一个未被充分研究的问题。来自 Apple 公司的研究团队提出了MAD-Bench，一个包含850个测试样本的精心策划的基准测试，这些样本分为六类，包括不存在的对象、对象数量、空间关系和视觉混淆等。研究者对流行的MLLMs进行了全面分析，包括GPT-4V、Gemini-Pro以及开源模型如LLaVA-1.5和CogVLM。实验结果显示，GPT-4V在MAD-Bench上的准确率达到75.02%，而其他模型的准确率仅为5%至35%。另外本文提出了一种通过添加额外段落来增强模型在面对欺骗性提示时的鲁棒性的方法，该方法能显著提高模型的准确率。

MAD-Bench

欺骗类别包含六个不同的类别，共计850对图像-提示对，旨在测试MLLMs对欺骗性提示的抵抗力。表1提供了每个类别的统计数据，图2展示了欺骗性提示的示例。

六个类别的详细说明：

对象数量 (Count of Object)：该类别故意引用图像中可见对象的错误数量。如果响应断言图像中存在m个对象'A'的实例，而实际上存在不同的数量n（n与m不同且非零），则响应未通过此测试。

不存在的对象 (Non-existent Object)：在这里，提示询问图像中不存在的对象。如果响应确认这些不存在的对象为存在，则失败。

对象属性 (Object Attribute)：该类别包括不准确描述可见对象属性的提示。如果响应将这些不正确的特征归因于图像中的实际对象，则失败。

场景理解 (Scene Understanding)：该类别涉及不准确描述图像中包含对象的场景的提示。如果响应正确识别了对象的动作，但误解了与欺骗性提示一致的场景或背景，则会出错。

空间关系 (Spatial Relationship)：该类别呈现了错误指定图像中确实存在的对象之间的空间动态的提示。如果响应正确识别了对象，但错误地表示了它们的空间关系，则出错。

视觉混淆 (Visual Confusion)：该类别与其他类别不同，使用提示和图像作为欺骗的工具，通常对人类眼睛也是欺骗性的。该类别包括三种类型的图像：（i）描绘裸眼3D绘画或屏幕的图像，（ii）视觉错位摄影，以及（iii）镜面反射。

研究者们通过使用GPT-4自动创建了欺骗性提示，这一过程利用了COCO数据集提供的地面真实字幕。之所以选择GPT-4而非GPT-4V来完成这项任务，是因为GPT-4V本身也是后续在MAD-Bench基准测试中要被评估的模型之一。从经验上判断，GPT-4的能力已经足够应对这项任务。

为了确保GPT-4能够生成符合特定类别并可能误导MLLMs的问题，研究者们精心设计了一系列定制化的提示。这些提示的具体内容可以在附录A.2中的图16至20找到。在生成过程中，并没有使用边界框信息，因为研究者们发现，这些信息对于提高欺骗性类别提示的质量并没有额外帮助。

生成欺骗性问题后，研究者们进行了严格的手动筛选，确保每个问题不仅符合其所属类别的欺骗标准，而且与相应的图像保持高度相关性。这一筛选过程对于保证MAD-Bench基准测试的质量至关重要。

在响应评估方面，研究者们同样利用GPT-4对10种不同模型生成的响应进行了评估。这些模型包括6个开源模型：LLaVA-1.5、InstructBLIP、Ferret、Kosmos2、mPLUG-Owl2和CogVLM；2个旨在减少幻觉的额外开源模型：LLaVA-RLHF和LRV-V1；以及2个最先进的专有系统：Gemini-Pro和GPT-4V。

由于视觉混淆类别中的图像数量较少，且大部分包含人类，而Gemini模型不能对包含人类的图像生成响应，因此在这个类别中没有对Gemini进行评估。但这一决定对其他类别的评估影响微乎其微。

与提示生成方法相一致，研究者们为每个欺骗类别设计了特定的评估提示，这些提示的目的是严格评估模型的响应。评估的主要指标是二元的，即仅关注响应是否被误导，而不涉及其他定性因素，如响应的帮助性等。这些用于模型评估的提示可以在附录A.3中找到。

为了确保评估过程的准确性，研究者们随机选取了500个响应，覆盖了不同的模型和欺骗类别，进行了手动准确性检查。这一验证过程显示出97.0%的高一致率，证明了研究者们所采用方法的可靠性。这种高一致率也进一步增强了MAD-Bench基准测试结果的有效性和信任度。

实验

研究者们在MAD-Bench基准测试中对多模态大模型（MLLMs）的评估揭示了这些模型在处理欺骗性信息时的脆弱性。尽管GPT-4V在场景理解和视觉混淆类别中展现出超过90%的准确率，但其他模型的表现则参差不齐，准确率仅在5%至35%之间。特别是那些旨在减少幻觉的模型，比如LRV-V1，它们在面对MAD-Bench中的挑战时，并没有展现出预期的鲁棒性。

一些支持边界框输入和输出的模型，如Ferret和Kosmos-2，在基准测试中的表现并不理想。这可能是因为这些模型在正面数据上的训练，使得它们在面对提示中提及的不存在的对象时，仍然倾向于将它们作为存在的进行定位。这种现象反映出MLLMs在理解视觉和语言信息不一致时的困难。

在详细分析模型对欺骗性提示的反应后，研究者们发现了几种常见的错误类型。例如，当模型接收到提及图像中不存在对象的提示时，它们可能会错误地识别图像中的其他对象为提示中所指的对象。这种不准确的对象检测可能是由于模型过度依赖于提示中的信息，而没有充分考虑视觉数据的实际情况。

另外模型在区分图像中提示所指的不同对象时也遇到了困难，有时将单一对象错误地识别为多个不同的实体，导致重复描述。这种冗余的对象识别可能源于模型在处理复杂视觉场景时的局限性。

更复杂的是模型有时会对图像中不可见的对象赋予特征或行为。这种行为可能是由于模型依赖于其内部知识库，试图为提示中提到的对象构造描述，即使这些对象在视觉数据中并不存在。这不仅揭示了模型在视觉识别上的不足，也暴露了它们在结合视觉和语言信息时的挑战。

研究者们还观察到模型在生成响应的过程中存在不一致性。在某些情况下，模型生成的回应中的句子会相互矛盾，反映出模型在决策过程中的犹豫不决。这种不一致性凸显了MLLMs在处理复杂提示时需要进一步改进的迫切性。

最后研究者介绍了一种旨在增强多模态大型语言模型（MLLMs）对欺骗性提示的鲁棒性并确保输出与输入图像一致性的简单而有效的方法。这一增强通过将一个额外的段落整合到系统提示中来实现，该段落可以直接添加到现有提示之前，或者根据不同模型的特定需求以不同的方式整合。

为了创建这个额外的段落，研究者们利用了GPT-4的帮助。这个段落的设计旨在鼓励模型在回答问题之前进行深思熟虑或逐步思考。例如，在表格3中展示的结果，显示了几种MLLMs在采用这种方法后的模型性能提升情况。例如，LLaVA-NeXT-13b模型的性能提升了18.56%，尽管其绝对准确率仍然不尽人意。而MiniCPM-Llama3-v2.5模型在采用这种方法后，准确率的增幅达到了63.56%，在测试的五种模型中表现最为显著。对于已经达到82.82%准确率的GPT-4V模型，使用这种方法可以进一步提高准确率至92.23%。

图5提供了MiniCPM-Llama3-v2.5、GPT-4V、Phi3和LLaVA-NeXT-13b模型在测试提示修改后抵御欺骗性提示的能力示例。这种增强表明，策略性提示设计可能是提高AI模型对误导或混淆尝试的鲁棒性的有价值方法。需要注意这种实现尚未完全优化，一些MLLMs由于输入序列长度限制等原因而不支持这种方法。