【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
- 目录
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 1. 知识总结模块（Knowledge Summarization Module）
    - 2. 下游多模态融合结构（Downstream Multi-modal Fusion Structure）
    - 3. 模态特定编码（Modality-Specific Encoding）
    - 4. 模态融合（Modality Fusion）
    - 5. 分类器（Classifier）
  - 算法模型的关键特点
  - 实验效果
  - 推荐阅读指数
- 后记

在这里插入图片描述
探索思维链（Chain-of-Thought）在多模态隐喻检测中的应用

摘要

本文探讨了在广告和互联网迷因（meme）中常见的隐喻检测问题。由于互联网迷因的自由形式，导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读，并需要大量的常识知识，这对语言模型构成了挑战。为了应对这些挑战，作者提出了一个紧凑的框架C4MMD，该框架利用思维链（Chain-of-Thought, CoT）方法进行多模态隐喻检测。具体来说，该方法设计了一个三步过程，灵感来自CoT，从多模态大型语言模型（MLLMs）中提取并整合知识到较小的模型中。此外，作者还开发了一个模态融合架构，将大模型中的知识转化为隐喻特征，并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明，该方法不仅有效增强了小型模型的隐喻检测能力，而且超越了现有模型。据作者所知，这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。

“Metaphors” 在中文中通常被翻译为“隐喻”或“暗喻”。在文学和语言学中，隐喻是一种比喻，通过将一件事物说成另一件事物来暗示它们之间的相似性，而不是直接比较。例如，在句子“时间是金钱”中，“时间”被隐喻性地描述为“金钱”，强调了时间的宝贵和有限性。

“Memes” 在中文中通常被翻译为“迷因”或“模因”。这个词汇最初由生物学家理查德·道金斯（Richard Dawkins）在其1976年的著作《自私的基因》中提出，用于描述文化信息或行为模式的传播单位，类似于生物基因在生物进化中的角色。在互联网文化中，“迷因”通常指那些迅速在网络用户之间传播的图片、视频、文字等内容，它们往往带有幽默或讽刺的元素，能够引发共鸣并被广泛复制和分享。

研究背景

隐喻在日常生活中的表达和写作中非常普遍，对自然语言处理（NLP）中的下游任务，如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起，多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比，多模态隐喻检测不仅要在句子中发现隐喻，还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差，这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本，但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。
在这里插入图片描述

问题与挑战

多模态隐喻检测面临的主要问题和挑战包括：

多模态隐喻的复杂性和多样性：需要识别和分类图像和文本中的隐喻，以及它们之间的相互作用。
文本内容质量差：社交媒体上的广告和迷因中的文本内容质量参差不齐，导致隐喻检测困难。
位置信息丢失：使用OCR技术提取文本时，可能会丢失文本的位置信息，这对于理解隐喻至关重要。

如何解决

为了解决上述挑战，作者提出了以下解决方案：

利用MLLMs的丰富世界知识和上下文理解能力：通过LLMs生成补充信息，而不是对它们进行微调。
设计三步CoT方法：逐步获取MLLM的信息，描述图像、分析文本以及整合两种模态的信息。
模态融合架构：将大模型中的知识转化为隐喻特征，并辅以辅助任务以提高模型性能。

创新点

本文的创新点包括：

首次系统性地利用MLLMs进行隐喻检测任务：这是首次将MLLMs应用于隐喻检测，开辟了新的研究方向。
三步CoT方法：通过设计三步CoT方法，逐步提取和整合多模态信息，提高了模型对隐喻的理解能力。
模态融合架构：开发了一种新的模态融合架构，将大模型的知识转化为隐喻特征，提高了检测的准确性。

算法模型

C4MMD框架由以下主要组件构成：

知识总结模块：通过三步CoT提示，从MLLM中提取额外的文本信息。
下游多模态融合结构：将补充信息与原始文本合并，通过特定编码器处理这些输入，以获得特征向量。
模态特定编码：使用图像编码器和文本编码器获得图像和文本的向量化编码。
模态融合：将不同模态的向量尺寸调整一致，然后进行融合，以获得最终的融合向量表示。
分类器：使用跨模态向量进行隐喻分类，并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。

C4MMD框架的核心在于利用多模态大型语言模型（MLLMs）来增强小型模型的隐喻检测能力，C4MMD框架中关键组件包括：

1. 知识总结模块（Knowledge Summarization Module）

该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤：

第一步（STEP1）：忽略图像中的文本，仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
第二步（STEP2）：分析文本的含义，注意同音异义词和双关语，并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
第三步（STEP3）：结合前两步的结果，整合图像和文本特征，以获得更深层次的跨模态交互信息。

2. 下游多模态融合结构（Downstream Multi-modal Fusion Structure）

在获取MLLM生成的额外模态信息后，设计的下游结构旨在促进模态间的整合，并有效利用这些额外信息来增强隐喻检测能力。

3. 模态特定编码（Modality-Specific Encoding）

图像编码器（Image Encoder）：使用ViT-Encoder对输入图像进行编码，得到图像的特征向量。
文本编码器（Text Encoder）：使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本，采用了类似于BERT的段编码方法，为每个模态的文本添加额外的可学习参数向量。