【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用


目录

文章目录

  • 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
    • 目录
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
        • 1. 知识总结模块(Knowledge Summarization Module)
        • 2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)
        • 3. 模态特定编码(Modality-Specific Encoding)
        • 4. 模态融合(Modality Fusion)
        • 5. 分类器(Classifier)
      • 算法模型的关键特点
      • 实验效果
      • 推荐阅读指数
    • 后记


在这里插入图片描述
探索思维链(Chain-of-Thought)在多模态隐喻检测中的应用

摘要

本文探讨了在广告和互联网迷因(meme)中常见的隐喻检测问题。由于互联网迷因的自由形式,导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读,并需要大量的常识知识,这对语言模型构成了挑战。为了应对这些挑战,作者提出了一个紧凑的框架C4MMD,该框架利用思维链(Chain-of-Thought, CoT)方法进行多模态隐喻检测。具体来说,该方法设计了一个三步过程,灵感来自CoT,从多模态大型语言模型(MLLMs)中提取并整合知识到较小的模型中。此外,作者还开发了一个模态融合架构,将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明,该方法不仅有效增强了小型模型的隐喻检测能力,而且超越了现有模型。据作者所知,这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。

“Metaphors” 在中文中通常被翻译为“隐喻”或“暗喻”。在文学和语言学中,隐喻是一种比喻,通过将一件事物说成另一件事物来暗示它们之间的相似性,而不是直接比较。例如,在句子“时间是金钱”中,“时间”被隐喻性地描述为“金钱”,强调了时间的宝贵和有限性。

“Memes” 在中文中通常被翻译为“迷因”或“模因”。这个词汇最初由生物学家理查德·道金斯(Richard Dawkins)在其1976年的著作《自私的基因》中提出,用于描述文化信息或行为模式的传播单位,类似于生物基因在生物进化中的角色。在互联网文化中,“迷因”通常指那些迅速在网络用户之间传播的图片、视频、文字等内容,它们往往带有幽默或讽刺的元素,能够引发共鸣并被广泛复制和分享。

研究背景

隐喻在日常生活中的表达和写作中非常普遍,对自然语言处理(NLP)中的下游任务,如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起,多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比,多模态隐喻检测不仅要在句子中发现隐喻,还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差,这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本,但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。
在这里插入图片描述

问题与挑战

多模态隐喻检测面临的主要问题和挑战包括:

  1. 多模态隐喻的复杂性和多样性:需要识别和分类图像和文本中的隐喻,以及它们之间的相互作用。
  2. 文本内容质量差:社交媒体上的广告和迷因中的文本内容质量参差不齐,导致隐喻检测困难。
  3. 位置信息丢失:使用OCR技术提取文本时,可能会丢失文本的位置信息,这对于理解隐喻至关重要。

如何解决

为了解决上述挑战,作者提出了以下解决方案:

  1. 利用MLLMs的丰富世界知识和上下文理解能力:通过LLMs生成补充信息,而不是对它们进行微调。
  2. 设计三步CoT方法:逐步获取MLLM的信息,描述图像、分析文本以及整合两种模态的信息。
  3. 模态融合架构:将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。

创新点

本文的创新点包括:

  1. 首次系统性地利用MLLMs进行隐喻检测任务:这是首次将MLLMs应用于隐喻检测,开辟了新的研究方向。
  2. 三步CoT方法:通过设计三步CoT方法,逐步提取和整合多模态信息,提高了模型对隐喻的理解能力。
  3. 模态融合架构:开发了一种新的模态融合架构,将大模型的知识转化为隐喻特征,提高了检测的准确性。

算法模型

C4MMD框架由以下主要组件构成:

  1. 知识总结模块:通过三步CoT提示,从MLLM中提取额外的文本信息。
  2. 下游多模态融合结构:将补充信息与原始文本合并,通过特定编码器处理这些输入,以获得特征向量。
  3. 模态特定编码:使用图像编码器和文本编码器获得图像和文本的向量化编码。
  4. 模态融合:将不同模态的向量尺寸调整一致,然后进行融合,以获得最终的融合向量表示。
  5. 分类器:使用跨模态向量进行隐喻分类,并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。
    在这里插入图片描述

C4MMD框架的核心在于利用多模态大型语言模型(MLLMs)来增强小型模型的隐喻检测能力,C4MMD框架中关键组件包括:

1. 知识总结模块(Knowledge Summarization Module)

该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤:

  • 第一步(STEP1):忽略图像中的文本,仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
  • 第二步(STEP2):分析文本的含义,注意同音异义词和双关语,并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
  • 第三步(STEP3):结合前两步的结果,整合图像和文本特征,以获得更深层次的跨模态交互信息。
2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)

在获取MLLM生成的额外模态信息后,设计的下游结构旨在促进模态间的整合,并有效利用这些额外信息来增强隐喻检测能力。

3. 模态特定编码(Modality-Specific Encoding)
  • 图像编码器(Image Encoder):使用ViT-Encoder对输入图像进行编码,得到图像的特征向量。
  • 文本编码器(Text Encoder):使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本,采用了类似于BERT的段编码方法,为每个模态的文本添加额外的可学习参数向量。
4. 模态融合(Modality Fusion)

在融合之前,需要确保两个编码器的向量尺寸一致。对于文本模态,计算所有词向量的平均值作为整个句子的向量表示。对于视觉模态,使用CLS标记的向量作为整个图像的表示。然后,使用线性层和GeLU激活函数将视觉模态的向量映射到与文本模态相同的特征空间。

最终,将两个模态的向量进行拼接,形成最终的融合向量表示,用于后续的分类任务。

5. 分类器(Classifier)
  • 隐喻分类:使用一个线性层和softmax分类器对融合后的跨模态向量进行隐喻分类。
  • 图像主导和文本主导分类:使用两个单独的分类器来识别图像主导和文本主导的隐喻特征,以减少最终分类器的分类复杂性。

算法模型的关键特点

  • 跨模态交互:通过三步CoT方法,模型能够理解图像和文本之间的深层次交互,这对于隐喻检测至关重要。
  • 模态融合:通过特定的编码器和融合策略,模型能够有效地整合来自不同模态的信息,提高隐喻检测的准确性。
  • 辅助任务:通过设计辅助任务,模型能够在检测图像和文本中的隐喻特征之前,先进行细粒度的分类,这有助于提高最终分类器的性能。

C4MMD框架通过这些精心设计的组件和策略,实现了对多模态隐喻的有效检测,展现了在处理复杂语言和视觉挑战方面的潜力。

实验效果

在MET-MEME数据集上的实验结果表明,C4MMD方法在多模态隐喻检测任务上取得了优异的性能。以下是一些重要的数据和结论:

  • 主要分类结果:C4MMD在多模态隐喻检测任务上取得了87.70%的准确率,83.33%的精确率,81.58%的召回率,以及82.44%的F1分数。
  • 消融研究:消融研究表明,模型的融合结构和CoT生成方法对于提高性能至关重要。
  • 不同语言和视觉模型组合的影响:ViT和XLM-R的组合在模态融合中表现最佳。
  • 模型大小的影响:随着模型大小的增加,特别是当模型最初较小时,性能提升越来越明显。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数

4.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/462997.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第三十一章 单页与多页应用程序概念

目录 一、概述 ​二、单页与多页对比 一、概述 单页面应用(SPA): 所有功能在一个HTML页面上实现,如网易云音乐。 https://music.163.com/ 多页应用:通过多个HTML页面组合实现整个应用网站的功能。 二、单页与多页对比 单页面应用的主要场景&#xff1…

开源 AI 智能名片 2 + 1 链动模式 S2B2C 商城小程序中积分使用价值的拓展策略

摘要:本文围绕开源 AI 智能名片 2 1 链动模式 S2B2C 商城小程序,深入探讨其积分使用价值的丰富策略。详细分析积分兑换礼品、会员升级、积分抵现等方式在该特定商城小程序环境下的应用特点、存在问题及对用户和商城的影响,旨在为商城的优化运…

C++ | Leetcode C++题解之第526题优美的排列

题目&#xff1a; 题解&#xff1a; class Solution { public:int countArrangement(int n) {vector<int> f(1 << n);f[0] 1;for (int mask 1; mask < (1 << n); mask) {int num __builtin_popcount(mask);for (int i 0; i < n; i) {if (mask &am…

【Linux 25】网络套接字 socket 概念

文章目录 &#x1f308; 一、IP 地址概念⭐ 1. IP 地址的作用⭐ 2. 源 IP 地址和目的 IP 地址 &#x1f308; 二、端口号概念⭐ 1. 源端口号和目的端口号⭐ 2. 端口号范围划分⭐ 3. 端口号 VS 进程 ID⭐ 4. 套接字 socket 的概念 &#x1f308; 三、传输层的典型代表协议⭐ 1. …

利用Docker Compose构建微服务架构

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 利用Docker Compose构建微服务架构 引言 Docker Compose 简介 安装 Docker Compose 创建项目结构 编写 Dockerfile 前端 Dockerf…

【Vue】一个案例带你学会组件通信!!!(1)(父传子props+子传父$emit)

嘿&#xff0c;开发者们&#x1f44b;&#xff01;欢迎来到今天的Vue.js组件通信大冒险。你是否曾在父子组件间的数据同步问题上感到头疼&#xff1f;&#x1f92f; 今天&#xff0c;我们将一起揭开Vue.js父子通信的神秘面纱&#xff0c;学习如何让数据在父子组件间流畅地“跳舞…

在VS中安装chatGPT

2、在VSCode中打开插件窗口 3、输入ChatGPT 4、这里有个ChatGPT中文版&#xff0c;就它了 5、安装 6、这时候侧边栏多了一个chatGPT分页图标&#xff0c;点击它 7、打个招呼 8、好像不行 9、看一下细节描述 10、根据要求按下按下快捷键 Ctrl Shift P 11、切换成国内模式 12、…

3. keil + vscode 进行stm32协同开发

1. 为什么使用vscode 主要还是界面友好&#xff0c;使用习惯问题&#xff0c;vscode 从前端&#xff0c;js, c/c, qt, 仓颉&#xff0c;rust都有很好插件的支持&#xff0c;并且有romote&#xff0c; wsl 等很多插件可以提高效率&#xff0c; 唯一的问题就是要使用插件进行环境…

PostgreSQL 学习笔记:PostgreSQL 主从复制

PostgreSQL 笔记&#xff1a;PostgreSQL 主从复制 博客地址&#xff1a;TMDOG 的博客 在现代应用程序中&#xff0c;数据库的高可用性和扩展性是至关重要的。PostgreSQL 提供了主从复制功能&#xff0c;可以在多个数据库实例之间复制数据&#xff0c;以实现冗余和负载均衡。本…

433、315通信、ev1527、2262编码

目录 ASK介绍EV1527编码芯片介绍模块介绍无线发射芯片无线接收芯片解码程序发射电路原理图 ASK介绍 ASK是幅移键控&#xff0c;通过调幅将数据发送出去&#xff0c;所以发送与接收都是多位二进制数。 ASK如何区分0和1&#xff1f; 0&#xff1a;发送 433.92Mhz 无线波形&…

Python 5个数据容器

列表&#xff08;list&#xff09; 特点&#xff1a;可以被修改 列表的定义 定义空列表&#xff1a; 变量名 [] 或 变量名 list() 定义变量&#xff1a; 变量名 [元素1&#xff0c;元素2&#xff0c;元素3&#xff0c;... ] 取出列表元素 列表名 [下标索引] 从前向…

复习数据库(约束)上篇

目录 约束的分类 分类 注意 主键约束 添加主键约束 1 建表时&#xff0c;添加 1.1创建表&#xff1a;定义列时指定 1.2 创建表&#xff1a;定义列之后独立指定主键&#xff1a; 2 建表后使用alter 关键字添加 删除约束 在主键添加自动增长属性 疑问 1 建表时添加 …

国内短剧源码短剧系统搭建小程序部署H5、APP打造短剧平台

​在当今的互联网时代&#xff0c;短剧作为一种新兴的娱乐形式&#xff0c;受到了越来越多用户的喜爱。为了提供更好的用户体验和满足用户需求&#xff0c;一个好的短剧系统需要具备多元化的功能和优质的界面设计。 本文将介绍国内短剧源码短剧系统搭建小程序部署H5、APP所需的…

Python(数据结构2)

常见数据结构 队列 队列(Queue)&#xff0c;它是一种运算受限的线性表,先进先出(FIFO First In First Out) Python标准库中的queue模块提供了多种队列实现&#xff0c;包括普通队列、双端队列、优先队列等。 1 普通队列 queue.Queue 是 Python 标准库 queue 模块中的一个类…

QT 机器视觉 (3. 虚拟相机SDK、测试工具)

本专栏从实际需求场景出发详细还原、分别介绍大型工业化场景、专业实验室场景、自动化生产线场景、各种视觉检测物体场景介绍本专栏应用场景 更适合涉及到视觉相关工作者、包括但不限于一线操作人员、现场实施人员、项目相关维护人员&#xff0c;希望了解2D、3D相机视觉相关操作…

QT打包Macosx应用发布App Store简易流程

1、QC里编译工程&#xff0c;生成Release版的的app文件&#xff1b; 2、运行macdeployqt把需要的文件打包进app文件中&#xff1b; % ~/Qt/5.15.0/clang_64/bin/macdeployqt {编译的app文件所在路径}/Release/xxxx.app 3、使用codesign对app进行签名&#xff0c;如果要发App…

Android平台RTSP转RTMP推送之采集麦克风音频转发

技术背景 RTSP转RTMP推送&#xff0c;好多开发者第一想到的是采用ffmpeg命令行的形式&#xff0c;如果对ffmpeg比较熟&#xff0c;而且产品不要额外的定制和更高阶的要求&#xff0c;未尝不可&#xff0c;如果对产品稳定性、时延、断网重连等有更高的技术诉求&#xff0c;比较…

网络:ARP的具体过程和ARP欺骗

个人主页 &#xff1a; 个人主页 个人专栏 &#xff1a; 《数据结构》 《C语言》《C》《Linux》《网络》 《redis学习笔记》 文章目录 前言ARP具体过程ARP欺骗原理总结 前言 本文仅作为ARP具体过程和ARP欺骗的知识总结 硬件类型 &#xff1a;指定发送和接受ARP包的硬件类型&am…

单链表OJ题(3):合并两个有序链表、链表分割、链表的回文结构

目录 一、合并两个有序链表 二、链表分割 三、链表的回文结构 u解题的总体思路&#xff1a; 合并两个有序链表&#xff1a;首先创建新链表的头节点&#xff08;哨兵位&#xff1a;本质上是占位子&#xff09;&#xff0c;为了减少一些判断情况&#xff0c;简化操作。然后我们…

整理 【 DBeaver 数据库管理工具 】的一些基础使用

目录 连接设置切换工作空间SQL编辑器&#xff08;写sql语句&#xff09;打开方式新建查询&#xff08;sql编辑器&#xff09;打开写的 sql 查询&#xff08;项目浏览器&#xff09; 备份sql文件查看历史执行语句自动保存sql语句的文件&#xff08;编辑器&#xff09;关闭自动生…