Multimodal Reasoning with Multimodal Knowledge Graph

摘要

大型语言模型(llm)的多模态推理常常存在幻觉和llm中存在缺陷或过时的知识。一些方法试图通过使用文本知识图来缓解这些问题,但其单一的知识形态限制了全面的跨模态理解。本文提出了多模态推理与多模态知识图(MR-MKG)方法,该方法利用多模态知识图(mmkg)跨模态学习丰富的语义知识,显著提高了法学硕士的多模态推理能力。其中,利用关系图关注网络编码MMKGs,设计了跨模态对齐模块优化图像-文本对齐。构建了基于mmkgground的数据集,通过预训练为llm提供多模态推理的初始专业知识。值得注意的是,MR-MKG在只训练一小部分参数(约为LLM参数大小的2.25%)的情况下取得了优异的性能。在多模态问答和多模态类比推理任务上的实验结果表明,我们的MR-MKG方法优于以前最先进的模型。

1.介绍

最近,大型语言模型(llm) (Chen et al ., 2020;Achiam等人,2023)已经证明了它们在各种NLP任务中的优越性和鲁棒性(Zhang等人,2024b;Robinson et al ., 2023;Chang et al ., 2024)。为了进一步释放法学硕士的潜力,研究人员(Wu et al ., 2023a;黄等,2023;苏等人,2022;Li等人,2023b)试图赋予它们多模态推理能力,例如视觉llm,如BLIP-2 (Li等人,2023a)、MiniGPT-4 (Zhu等人,2023)、LLaVA (Liu等人,2023)等。尽管这些模型在图像和文本推理方面取得了重大进展,但它们仍然容易产生幻觉(Rohrbach等人,2018;Jones et al ., 2024),通常是由于信息不充分或过时造成的。

对大型语言模型(llm)进行微调以更新其知识库通常是一个耗时且昂贵的过程。Wu等人2023c提出的另一种策略是利用知识图(KGs)作为直接向法学硕士提供必要知识的手段。尽管最近的努力(Baek et al ., 2023;Sen等人,2023;Kim et al ., 2023;Sun等人,2024)专注于使用文本知识库,它们的单一情态限制了法学硕士处理和推理多情态信息的能力(如图1a所示)。这个限制导致我们考虑使用多模态知识图(MMKGs)来代替文本知识图(见图1b)。

本文提出了基于多模态知识图的多模态推理(MR-MKG)方法,旨在通过学习多模态知识图来扩展法学硕士的多模态知识。

特别是,MR-MKG首先使用关系图注意网络(RGAT)对检索到的MMKG进行编码(Ishiwatari等人,2020),该网络生成能够捕获复杂图结构的知识节点嵌入。然后,设计知识和视觉适配器层来弥合跨模态差距,将知识节点和视觉嵌入分别映射到llm的词嵌入。最后,将知识节点、图像和文本的嵌入连接起来形成提示,然后转发给llm提供指导和指令。此外,我们还引入了一种新的跨模态对齐模块,通过mmkg内的匹配任务来优化图像-文本对齐。为了使模型具备多模态推理的初始专业知识,我们首先在定制的基于MMKG的数据集上预训练MR-MKG,该数据集通过将每个VQA (Krishna et al ., 2017)实例与相应的MMKG相匹配来构建,该MMKG来自其图像的场景图,并包含用于回答问题的基本知识。

为了彻底评估我们的MR-MKG方法,我们对多模态问答(Lu et al ., 2022)和多模态类比推理(Zhang et al ., 2022)任务进行了全面的实验,涵盖了各种LLM规模和训练配置。实验结果证实,MR-MKG有效地处理和利用mmkg的知识进行多模态推理,其准确率提高了1.95%,Hits@1指标提高了10.4%,超过了以前最先进的模型。重要的是,MR-MKG冻结了LLM和视觉编码器,只有一小部分参数(约为LLM参数大小的2.25%)被更新。总之,我们的主要贡献有三点:

  1. 据我们所知,我们是第一个利用mmkg衍生的知识来研究扩展llm的多模态推理能力的问题。
  2. 我们提出MR-MKG方法,专门用于从mmkg中提取有价值的知识,并将多模式信息无缝集成到llm中。此外,我们还开发了一个基于mmkg的数据集,用于初步增强多模态推理。
  3. 我们在两个多模态推理任务上广泛评估了MR-MKG。MR-MKG在很大程度上实现了最先进的性能,优于最近的基线方法。

2.相关工作

2.1 Multimodal Knowledge Graph

MMKG的主要优点在于将其他模式集成到传统的知识库中,通过将实体与相关图像或文本描述相关联,MMKG为知识库带来了有价值的视觉和文本维度,增强了知识库处理复杂任务的能力。例如,方法(Xie et al ., 2017;MoussellySergieh等人(2018)将图像与KGs中的实体特征集成在一起,显著改善了知识图补全和三重分类等应用的实体表示。Zhao和Wu 2023介绍了一种通过使用MMKG来增强实体感知图像字幕的方法,其中MMKG将视觉对象与命名实体相关联,并捕获这些实体之间的关系。在推荐系统领域,Sun等人2020使用mmkg,结合各种数据模式(如图像和文本)来增强项目表示。我们的方法与这些现有解决方案的不同之处在于,它是使用mmkg为llm配备多模态推理能力的开创性努力,而不是将mmkg集成到特定任务中。

 2.2 Knowledge-Augmented LLMs

虽然法学硕士受益于大量文本语料库的广泛预训练,但他们仍然面临幻觉和依赖过时知识等问题,这些问题阻碍了他们的推理能力。因此,最近的研究(Baek et al ., 2023;Sen等人,2023;Wu等,2023c;Mondal等人,2024)专注于将知识直接纳入法学硕士提示以缓解这些问题,从而消除了对法学硕士进行再培训的需要。Baek等人2023从kg中提取相关三元组,并使用线性语言化技术将其转换为文本。Wu等人2023c开发了一种KG-to-Text方法,用于创建高质量的提示,通过将相关三元组转换为更有信息量的知识文本,提高基于kg的问题回答中的LLM性能。Tian等人2023观察到,直接将KGs中的三元组输入到llm中可能会由于KGs中不相关的上下文而引入噪声。他们提出了一种能够从KGs中提取有价值的知识并集成到预训练llm中的图神经提示。Mondal等人2024将来自基于文本的KGs的外部知识整合到多模态思维推理链中,使模型能够实现更深层次的上下文理解。然而,这些方法主要集中在文本KGs上,由于模式的固有差异,这可能会限制它们在多模态推理任务中的有效性。为了解决这个问题,我们的目标是通过整合来自mmkg的额外多模态信息来增强多模态推理能力。

2.3 Multimodal Large Language Models

纯粹基于文本的法学硕士的能力无法满足不断变化的需求,这导致了大量的研究工作(Wu等人,2023a;黄等,2023;苏等人,2022;Koh等人,2023)旨在培养精通处理多模式输入和任务的法学硕士。研究现状(Wu et al ., 2023b;Zhu等人,2023)主要专注于集成一个适配器或投影层,以使各种模态编码器的嵌入空间与LLM的文本嵌入空间对齐。例如,流行的视觉LLM,如LLaVA (Liu et al ., 2023)和MiniGPT-4 (Zhu et al ., 2023)通过冻结LLM并训练视觉投影来解释视觉数据来实现这一点。这种方法也反映在其他多模式法学硕士中,包括听觉法学硕士(Zhang et al ., 2023a)和视频法学硕士(Zhang et al ., 2023b)。最近,PandaGPT (Su et al ., 2023)集成了多模态编码器ImageBind (Girdhar et al ., 2023),能够理解和处理六种不同的模态。类似地,NExT-GPT (Wu et al ., 2023b)展示了跨四种不同模式理解和生成内容的熟练程度。然而,这些多模式法学硕士仍然容易产生幻觉。虽然它们增强了模态之间的一致性,但它们并没有获得新的知识,而且可能会引入新的噪声。我们的MR-MKG方法与上述方法的不同之处在于,mmkg的结合不仅为llm提供了额外的相关信息,而且还有望减轻多模态数据转换和校准过程中产生的噪声。

3.方法

在本节中,我们首先概述MR-MKG,然后详细描述其架构设计和培训方法。

我们的方法的主要目标是有效地利用视觉编码器的能力和来自MMKGs的多模态知识来增强llm的多模态推理能力。图2描述了一个可视化的工作流。文本、多模态知识图和图像分别使用语言编码器、KG编码器和视觉编码器独立嵌入。视觉和知识适配器的设计是为了使视觉和KG编码器的嵌入空间与LLM的文本嵌入空间对齐。跨模态对齐模块专门设计用于利用mmkg中的匹配任务来改进图像-文本对齐。

 图2:我们MR-MKG方法的概述。文本、多模态知识图和图像分别独立嵌入,然后连接形成提示嵌入符号。设计了一个跨模态对齐模块,通过mmkg内的匹配任务增强图像-文本对齐。

5.总结

在这项研究中,我们解决了通过使用多模态知识图来增强法学硕士多模态推理能力的挑战。我们提出的方法,称为MR-MKG,旨在通过利用mmkg中包含的丰富知识(图像、文本和知识三元组),赋予法学硕士先进的多模态推理技能。在多模态问答和多模态类比推理任务上的综合实验证明了我们的MR-MKG方法的有效性,在这些任务中取得了最新的结果。此外,我们还进行了一系列消融研究、分析检查和案例研究,以提供额外的有效性证据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/464932.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git代码托管(三)可视化工具操作(1)

常见的可视化操作工具有 一、官方网页 如码云、gitlab,自带了常见的git操作。 以码云为例: 1、创建分支: 进入分支目录,点击 新建分支 按钮, 在弹出框中输入新分支名称,点击确定即可一键创建分支&…

go中Println和Printf的区别

Don’t worry , just coding! 内耗与overthinking只会削弱你的精力,虚度你的光阴,每天迈出一小步,回头时发现已经走了很远。 go中Println和Printf的区别 package mainimport ( "fmt" )//TIP To run your code, right-click the c…

项目审核系统 ---(连接数据库---项目模拟)

本章主要是查询方法和修改方法 编写查询方法,查询所有项目审核信息并返回查询结果,需实现分页功能,注意必要的异常处理。编写查询方法,根据项目编号查询指定项目的审核信息,注意必要的异常处理。编写修改方法&#xf…

(十三)JavaWeb后端开发——MySQL2

目录 1.DQL数据查询语言 1.1基本查询 1.2条件查询 where关键字 1.3分组查询 1.4排序查询 1.5分页查询 2.多表设计 3.多表查询——联查 4.多表查询——子查询​ 5.MySQL 事务 6.MySQL 索引 1.DQL数据查询语言 分为五大基本查询语法 1.1基本查询 -- 查询特定字段 s…

【STL栈和队列】:高效数据结构的应用秘籍

前言: C 标准模板库(STL)为我们提供了多种容器,其中 stack(栈)和 queue(队列)是非常常用的两种容器。 根据之前C语言实现的栈和队列,(如有遗忘,…

LWIP通信协议UDP发送、接收源码解析

1.UDP发送函数比较简短,带操作系统和裸机一样。以下是udp_sendto源码解析; 2.LWIP源码UDP接收数据 2.1.UDP带操作系统接收数据,以下是源码解析; 2.2.UDP裸机接收数据,以下是源码解析

小菜家教平台:基于SpringBoot+Vue打造一站式学习管理系统

前言 现在已经学习了很多与Java相关的知识,但是迟迟没有进行一个完整的实践(之前这个项目开发到一半,很多东西没学搁置了,同时原先的项目中也有很多的问题),所以现在准备从零开始做一个基于SpringBootVue的…

【优选算法 — 双指针】双指针小专题

和为 s 的两个数 和为s的两个数 题目描述 解法一:暴力枚举 暴力枚举,先固定一个数,然后让这个数和另一个数匹配相加, 如果当前的数 所有剩余的数 target,则返回这两个数,否则固定下一个数&#…

轻松理解操作系统 - 轻松了解 inode 是如何管理文件的

Linux 由于其开源、比较稳定等特点统治了服务端领域。也因此,学习Linux 系统相关知识在后端开发等岗位中变得越来越重要,甚至可以说是必不可少的。 因为它的广泛应用,所以在程序员的日常工作和面试中,它都是经常出现的。它的开源特…

Vue(JavaScript)读取csv表格并求某一列之和(大浮点数处理: decimal.js)

文章目录 想要读这个表格,并且求第二列所有价格的和方法一:通过添加文件输入元素上传csv完整(正确)代码之前的错误部分因为价格是小数,所以下面的代码出错。如果把parseFloat改成parseInt,那么求和没有意义…

微信小程序-事件总线

一.事件总线的概念和作用 事件总线是对发布-订阅模式的一种实现,是一种集中式事件处理机制,允许不同组件之间进行彼此通信,常用于两个非父子组件和兄弟组件之间的通讯。 在日常开发过程中,我们可以使用第三方的发布订阅 JS 包来实…

成都郝蓉宜恺文化传媒:引领大数据应用新篇章

在信息化浪潮汹涌的今天,大数据被誉为新时代的“石油”,正在以前所未有的速度改变着我们的生活和工作方式。成都郝蓉宜恺文化传媒,作为大数据领域的领军企业,始终站在创新的前沿,引领着大数据应用的新篇章。 作为大数…

qt QDropEvent详解

1、概述 QDropEvent是Qt框架中用于处理拖放释放事件的一个类。它允许开发者在用户界面中更好地管理和处理拖放操作,从而实现交互式和响应式的应用程序。QDropEvent类提供了处理拖放释放事件所需的方法和信号,使得开发者能够轻松地实现拖放功能&#xff…

Kotlin的内置函数

Kotlin 提供了丰富的内置函数,它们极大简化了日常开发工作。常见内置函数包括 标准库函数(let、apply、run 等),用于提高代码的简洁性和可读性。下面我们详细介绍这些函数的功能、用法以及它们之间的区别。 1. let 函数 let 通常…

Pod安装软件将CDN改为国内的镜像

1、碰到错误 在pod install的时候碰到以下的下载错误: 文字错误如下: CDN: trunk URL couldnt be downloaded: https://cdn.jsdelivr.net/cocoa/Specs/5/b/d/OpenCV/2.4.11/OpenCV.podspec.json Response: Timeout was reached CDN: trunk URL couldn…

Rockchip SoC AI 与视觉处理器路线图:赋能未来的 AI 驱动设备

随着人工智能(AI)和计算机视觉技术不断推动各行各业的创新,Rockchip 已成为提供强大系统级芯片(SoC)解决方案的领先厂商。该公司已开发出多款集成 AI 功能并支持先进多媒体与视觉技术的 SoC,非常适合用于 A…

尚庭公寓-小程序接口

7. 项目开发 7.4 移动端后端开发 7.4.1 项目初始配置 7.4.1.1 SpringBoot配置 1. 创建application.yml文件 在web-app模块的src/main/resources目录下创建application.yml配置文件,内容如下: server:port: 80812. 创建SpringBoot启动类 在web-app…

练习LabVIEW第三十八题

学习目标: 刚学了LabVIEW,在网上找了些题,练习一下LabVIEW,有不对不好不足的地方欢迎指正! 第三十八题: 创建一个VI,实现对按钮状态的指示和按钮“按下”持续时间简单计算功能,按…

HTMLCSS:3D 旋转卡片的炫酷动画

效果演示 这段代码是一个HTML和CSS的组合&#xff0c;用于创建一个具有3D效果的动画卡片。 HTML <div class"obj"><div class"objchild"><span class"inn6"><h3 class"text">我是谁&#xff1f;我在那<…

微控制器(MCU)如何运行存储在Flash的程序???

忙&#xff0c;太忙了&#xff01;&#xff01;&#xff01;忙完就好了。MCU运行不也就如此&#xff1f;在微控制器单元&#xff08;MCU&#xff09;中&#xff0c;我们所编写的程序时通常是存储在闪存&#xff08;Flash&#xff09;中。当MCU启动时&#xff0c;它会从闪存中读…