Multimodal Reasoning with Multimodal Knowledge Graph

摘要

大型语言模型（llm）的多模态推理常常存在幻觉和llm中存在缺陷或过时的知识。一些方法试图通过使用文本知识图来缓解这些问题，但其单一的知识形态限制了全面的跨模态理解。本文提出了多模态推理与多模态知识图（MR-MKG）方法，该方法利用多模态知识图（mmkg）跨模态学习丰富的语义知识，显著提高了法学硕士的多模态推理能力。其中，利用关系图关注网络编码MMKGs，设计了跨模态对齐模块优化图像-文本对齐。构建了基于mmkgground的数据集，通过预训练为llm提供多模态推理的初始专业知识。值得注意的是，MR-MKG在只训练一小部分参数（约为LLM参数大小的2.25%）的情况下取得了优异的性能。在多模态问答和多模态类比推理任务上的实验结果表明，我们的MR-MKG方法优于以前最先进的模型。

1.介绍

最近，大型语言模型（llm） (Chen et al ., 2020；Achiam等人，2023)已经证明了它们在各种NLP任务中的优越性和鲁棒性(Zhang等人，2024b；Robinson et al ., 2023；Chang et al ., 2024)。为了进一步释放法学硕士的潜力，研究人员(Wu et al ., 2023a；黄等，2023；苏等人，2022；Li等人，2023b)试图赋予它们多模态推理能力，例如视觉llm，如BLIP-2 （Li等人，2023a）、MiniGPT-4 （Zhu等人，2023）、LLaVA （Liu等人，2023）等。尽管这些模型在图像和文本推理方面取得了重大进展，但它们仍然容易产生幻觉(Rohrbach等人，2018；Jones et al ., 2024)，通常是由于信息不充分或过时造成的。

对大型语言模型（llm）进行微调以更新其知识库通常是一个耗时且昂贵的过程。Wu等人2023c提出的另一种策略是利用知识图（KGs）作为直接向法学硕士提供必要知识的手段。尽管最近的努力(Baek et al ., 2023；Sen等人，2023；Kim et al ., 2023；Sun等人，2024)专注于使用文本知识库，它们的单一情态限制了法学硕士处理和推理多情态信息的能力（如图1a所示）。这个限制导致我们考虑使用多模态知识图（MMKGs）来代替文本知识图（见图1b）。

本文提出了基于多模态知识图的多模态推理（MR-MKG）方法，旨在通过学习多模态知识图来扩展法学硕士的多模态知识。

特别是，MR-MKG首先使用关系图注意网络（RGAT）对检索到的MMKG进行编码（Ishiwatari等人，2020），该网络生成能够捕获复杂图结构的知识节点嵌入。然后，设计知识和视觉适配器层来弥合跨模态差距，将知识节点和视觉嵌入分别映射到llm的词嵌入。最后，将知识节点、图像和文本的嵌入连接起来形成提示，然后转发给llm提供指导和指令。此外，我们还引入了一种新的跨模态对齐模块，通过mmkg内的匹配任务来优化图像-文本对齐。为了使模型具备多模态推理的初始专业知识，我们首先在定制的基于MMKG的数据集上预训练MR-MKG，该数据集通过将每个VQA （Krishna et al ., 2017）实例与相应的MMKG相匹配来构建，该MMKG来自其图像的场景图，并包含用于回答问题的基本知识。

为了彻底评估我们的MR-MKG方法，我们对多模态问答（Lu et al ., 2022）和多模态类比推理（Zhang et al ., 2022）任务进行了全面的实验，涵盖了各种LLM规模和训练配置。实验结果证实，MR-MKG有效地处理和利用mmkg的知识进行多模态推理，其准确率提高了1.95%，Hits@1指标提高了10.4%，超过了以前最先进的模型。重要的是，MR-MKG冻结了LLM和视觉编码器，只有一小部分参数（约为LLM参数大小的2.25%）被更新。总之，我们的主要贡献有三点：

据我们所知，我们是第一个利用mmkg衍生的知识来研究扩展llm的多模态推理能力的问题。
我们提出MR-MKG方法，专门用于从mmkg中提取有价值的知识，并将多模式信息无缝集成到llm中。此外，我们还开发了一个基于mmkg的数据集，用于初步增强多模态推理。
我们在两个多模态推理任务上广泛评估了MR-MKG。MR-MKG在很大程度上实现了最先进的性能，优于最近的基线方法。

2.相关工作

2.1 Multimodal Knowledge Graph

MMKG的主要优点在于将其他模式集成到传统的知识库中，通过将实体与相关图像或文本描述相关联，MMKG为知识库带来了有价值的视觉和文本维度，增强了知识库处理复杂任务的能力。例如，方法(Xie et al ., 2017；MoussellySergieh等人（2018）将图像与KGs中的实体特征集成在一起，显著改善了知识图补全和三重分类等应用的实体表示。Zhao和Wu 2023介绍了一种通过使用MMKG来增强实体感知图像字幕的方法，其中MMKG将视觉对象与命名实体相关联，并捕获这些实体之间的关系。在推荐系统领域，Sun等人2020使用mmkg，结合各种数据模式（如图像和文本）来增强项目表示。我们的方法与这些现有解决方案的不同之处在于，它是使用mmkg为llm配备多模态推理能力的开创性努力，而不是将mmkg集成到特定任务中。

2.2 Knowledge-Augmented LLMs

虽然法学硕士受益于大量文本语料库的广泛预训练，但他们仍然面临幻觉和依赖过时知识等问题，这些问题阻碍了他们的推理能力。因此，最近的研究(Baek et al ., 2023；Sen等人，2023；Wu等，2023c；Mondal等人，2024)专注于将知识直接纳入法学硕士提示以缓解这些问题，从而消除了对法学硕士进行再培训的需要。Baek等人2023从kg中提取相关三元组，并使用线性语言化技术将其转换为文本。Wu等人2023c开发了一种KG-to-Text方法，用于创建高质量的提示，通过将相关三元组转换为更有信息量的知识文本，提高基于kg的问题回答中的LLM性能。Tian等人2023观察到，直接将KGs中的三元组输入到llm中可能会由于KGs中不相关的上下文而引入噪声。他们提出了一种能够从KGs中提取有价值的知识并集成到预训练llm中的图神经提示。Mondal等人2024将来自基于文本的KGs的外部知识整合到多模态思维推理链中，使模型能够实现更深层次的上下文理解。然而，这些方法主要集中在文本KGs上，由于模式的固有差异，这可能会限制它们在多模态推理任务中的有效性。为了解决这个问题，我们的目标是通过整合来自mmkg的额外多模态信息来增强多模态推理能力。

2.3 Multimodal Large Language Models

纯粹基于文本的法学硕士的能力无法满足不断变化的需求，这导致了大量的研究工作(Wu等人，2023a；黄等，2023；苏等人，2022；Koh等人，2023)旨在培养精通处理多模式输入和任务的法学硕士。研究现状(Wu et al ., 2023b；Zhu等人，2023)主要专注于集成一个适配器或投影层，以使各种模态编码器的嵌入空间与LLM的文本嵌入空间对齐。例如，流行的视觉LLM，如LLaVA （Liu et al ., 2023）和MiniGPT-4 （Zhu et al ., 2023）通过冻结LLM并训练视觉投影来解释视觉数据来实现这一点。这种方法也反映在其他多模式法学硕士中，包括听觉法学硕士（Zhang et al ., 2023a）和视频法学硕士（Zhang et al ., 2023b）。最近，PandaGPT （Su et al ., 2023）集成了多模态编码器ImageBind (Girdhar et al ., 2023)，能够理解和处理六种不同的模态。类似地，NExT-GPT （Wu et al ., 2023b）展示了跨四种不同模式理解和生成内容的熟练程度。然而，这些多模式法学硕士仍然容易产生幻觉。虽然它们增强了模态之间的一致性，但它们并没有获得新的知识，而且可能会引入新的噪声。我们的MR-MKG方法与上述方法的不同之处在于，mmkg的结合不仅为llm提供了额外的相关信息，而且还有望减轻多模态数据转换和校准过程中产生的噪声。

3.方法

在本节中，我们首先概述MR-MKG，然后详细描述其架构设计和培训方法。

我们的方法的主要目标是有效地利用视觉编码器的能力和来自MMKGs的多模态知识来增强llm的多模态推理能力。图2描述了一个可视化的工作流。文本、多模态知识图和图像分别使用语言编码器、KG编码器和视觉编码器独立嵌入。视觉和知识适配器的设计是为了使视觉和KG编码器的嵌入空间与LLM的文本嵌入空间对齐。跨模态对齐模块专门设计用于利用mmkg中的匹配任务来改进图像-文本对齐。

图2：我们MR-MKG方法的概述。文本、多模态知识图和图像分别独立嵌入，然后连接形成提示嵌入符号。设计了一个跨模态对齐模块，通过mmkg内的匹配任务增强图像-文本对齐。

5.总结

在这项研究中，我们解决了通过使用多模态知识图来增强法学硕士多模态推理能力的挑战。我们提出的方法，称为MR-MKG，旨在通过利用mmkg中包含的丰富知识（图像、文本和知识三元组），赋予法学硕士先进的多模态推理技能。在多模态问答和多模态类比推理任务上的综合实验证明了我们的MR-MKG方法的有效性，在这些任务中取得了最新的结果。此外，我们还进行了一系列消融研究、分析检查和案例研究，以提供额外的有效性证据。