概要
本文对展示视觉和视觉语言能力的多模态基础模型的分类和演变进行了全面调查,重点关注从专业模型到通用助手的过渡。研究领域包括五个核心主题,分为两类。(i) 我们从对成熟研究领域的调查开始:为特定目的预先训练的多模态基础模型,包括学习视觉主干用于视觉理解和文本到图像生成的两个主题方法。(ii) 然后,我们介绍了探索性、开放研究领域的最新进展:旨在发挥通用助手作用的多模态基础模型,包括三个主题——受大型语言模型 (LLM) 启发的统一视觉模型、多模态 LLM 的端到端训练以及将多模态工具与 LLM 链接起来。
图 1.1:语言和视觉/多模态的基础模型开发轨迹图示。在这四个类别中,第一类是任务特定模型,后三类属于基础模型,其中语言和视觉的基础模型分别分为绿色和蓝色块。突出显示了每个类别中模型的一些突出属性。通过比较语言和视觉之间的模型,我们预见到多模态基础模型的过渡遵循类似的趋势:从特定目的的预训练模型,到统一模型和通用助手。然而,需要研究探索来找出最佳配方,这在图中如问号所示,因为多模态 GPT-4 和 Gemini 保持私密。
第一章 引言
1.1什么是多模态基础模型?
随着模型(例如 BERT、GPT 家族、CLIP(Radford et al., 2021)和 DALL-E(Ramesh et al., 2021a))的兴起,人工智能一直在经历范式转变,这些模型基于可以适应广泛下游任务的广泛数据进行训练。他们称这些模型为基础模型,以强调其关键的核心但不完整的特征:研究界方法的同质化和新功能的出现。在本文中,我们重点介绍了多模态基础模型,它继承了斯坦福大学论文(Bommasani et al., 2021)中讨论的基础模型的所有特性,但强调具有处理视觉和视觉语言模态能力的模型。在不断增长的文献中,我们根据多模态基础模型的功能和通用性,在图 1.2 中对多模态基础模型进行了分类。对于每个类别,我们都提供了示例模型,这些模型展示了这些多模态基础模型固有的主要功能。
图 1.2: 本文中多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。
视觉理解模型(在图 1.2 中以橙色突出显示)
学习一般的视觉表示对于构建视觉基础模型至关重要,因为预训练强大的视觉主干是所有类型的计算机视觉下游任务的基础,从图像级(例如图像分类、检索和字幕)、区域级(例如检测和接地)到像素级任务(例如分割)。
视觉生成模型(在图 1.2 中以绿色突出显示)
最近,由于大规模图像文本数据的出现,已经建立了基础图像生成模型。使之成为可能的技术包括向量量化 VAE 方法、基于扩散的模型和自回归模型。
通用接口(在图 1.2 中以蓝色突出显示)
上述多模态基础模型是为特定目的而设计的——解决一组特定的 CV 问题/任务。最近,我们看到出现了为 AI 代理奠定基础的通用模型。现有的工作集中在三个研究主题上。第一个主题旨在统一用于视觉理解和生成的模型。相比之下,其他两个主题在建模中包含并涉及 LLM,分别包括使用 LLM 进行训练和链接。
1.2定义和从专家到通用助理的过渡
根据 NLP 中的模型开发历史和分类法,我们将图 1.2 中的多模态基础模型分为两类。 • 特定用途的预训练视觉模型涵盖了大多数现有的多模态基础模型,包括视觉理解模型和视觉生成模型因为它们为特定视觉问题提供了强大的可转移能力。
• General-Purpose Assistants 是指可以遵循人类意图在野外完成各种计算机视觉任务的 AI 代理。通用助手的含义有两个方面:(i) 具有统一架构的通才,可以完成不同问题类型的任务,以及 (ii) 易于遵循的人工指导,而不是取代人工。为此,已经积极探索了几个研究主题,包括统一视觉建模、使用 LLM 进行训练和链接。
第二章 视觉理解
在过去十年中,研究界投入了大量精力来研究高质量、通用图像表示的获取。这对于构建视觉基础模型至关重要,因为预先训练强大的视觉主干来学习图像表示是所有类型的计算机视觉下游任务的基础,范围从图像级、图像文本检索、图像描述、区域级, 短语接地,到像素级 任务。 在本章中,我们介绍了如何学习图像表示,无论是使用图像内部挖掘的监督信号,还是通过使用从 Web 上挖掘的图像文本数据集的语言监督。
有大量关于学习通用视觉主干的各种方法的文献。如图 2.1 所示,我们将这些方法分为三类,具体取决于用于训练模型的监督信号的类型,包括:
• 标签监督:可以说,研究最充分的图像表示学习方法基于标签监督(通常以图像分类的形式)
• 语言监督:另一种流行的学习图像表示的方法利用来自文本的弱监督信号,这很容易大规模获得。例如,CLIP (Radford et al., 2021) 和 ALIGN (Jia et al., 2021) 是使用对比损失和从互联网上挖掘的数十亿个图像-文本对进行预训练的。所得模型在图像分类和图像文本检索方面实现了强大的零镜头性能,学习到的图像和文本编码器已广泛用于各种下游任务,并允许传统的计算机视觉模型执行开放词汇 CV 任务。
• 纯图像自我监督:还有大量文献关于探索纯图像自我监督学习方法来学习图像表示。顾名思义,监督信号是从图像本身挖掘的,流行的方法包括对比学习、非对比学习 ,到蒙版图像建模。
第三章 可视化生成
视觉生成旨在生成高保真视觉内容,包括图像、视频、神经辐射场、3D 点云等。这个主题是最近流行的人工智能生成内容 (AIGC) 的核心,这种能力对于支持创意应用程序(如设计、艺术和多模式内容创建)至关重要。它还有助于合成训练数据以帮助理解模型,从而实现多模态内容理解和生成的闭环。要利用视觉生成,生成与人类意图严格一致的视觉数据至关重要。这些意图作为输入条件馈送到生成模型中,例如类标签、文本、边界框、布局掩码等。鉴于开放式文本描述提供的灵活性,文本条件(包括文本到图像/视频/3D)已成为条件视觉生成的关键主题。 在本章中,我们将介绍如何在视觉生成中与人类意图保持一致,重点是图像生成。
视觉生成中的人类对齐
T2I 生成背景下的 AI 对齐研究是致力于开发图像生成模型的研究领域,这些模型可以轻松遵循人类意图来合成所需的生成视觉内容。其中四个常见的研究问题:空间可控的 T2I 生成、基于文本的图像编辑、更好地遵循文本提示、视觉概念定制。如图 3.1 (a) 所示,如下所示。
文本到图像生成
T2I 生成旨在生成不仅具有高视觉质量而且在语义上与输入文本相对应的图像。T2I 模型通常使用图像-文本对进行训练,其中文本作为输入条件,配对的图像是目标输出。
我们以稳定扩散 (SD) (Rombach et al., 2022) 为例,详细解释 T2I 模型的工作原理。 稳定扩散 (SD)1 及其学术版本潜在扩散 (Rombach et al., 2022) 主要包含三个模块,即图像 VAE、去噪 U-Net 和条件编码器,分别如图 3.3 的左、中、右所示。
第四章 统一视觉模型
挑战
计算机视觉任务差异很大,这给构建统一的视觉模型带来了巨大的挑战。首先,视觉任务具有不同类型的输入,从静态图像到连续视频,从图像去雾等纯视觉输入到包括视觉和语言等多模态输入。其次,不同的任务需要不同的粒度。因此,视觉系统的输出也具有不同的格式,例如空间信息(如边缘、框和掩码)、语义信息(如类标签、多标签标签或详细说明)。除了建模方面的挑战外,还存在数据方面的挑战。首先,注释的成本因不同类型的标签而异。其次,收集图像数据的成本通常比收集文本数据高得多。因此,视觉数据的规模通常比文本语料库的规模小得多。
从封闭式到开放式模型
传统上,视觉识别被表述为将原始视觉数据(例如图像)映射到离散文本标签的分类问题。例如,图像分类从整个图像的预定义闭合集中预测标签,对象检测识别图像中在紧密集中定义的对象。然而,这种封闭集模型很难转移到封闭集(或词汇表)不足的其他任务最近,CLIP 通过引入对比语言-图像预训练方法来训练开放集模型,解决了封闭集模型的局限性。
从特定于任务的模型到通用模型
直到最近,大多数视觉任务都是通过专门的模型设计单独处理的,从而阻止了跨不同粒度或领域的任务的协同作用。这可以说是由于两个原因:视觉任务是分散的和数据规模不同。
从静态模型到可提示模型
ChatGPT 等大型语言模型 (LLM) 的成功(OpenAI,2023b)表明了现代 AI 模型在与人类交互方面的重要性,并让我们得以一窥 AGI(Bubeck et al., 2023)。与人类互动的能力需要一个用户友好的界面,该界面可以接受尽可能多的人工输入并生成人类可以轻松理解的响应。在 NLP 中,这种通用交互界面已经出现并发展了一段时间,从 GPT)和 T5等早期模型发展到提示等更高级的技术和思维链。但是,大多数视觉模型仍然是静态的,因为它们对各种提示的灵活性不如 LLM。最近,许多工作提出了增强静态视觉模型的能力,以支持:(i) 多模态提示;(ii) 上下文提示。
第五章 大型多模态模型:使用 LLM 进行训练
背景
当前形式的 LMM 主要是一种图像到文本的生成模型,该模型将图像作为输入,并输出文本序列。
先决条件:大型语言模型中的指令调优
传统语言数据。作为 NLP 中的典型数据实例,序列到序列 (seq2seq) 表示被广泛用于许多语言任务:每个数据实例由两部分组成:一个序列作为输入,另一个序列作为输出。
教学语言数据。最近,研究人员开始在模型训练中显式地添加任务指令。有趣的是,大多数 NLP 任务的任务指令也可以用自然语言表示。它引领一种新的数据格式: instruction-inputoutput triplets.基于新格式,可以训练一个模型来执行多个任务,每个任务都有其特定的指令。由于模型在训练过程中观察到许多任务指令和每个任务的许多实例,因此它们在推理阶段通过任务组合更自然、更容易泛化到新任务。
指令调整的大型多模态模型
在本节中,我们将说明如何使用开源资源构建多模态 GPT-4 的最小原型。
数据创建
我们不是直接将图像馈送到 OpenAI GPT-4 中,而是使用图 5.9 (a) 所示的符号序列表示。在 LLaVA 中,字幕和边界框都被考虑在内,原因如下:(i) 实证发现 GPT-4 可以很好地理解两者,而 ChatGPT 在理解边界框坐标方面的表现不佳。(ii) 它们通常彼此互补,因此可以尽可能地提供信息。 如图 5.9 (b) 所示,考虑了三种类型的指令跟踪数据:(i) 多轮对话,以便用户可以与模型聊天;(ii) 详细描述,以便可以从模型生成长格式响应;(iii) 复杂推理,这更多的是关于图像的含义,而不是图像内容。比如“这些人面临什么挑战”,这需要首先认识到这个画面是关于停放区的一辆 SUV,而且地上放着不少行李,然后要推断出挑战是由于后备箱空间狭小,行李怎么能装进 SUV 里。总共收集了三种类型的 158K 样本。总而言之,其精神是,无论希望模型在服务阶段执行什么任务,创建相应的指令跟踪数据以进行训练都很重要。
网络架构和培训
如图 5.10 所示,LLaVA 的网络架构是第 5.1 节的图 5.1 中介绍的通用图像到文本生成模型框架的实例化。具体来说,LLaVa 通过简单的投影矩阵(即线性投影层)连接预先训练的 CLIP ViT-L/14 视觉编码器(Radford et al., 2021)和大型语言模型 Vicuna (Vicuna, 2023)。采用两阶段指令调整程序来训练模型。(i) 第 1 阶段:特征对齐的预训练。仅根据 CC3M 的子集更新投影矩阵(Changpinyo等人,2021 年)。(ii) 第 2 阶段:端到端微调。投影矩阵和 LLM 都根据针对日常面向用户的应用的多模态指令跟踪数据进行了更新。
第六章 多模态代理:使用 LLM 链接工具
大型语言模型 (LLM)已经显示出有趣的特性,可以推广到各个领域的用户提示,并通过几个示例进行上下文学习来快速适应新场景。受到如此强大功能的启发,研究人员现在正在探索一种新的建模范式,从解决有限、预定义问题的独立模型转变为将多个工具或专家与 LLM 协同链接起来,以解决复杂、开放的问题。与第 5 章中介绍的内容不同,这样的系统可以在不涉及任何培训的情况下构建,只需使用一些演示示例来教 LLM 生成对现有工具的正确调用。
我们首先回顾了建模范式的演变,从特定于任务的模型到最新的大型多模态模型,这些模型都需要数据管理和模型训练。然后,我们介绍了使用 LLM 链接工具的新建模范式,它可能不需要任何培训,而是直接利用预先训练的 LLM 和通过开源平台或 API 广泛提供的现有工具。
多模式代理
多模式代理的三个关键组成部分。
工具。工具是 LLM 可调用的外部模块,用于获取模型权重中缺少的额外信息,包括开源模型、公共/私有 API 或代码解释器。由于 LLM 只接受语言输入,因此必须包含可以处理多模态输入以构建多模态代理的工具。
规划。在规划过程中,LLM 将用户请求分解为更小、可管理的子问题,并概述一个分步解决方案,每个解决方案都涉及调用外部工具。有两种方法可以教授 LLM 进行规划。一种是用所有候选工具的上下文中的少数样本来提示 LLM。此方法可以直接扩展常规模型,但受上下文长度的限制。另一种方法依赖于大量带注释的数据来微调 LLM,这很可能会损害模型的稳健性和泛化性。
执行。生成的计划进一步转化为对所需工具的可执行调用,这可以通过正则表达式匹配来完成(Yang* et al., 2023);直接提示 LLM 生成可执行程序(Sur ́ıs et al., 2023);或者通过提供描述每个模块角色的自然语言指令以及一些调用示例来利用 LLM 的上下文内小样本学习能力(Lu et al., 2023b)。执行结果将反馈给 LLM 以生成对用户的响应。
第七章 结论和研究趋势
多模态基础模型在计算机视觉和多模态视觉语言研究领域的学者中引起了极大的兴趣。尽管流行的研究主题、方法和方法一直在发展——包括图像自我监督学习、语言-图像对比学习、文本到图像生成、统一视觉建模和大型语言和视觉助手——但它们都集中在一个共同的总体目标上:创建能够遵循人类意图并在野外毫不费力地执行各种视觉和视觉语言任务的通用模型和系统。