多模态基础模型:从专家到通用助手

概要

本文对展示视觉和视觉语言能力的多模态基础模型的分类和演变进行了全面调查,重点关注从专业模型到通用助手的过渡。研究领域包括五个核心主题,分为两类。(i) 我们从对成熟研究领域的调查开始:为特定目的预先训练的多模态基础模型,包括学习视觉主干用于视觉理解和文本到图像生成的两个主题方法。(ii) 然后,我们介绍了探索性、开放研究领域的最新进展:旨在发挥通用助手作用的多模态基础模型,包括三个主题——受大型语言模型 (LLM) 启发的统一视觉模型、多模态 LLM 的端到端训练以及将多模态工具与 LLM 链接起来。
请添加图片描述

图 1.1:语言和视觉/多模态的基础模型开发轨迹图示。在这四个类别中,第一类是任务特定模型,后三类属于基础模型,其中语言和视觉的基础模型分别分为绿色和蓝色块。突出显示了每个类别中模型的一些突出属性。通过比较语言和视觉之间的模型,我们预见到多模态基础模型的过渡遵循类似的趋势:从特定目的的预训练模型,到统一模型和通用助手。然而,需要研究探索来找出最佳配方,这在图中如问号所示,因为多模态 GPT-4 和 Gemini 保持私密。

第一章 引言

1.1什么是多模态基础模型?

随着模型(例如 BERT、GPT 家族、CLIP(Radford et al., 2021)和 DALL-E(Ramesh et al., 2021a))的兴起,人工智能一直在经历范式转变,这些模型基于可以适应广泛下游任务的广泛数据进行训练。他们称这些模型为基础模型,以强调其关键的核心但不完整的特征:研究界方法的同质化和新功能的出现。在本文中,我们重点介绍了多模态基础模型,它继承了斯坦福大学论文(Bommasani et al., 2021)中讨论的基础模型的所有特性,但强调具有处理视觉和视觉语言模态能力的模型。在不断增长的文献中,我们根据多模态基础模型的功能和通用性,在图 1.2 中对多模态基础模型进行了分类。对于每个类别,我们都提供了示例模型,这些模型展示了这些多模态基础模型固有的主要功能。
在这里插入图片描述
图 1.2: 本文中多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。

视觉理解模型(在图 1.2 中以橙色突出显示)

学习一般的视觉表示对于构建视觉基础模型至关重要,因为预训练强大的视觉主干是所有类型的计算机视觉下游任务的基础,从图像级(例如图像分类、检索和字幕)、区域级(例如检测和接地)到像素级任务(例如分割)。

视觉生成模型(在图 1.2 中以绿色突出显示)

最近,由于大规模图像文本数据的出现,已经建立了基础图像生成模型。使之成为可能的技术包括向量量化 VAE 方法、基于扩散的模型和自回归模型。

通用接口(在图 1.2 中以蓝色突出显示)

上述多模态基础模型是为特定目的而设计的——解决一组特定的 CV 问题/任务。最近,我们看到出现了为 AI 代理奠定基础的通用模型。现有的工作集中在三个研究主题上。第一个主题旨在统一用于视觉理解和生成的模型。相比之下,其他两个主题在建模中包含并涉及 LLM,分别包括使用 LLM 进行训练和链接。

1.2定义和从专家到通用助理的过渡

根据 NLP 中的模型开发历史和分类法,我们将图 1.2 中的多模态基础模型分为两类。 • 特定用途的预训练视觉模型涵盖了大多数现有的多模态基础模型,包括视觉理解模型和视觉生成模型因为它们为特定视觉问题提供了强大的可转移能力。
• General-Purpose Assistants 是指可以遵循人类意图在野外完成各种计算机视觉任务的 AI 代理。通用助手的含义有两个方面:(i) 具有统一架构的通才,可以完成不同问题类型的任务,以及 (ii) 易于遵循的人工指导,而不是取代人工。为此,已经积极探索了几个研究主题,包括统一视觉建模、使用 LLM 进行训练和链接。

第二章 视觉理解

在过去十年中,研究界投入了大量精力来研究高质量、通用图像表示的获取。这对于构建视觉基础模型至关重要,因为预先训练强大的视觉主干来学习图像表示是所有类型的计算机视觉下游任务的基础,范围从图像级、图像文本检索、图像描述、区域级, 短语接地,到像素级 任务。 在本章中,我们介绍了如何学习图像表示,无论是使用图像内部挖掘的监督信号,还是通过使用从 Web 上挖掘的图像文本数据集的语言监督。

有大量关于学习通用视觉主干的各种方法的文献。如图 2.1 所示,我们将这些方法分为三类,具体取决于用于训练模型的监督信号的类型,包括:
• 标签监督:可以说,研究最充分的图像表示学习方法基于标签监督(通常以图像分类的形式)
• 语言监督:另一种流行的学习图像表示的方法利用来自文本的弱监督信号,这很容易大规模获得。例如,CLIP (Radford et al., 2021) 和 ALIGN (Jia et al., 2021) 是使用对比损失和从互联网上挖掘的数十亿个图像-文本对进行预训练的。所得模型在图像分类和图像文本检索方面实现了强大的零镜头性能,学习到的图像和文本编码器已广泛用于各种下游任务,并允许传统的计算机视觉模型执行开放词汇 CV 任务。
在这里插入图片描述

• 纯图像自我监督:还有大量文献关于探索纯图像自我监督学习方法来学习图像表示。顾名思义,监督信号是从图像本身挖掘的,流行的方法包括对比学习、非对比学习 ,到蒙版图像建模。

第三章 可视化生成

视觉生成旨在生成高保真视觉内容,包括图像、视频、神经辐射场、3D 点云等。这个主题是最近流行的人工智能生成内容 (AIGC) 的核心,这种能力对于支持创意应用程序(如设计、艺术和多模式内容创建)至关重要。它还有助于合成训练数据以帮助理解模型,从而实现多模态内容理解和生成的闭环。要利用视觉生成,生成与人类意图严格一致的视觉数据至关重要。这些意图作为输入条件馈送到生成模型中,例如类标签、文本、边界框、布局掩码等。鉴于开放式文本描述提供的灵活性,文本条件(包括文本到图像/视频/3D)已成为条件视觉生成的关键主题。 在本章中,我们将介绍如何在视觉生成中与人类意图保持一致,重点是图像生成。

视觉生成中的人类对齐

T2I 生成背景下的 AI 对齐研究是致力于开发图像生成模型的研究领域,这些模型可以轻松遵循人类意图来合成所需的生成视觉内容。其中四个常见的研究问题:空间可控的 T2I 生成、基于文本的图像编辑、更好地遵循文本提示、视觉概念定制。如图 3.1 (a) 所示,如下所示。
在这里插入图片描述

文本到图像生成

T2I 生成旨在生成不仅具有高视觉质量而且在语义上与输入文本相对应的图像。T2I 模型通常使用图像-文本对进行训练,其中文本作为输入条件,配对的图像是目标输出。
我们以稳定扩散 (SD) (Rombach et al., 2022) 为例,详细解释 T2I 模型的工作原理。 稳定扩散 (SD)1 及其学术版本潜在扩散 (Rombach et al., 2022) 主要包含三个模块,即图像 VAE、去噪 U-Net 和条件编码器,分别如图 3.3 的左、中、右所示。
在这里插入图片描述

第四章 统一视觉模型

挑战

计算机视觉任务差异很大,这给构建统一的视觉模型带来了巨大的挑战。首先,视觉任务具有不同类型的输入,从静态图像到连续视频,从图像去雾等纯视觉输入到包括视觉和语言等多模态输入。其次,不同的任务需要不同的粒度。因此,视觉系统的输出也具有不同的格式,例如空间信息(如边缘、框和掩码)、语义信息(如类标签、多标签标签或详细说明)。除了建模方面的挑战外,还存在数据方面的挑战。首先,注释的成本因不同类型的标签而异。其次,收集图像数据的成本通常比收集文本数据高得多。因此,视觉数据的规模通常比文本语料库的规模小得多。

从封闭式到开放式模型

传统上,视觉识别被表述为将原始视觉数据(例如图像)映射到离散文本标签的分类问题。例如,图像分类从整个图像的预定义闭合集中预测标签,对象检测识别图像中在紧密集中定义的对象。然而,这种封闭集模型很难转移到封闭集(或词汇表)不足的其他任务最近,CLIP 通过引入对比语言-图像预训练方法来训练开放集模型,解决了封闭集模型的局限性。

从特定于任务的模型到通用模型

直到最近,大多数视觉任务都是通过专门的模型设计单独处理的,从而阻止了跨不同粒度或领域的任务的协同作用。这可以说是由于两个原因:视觉任务是分散的和数据规模不同。

从静态模型到可提示模型

ChatGPT 等大型语言模型 (LLM) 的成功(OpenAI,2023b)表明了现代 AI 模型在与人类交互方面的重要性,并让我们得以一窥 AGI(Bubeck et al., 2023)。与人类互动的能力需要一个用户友好的界面,该界面可以接受尽可能多的人工输入并生成人类可以轻松理解的响应。在 NLP 中,这种通用交互界面已经出现并发展了一段时间,从 GPT)和 T5等早期模型发展到提示等更高级的技术和思维链。但是,大多数视觉模型仍然是静态的,因为它们对各种提示的灵活性不如 LLM。最近,许多工作提出了增强静态视觉模型的能力,以支持:(i) 多模态提示;(ii) 上下文提示。
在这里插入图片描述

第五章 大型多模态模型:使用 LLM 进行训练

背景

当前形式的 LMM 主要是一种图像到文本的生成模型,该模型将图像作为输入,并输出文本序列。

先决条件:大型语言模型中的指令调优

传统语言数据。作为 NLP 中的典型数据实例,序列到序列 (seq2seq) 表示被广泛用于许多语言任务:每个数据实例由两部分组成:一个序列作为输入,另一个序列作为输出。
教学语言数据。最近,研究人员开始在模型训练中显式地添加任务指令。有趣的是,大多数 NLP 任务的任务指令也可以用自然语言表示。它引领一种新的数据格式: instruction-inputoutput triplets.基于新格式,可以训练一个模型来执行多个任务,每个任务都有其特定的指令。由于模型在训练过程中观察到许多任务指令和每个任务的许多实例,因此它们在推理阶段通过任务组合更自然、更容易泛化到新任务。

指令调整的大型多模态模型

在本节中,我们将说明如何使用开源资源构建多模态 GPT-4 的最小原型。

数据创建

我们不是直接将图像馈送到 OpenAI GPT-4 中,而是使用图 5.9 (a) 所示的符号序列表示。在 LLaVA 中,字幕和边界框都被考虑在内,原因如下:(i) 实证发现 GPT-4 可以很好地理解两者,而 ChatGPT 在理解边界框坐标方面的表现不佳。(ii) 它们通常彼此互补,因此可以尽可能地提供信息。 如图 5.9 (b) 所示,考虑了三种类型的指令跟踪数据:(i) 多轮对话,以便用户可以与模型聊天;(ii) 详细描述,以便可以从模型生成长格式响应;(iii) 复杂推理,这更多的是关于图像的含义,而不是图像内容。比如“这些人面临什么挑战”,这需要首先认识到这个画面是关于停放区的一辆 SUV,而且地上放着不少行李,然后要推断出挑战是由于后备箱空间狭小,行李怎么能装进 SUV 里。总共收集了三种类型的 158K 样本。总而言之,其精神是,无论希望模型在服务阶段执行什么任务,创建相应的指令跟踪数据以进行训练都很重要。
在这里插入图片描述

网络架构和培训

如图 5.10 所示,LLaVA 的网络架构是第 5.1 节的图 5.1 中介绍的通用图像到文本生成模型框架的实例化。具体来说,LLaVa 通过简单的投影矩阵(即线性投影层)连接预先训练的 CLIP ViT-L/14 视觉编码器(Radford et al., 2021)和大型语言模型 Vicuna (Vicuna, 2023)。采用两阶段指令调整程序来训练模型。(i) 第 1 阶段:特征对齐的预训练。仅根据 CC3M 的子集更新投影矩阵(Changpinyo等人,2021 年)。(ii) 第 2 阶段:端到端微调。投影矩阵和 LLM 都根据针对日常面向用户的应用的多模态指令跟踪数据进行了更新。
在这里插入图片描述

第六章 多模态代理:使用 LLM 链接工具

大型语言模型 (LLM)已经显示出有趣的特性,可以推广到各个领域的用户提示,并通过几个示例进行上下文学习来快速适应新场景。受到如此强大功能的启发,研究人员现在正在探索一种新的建模范式,从解决有限、预定义问题的独立模型转变为将多个工具或专家与 LLM 协同链接起来,以解决复杂、开放的问题。与第 5 章中介绍的内容不同,这样的系统可以在不涉及任何培训的情况下构建,只需使用一些演示示例来教 LLM 生成对现有工具的正确调用。

我们首先回顾了建模范式的演变,从特定于任务的模型到最新的大型多模态模型,这些模型都需要数据管理和模型训练。然后,我们介绍了使用 LLM 链接工具的新建模范式,它可能不需要任何培训,而是直接利用预先训练的 LLM 和通过开源平台或 API 广泛提供的现有工具。
在这里插入图片描述

多模式代理

在这里插入图片描述

多模式代理的三个关键组成部分。
工具。工具是 LLM 可调用的外部模块,用于获取模型权重中缺少的额外信息,包括开源模型、公共/私有 API 或代码解释器。由于 LLM 只接受语言输入,因此必须包含可以处理多模态输入以构建多模态代理的工具。
规划。在规划过程中,LLM 将用户请求分解为更小、可管理的子问题,并概述一个分步解决方案,每个解决方案都涉及调用外部工具。有两种方法可以教授 LLM 进行规划。一种是用所有候选工具的上下文中的少数样本来提示 LLM。此方法可以直接扩展常规模型,但受上下文长度的限制。另一种方法依赖于大量带注释的数据来微调 LLM,这很可能会损害模型的稳健性和泛化性。
执行。生成的计划进一步转化为对所需工具的可执行调用,这可以通过正则表达式匹配来完成(Yang* et al., 2023);直接提示 LLM 生成可执行程序(Sur ́ıs et al., 2023);或者通过提供描述每个模块角色的自然语言指令以及一些调用示例来利用 LLM 的上下文内小样本学习能力(Lu et al., 2023b)。执行结果将反馈给 LLM 以生成对用户的响应。

第七章 结论和研究趋势

多模态基础模型在计算机视觉和多模态视觉语言研究领域的学者中引起了极大的兴趣。尽管流行的研究主题、方法和方法一直在发展——包括图像自我监督学习、语言-图像对比学习、文本到图像生成、统一视觉建模和大型语言和视觉助手——但它们都集中在一个共同的总体目标上:创建能够遵循人类意图并在野外毫不费力地执行各种视觉和视觉语言任务的通用模型和系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473794.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

在人形机器人操作领域,有一个极具价值的问题:鉴于操作数据在人形操作技能学习中的重要性,如何有效地从现实世界中获取操作数据的完整状态?如果可以,那考虑到人类庞大规模的人口和进行复杂操作的简单直观性与可扩展性&a…

ReactPress与WordPress:一场内容管理系统的较量

ReactPress Github项目地址:https://github.com/fecommunity/reactpress WordPress官网:https://wordpress.org/ ReactPress与WordPress:一场内容管理系统的较量 在当今数字化时代,内容管理系统(CMS)已成为…

解决Windows远程桌面 “为安全考虑,已锁定该用户账户,原因是登录尝试或密码更改尝试过多。请稍后片刻再重试,或与系统管理员或技术支持联系“问题

当我们远程连接服务器连接不上并提示“为安全考虑,已锁定该用户账户,原因是登录尝试或密码更改尝试过多。请稍候片刻再重试,或与系统管理员或技术支持联系”时,根本原因是当前计算机远程连接时输入了过多的错误密码,触…

Cyberchef配合Wireshark提取并解析TCP/FTP流量数据包中的文件

前一篇文章中讲述了如何使用cyberchef提取HTTP/TLS数据包中的文件,详见《Cyberchef配合Wireshark提取并解析HTTP/TLS流量数据包中的文件》,链接这里,本文讲述下如何使用cyberchef提取FTP/TCP数据包中的文件。 FTP 是最为常见的文件传输协议,和HTTP协议不同的是FTP协议传输…

vs2022搭建opencv开发环境

1 下载OpenCV库 https://opencv.org/ 下载对应版本然后进行安装 将bin目录添加到系统环境变量opencv\build\x64\vc16\bin 复制该路径 打开高级设置添加环境变量 vs2022新建一个空项目 修改属性添加头文件路径和库路径 修改链接器,将OpenCV中lib库里的o…

构建SSH僵尸网络

import argparse import paramiko# 定义一个名为Client的类,用于表示SSH客户端相关操作 class Client:# 类的初始化方法,接收主机地址、用户名和密码作为参数def __init__(self, host, user, password):self.host hostself.user userself.password pa…

【开源免费】基于SpringBoot+Vue.JS购物推荐网站(JAVA毕业设计)

博主说明:本文项目编号 T 073 ,文末自助获取源码 \color{red}{T073,文末自助获取源码} T073,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

PG-DERN 解读:少样本学习、 双视角编码器、 关系图学习网络

本文提出了一种用于 分子属性预测 的 少样本学习(Few-shot Learning) 模型—— PG-DERN,该模型结合了 双视角编码器(Dual-view Encoder) 和 关系图学习网络(Relation Graph Learning Network) 双…

RabbitMQ-死信队列(golang)

1、概念 死信(Dead Letter),字面上可以理解为未被消费者成功消费的信息,正常来说,生产者将消息放入到队列中,消费者从队列获取消息,并进行处理,但是由于某种原因,队列中的…

Uni-APP+Vue3+鸿蒙 开发菜鸟流程

参考文档 文档中心 运行和发行 | uni-app官网 AppGallery Connect DCloud开发者中心 环境要求 Vue3jdk 17 Java Downloads | Oracle 中国 【鸿蒙开发工具内置jdk17,本地不使用17会报jdk版本不一致问题】 开发工具 HBuilderDevEco Studio【目前只下载这一个就…

Python中的with语句

with语句和上下文管理器 Python提供了 with 语句的写法,既简单又安全 文件操作的时候使用with语句可以自动调用关闭文件操作,即使出现异常也会自动关闭文件操作。 # 1、以写的方式打开文件 with open(1.txt, w) as f:# 2、读取文件内容f.write(hello wor…

SQL面试题——抖音SQL面试题 主播播出时长

主播播出时长 现有如下数据,主播id、房间号、播出的批次号,每个批次号进出房间的时间戳、分区时间: 每一次直播都有一个上播和下播,每个房间里,同一个批次号会有两条数据,分别记录了上播和下播时间,求每个主播的播出时长? 通过上面的数据,可以清晰的看出,同一个批次…

【汇编】c++游戏开发

由一起学编程创作的‘C/C项目实战:2D射击游戏开发(简易版), 440 行源码分享来啦~’: C/C项目实战:2D射击游戏开发(简易版), 440 行源码分享来啦~_射击c-CSDN博客文章浏览…

Uniapp 引入 Android aar 包 和 Android 离线打包

需求: 原生安卓 apk 要求嵌入到 uniapp 中,并通过 uniapp 前端调起 app 的相关组件。 下面手把手教你,从 apk 到 aar,以及打包冲突到如何运行,期间我所遇到的问题都会 一 一 进行说明,相关版本以我文章内为…

自动化运维(k8s):一键获取指定命名空间镜像包脚本

前言:脚本写成并非一蹴而就,需要不断的调式和修改,这里也是改到了7版本才在 生产环境 中验证成功。 该命令 和 脚本适用于以下场景:在某些项目中,由于特定的安全或政策要求,不允许连接到你的镜像仓库。然而…

Vue2+ElementUI:用计算属性实现搜索框功能

前言: 本文代码使用vue2element UI。 输入框搜索的功能,可以在前端通过计算属性过滤实现,也可以调用后端写好的接口。本文介绍的是通过计算属性对表格数据实时过滤,后附完整代码,代码中提供的是死数据,可…

机器学习(1)

一、机器学习 机器学习(Machine Learning, ML)是人工智能(Artificial Intelligence, AI)的一个分支,它致力于开发能够从数据中学习并改进性能的算法和模型。机器学习的核心思想是通过数据和经验自动优化算法&#xff…

【Linux学习】【Ubuntu入门】1-4 ubuntu终端操作与shell命令1

1.使用快捷键CtrlAltT打开命令终端,或者单击右键点击… 2.常用shell命令 目录信息查看命令:ls ls -a:显示目录所有文件及文件夹,包括隐藏文件,比如以.开头的 ls -l:显示文件的详细信息 ls -al&#xff1…

Oracle OCP认证考试考点详解082系列19

题记: 本系列主要讲解Oracle OCP认证考试考点(题目),适用于19C/21C,跟着学OCP考试必过。 91. 第91题: 题目 解析及答案: 关于 Oracle 数据库中的索引及其管理,以下哪三个陈述是正确的&#x…

智能网页内容截图工具:AI助力内容提取与可视化

我们每天都会接触到大量的网页内容。然而,如何从这些内容中快速提取关键信息,并有效地进行整理和分享,一直是困扰我们的问题。本文将介绍一款我近期完成的基于AI技术的智能网页内容截图工具,它能够自动分析网页内容,截…