谷歌联合CMU提出全新语义金字塔概念,无需额外训练使LLMs学会执行视觉任务

3bde3bfe66894efa8780dddde1eb71ad.png

论文链接:https://arxiv.org/abs/2306.17842
代码仓库:https://github.com/google-research/magvit/

在目前的大模型社区中,发展较为成熟的当属以ChatGPT为代表的纯语言模型(LLMs),以GPT-4为代表的多模态模型发展相对较慢。因此如何进一步挖掘和激发现有LLMs的内在潜力已经成为一个非常有趣的方向,研究者们开始思考如何仅通过冻结的LLMs来执行涉及图像或视频等非语言模态的理解和生成任务

本文介绍一篇来自谷歌研究院与卡内基梅隆大学合作完成的工作,在这项工作中,作者团队提出了一种全新的“语义金字塔自编码器(Semantic Pyramid AutoEncoder,SPAE)”概念,意在将输入的视觉内容转换为包含丰富语义的token,该token呈现金字塔结构的多尺度表示金字塔上层包含了较强的语义中心概念(semantic-central concepts),金字塔底层则侧重于捕获将输入图像重构所需要的细节外观表示。这种设计可以将输入的视觉信息直接转换为LLMs可以理解的嵌入空间token,使得模型可以直接执行后续的多种多模态任务,而无需像其他多模态大模型一样使用海量的图像文本对进行预训练,大大降低了模型成本。作者分别使用谷歌的PaLM 2和OpenAI的GPT 3.5模型作为基础LLM模型进行实验,在多种图像理解和生成任务上进行上下文学习(In-Context Learning)评估,实验结果表明,SPAE可以赋予原生LLMs理解生成视觉内容的能力,在相同实验设置下可以超过其他图像理解SOTA性能约25%。

01. 引言

目前社区内常见的LLMs通常以Transformer为基础backbone,这使得它们在广泛的自然语言处理任务上具有天然的优势,尤其是在经过大规模语料库预训练后,LLMs在一些特定领域中甚至出现了“涌现”现象,例如智能问答、代码生成、推理、解决数学问题等多种复杂任务。目前已经证明,LLMs在其词汇嵌入中捕获了有关自然场景中的丰富概念知识。这就引出了一个很自然的问题:如果提供适当的视觉表示作为输入,LLMs能否解决视觉模态中的复杂任务? 事实是,不使用视觉样本进行微调,想让LLMs直接编码和理解视觉内容是一个极具挑战性的任务。

为了赋予LLMs解决这类跨模态任务的能力,本文提出了SPAE方法,SPAE主要通过学习一组特征编码器来将图像或其他非语言模态信息映射到LLMs的token空间,然后可以借助LLMs强大的语义理解和生成能力来完成各种视觉任务。此外,SPAE还设置了一个额外的解码器来将编码得到的语义token转换回像素空间,构建起视觉空间到LLMs嵌入空间的信息传输桥梁。在具体实现时,SPAE提供了一种新型的语义金字塔结构,该结构可以动态调整视觉编码特征的长度来适应到多种下游任务中,例如使用较少的token来执行理解任务,使用较多的token来执行生成任务。作者提到,SPAE方法并没有对LLMs进行任何形式的参数更新,只对引入的编码器和解码器进行独立训练。此外,SPAE还具有即插即用的特点,可以兼容任意的LLMs。

02. 本文方法

设计语义金字塔自编码器(SPAE)的目标是将图像或其他非语言模态(例如视频或音频)建模为LLMs可以直接理解的token序列,该token序列的长度可以进行动态调整来适应不同的下游任务,SPAE的整体框架示意图如下图所示。

b3333dbfc5b541b49957b488edb6480a.png

2.1 语义金字塔自编码器

2.2 渐进式的上下文去噪

eedf5682998f4213869e0f2343eaa6b4.png

03. 实验效果

为了验证本文方法的灵活性以及与不同LLMs的兼容性,作者选取了两个具有代表性的LLMs(PaLM 2和GPT 3.5)进行实验,构建了SPAE的两种变体,即SPAEPaLM和SPAEGPT.为了与之前的方法进行公平对比[28],SPAE的编码器可以将128×128大小的图像编码为具有6层的token金字塔。本文的实验包含常规的视觉分类任务和复杂的视觉理解和推理任务,对于前者,作者在mini-ImageNet上的few-shot分类基准上进行。

d068789a301349da80c10cfd5860a326.png

上表展示了SPAE与其他基线方法的对比情况,可以看到,SPAE的两个版本的小样本识别性能均高于对比基线方法。下图进一步展示了本文方法在六种其他few-shot设置中的性能表现,可以看到,使用3层的21个token的SPAEPaLM达到了最佳性能,这表示SPAE可以在语义概念纯度和序列长度之间进行权衡

d43f3c6f79e74368b02a2e2c7371dee6.png

此外作者也进一步探索了SPAE在其他下游任务上的性能表现,对于图像到文本生成任务和VQA任务,作者分别选取了来自COCO数据中的10个样本示例作为LLMs的提示信息,然后使用SPAE的不同金字塔层进行文本生成,如下图所示。

308ff13e09b6416b99b547b6e3aae1fb.png

而对于VQA任务,作者对每个样本提供10个不同的答案来构成10-way 1-shot的上下文提示,然后使用SPAE对新查询图像进行预测,下图展示了部分问答效果。

d76fade4f87a446c85a8375d07b65419.png

为了清晰的验证SPAE确实可以捕获到不同尺度的语义概念和图像细节信息,作者在下图中对token金字塔进行了可视化,其中1-4层为出现最高频率的token直方图,5层和6层为模型重构出来的图像。可以看到,位于顶层的几个token似乎抓住了图像的主要主题,例如图中使用橙色圆圈标注的presso代表浓缩咖啡机,而其他token(如搅拌机)则指向其周围的相关区域。此外,第3层和第4层分别表示局部对象的其他详细信息。例如,Thermo指的是图中左上角区域的温度计,而炉灶(stove)则出现在右下角区域。

2977004462c0416da4a2a72e494b29b0.png

04. 总结

本文引入了一种全新的多模态理解概念,即语义金字塔,作者在此基础上提出了一种SPAE框架,使大型语言模型能够直接执行涉及图像或视频等非语言模式的理解和生成任务,SPAE可以在原始像素和LLMs所包含的词表中提取可解释的token,并将二者联系起来,由此产生的token捕获了视觉重建所需的语义概念和细粒度细节,可以有效地将视觉内容翻译成LLMs可以直接理解的内容,从而使其能够执行各种多模态视觉任务。此外,SPAE具有跨模型兼容的特点,其仅需要任意一个预训练LLMs的API即可开始工作,具有非常高的灵活性和兼容性,它为我们将LLMs更快更好地引入视觉社区提供了一种全新的范式。

参考

[1] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. In NeurIPS, 2017. 2, 3

[2] Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, t al. MAGVIT: Masked generative video transformer. In CVPR, 2023. 3, 4, 7


 关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/75412.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS——Block one

块类似于匿名函数或闭包,在许多其他编程语言中也存在类似的概念。 可以访问上下文,运行效率高 Block 以下是块的一些基本知识: 块的定义:块是由一对花括号 {} 包围的代码片段,可以包含一段可执行的代码。块的定义使…

银河麒麟v10 vnc环境配置

方法一、启用自带远程桌面 银河麒麟默认已经自带远程桌面,如下图。此时即可用Realvnc Viewer访问该终端,仔细查看后自带的远程桌面是开源组件gnome-remote-desktopGNOME / gnome-remote-desktop GitLabhttps://gitlab.gnome.org/GNOME/gnome-remote-de…

13个ChatGPT类实用AI工具汇总

在ChatGPT爆火后,各种工具如同雨后春笋一般层出不穷。以下汇总了13种ChatGPT类实用工具,可以帮助学习、教学和科研。 01 / ChatGPT for google/ 一个浏览器插件,可搭配现有的搜索引擎来使用 最大化搜索效率,对搜索体验的提升相…

Kindling the Darkness: A Practical Low-light Image Enhancer论文阅读笔记

这是ACMMM2019的一篇有监督暗图增强的论文,KinD其网络结构如下图所示: 首先是一个分解网络分解出R和L分量,然后有Restoration-Net和Adjustment-Net分别去对R分量和L分量进一步处理,最终将处理好的R分量和L分量融合回去。这倒是很常…

【机器学习】Gradient Descent for Logistic Regression

Gradient Descent for Logistic Regression 1. 数据集(多变量)2. 逻辑梯度下降3. 梯度下降的实现及代码描述3.1 计算梯度3.2 梯度下降 4. 数据集(单变量)附录 导入所需的库 import copy, math import numpy as np %matplotlib wi…

备战秋招 | 笔试强训19

目录 一、选择题 二、编程题 三、选择题题解 四、编程题题解 一、选择题 1、二分查找的时间复杂度() A. O(N*log(N)) B. O(N) C. O(log(N)) D. O(N^2) 2、有一个单向链表中有一个A、B两个相邻元素,有一个指针p指向元素A,现将…

谷歌云 | 电子商务 | 如何更好地管理客户身份以支持最佳的用户体验

【本文由Cloud Ace整理发布。Cloud Ace是谷歌云全球战略合作伙伴,拥有 300 多名工程师,也是谷歌最高级别合作伙伴,多次获得 Google Cloud 合作伙伴奖。作为谷歌托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训…

台式机/工控机通过网线共享笔记本电脑无线网络linux系统下 usb网卡的驱动安装

一、台式机/工控机通过网线共享笔记本电脑无线网络 1、 将台式机通过网线和笔记本连接。 2、 将笔记本的“本地连接”和“无线网络连接”的ipv4均设置为自动获取。 4.修改台式机的IP地址为如下(对应笔记本信息) IP地址为192.168.XXX.12 子网掩码为255.2…

弘扬“两弹一星”精神,勇攀科学技术高峰——道本科技商业大学党日活动圆满落幕

2023年8月2日,道本科技与商业大学携手举办了一场主题为“弘扬‘两弹一星’精神,勇攀科学技术高峰”的党日活动。本次活动旨在了解党领导下的中国核工业发展历程,传承和弘扬“两弹一星”精神,同时展示道本科技创新产品,…

【Linux】在服务器上创建Crontab(定时任务),自动执行shell脚本

业务场景:该文即为上次编写shell脚本的姊妹篇,在上文基础上,将可执行的脚本通过linux的定时任务自动执行,节省人力物力,话不多说,开始操作! 一、打开我们的服务器连接工具 连上服务器后,在任意位置都可以执行:crontab -e 如果没有进入编辑cron任务模式 根据提示查看…

如何使用vue ui创建一个项目?

首先打开cmd 输入vue ui 等待浏览器打开一个窗口,按照下图操作 在"功能页面"中,各个插件代表以下意思: Babel:Babel是一个JavaScript编译器,用于将ES6代码转换为向后兼容的JavaScript版本,以确保…

【计算机网络】数据链路层

文章目录 1. 数据链路层1.1 数据链路层简介1.2 数据链路层做了什么 2. 以太网协议2.1 以太网2.2 以太网帧的格式2.3 MAC地址2.4 MTU 3. 数据跨网络传输的整体过程4. ARP协议4.1 认识ARP协议4.2 ARP协议的格式4.3 ARP协议的工作流程 1. 数据链路层 1.1 数据链路层简介 数据链路…

ELK 企业级日志分析系统

ELK 企业级日志分析系统 一、ELK 概述1.ELK 简介2.日志分析系统 二、为什么要使用 ELK1.原因:2.完整日志系统基本特征3.ELK 的工作原理 三、部署ELK1.ELK Elasticsearch 集群部署(在Node1、Node2节点上操作)2.部署 Elasticsearch 软件&#x…

自然语言处理学习笔记(二)————语料库与开源工具

目录 1.语料库 2.语料库建设 (1)规范制定 (2)人员培训 (3)人工标注 3.中文处理中的常见语料库 (1)中文分词语料库 (2)词性标注语料库 (3…

刷题笔记 day7

力扣 209 长度最小的子数组 解法:滑动指针(对同向双指针区间内的数据处理) 1)先初始化 两个指针 left ,right。 2)右移指针right的同时使用sum记录指针right处的值,并判断sum的值是否满足要求&…

linux下性能分析工具Perf安装与用法

目录 1、Perf介绍 2、火焰图分类 (1)CPU (2)Memory Flame Graphs (3)Off-CPU Flame Graphs (4)Hot/Cold Flame Graphs (5)Differential 3、火焰图安装命令 …

Ubuntu安装harbor(http模式)并随便上传一个

Ubuntu安装harbor(http模式) docker和harbor的介绍就免了,都不知道啥东西,还安装搞毛 先安装docker环境 不要问,软件源之类的配置,挨个梭就行 sudo apt update sudo apt install apt-transport-https ca…

uniapp 路由跳转方式

export function goBack(index, url) {if (index 1) { // 关闭当前页,返回上一页面或多级页面。uni.navigateBack({delta: url,animationType: pop-out,animationDuration: 300});} else if (index 2) { // 保留当前页,跳转到非tabbar页面,…

不规则文件转JSON

需求分析: 有时候,我们取出来的数据并不是一个规则的JSON文件,这个时候面对存库还是ES检索都是一个问题,所以我们就需要进行解析,然而用字符串分割是不现实的,我们需要一种快速的方法。 问题解决&#x…

C++ ------ 类和对象的深究

文章目录 构造函数初始化列表概念特性 explicit关键字 static成员概念特点 友元友元函数友元类概念特性 内部类概念特点 匿名对象拷贝对象时的一些编译器优化 构造函数 我们来看下面的代码&#xff1a; #include <iostream> using namespace std;class Date { public:D…