In-Context Learning开卷视觉任务,DeepMind提出快速适应新任务的“蜂鸟”模型

2ed3720fec8e4178a6e9581cfdad139b.png

论文链接:https://arxiv.org/abs/2306.01667

近来,随着ChatGPT和GPT-4等大模型的火热,使得学术界开始更多的关注于大模型背后的一些关键新技术,例如与ChatGPT高度相关的In-Context Learning(情景学习,也可以称为上下文学习)、Chain-of-thoughts(思维链推理)以及Reinforcement Learning from Human Feedback(人类反馈强化学习)等全新学习范式。在自然语言理解和生成领域,In-Context Learning极大程度地缓解了模型对特征任务进行微调的需求,研究人员可以仅仅通过设计一些更专业的prompts,来使模型获得解决多种下游任务的能力。

相比之下,计算机视觉社区中的大模型尚未达到这一效果。对于目前的视觉模型而言,针对一个特定的视觉任务,通常需要专门的解码器和微调策略才可以使模型适应到一个新的下游任务中。本文介绍一篇来自Google DeepMind研究团队的最新工作,他们探讨了如何在像语义分割、深度估计等密集视觉任务中设计类似的上下文学习机制,提出了一种名为Hummingbird(蜂鸟)的大型视觉模型,Hummingbird基于检索记忆机制实现了视觉任务中的上下文学习,并且提出了一种新的预训练模式来产生适应于多种下游任务的视觉表示。研究团队进行了广泛的实验评估,表明Hummingbird可以通过调整输入prompts的方式,实现无需微调模型执行各种场景理解任务的能力,同时也可以达到与使用标准微调方法相当的模型性能。

01. 引言

本文主要针对的视觉任务为密集场景理解任务,例如语义分割和深度估计。作者首先对完成这些任务所需要的视觉组件进行了研究,并且从(1)通用性、(2)参数效率和(3)快速适应三个方面对这些组件进行设计。为了实现与自然语言领域类似的In-Context Learning效果,作者团队首先将传统的非参数最近邻(NN)检索方法[1]拓展到密集场景预测任务中,这种基于检索的解码机制的优点就是不需要针对特定任务进行参数微调。因而作者认为这种方式是目前实现视觉In-Context Learning效果的最佳方案,其可以直接加载常见的标准视觉编码器(例如ResNet或ViT)来轻松的适应到其他下游任务中,同时保持一定的模型预测性能。下图展示了本文方法与其他标准微调方法在PASCAL和ADE20K数据集上的语义分割效果,可以看到,本文的最近邻检索方法可以在较少样本的情况下获得更好的微调效果

8ea9562e95a8489db51bdfc5bd4c72e7.png

此外,研究团队还发现,现有的视觉Transformer(例如MAE和DINO模型)虽然使用相同的预训练方式,但是他们在场景理解方面的差异却很大。因此作者提出了一种新型预训练方法来整合这一方面以产生相对通用的视觉表示,具体来说,作者主要做了以下两步操作:

  1. 在标准自监督预训练模式进行简单修改,称为上下文预训练,它通过使用从记忆池检索的特征来更新每个图像块的空间表示,随后再进行跨图像块的注意力计算

  2. 提出了一种空间注意力池化机制(attention-pooling),其与常规的标准平均池化不同,通过计算图像内各块间的注意力权重,将整个网格区域内的特征以一种“上下文聚集”的方式转换为单个图像级的特征,随后送入到自监督损失函数中进行优化。

作者发现,通过这种方式得到的自监督特征具有很强的跨任务适应能力,在下游任务上的性能也与标准微调方法的性能非常接近。因此作者将本文方法命名为Hummingbird,以突出其在多种任务场景中的快速适应能力

02. 本文方法

2.1 基于检索机制的场景理解框架

2.2 上下文预训练

2.3 自监督训练目标函数

03. 实验效果

本文的实验主要在两个密集场景理解任务上进行,对于语义分割实验,作者选取PASCAL VOC和ADE20K数据集,评价指标使用mIoU,对于单目深度估计实验,选择NYUv2数据集,评价指标使用均方根误差(RMSE)作为评价指标。作者选取了包括MAE和DINO等多种自监督方法作为对比方法,并且使用ViT-B版本作为基础视觉backbone。下表展示了本文方法使用检索记忆机制在场景理解任务上的性能对比,其中Hummingbird++代表使用监督学习进行训练。

db5a995e4a574cdf924f9d666ed0870c.png

从上表可以看出,本文方法与其他使用ViT-B编码器的方法相比,性能有很大的提升,同时随着数据集规模从ImageNet-1k增加到ImageNet-22k后,本文方法展现出了良好的扩展能力,但是其他方法(例如MAE)相比之下有些逊色。此外,作者还研究了本文方法在跨架构情况下的性能表现,如上图底部展示了该方法的性能随着编码器参数规模的增加而有了显著提高,并且明显优于其他方法,甚至是一些经过监督学习微调的方法

此外,作者还重点评估了本文方法在下游任务的快速适应能力,作者选取了目前快速适应任务领域中两个常用基线(Linear + frozen和Linear + E2E FT,E2E FT代表端到端标准微调)进行对比,下表展示了它们在PASCAL VOC和ADE20K数据集上的微调性能对比,可以看到,本文方法的性能明显优于其他两种方案。

13de46499e2c432fb2e468261e434a87.png

同时,作者也评估这些方法在微调过程中的用时情况,如下图所示,对于本文方法,仅需要5分钟(通过在下游训练集上训练1个epoch)就可以构建一个高性能的NN解码器(PASCAL VOC上为70% mIoU,ADE20K 上为 28%)。相比之下,Linear + frozen方法的收敛速度仅次于本文方法,但是其峰值性能明显低于Hummingbird中的NN解码器。

b00207cf7e7a424284c4c5d04d65edd9.png

04. 总结

本文受大语言模型中上下文学习(In-Context Learning)的启发,重点探讨了在计算机视觉密集预测任务中引入上下文学习范式所必须的基础结构,为此,本文研究团队提出了一种非常简单的非参数最近邻检索机制,它不仅与下游任务无关,而且不需要微调专门的解码器。随后,作者进一步提出了Hummingbird,作为一种新型的自监督预训练方法,Hummingbird可以在预训练阶段重点关注跨图像块之间的上下文注意力,使其具有快速适应到下游任务中的能力。通过将Hummingbird预训练后的模型作为一种通用编码器,并且与基于检索记忆机制的解码器相结合,本文带领视觉社区向上下文学习领域迈出了重要的一步。

参考

[1] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2008.


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习Al前沿知识的高地,分享自己最新工作的沃士,在AI进阶之路上的升级打怪的根据地!更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59985.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样找一张图片的原图、出处?最全搜图网站+具体案例分享

前不久随手帮一网友找了张图,想了想中间的经历挺有意思,所以今天打算来说说以图搜图这个话题 第一部分,先介绍常用的识图引擎第二部分,想分享一下阿虚自己的搜图经验,也是今天主要想分享的。 ▍1 首先推荐几个识图引…

这几个免费、商用图片素材网,你一定要知道。

很多朋友不知道去哪里找图片素材,找到了又担心会不会侵权。 今天给大家分享6个免费可商用图片素材网站,这下再也不用担心找不到素材或侵权啦! 1、菜鸟图库 传送门:https://www.sucai999.com/pic.html?vNTYxMjky 网站素材资源量…

6个高清图片素材网站,找图片素材就靠他们了

6个高质量图片素材网站,建议收藏! 1、菜鸟图库 https://www.sucai999.com/?vNTYwNDUx 菜鸟图库虽然是一个设计网站,但素材库非常大,除了有设计类素材之外还有很多视频、音频、办公类等素材,图片素材就有好几十万张&a…

8个免费图片素材网,赶紧收藏起来

现在图片素材变得越来越重要了,除了平常设计经常要用到图片之外,大到平常文章、自媒体、视频制作配图,小到我们发朋友圈、日志、说说,都会用到图片来衬托。 但图片版权一直是设计师、自媒体和各大企业的一大难题。 要不就花钱买…

找高清图片素材,这8个网站就够了

相信很多设计师、自媒体都为找素材而烦恼,很多朋友不知道去哪里找图片素材,找到了版权还不明确,怕造成侵权,今天我就把我独家珍藏的8个图片素材网站分享给大家,免费下载,还可以商用,建议收藏起来…

股票web下单接口能查询到股票GIF分时走势图吗?

股票web下单接口可以通过使用getStockImageByteByCode来获取股票GIF分时走势图,那么运用该系统来获得中国股票GIF分时走势图字节数组为: INput:theStockCode 股票代号,如:sh000001 POST /WebServices/ChinaStockWebSe…

四大派围攻光明顶360摊上大事了

这一次360摊上大事了,这事与以往任何一次战争都不相同。 2月26日,《每日经济新闻》用四个整版的篇幅,推出了重磅调查报告《360黑匣子之谜--奇虎360“癌”性基因大揭秘》,一时震动行业。当天下午3点,360通过新浪微博安全…

第一个简单Python爬虫:抓取古诗文网中李白的诗歌

2018年10月11日 这是第一个博客,嘻嘻~~~~ 最近老师给了个任务:爬取诗歌。于是乎,走上了爬虫道路,爬取了李白的诗歌。 感谢代码的原作者(唐诗三百首,源代码)。 遇到的问题与收获:…

如何开通阿里云语音通知服务?

阿里云语音服务是阿里云为用户提供的一种通信服务的能力。支持快速发送语音通知服务。 安全级别更高,难窃取。支持大容量、高并发,稳定可靠。 一、如何开通阿里云语音服务? 注册阿里云平台账户;实名登记认证;阿里云语…

Android语音识别-阿里语音识别

实例代码先行 AutomaticSpeechRecognition 一、申请语音识别API(可忽略,代码中有我自己的) 在阿里智能语音识别网页申请自己的AccessKey,secret。 二、用Android Studio创建项目 可以从git clone下载用下我的 git clone https…

阿里语音识别看这一篇就够了

先看效果 效果视频 首先到阿里页面创建项目 传送门:https://help.aliyun.com/document_detail/71936.htm?spma2c4g.11186623.0.0.12a03787uqgGAh#2572188 下载sdk引入到项目并且依赖 传送门:https://gw.alipayobjects.com/os/bmw-prod/d5d24de6-599d-41ac-aad7-3bfa6fc38f4…

JSP学生学籍管理系统设计与实现(源代码+论文+开题报告+外文翻译+答辩PPT)

cc学院 毕业设计(论文)开题报告 题 目: 基于JSP的学生学籍管理系统 学 科 部: 信工学科部 专 业: 计算机科学与技术 班 级: 学 号: 姓 名: 指导教师: 填表日期&…

​chatGPT超智慧AI非常强大,其运行原理是什么?

chatGPT是一种基于人工智能技术的聊天机器人,其功能原理如下: 1. 数据收集:chatGPT通过网络爬虫等方式收集大量的语料库,包括对话、文章、新闻等。 2. 训练模型:chatGPT使用深度学习技术,将收集到的语料库…

三体模拟器(python)

原文来自本人博客:三体模拟器(python) vpython vpython库是一个能做3D动画的第三方库,安装起来很容易,利用anacanda或者pycharm都能简单安装 导入vpython from vpython import *设置画布参数 scene.forward vect…

用Python画一个3D太阳系

用Python画一个平面的太阳系得到一些朋友的欣赏,然后有同学提出了绘制三维太阳系的要求。 从Python画图的角度来说,三维太阳系其实并不难,问题在于八大行星对黄道面的倾斜太小,所以尽管画个三维的图,但就观感而言&…

宇宙都要毁灭了你还在玩汉诺塔?(动画讲解汉诺塔问题)

CSDN话题挑战赛第2期 参赛话题:学习笔记 前言 💖作者:龟龟不断向前 ✨简介:宁愿做一只不停跑的慢乌龟,也不想当一只三分钟热度的兔子。 👻专栏:C初阶知识点 👻工具分享: …

物理研学论文MATLAB仿真——地月火箭三体问题的数值求解(平面圆形限制性三体问题的研究)

在二十世纪第一次数学家大会上,希尔伯特提出了“完美数学问题”准则,随后他举了两个例子,一个是费马猜想,另一个就是N体问题。近现代研究最多的就是三体问题。 三体问题就是三个天体在万有引力作用下的运动问题。三个天体的质量、…

关于计算机与教育的英语作文,信息技术对教育的影响英文作文

关于”信息技术对教育的影响“的英语作文范文2篇,作文题目:The influence of information technology on Education。以下是关于信息技术对教育的影响的小学英语范文,每篇作文均为真题范文带翻译。 高分英语作文1:The influence of information technology on Education Us…

维普导出参考文献

勾选需要导出参考文献的文章,点击“导出题录” 选择“参考文献”,点击“复制”或“导出”即可

同时处理知网、万方、维普数据库——CiteSpace、Ucinet、Vosviewer等

同时处理知网、万方、维普数据库——CiteSpace、Ucinet、Vosviewer等 全网独家[下文有视频教程] 《CiteSpace、Ucinet、Vosviewer、gephi等文献计量与可视化软件同时处理知网、万方、维普数据库》,结果更加客观、科学、权威! 目前,我们利用…