​CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

7836e68b0ac0ae709d08ac412eab5843.gif

©PaperWeekly 原创 · 作者 | 邵镇炜

单位 | 杭州电子科技大学

研究方向 | 跨模态学习

大规模语言模型(Large Language Model,LLM)无疑是时下最火热的 AI 概念,它不仅是人工智能领域近两年的研究热点,也在近期引发了全社会的广泛关注和讨论,OpenAI 的 GPT-3 和 ChatGPT 更是数次登上微博热搜。

LLM 强大的语言理解能力和知识储备,给大众留下了深刻的印象。LLM 所涌现的 in-context learning 能力,更是开启了新的 NLP 范式,并使其有望成为以自然语言进行交互的通用型任务助手(ChatGPT)。LLM 的出现也为跨模态深度学习领域的研究者们带来新的机遇和挑战。

通过收集自互联网的大规模语料进行预训练,GPT-3 等 LLM 蕴含了丰富的世界知识,这使其有希望解决知识驱动的多模态任务,例如基于外部知识的图像问答任务,OK-VQA [1]。但是,想要利用 LLM 的潜力解决多模态问题,有一个关键问题需要解决:LLM 以语言进行输入输出,如何使她能够理解其他模态的数据,如图片,并迁移到下游多模态任务呢?

PICa [2] 提出使用 Image Caption 模型将图片转化为文本描述,然后输入给 GPT-3 使其回答关于图片的问题,该方法在 OK-VQA 数据集上超越了传统方法。但是由于 caption 未必能覆盖图片的全部信息,因此这一方法存在性能瓶颈。另一个容易想到的解决方案是,在预训练的 LLM 基础上,增加用来对接另一个模态输入的网络参数,并通过微调来得到一个跨模态的大模型。

Deepmind 的 Flamingo [3] 模型采用了这一方案,训练了一个 800 万参数量的视觉-语言模型,并在 OK-VQA 上达到新的 SOTA。但是训练这样的模型往往需要消耗大量的计算资源,动辄上百上千块 GPU,这是学术界的大部分研究者难以负担的。那么,如何能够既享受到 LLM 的强大能力,又通过有限的计算资源在跨模态任务上达到先进的性能呢?

我们近期的论文给出了一个新的答案:用好小模型!论文 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 提出了名为 Prophet 的框架,通过在 LLM 上游引入一个可学习的、任务相关的视觉问答小模型,来更好地激发大模型的潜力。

Prophet 这个名字既是 Prompt with answer heuristics 的缩写,也契合了 Prophet 框架的精神,我们希望 GPT-3 如一个先知一般对预兆(来自小模型的答案启发)进行理解和阐释。Prophet 仅需要 1 块 3090 显卡和少量 OpenAI API 的调用,就可以实现超越 Flamingo 的性能,并在两个基于外部知识的视觉问答数据集 OK-VQA [1] 和 A-OKVQA [4] 上创造了新的 SOTA。该论文现已被 CVPR 2023 录用。

508b917a8d4fef5e338b93dc18604607.png

论文链接:

https://arxiv.org/abs/2303.01903

开源代码:

https://github.com/MILVLG/prophet

35d68eb234ac862a074d29efa749df40.png

方法介绍

该论文着眼于基于外部知识的图像问答任务(Knowledge-based VQA),它要求模型不仅能够分析图片和问题,还需要结合图像外部的知识(生活常识、科学知识等世界知识)来推理得到答案。例如,如果问一张狮子图片“这种动物最喜欢吃什么?”,那么模型就需要知道狮子是食肉动物,它们通常捕食羚羊、斑马等。

早期的研究使用显式的知识库来检索相关知识,但这样做往往会引入过多的噪声,影响模型的训练和最终性能。近期的工作,如 PICa [2],则尝试使用 GPT-3 作为隐式的知识引擎来获取所需知识。PICa 通过将图像转化为文本描述(Image Caption)来让 GPT-3 理解图像,并使用 few-shot in-context learning 的范式,即提供少量问答示例,使 GPT-3 理解视觉问答任务并作出回答。

尽管 PICa 取得了令人鼓舞的结果,但我们认为它没有充分激发 GPT-3 的潜能,因为它输入 GPT-3 的关于图片的信息往往不够充分。如下图所示,当我们问“what fruit comes from these trees?”,由于 caption 只提到了图片的主要内容“a group of people walk in a city square”而忽略了图中有一颗椰子树的细节,GPT-3 未能得到回答问题所需要的关键信息,于是只能“瞎猜”一个答案。

后续的工作 KAT [5] 和 REVIVE [6] 在 PICa 输出基础上,增加了一个基于显式知识检索的 VQA 模型,进一步提高了性能,但依然没有解决上述问题,未能充分挖掘出 GPT-3 的潜力。

56acb6cd120ef95f990c5cf4ceacd330.png

▲ Prophet框架与之前的基于GPT-3的方法的对比

为解决 PICa 的瓶颈问题,我们提出了 Prophet,它利用答案启发(answer heuristics)来帮助 GPT-3 更好的解决基于外部知识的 VQA 任务。所谓答案启发,是指写入 prompt 文本中的,和视觉问题的正确答案相似或相关的答案(当然也包括正确答案本身),我们相信这些具有潜力的答案可以提供丰富的、并且任务相关的视觉信息,可以有效帮助 GPT-3 理解图像和视觉问答任务。

具体的,论文定义了两种答案启发: 1)答案候选(answer candidates): 问题的候选答案及其置信度;2)答案感知示例(answer-aware examples): 选择答案相近的标注样本(来自训练集)作为 prompt 中的例子。有趣的是,这两种答案启发可以使用同一个简单的 VQA 模型同时产生。

a1efffb93c50a22fdf76dfaf92225c9a.png

▲ Prophet的总体框架图

Prophet 的完整流程分为两个阶段,如上图所示。在第一阶段,我们首先针对特定的外部知识 VQA 数据集训练一个普通的 VQA 模型(在具体实现中,我们采用了一个改进的 MCAN [7] 模型),注意该模型不使用任何外部知识,但是在这个数据集的测试集上已经可以达到一个较弱的性能。然后我们从模型中提取两种答案启发:答案候选和答案感知示例。

具体的,我们以模型分类层输出的置信度(模型输出的 sigmoid 值)为依据对答案进行排序,抽取其中的 top 10 作为答案候选,并记录每个答案的置信度分数;同时,我们将模型分类层之前的特征作为样本的潜在答案特征(latent answer feature),在它表示的潜在特征空间中搜索最相近的标注样本作为答案感知示例。

在第二阶段,我们拓展了 PICa 的 prompt 格式,将答案启发组织到 prompt 之中(如上图所示的 prompt 例子),然后将 prompt 输入给 GPT-3,提示其完成视觉问题的回答。

值得一提的是,虽然我们给出了答案候选,但是我们并未要求 GPT-3 必须从中选择答案,一方面,prompt 中给出的示例可能就包含了正确答案不包含在答案候选中的情况,另一方面,如果所有候选的置信度都很低,也会暗示 GPT-3 生成一个全新的答案。这一设计不仅给予了 GPT-3 更多的自由,并且使 GPT-3 对前置 VQA 模型所可能引入的负面效应更加鲁棒,即 GPT-3 有权不相信 VQA 模型的不合理“猜测”。

3af7f22feb395afe2b7b7fbcba5a037d.png

实验分析

6a8049ac35df8fae27ead9781926d869.png

▲ Prophet论文主要实验结果

上方两表展示了 Prophet 在两个基于外部知识的图像问答数据集 OK-VQA 和 A-OKVQA 上的实验结果,及其和以往方法的性能对比。实验表明,Prophet 达到了先进的性能,显著超越了以往的方法。在 OK-VQA 数据集上,Prophet 达到了 61.1% 的准确率,大幅超越了 Deepmind 的 80B 大模型 Flamingo。

值得一提的是,Prophet 不仅在分数上超越了 Flamingo,在所需的(线下)计算资源上也更为“亲民”,更容易在有限的计算资源下进行复现。Flamingo-80B 需要在 1,536 块  TPUv4 显卡上训练 15 天,而 Prophet 只需要一块 RTX-3090 显卡训练 VQA 模型 4 天,再调用一定次数的 OpenAI API 即可。

在 A-OKVQA 上,Prophet 也达到了新的 SOTA,在测试集上取得 55.7% 的准确率。不仅如此,我们还为 A-OKVQA 的多选项测评模式设计了一个专门的变体(详见论文),命名为 Prophet-MC,该变体的 MC 准确率达到了 73.6% 的优秀水平。

c62e857f2f8bbf489c6c7fac8af573bc.png

▲ 对答案候选和答案感知示例的消融实验

论文对 Prophet 方法进行了充分、细致的消融实验,上方两表展示了其中最重要的两个结果。在左表中我们尝试调节答案候选的数量,可以观察到该参数显著影响方法的最终性能,说明答案候选在 Prophet 方法中起着至关重要的作用。在右表中,我们尝试了其他策略来选择 prompt 中的示例,其中的 fused 一行即对应了我们基于潜在答案特征来搜索答案感知示例的方式,实验结果表明该方式是最优的。

更详尽的实现细节和实验分析请参考论文原文。

f23aff3ad0a5ac2800208025754f4d5b.png

后记

Prophet 具有诸多优势,方法思路简单,性能优越,在实现上也更为简单、经济,因此我们决定分享我们的工作。在该工作完成后不久,跨模态大模型 PaLI [8] 和 PaLM-E [9] 相继提出,他们在 OK-VQA 数据集上超越了 Prophet,但是我们相信 Prophet 依然有其独特的价值:

1. 实现 Prophet 所需的计算资源更小,是大部分学术界的研究者能够承担的,我们相信 Prophet 为这些研究者们创造出了更大的研究空间,Prophet 作为基于外部知识图像问答任务的一个新的基线(baseline),还有许多值得挖掘的地方;

2. Prophet 不仅是 GPT-3 等 LLM 可以迁移到多种下游任务并取得优良性能的又一例证,更拓展了原本基于 few-shot in-context learning 的迁移范式,引出了一个新的范式,“小模型+LLM”。用任务相关的小模型作为 LLM 适配下游任务的适配器(Adapter),将增强 LLM 的通用性和针对性。我们相信 Prophet 的思路将启发其他领域的工作。

如果您对我们的工作有任何疑问,欢迎来信探讨,或者在 GitHub 上提交 issue。

outside_default.png

参考文献

outside_default.png

1. Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge.

2. Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, and Lijuan Wang. An empirical study of gpt-3 for few-shot knowledge-based vqa.

3. Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning.

4. Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, and Roozbeh Mottaghi. A-okvqa: A benchmark for visual question answering using world knowledge.

5. Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Haupt- mann, Yonatan Bisk, and Jianfeng Gao. Kat: A knowledge augmented transformer for vision-and-language.

6. Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, and Lu Yuan. REVIVE: Regional visual representation matters in knowledge-based visual question answering.

7. Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. Deep modular co-attention networks for visual question answering.

8. Xi Chen, Xiao Wang, Soravit Changpinyo, A. J. Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman et al. Pali: A jointly-scaled multilingual language-image model.

9. Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. PaLM-E: An Embodied Multimodal Language Model.

关于作者

论文第一作者邵镇炜是杭州电子科技大学计算机学院媒体智能实验室硕士研究生。邵镇炜同学患有“进行性脊肌萎缩症”,肢体一级残疾,没有生活自理能力,生活和学习需要母亲的全程照顾。2017年高考考入杭州电子科技大学计科专业,本科期间获得2018年中国大学生自强之星、国家奖学金和浙江省优秀毕业生等荣誉。2021年通过研究生推免,加入余宙教授课题组攻读硕士研究生。

论文通讯作者为杭州电子科技大学计算机学院余宙教授。余宙教授是杭电计算机学院最年轻的教授,教育部“复杂系统建模与仿真”实验室副主任。长期从事多模态智能方向研究,曾带领研究团队多次获得国际视觉问答挑战赛VQA Challenge 的冠亚军。

更多阅读

adfd6db505699e909ed59f7bebe47b28.png

a44a1abbff8a8b95f9f7ebb6ca39f261.png

4640594641bf6bff713d23f0ff79fab7.png

45b4f30bdc2b314a40203c1ad4695030.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

52e56b828c10d022695f48b3ce1bcb95.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

2d36e8592910a0d5c6ab9bec76d227ec.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25395.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[算法前沿]--000-大模型LLaMA在docker环境搭建以及运行教程(含模型压缩)

文章目录 LLaMA论文步骤搭建步骤运行7B模型运行13B模型 未来已来,大模型依据压缩模型的方式,可以在普通的PC上运行. LLaMA Facebook的LLaMA 模型和Georgi Gerganov 的llama.cpp的结合。 LLaMA,这是一组包含 7B 到 65B 参数的基础语言模型。我们在数万亿个令牌上训练…

聚观早报|恒大公告许家印成被执行人;特斯拉回应召回超百万辆车

今日要闻:恒大公告:许家印成被执行人;特斯拉回应召回超百万辆车;ChatGPT联网插件下周开放票;天翼物联发布首个3AZ亿级物联网平台;苹果MR头显功能预计远超竞争对手 恒大公告:许家印成被执行人 12…

微软OpenAI联盟,并非牢不可破

尚恩 发自 凹非寺量子位 | 公众号 QbitAI 就在今天,微软凭借近2.6万亿美元的市值,再次创下公司市值历史新高! 要说今年风头最盛的科技大厂,微软必定名列其中。 年初算起,背靠OpenAI的GPT-4等大模型技术,微软…

微软与 OpenAI,远没有看起来「亲密无间」

作者 | 鱼三隹 编辑 | 郑玄 看似亲密无间的微软与 OpenAI,隐忧已经浮现。 近日,根据《The Information》,微软的一份内部文件指示 Azure 的销售人员告诉客户微软能比 OpenAI 提供更多的服务;而 OpenAI 则在通过延迟授予微软产品 A…

互联网惊现 AI 鬼城:人类不得入内;阿里云史上最大规模降价,最高降幅达 50%;可致微信闪退的二维码Bug已找到|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

用 ChatGPT 读 Vue3 源码,会怎么样?

前言 ChatGPT 最近十分火爆,今天我也来让 ChatGPT 帮我阅读一下 Vue3 的源代码。 都知道 Vue3 组件有一个 setup函数。那么它内部做了什么呢,今天跟随 ChatGPT 来一探究竟。 实战 setup 函数在什么位置呢,我们不知道他的实现函数名称&…

Prompt 技巧指南-让 ChatGPT 回答准确十倍!

出品人:Towhee 技术团队 作者:张晨 随着 ChatGPT 等大型语言模型 (LLM)的兴起,人们慢慢发现,怎么样向 LLM 提问、以什么技巧提问,是获得更加准确的回答的关键,也由此产生了提示工程这个全新的领域。 提示工…

上市公司股价数据(含年度股价崩盘同步性数据)

一、股价崩盘数据 1、数据来源:国泰安数据库 2、时间跨度:2000-2020 3、区域范围:A股上市公司 4、指标说明: 参考最新文献,计算出度量股价崩盘相关衡量指标 具体指标如下: NCSKEW 公司股票收益率偏态…

CODESYS在工厂自动化中的应用:伊顿穆勒模块化控制器XC200

德国Sigloch Maschinenbau公司提供一种用于装订小册子和书籍等整套工艺流程的定制化生产线,包含集纸机、粘合装订机、底纸机、胶钉机和背衬机,干燥输送机,色带供料机。 整套自动化流水线的设备均由美国伊顿穆勒(Moeller&#xff…

为何世界足坛历史射手王是C罗?

C罗,一直是我很欣赏的球员,曾经在诺坎普,看过梅罗对决,当时的C罗,年轻气盛,全场球迷的嘘声,必不可少,但丝毫没影响他的状态,虽然他攻入一球,但皇马1:2落败&am…

打造汽车“安卓平台”,大众或亲手干掉传统汽车产业

干掉传统汽车产业的,很可能是大众,而不是特斯拉。\n 于无声处听惊雷。\n 2019年的日内瓦车展,看起来并没有传出太大的新闻。汽车世界的目光,依然被特斯拉的喧嚣所吸引。\n 然而,大众汽车展台上发生的一件看似不起眼…

零食社交 or 甜蜜陷阱?说说公司那些免费提供的零食饮料

很多公司都提供免费的零食、水果和饮料。说起来是件轻松愉快的事情,可是,偏偏有人因为这些小福利离职,还有人因为它们损害了健康……对于这些随便吃、随便喝、随便拿的东西应该采取什么样的态度才能于己有利?很多公司在普通零食之…

华为开发者大会上,鸿蒙问世、方舟编译器开源、还有 EMUI 10;壕置100万美元,苹果推出漏洞攻击报告赏金计划……...

关注并标星星CSDN云计算 极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快、更全了解泛云圈精彩news go go go 鸿蒙OS正式对外发布&am…

青年必读书——民国名流开具的书单

95 年前,一众文化、政治名流为当时的青年们开具了一份必读书单。今天的青、中、老年们不妨拿来看看,或许还有些借鉴之用。 本文由笔者根据 “《京报副刊》青年必读书十部,青年爱读书十部资料汇编” 一书整理而成。整理者才疏学浅&#xff0c…

AIGC应用层项目到底要不要现在出来融资?

告诉大家一个好消息:“4月26日北京路演的九个项目,有三个项目已经过会了。” 看到本文的读者相信已经不需要再去普及AIGC的概念和定义了,科技媒体和公众号里充斥着大量有关AIGC的文章,跟元宇宙开始火的时候如出一辙,知…

2023中国电子签领域最具商业合作价值企业盘点

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 近年来,中国数字经济规模不断扩张,成为拉动经济增长的重要发展引擎。产业数字化有利于电子签名在各产业的应用和渗透,给电子签名行业带来广阔的发展空间。受新冠疫情影响,越来…

数字中国看“浙”里丨太平鸟、实在智能、新秀丽等企业共探企业数智转型之路

当前,数字经济已成为重组全国要素资源、变革经济格局的关键力量。中共中央、国务院印发的《数字中国建设整体布局规划》中提出要培育壮大数字经济核心产业,研究制定推动数字产业高质量发展的措施,打造具有国际竞争力的数字产业集群&#xff0…

Qt编写魔塔小游戏

目录 一.游戏大致内容 1.玩家角色 2.怪物 3.可触发的物品 4.不可触发的物品 5.地图 6.(玩家与怪物的技能) 二.实现逻辑 三.具体实现 1.角色类声明 2.怪物类声明 3.地图类声明 4.主界面声明 5.玩家角色的构造 6.怪物的构造 7.地图的构造 8.主界…

ChatGLM-6B 安装试用

地址: https://github.com/THUDM/ChatGLM-6B https://huggingface.co/THUDM/chatglm-6b git clone https://github.com/THUDM/ChatGLM-6B conda create -n chatglm python3.8 conda activate chatglm cd ChatGLM-6B/ pip install -r requirements.txt试用以下代码&…

(非华为电脑,最新版PCManager安装,支持鸿蒙、一碰传

非华为电脑,最新版PCManager安装,支持鸿蒙、一碰传 与常规安装略有不同1.下载软件和获得nfc标签但淘宝nfc标签安装教程,一般都是老版的没有支持升级,一碰传安装步骤略有不同2.修改系统时间3.打开安装工具注意1.先修改地址&#xf…