杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023

Pine 发自 凹非寺
量子位 | 公众号 QbitAI

能读图的GPT-4震撼发布了!但要用它还得排队。。。

不如先试试这个~

加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。

并且训练这个小模型单卡(一块RTX 3090)就能搞定。

效果呢,直接看图。

比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动?

f419ae85be6dd76ade55cb4c1db3f85b.png

毫不迟疑,GPT-3给出了音乐会的答案。

再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。

8805ee0c8a0d805a68469d07b0d1e382.png

GPT-3:蕾丝

Bingo!(看来是有点儿东西在身上的)

这个方法呢,是杭州电子科技大学和合肥工业大学的一个团队的最新成果:Prophet,半年前他们就已经着手进行这项工作。

论文一作是杭电研究生邵镇炜,他在1岁那年被诊断患有“进行性脊肌萎缩症”,高考时遗憾与浙大擦肩,选择了离家近的杭州电子科技大学。

目前该论文已经被CVPR2023接收。

5301fd9f140cea1462d42ab8293a855f.png

跨模态任务上达到新SOTA

话不多说,直接来看在Prophet这种方法的加持下GPT-3的读图能力。

我们先来看看它在数据集上的测试结果。

研究团队在两个基于外部知识的视觉问答数据集OK-VQA和A-OKVQA测试了Prophet,均创造了新SOTA

a0b4ea51822b0b06754d4bdafe1dd18d.png
ebaa5ca0e0cc69a251ac9f38a4bdb86b.png

更具体点,在OK-VQA数据集上,和Deepmind的拥有80B参数的大模型Flamingo对比,Prophet达到了61.1%的准确率,成功击败Flamingo(57.8%)。

并且在所需要的算力资源上,Prophet也是“吊打”Flamingo。

Flamingo-80B需要在1536块TPUv4显卡上训练15天,而Prophet只需要一块RTX-3090显卡训练VQA模型4天,再调用一定次数的OpenAI API即可。

1fe775ae1f3979bcbe59eb25cfa01333.png

其实,类似Prophet这种帮助GPT-3处理跨模态任务的方法之前也有,比如说PICa,以及之后的KAT和REVIVE。

不过它们在一些细节问题的处理中,可能就不尽如人意。

举个栗子7a66214a517920e07b51e802ab60d017.png,让它们一起读下面这张图,然后回答问题:图片中的树会结什么水果?

af3412ec5a4473631026c4c2fe7f31d4.jpeg

而PICa、KAT和REVIVE从图片中提取到的信息只有:一群人在广场上走路,完全忽略掉了后面还有一颗椰子树。最终给出的答案也只能靠瞎猜。

而Prophet这边,就不会出现这种情况,它解决了上述方法提取图片信息不充分的问题,进一步激发了GPT-3的潜能。

e43ff4cb12ee36d6741e0bd9e6e15dee.png

那Prophet是怎么做的呢?

小模型+大模型

有效提取信息,并准确回答问题,能做到这些Prophet依赖的是它独特的两阶段框架

这两个阶段也分工明确:

  • 第一阶段:根据问题给出一些具有启发性的答案;

  • 第二阶段:这些答案会缩一些范围,使GPT-3有充分的空间发挥潜能。

首先是第一阶段,研究团队针对特定的外部知识VQA数据集训练了一个改进的MCAN模型(一个VQA模型)。

训练好模型后,从中提取两种具有启发性的答案:答案候选和答案感知示例。

其中,答案候选是以模型分类层输出的置信度为依据对答案进行排序,选取里面的top10。

答案感知示例时指,将模型分类层之前的特征作为样本的潜在答案特征,这个特征空间中最相近的标注样本。

f1e82f6cbc00cdae4fcc0554313a4f38.png

接下来就是第二阶段,这一步相对来说就很简单粗暴了。

讲上一步得到的“启发性答案”组织到prompt中,然后再将prompt输入给GPT-3,在一定的提示之下完成视觉问答问题。

不过虽然上一步已经给出一些答案提示,但这并不意味着GPT-3就要局限在这些答案中。

若提示给出的答案置信度太低或者正确答案并不在那些提示中,GPT-3完全完全有可能生成新的答案。

7905051d857dea3de27f910c655b65af.png

研究团队

当然,除了研究成果外,这项研究背后的团队也不得不提。

第一作者邵镇炜在1岁时就确诊“进行性脊肌萎缩症”,是肢体一级残疾,没有生活自理能力,生活和学习需要母亲的全程照顾。

a545e81e851fe95fd2351d50bf8f12e9.png

不过虽然身体受限,但邵镇炜对知识的渴求并没有减弱。

2017年高考他拿下644分的高分,以第一名的成绩被杭州电子科技大学计算机专业录取。

期间还获得2018年中国大学生自强之星、2020年度国家奖学金和2021年度浙江省优秀毕业生等荣誉。

本科期间,邵镇炜就已经开始跟着余宙教授进行科研活动。

2021年,邵镇炜在准备研究生推免时与浙大擦肩,于是留校加入了余宙教授课题组攻读硕士研究生,目前他在读研二,研究方向是跨模态学习。

余宙教授则是本次研究论文的二作以及通讯作者,他是杭电计算机学院最年轻的教授,教育部“复杂系统建模与仿真”实验室副主任。

长期以来,余宙专攻多模态智能方向,曾带领研究团队多次获得国际视觉问答挑战赛VQA Challenge的冠亚军。

023a17e834e6fb6ec835d6d7460ffb55.jpeg

研究团队的大部分成员都在杭电媒体智能实验室(MIL)。

该实验室由国家杰青俞俊教授负责,近年来实验室围绕多模态学习方向发表一系列高水平期刊会议论文(TPAMI、IJCV、CVPR等),多次获得IEEE期刊会议的最佳论文奖。

实验室主持国家重点研发计划、国家自然科学基金重点项目等国家级项目20余项,曾获得过浙江省自然科学一等奖,教育自然科学二等奖。

项目地址:
https://github.com/MILVLG/prophet
论文地址:
https://arxiv.org/abs/2303.01903
参考链接:
[1] https://zhuanlan.zhihu.com/p/613601646
[2] https://mp.weixin.qq.com/s/auKTsPZHnzSHbJLPjhFVlA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16853.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络带宽/吞吐量/chariot介绍

吞吐量是指在没有帧丢失的情况下,设备能够接受并转发的最大数据速率。

Linux网络性能评估工具iperf 、CHARIOT测试网络吞吐量

目录 一、 Iperf能做什么 1、TCP方面 2、UDP方面 二、 Iperf的安装与使用 1.安装iperf 2.iperf参数介绍 三、 Iperf应用实例 1.测试TCP吞吐量 2 . 测试UDP丢包和延迟 四、利用IXCHARIOT进行网络测速 网络性能评估主要是监测网络带宽…

用Speedtest-Tracker跟踪上网速度

什么是 Speedtest-Tracker ? Speedtest-Tracker 每小时运行一次 speedtest 检查,并将结果绘制成图表。后端使用 Laravel 编写,前端使用 React。它使用 Ookla 的 speedtest cli 包获取数据,并使用 Chart.js 绘制结果。 从功能上看和…

chatgpt赋能Python-pythongpu加速

Python GPU加速:让你的Python应用飞速运行 介绍 Python是一种高级编程语言,具有易于学习、易于使用和强大的功能。作为一门解释型语言,Python会在运行时逐行解释程序代码,而这种解释方式会导致Python在运行速度上较慢。在需要大…

Jasper狂飙:AIGC现象级应用的增长秘笈

随着ChatGPT开放自己的API,不少人开始期待AIGC应用大爆发。不过与大模型的进展类似,中国在AIGC应用上也滞后了。 在ChatGPT出来前,AIGC应用在国外率先开枝散叶,除了Google、Meta这些科技巨头外,有OpenAI,做…

2023年有哪些技术值得我们关注呢?chatgpt/AI/机器学习/5G/区块链

2023年,除了云原生之外还会涌现出很多新的技术和趋势,以下是其中一些可能的技术和趋势: 5G技术: 随着5G网络的普及,将会出现更多5G相关的应用和场景,例如智能家居、无人驾驶、虚拟现实等。 AI和机器学习&am…

中二青年付杰的逆袭故事:从二本生到 ICLR 杰出论文奖,我用了20年

二本出身,读了两个硕士才在29岁开始读博,39岁才结束博士后研究的付杰形容,他的20年就像个体与系统的博弈: 在一些机器学习的文章中,研究者会根据训练初始阶段 Training Curve(训练曲线)的模式来…

SpringBoot如何整合RabbitMQ

[版权申明] 非商业目的注明出处可自由转载 出自:shusheng007 文章目录 概述rabbitmq简介SpringBoot整合安装rabbitmq初级用法高级用法配置交换器与队列发送消息消费消息测试 总结 概述 好久没有写博客了,终日忙于生计,真是人过30不如狗啊&am…

《不要挑战人性》笔记(一)

恒河猴实验 代母实验 将刚出生的小猴子与母亲分开,让它与绒布妈妈跟铁丝妈妈生活在一起。铁丝妈妈身上有食物,绒布没有食物,小猴子更喜欢绒布妈妈,即使它在铁丝妈妈那里得到了食物。绒布妈妈身上设置机关,攻击小猴子&a…

2022年最新嘟嘟早教卡小程序源码+附带后台管理

源码说明 【嘟嘟早教卡】是专门为 3-6 岁婴幼儿童学习普通话、英语研发的早教启蒙认知识字的小程序,这里是后端源码,由 Laravel、Tailwind CSS 及 AlpineJS 构建而成。 关于项目 该项目包括了管理后台以及小程序接口,想法源于小时候玩的认知卡片&#xf…

go语言实现加减法出题器(再也不用担心孩子学习了)

需求:孩子做题需要我出题,我不想出。 为什么不用我熟悉的java,go可以直接生成exe文件。 Windows执行程序链接 set_quest.exe https://www.aliyundrive.com/s/yP3GuhTZoGD 点击链接保存,或者复制本段内容,打开「阿里…

计算机应用课程的专业建议,计算机应用技术专业课程衔接问题论文

计算机应用技术专业课程衔接问题论文 摘要::对中高职教育来说,课程衔接是维系教育质量的关键。做好课程衔接不仅有助于推动职业教育的纵向发展,同时也能够提高学生的职业技能。现本文从中高职计算机专业课程衔接必要性探讨出发,分…

成长杂志成长杂志社成长编辑部2022年第7期目录

成长杂志成长杂志社成长编辑部2022年第7期目录 前沿视点 加强学校基建项目建设与管理工作的策略分析 (3) 陈志捷 新时代背景下高职院校新进教师师德师风建设机制探究 (6) 李硕 工匠精神培养与中职思想政治教育的融合探究 (9) 袁梅 数字经济时代高等教育面临的挑战及…

郑州鸿蒙学前班好吗,提前上学前班真的好吗?3个严重危害,值得家长深思

在杭州,一名老师对1000个家庭进行调查,发现上过幼小衔接班的孩子占了50.28%,超过一半。 上了幼小衔接班的孩子,在一年级时,学习尚有优势;到了二年级,他们中感到学业负担重的孩子,竟比…

中如何输入越南拼音_幼小衔接中,我们如何给孩子做拼音启蒙?

其实汉语拼音看似简单,但对不少孩子来说还是有难度的,主要体现在哪些方面呢? 发音不准 几个相似的声母记不住 不会拼读...... 除了以上这三点以外,学龄前孩子在掌握拼音的认读时,还要牢记各个声调的发音,并…

幼小衔接 测试 c语言,幼升小名校入学测试题含答案

幼升小名校入学测试题含答案 在各领域中,我们都要用到试题,借助试题可以检测考试者对某方面知识或技能的掌握程度。你知道什么样的试题才能切实地帮助到我们吗?下面是小编精心整理的幼升小名校入学测试题含答案,仅供参考&#xff…

孩子幼小衔接怎么做?猿辅导老师建议家长做好这些准备

每年到了这个时间,即将有一批小朋友告别幼儿园,成为小学生。家长和老师关于“幼小衔接”的担忧甚至焦虑也在蔓延。家长担心孩子入学之后遇到问题:“我家孩子不会拼音,万一跟不上怎么办?”“小学教学进度很快&#xff0…

入学准备幼小衔接c语言,【启航教育】做好幼小衔接 ——一年级新生入学准备攻略...

尊敬的各位家长:新的学年,桂江小学大家庭即将迎来一批活泼可爱的一年级小朋友,为了让孩子们尽快适应新的学习生活,请各位家长仔细阅读2019-2020学年第一学期一年级新生入学攻略! 1、认识我们的学校 桂江小学建校于2004年9月&#…

幼小衔接课程c语言,幼小衔接很重要,课程安排出来了!!!

原标题:幼小衔接很重要,课程安排出来了!!! 幼小衔接是幼儿园和小学教育两个教育阶段的平稳过渡的教育过程,也是儿童成长过程的一个重大转折,这个阶段也是处于人类整个逻辑思维形成和使用过程中所…

鸿蒙幼小衔接怎么样,郑州市新元鸿蒙幼小衔接开展“拥抱自然 收获快乐” 户外大课堂实践活动...

秋天是美丽的季节,是丰收的季节,是处处都蕴涵着教育契机的季节,为了让孩子们走进大自然,寻找、体验秋天的美丽, 新元鸿蒙幼小衔的宝贝们在老师们的组织下举办了一次秋游挥动,萌娃们放下小书包,投…