MIMIC-IT:280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集...

本文来源  机器之心  编辑:蛋酱

在包含 280 万条多模态上下文指令 - 相应对的数据集上训练之后,Otter 展现出了优秀的问答能力,并在 ChatGPT 及人类的两项评估中获得了很高的评价。

近段时间来,AI 对话助手在语言任务上取得了不小的进展。这种显著的进步不只是基于 LLM 强大的泛化能力,还应该归功于指令调优。这涉及到在一系列通过多样化和高质量指令的任务上对 LLM 进行微调。

借助指令调优获得零样本性能的一个潜在原因是,它内化了上下文。这很重要,特别是当用户输入跳过常识性的上下文时。通过纳入指令调优,LLM 获得了对用户意图的高度理解,即使在以前未见过的任务中也能表现出更好的零样本能力。

然而,一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的多模式指令跟随数据集。比如,LLaVAInstruct-150K 数据集(也被称为 LLaVA)就是一个常用的视觉 - 语言指令跟随数据集,它是使用 COCO 图像、指令和从 GPT-4 中获得的基于图像说明和目标边界框的响应构建的。但 LLaVA-Instruct-150K 具有三个局限性:有限的视觉多样性;使用图片作为单一视觉数据;上下文信息仅包含语言形态。

为了推动 AI 对话助手突破这些限制,来自新加坡南洋理工大学、微软雷蒙德研究院的学者们提出了多模态上下文指令调优数据集 MIMIC-IT,这是一个包含 280 万条多模态上下文指令 - 相应对的数据集,涵盖各种现实生活场景。

ddb0cd0f1c750d60b58cbd6d7222de45.png

论文地址:https://arxiv.org/pdf/2306.05425.pdf

此外,为了高效地生成指令 - 响应对,研究者还介绍了「Sythus」,这是一个受 self-instruct 方法启发的指令 - 响应注释的自动化 pipeline。Sythus 采用系统信息、视觉注释和上下文中的例子来指导语言模型(GPT-4 或 ChatGPT)根据视觉语境生成指令 - 响应对,针对视觉语言模型的三个基本能力:感知、推理和规划。此外,英文的指令和响应被译成七种语言,以支持多种语言的使用。

特别值得注意的是,研究者在 MIMIC-IT 上训练了基于 OpenFlamingo 的多模态模型「Otter」。通过 ChatGPT、人类两个方面的评估,Otter 的多模态能力超越了近期的其他视觉 - 语言模型。

在一系列 Demo 中,研究者展示了 Otter 的多模态问答能力:

Q:接下来出哪张牌?

A:八筒。这样你就能留着四条和五条,等着凑成顺子。

edf854fe730d1be395a72f6bf680eae3.gif

Q:我想着陆了,怎么操作?

A:按一次左下按钮,左转,要着陆时拉右边的手刹。


e8a591c15196c40c918397402010bfd2.gif

Q:接下来怎么办?

A:把球传到中路,跑到球门,寻找进球机会。


da5b0f4b6c8291b2130e81e1d76053ac.gif

接下来,让我们看看研究细节。


MIMIC-IT 数据集

MIMIC-IT 数据集包括 280 万个多模态指令 - 响应对,涵盖了基本能力:感知、推理和计划。每个指令都伴随着多模态的对话背景,使在 MIMIC-IT 上训练的 VLM 能够在交互式指令中表现出很好的熟练度,并能进行零样本的概括。

4cbd78619751f959e88fd19cd8a75477.png

相比于 LLaVA,MIMIC-IT 的特点包括:

(1) 多样化的视觉场景,包含了一般场景、自我中心视角场景和室内 RGB-D 图像等不同数据集的图像和视频;

(2) 多个图像(或一个视频)作为视觉数据;

(3) 多模态的上下文信息,包括多个指令 - 响应对和多个图像或视频;

(4) 支持八种语言,包括英文、中文、西班牙文、日语、法语、德语、韩语和阿拉伯语。

下图进一步展示了二者的指令 - 响应对对比(黄色方框为 LLaVA):

376af550d7e5a2d777e64eb81ce896c9.png

如表 1 所示,MIMIC-IT 的数据源来自七个数据集:COCO、Spot-the-diff (SD)、ScanNetV2 (SN)、VisualStorytelling (VIST) 、DenseCaption/Activity caption(DC)、TVCaption(TVC)和 Ego4D(E4D)。「上下文」这一列的「lang.」表示语言,「vis.」表示视觉。

034df56d27c649ccd21e1a0e22d5a37f.png

Sythus:自动化指令 - 响应对生成 pipeline

同时,研究者提出了 Sythus(图 3),这是一个自动化 pipeline,用于生成多种语言的高质量指令 - 响应对。在 LLaVA 提出的框架基础上,研究者利用 ChatGPT 来生成基于视觉内容的指令 - 响应对。为了确保生成的指令 - 响应对的质量,该 pipeline 将系统信息、视觉注释和上下文中的样本作为 ChatGPT 的 prompt。系统信息定义了所生成的指令 - 响应对的预期语气和风格,而视觉注释则提供了基本的图像信息,如边界框和图像描述。上下文中的样本帮助 ChatGPT 在语境中学习。

由于核心集的质量会影响后续的数据收集过程,研究者采用了一个冷启动策略,在大规模查询之前加强上下文中的样本。在冷启动阶段,采用启发式方法,仅通过系统信息和视觉注释来 prompt ChatGPT 收集上下文中的样本。这个阶段只有在确定了令人满意的上下文中的样本后才结束。在第四步,一旦获得指令 - 响应对,pipeline 会将它们扩展为中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韩文(ko)和阿拉伯语(ar)。进一步的细节,可参考附录 C,具体的任务 prompt 可以在附录 D 中找到。

d77e76b45b6c66ad0195dc6320c3b417.png

经验性评估

随后,研究者展示了 MIMIC-IT 数据集的各种应用以及在其上训练的视觉语言模型 (VLM) 的潜在能力。首先,研究者介绍了使用 MIMIC-IT 数据集开发的上下文指令调优模型 Otter。而后,研究者探索了在 MIMIC-IT 数据集上训练 Otter 的各种方法,并讨论了可以有效使用 Otter 的众多场景。

图 5 是 Otter 在不同场景下的响应实例。由于在 MIMIC-IT 数据集上进行了训练,Otter 能够为情境理解和推理、上下文样本学习、自我中心的视觉助手服务。

58c797de33ecb1a5783593a855d8560f.png

最后,研究者在一系列基准测试中对 Otter 与其他 VLM 的性能进行了比较分析。

ChatGPT 评估

下表 2 展示了研究者利用 MMAGIBench 框架 [43] 对视觉语言模型的感知和推理能力进行广泛的评估。

0d7922c13d3bbdaa3ccf524783d795cc.png

人类评估

Multi-Modality Arena [32] 使用 Elo 评级系统来评估 VLM 响应的有用性和一致性。图 6 (b) 显示 Otter 展示了卓越的实用性和一致性,在最近的 VLM 中获得了最高的 Elo 评级。

少样本上下文学习基准评估

Otter 基于 OpenFlamingo 进行微调,OpenFlamingo 是一种专为多模态上下文学习而设计的架构。使用 MIMIC-IT 数据集进行微调后,Otter 在 COCO 字幕 (CIDEr) [27] 少样本评估(见图 6 (c))上的表现明显优于 OpenFlamingo。正如预期的那样,微调还带来了零样本评估的边际性能增益。

1bbdbfa6e58ddf6b14f7221b39550546.png

图 6:ChatGPT 视频理解的评估。

讨论

缺陷。虽然研究者已经迭代改进了系统消息和指令 - 响应示例,但 ChatGPT 容易出现语言幻觉,因此它可能会生成错误的响应。通常,更可靠的语言模型需要 self-instruct 数据生成。

未来工作。未来,研究者计划支持更多具体地 AI 数据集,例如 LanguageTable 和 SayCan。研究者也考虑使用更值得信赖的语言模型或生成技术来改进指令集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/64518.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MIMIC-IT

在包含 280 万条多模态上下文指令 - 相应对的数据集上训练之后,Otter 展现出了优秀的问答能力,并在 ChatGPT 及人类的两项评估中获得了很高的评价。 近段时间来,AI 对话助手在语言任务上取得了不小的进展。这种显著的进步不只是基于 LLM 强大…

【Mac】Mac安装telnet

1.美图 2. 安装 Homebrew 安装 Homebrew 3.安装 (base) lcc@lcc github$ brew install telnet Updating Homebrew... ==> Downloading https://homebrew.bintray.com/bottles/telnet-60.mojave.bottle.tar.gz #########################################################…

mac新版本安装telnet

升级之后突然发现telnet不能用了,执行如下操作即可: telnet安装 安装 homebrew /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 这一步,输入密码之后一直回车就可以了。…

苹果电脑安装wintogo不能启动,不妨试试这个软件

2018年,我的联想笔记本电脑太老了;分辨率明显不够,看起也不是很舒服,于是考虑买电脑;起初选择是想买macbook,看了很久要配置高只能买macbookpro,mbp价格要1.8万;准备买的时候还是心痛…

Mac OS 安装telnet命令

telnet安装 安装 homebrew /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"下载时的效果: 查看homebrew 是否安装成功 brew help 使用 homebrew 安装telnet brew install telnet 查看telnet是否安装成功 teln…

Mac上的seata安装

太难了太难了 满百度找不到Mac端的seata安装的教程 github上下载seata,或者下面的wp链接 因为我使用的版本是0.9,目前我这里只有0.9的版本 用网盘的形式分享,需要的话直接下就行了 别的版一搜就有了 链接: https://pan.baidu.com/s/1fkRWn1E…

WTG:给苹果电脑安装Windows

通过WTG把Windows安装到U盘、移动硬盘上,这样苹果电脑(MacBook)就无需把Windows安装到苹果电脑本地硬盘,占用苹果电脑磁盘空间了;不仅方便携带而且即插即用。 同样也支持Windows设备,只需要把软件安装到WTG…

【苹果imessage群发苹果推位置推】软件安装在系统中集成 USBMuxd 服务

推荐内容IMESSGAE相关 作者推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者推荐内容3.日历推 *** 点击即可查看作者要求内容信息作者推荐…

[MAC 苹果电脑] [Linux 系统] ”苹果电脑使用虚拟机安装 Linux Ubuntu系统”教程

一.前述 研究员买了MAC苹果电脑后,大多想到的一件事:能不能再装一个Linux系统。 MAC的强大办公能力 Linux的开源能力 一个优秀的编程环境。 因为苹果电脑并没有为Linux系统配置相应的驱动,所以不能将其作为双系统安装。这里选择 虚拟机 的方…

非苹果机安装 Mac OS X 全教程~~~~转

安装雪豹系统全攻略 转向Intel阵营为在PC安装Mac OS提供可能 泡泡网主板频道5月13日 从目前桌面级操作系统的格局来看,主要分为Windows、Mac OS以及Linux三大阵营。其中Windows阵营最为强大,占据全球整个桌面级操作系统90%以上的市场份额,苹果…

mac下安装cnpm淘宝镜像

在mac安装cnpm时,输入npm install -g cnpm -registryhttps://registry.npm.taobao.org 报错: npm ERR! code EACCES npm ERR! syscall mkdir npm ERR! path /usr/local/lib/node_modules/cnpm npm ERR! errno -13 npm ERR! Error: EACCES: permission de…

埃隆·马斯克:Facebook Sucks

西雅图IT圈:seattleit 【今日作者】宇直 宇宙第一直男 " 特斯拉CEO埃隆马斯克(Elon Musk)不喜欢脸书,这不是秘密。 今年2月,马斯克公开鼓动脸书用户注销账户,旗下特斯拉和SpaceX均没有注册脸书账户。上周,马斯克又…

89元之小度音箱测评

作为AI行业的渣渣,出于对技术的热爱,抢了几次,终于抢到了89元的小度音箱,说到抢,期间还有几多曲折,这里不细细展开了(之前看到过科大的阿尔法蛋,感觉贵,没出手&#xff0…

蓝色音箱改装电源_神改装:用小度音箱改装DIY音频AUX口,结局是大跌眼镜

唠唠叨叨的序言 ——“生命在于折腾” 小树是一名喜欢拆拆卸卸的小伙伴,手里的电子产品恨不得都拆一遍,看看都有啥捣鼓的,从小小的青铜也慢慢升级了起来,每一次“瞎折腾”的背后,都希望能得到各位看官们的认可&#xf…

同网络的计算机能共享音箱吗,2019年PC“老爷机”局域网内DLNA共享音乐到小度智能音箱全记录...

2019年PC“老爷机”局域网内DLNA共享音乐到小度智能音箱全记录 2019-10-07 11:34:17 18点赞 72收藏 7评论 创作立场声明:非IT领域从业人员,不足之处多探讨交流指正 导论 土豪朋友们就不用看了,这次总结了下就是闲着没事瞎折腾,再总结发现本质就是把笔记本改造为局域网内多媒…

用Linux开发板制作智能音箱,【工程师实战】只要几步,普通音箱秒变小度智能音箱...

原标题:【工程师实战】只要几步,普通音箱秒变小度智能音箱 电子大改造来了,这次把家里的闲置音箱改造下,来个智能语音识别 这是普通的小音箱 我们需要在树莓派3B上搭载DuerOS的人工智能操作系统-度秘,电子音箱为语音输出,再通过语音阵列板作为中间的语音拾取和转换,联网…

智能红外遥控器(六):小度音箱控制格力空调

本例程的原理是百度音箱和开发板都连接WIFI,百度音箱通过Blinker 服务器来控制开发板,开发板通过红外控制格力空调,红外控制同第5章使用的也是IRremoteESP8266库。 在Blinker APP上添加WIFI设备 进入Blinker app,点击右上角“”号…

智能红外遥控器(八):小度音箱读取温湿度

本例程的原理是百度音箱和开发板都连接WIFI,百度音箱通过Blinker 服务器来读取开发板上的温湿度传感器,温湿度读取使用DHT11库。 使用的设备依旧是之前介绍的ESP32红外遥控器开发板。 添加设备关联账号的操作同“智能红外遥控器(七&#xf…

简单三步,教你如何用小度音箱语音控制智汀设备?

前言 在我们日常生活中,常常听到最多的就就是语音控制设备了,比如,用唤醒词“小度小度”唤醒小度音箱,这时可以看到音箱亮起蓝色的Logo光圈,然后再说“打开/关闭设备名称”的语音指令即可;比如:…

android自动登录简书,android 手机号实现登录功能

先看看效果 image.png 我的这个登录功能是手机号和密码都已经在后台数据库有存储的,所以是直接登录。 重点有三个: 1、账号密码的存储,实现自动登录; 2、网络通信; 3、密码一定要Md5加密之后再传输 先把布局放上来 xml…