资源盘点丨9个经典视觉-语言多模态预训练数据集

在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜索量攀升的热门词汇。这些体现了大众对人工智能的广泛关注。

事实上,人工智能的进步离不开深度学习方法在各个具体任务上的进展。其中,尤其是预训练任务的方法,对人工智能的进步有着重要推进作用。而在各类预训练任务中,模型性能受预训练数据集质量的影响显著。

其中,为了获取通用的多模态知识,视觉-语言预训练任务主要使用带有弱标签的视觉-语言对进行模型训练。图像-文本任务主要为图像及标题、内容描述和人物的动作描述等。

本文根据《视觉语言多模态预训练综述》[1]一文,提供了一系列常用预训练数据集及其在OpenDataLab上的下载链接。

SBU数据集

SBU(Ordonez等,2011)数据集:
SBU是较为早期的大规模图像描述数据集。收集数据时,先使用对象、属性、动作、物品和场景查询词对图片分享网站Flickr进行查询,得到大量携带相关文本的照片,然后根据描述相关性和视觉描述性进行过滤,并保留包含至少两个拟定术语作为描述。

下载地址:
https://opendatalab.org.cn/SBU_Captions_Dataset/download

COCO数据集

COCO(Lin等,2014)数据集:
COCO是一个大型、丰富的物体检测、分割和描述数据集。数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置标定,含91个常见对象类别,其中82类有超过5000个标签实例,共含32.8万幅图像和250万个标签实例。COCO Captions(Chen等,2015)在COCO图片数据的基础上由人工标注图片描述得到。

下载地址:
https://opendatalab.org.cn/COCO_2014/download

Conceptual Captions数据集

Conceptual Captions为从互联网获取的图文数据集。首先按格式、大小、内容和条件筛选图像和文本,根据文字内容能否较好地匹配图像内容过滤图文对,对文本中使用外部信息源的部分利用谷歌知识图谱进行转换处理,最后进行人工抽样检验和清理,获得最终数据集。Changpinyo等人(2021)基于Conceptual Captions将数据集的规模从330万增加到了1200万,提出了Conceptual12M。

下载地址:
https://opendatalab.org.cn/Conceptual_Captions/download

HowTo100M数据集

HowTo100M的内容为面向复杂任务的教学视频,其大多数叙述能够描述所观察到的视觉内容,并且把主要动词限制在与真实世界有互动的视觉任务上。字幕主要由ASR生成,以每一行字幕作为描述,并将其与该行对应的时间间隔中的视频剪辑配对。How To100M比此前的视频预训练数据集大几个数量级,包含视频总时长15年,平均时长6.5min,平均一段视频产生110对剪辑-标题,其中剪辑平均时长4s,标题平均长4个单词。

下载地址:
https://opendatalab.org.cn/HowTo100M/download

YT-Temporal-180M数据集

YT-Temporal-180M覆盖的视频类型丰富,包括来自HowTo100M(Miech等,2019)的教学视频,来自VLOG(Fouhey等,2018)的日常生活记录短视频,以及Youtube上自动生成的热门话题推荐视频,如“科学”、“家装”等。对共计2700万候选数据按如下条件删除视频:
1)不含英文ASR文字描述内容;

2)时长超过20min;

3)视觉上内容类别无法找到根据,如视频游戏评论等;

4)利用图像分类器检测视频缩略图剔除不太可能包含目标对象的视频。最后,还会应用序列到序列的模型为ASR生成的文本添加标点符号。

下载地址:
https://opendatalab.com/YT-Temporal-180M

WebVid-2M数据集

由于ASR生成的句子通常不完整,且没有标点符号,更重要的是不一定与图像内容完全对齐,所以Bain等人(2021)针对这一问题对抓取的网络视频进行人工标注,使得描述文本词汇丰富、格式良好且与视频视觉内容对齐,提出了WebVid-2M(Bain等,2021)数据集。

下载地址:
https://opendatalab.com/WebVid-2M

VQA,VQAv2.0,GQA数据集

一些研究(Tan和Bansal,2019;Cho等,2021;Zhang等,2021a)从VQA,VQAv2.0,GQA这类问答数据集获取预训练数据。使用时不包含测试数据,一般将问题描述与答案句子作为文本输入,与图像构成图文对,从而进行模态间的预训练。

下载地址:

https://opendatalab.com/VQA

https://opendatalab.org.cn/VQA-v2.0/download

https://opendatalab.org.cn/GQA/download

引用

[1] 张浩宇,王天保,李孟择,赵洲,浦世亮,吴飞.视觉语言多模态预训练综述[J].中国图象图形学报,2022,27(09):2652-2682.

-END-
更多数据集,欢迎访问OpenDataLab官网:https://opendatalab.org.cn/

没有想要的数据集,怎么办?

如果在平台没有找到您想要的数据集资源,欢迎扫描下方二维码,记录您的需求,我们会努力为您提供相关支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22089.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SolidEdge C#.NET 二次开发系列教程(一) 安装部署插件

SE二次开发国内的教程简直太少了,为了学习这块,废了不少功夫,走了不少弯路。 特此开贴写教程以示后人。 se插件开发完成后就是如何部署,安装和部署和其他的.net插件类似。 1.走到这步你基本离成功很近了。 准备好你的dll插件的 Gu…

纵使AI再强悍,低代码风韵犹存

互联网沉默已久,ChatGPT的出现激起千层浪,沉寂已久的互联网迎来新一轮的机遇。毫不夸张地说,任何一家以技术见长的企业,人工智能绝对占有一席之地。 目录 人工智能很强悍 低代码风韵犹存 快速开发平台,大有看头 AI…

Chatgpt商业版开源部署教程

基于 ChatGpt-Web 项目二开的可商业化的 ChatGpt Web 应用(含后端) github上的大佬基于 ChatGpt-Web 项目二开的可商业化的 ChatGpt Web 应用(含后端) 修复部分了bug 卡密、支付、对话、模型等 历史对话同步功能 演示图片 主要…

ChatGPT基础知识系列之Transformer模型详解

ChatGPT之Transformer模型详解 Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。 1.Transformer 整体结构 首先介绍 Transformer 的整体结构,下图是 Tr…

聚观早报|王慧文要做「中国版 OpenAI」;Temu斥资近亿元赞助超级碗

点击蓝字 / 关注我们今日要闻:王慧文要做「中国版 OpenAI」;Temu斥资近亿元赞助超级碗;新东方在线股价收跌2.8%;ChatGPT带动的AIGC创业热潮要来了;传谷歌拆分其AR部门 王慧文要做「中国版 OpenAI」 2 月 13 日&#x…

上帝掷骰子吗?

“上帝掷骰子吗?” 这句名言出自物理学家爱因斯坦之口。都说现代人经常陷于迷茫,其实我们并不孤单,因为作为史上最伟大的物理学家之一、相对论的创始人,爱因斯坦在面对量子力学的随机性和不确定性,同样感到迷茫。 一本…

2023年十大流媒体发展趋势展望

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 编者按:经历了三年疫情,2023年流媒体将如何发展?虽然本文主要针对海外市场,但依然值得国内借鉴,比如AIGC、远程制播…

3名离职员工窃取公司游戏源码,半年狂赚 1.5 亿,网友:“自立门户也不带这样玩的!”...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 对于游戏公司而言,安全、抄袭问题总是「防不胜防」。 不仅要抵御黑客攻击、排查自身的安全漏洞,还要警惕员工拿着代码跑了! 近日,据上海市…

百度将?百度已!

仿佛一夜之间,创业公司OpenAI旗下的ChatGPT就火遍全球。 这是一场十分罕见的科技盛宴。下到普通用户,上到各科技大厂都在讨论ChatGPT的前景,国外的微软、谷歌,国内的百度、腾讯、阿里等等都在布局相关业务。比尔盖茨更是称ChatGPT…

Stable Diffusion动画版上线!十五种风格预设,支持文本图像视频多种输入方式

西风 发自 凹非寺量子位 | 公众号 QbitAI Stable Diffusion也能生成视频了! 你没听错,Stability AI推出了一款新的文本生成动画工具包Stable Animation SDK,可支持文本、文本初始图像、文本视频多种输入方式。 使用者可以调用包括Stable Diff…

Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【GAN和扩散模型】微信技术交流群 西风 发自 凹非寺转载自:量子位(QbitAI) Stable Diffusion也能生成视频了! 你没听错&#x…

关于stable diffusion的embedding训练的一篇随笔

前言 嗯,因为最近ai绘画很火啊,而且可以本地部署,很多人开始投喂ai然后画一些喜欢的东西,这是刚接触4天的笔记,那么我整理下目录,来展示一下这篇笔记都有什么吧。 1,绘画的关键词和反向关键词 2&#xf…

图像处理:Tiler制作你的专属卡通头像和LOGO(圣诞特别篇)

目录 0 前言1 安装与贴图2 算法原理2.1 计算像素频率2.2 计算像素相对距离2.3 计算合适贴图 3 配置功能4 使用:以圣诞老人为例推荐内容 0 前言 Tiler是一种使用各种其他较小图像平铺创建新图像的工具,它与其他马赛克工具不同,因为它可以适应多…

ChatGPT 3.5 的回答只能基于 2021年中期

ChatGPT 无法通过 internet 来访问 2021 年中期之后的数据。 比如无法列举 2021年 IT 界发生的新闻。 2021年的新闻则可以列举出来 以下是2021年IT界十大轰动性的新闻: 苹果公司推出 M1 芯片:苹果公司在2020年底发布了第一批基于自研M1芯片的Mac电脑&…

爆发了!ChatGPT的王炸级更新

最近ChatGPT在互联网行业有多火?恐怕不用小灰多说,大家心中自有答案。 不过,尽管ChatGPT很厉害,但是却存在一个局限。你向它了解最近两年的内容,它都会回复不支持。这是因为ChatGPT模型训练用的是2021年9月之前的数据&…

2021-11-12

高三家长如何填写高校录取志愿事宜 高三家长陪考的目就是和孩子一起经历高考和健康成长的过程,高考成绩真的无法估计,可能超常发挥可能发挥失常,我们从考得好”和“报得好”这两个方面来说了,那么作为家长,要为孩子准…

30 我上车则被套的故事【2019-11-03 2242】

今天我们轻松点,聊聊车。 香港人把买房叫做上车。“不管那么多,赶紧先上车。”这是老一代对年轻人的实用主义传承。在财富积累赛道,上车意味着速度更快;而没有上车的话,个人的发展跟不上城市的发展,在城市发…

普通话证书手把手入门考取流程

简介:普通话证是很有用的一个证书。现在考取后是终身的有效期限。建议大家可以考取一个。 作用:可以认定一些职位所需。例如:教师资格证认定,播音员认定。。。那么,普通话考试考取内容是什么?怎么报名&…

广州华龙展贸考场——科目三

前言:不同考试时间可能考试规则和路段考点会变,仅供参考,以练车为准。2021/05/17考试记录。 一、灯光考点 传祺车灯光视频操作:点击这里 二、科三考试注意细节: 1、换挡不要低头看挡位,否则扣100分

宁海中考政策计算机考试合格,宁海中考指南!同学们、家长们你们准备好了吗?...

原标题:宁海中考指南!同学们、家长们你们准备好了吗? 高考结束了 那么接下来的重点就是中考了! 这也是至关重要的一步 同学们要加油了 今年我县参加初中生学业水平考试报名总人数为6190人,比去年增加52人。 宁海中学创新实验班提前…