【人工智能】数据集合集!

本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

点击蓝字

关注我们

1

Habitat Platform

  • 发布方:

    Facebook AI Research·西蒙菲莎大学·佐治亚理工学院·Facebook Reality Labs·Intel Labs·University of California, Berkeley

  • 发布时间:

    2019

  • 简介:

    具身人工智能 (AI) 研究平台。

  • 下载地址:

    https://github.com/facebookresearch/habitat-api/tree/ec9557a3623991208a80f836fe557f8028209297

  • 论文地址:

    https://arxiv.org/pdf/1904.01201v2.pdf

2

InFashAIv1

  • 发布方:

    Ai4Innov

  • 发布时间:

    2021

  • 简介:

    对于时尚领域的包容性人工智能,并确保非洲时尚能够从人工智能的潜力中受益,Ai4Innov 发起了包容性时尚人工智能项目 (InFashAI),该项目旨在创建更能代表存在于时尚界。我们将首先专注于建立大量有关非洲时尚的数据。该数据集将逐步开源,我们希望,它将成为适应非洲时尚InFashAIv1 数据集的人工智能工具的支柱,该数据集包含近 16.000 个非洲时尚商品图像及其标题、价格和一般描述。

  • 下载地址:

    https://github.com/hgilles06/infashai

  • 论文地址:

    https://arxiv.org/pdf/2106.12154v3.pdf

3

Cross-Modal Comments Dataset

  • 发布方:

    北京邮电大学·北京大学

  • 发布时间:

    2019

  • 简介:

    跨模态自动评论(CMAC)是我们论文中提出的一项新任务,旨在自动生成图片新闻的评论。在这项任务中,人工智能模型需要整合来自新闻图像和新闻文章的信息,并针对视觉和文本内容生成合理的评论。

  • 下载地址:

    https://github.com/lancopku/CMAC

  • 论文地址:

    https://aclanthology.org/P19-1257.pdf

4

AI2-THOR

  • 发布方:

    卡内基梅隆大学·斯坦福大学·华盛顿大学·艾伦人工智能研究所

  • 发布时间:

    2017

  • 简介:

    AI2-Thor 是具身人工智能的交互式环境。它包含厨房、客厅、卧室和浴室四种场景,每个场景包括30个房间,每个房间在家具摆放和物品类型上都是独一无二的。有超过 2000 个独特的对象可供 AI 代理与之交互。

  • 下载地址:

    https://ai2thor.allenai.org/

  • 论文地址:

    https://arxiv.org/pdf/1712.05474v3.pdf

5

AI2D-RST

  • 发布方:

    Unknown

  • 发布时间:

    2020-06-01

  • 简介:

    AI2D-RST 是一个包含 1000 个英语图表的多模态语料库,代表小学自然科学的主题,例如食物网、生命周期、月相和人体生理学。该语料库基于艾伦人工智能图研究所 (AI2D) 数据集,这是一组具有众包描述的图表,最初是为了支持自动图表理解和视觉问答的研究而开发的。

  • 下载地址:

    http://urn.fi/urn:nbn:fi:lb-2020060101

  • 论文地址:

    https://arxiv.org/pdf/1912.03879v2.pdf

6

ProtoQA

  • 发布方:

    马萨诸塞大学

  • 发布时间:

    2020

  • 简介:

    ProtoQA 是一个问答数据集,用于在这种原型情况下训练和评估人工智能系统的常识推理能力。训练集是从一个长期运行的国际游戏节目 FAMILY-FEUD 中播放的一组现有问题中收集的。隐藏评估集是通过收集来自 100 名群众工作者的每个问题的答案而创建的。

  • 下载地址:

    https://github.com/iesl/protoqa-data

  • 论文地址:

    https://arxiv.org/pdf/2005.00771v3.pdf

7

LARC (Language-annotated Abstraction and Reasoning)

  • 发布方:

    麻省理工学院·Autodesk Research

  • 发布时间:

    2021

  • 简介:

    LARC是从ARC (抽象和推理语料库) 构建的数据集。ARC是一组任务,用于测试代理灵活解决新问题的能力。虽然大多数ARC任务对人类来说都很容易,但对最先进的人工智能来说却是一个挑战。 LARC或带有语言注释的ARC是一组人类参与者的自然语言描述的集合,这些参与者既不熟悉ARC又彼此不熟悉,他们互相指导如何解决ARC任务。LARC包含88% ARC任务的成功说明。

  • 下载地址:

    https://github.com/samacqua/LARC

  • 论文地址:

    https://arxiv.org/pdf/2106.07824v2.pdf

8

Visual Genome Dataset V1.2

  • 发布方:

    斯坦福大学·德累斯顿工业大学·Snapchat Inc.·雅虎

  • 发布时间:

    2016-08-29

  • 简介:

    视觉基因组是与图像和图像内容的语义信息相关的数据集。与ImageNet图像标注数据集相比,具有更丰富的语义信息,用于扩展基于图像和语义信息的人工智能应用。 该数据集目前包含 108,249 张图像、420 万个区域内容描述、170 万个图像内容问答、210 万个对象案例、180 万个属性和 180 万个关系。

    该数据集于 2015 年由斯坦福大学首次发布,随后是 2016 年的 1.2 和 2017 年的 1.4。

  • 下载地址:

    http://visualgenome.org/api/v0/api_home.html

9

KVQA (Knowledge-aware VQA)

  • 发布方:

    印度理工学院·印度科学理工学院

  • 发布时间:

    2019

  • 简介:

    KVQA 由 183K 问答对组成,涉及超过 18K 的命名实体和 24K 图像。该数据集中的问题需要在大型知识图 (KG) 上进行多实体、多关系和多跳推理才能得出答案。据我们所知,KVQA 是探索 VQA over KG 的最大数据集。此外,我们还在 KVQA 上使用最先进的方法提供基准性能。我们坚信,KVQA 将催生跨越视觉、语言、知识图谱和更广泛的人工智能领域的新研究途径。

  • 下载地址:

    https://malllabiisc.github.io/resources/kvqa/

  • 论文地址:

    http://dosa.cds.iisc.ac.in/kvqa/KVQA-AAAI2019.pdf

10

WuDaoMM

  • 发布方:

    清华大学·北京智源人工智能研究院

  • 发布时间:

    2022

  • 简介:

    Wutaomm是北京智源人工智能研究院wutaocalpora开源数据集的一部分。去年,我们开源了全球最大的中文文本数据集,其中包括5TB的预训练文本数据。今年开源的wutaomm是图像和文本的多模态预训练数据。完整的数据集包含6.5亿对图像和文本。它为大规模的中国多模态预训练模型如Wenlan和Cogview提供了数据支持。数据集包含几千万对的强相关数据和6亿对弱相关数据。为了使研究人员更容易下载和使用,wudoomm-base的基本版本是开放的。该数据集由强相关数据组成,这些数据是根据类别以平衡的方式提取的。如果研究人员有完整的数据需求,他们可以通过data@baai.ac.cn给我们发送电子邮件。五道门-基地包含19大类,分别是: 能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等。类别数据大约是70,000到400,000。

  • 下载地址:

    https://github.com/BAAI-WuDao/WuDaoMM/

  •  论文地址:

    https://arxiv.org/pdf/2203.11480v1.pdf

11

TCM-SD

  • 发布方:

    北京工业大学·徐州市中医院

  • 发布时间:2022

  • 简介:

    中药 (TCM) 是一种天然,安全,有效的疗法,已在世界范围内传播和应用。独特的中医诊疗系统需要对隐藏在以自由文本书写的临床记录中的患者症状进行全面分析。先前的研究表明,该系统可以借助人工智能 (AI) 技术 (例如自然语言处理 (NLP)) 进行信息化和智能化。但是,现有数据集的质量和数量都不足以支持TCM中数据驱动的AI技术的进一步发展。因此,在本文中,我们将重点放在中医诊疗系统的核心任务-辨证论治 (SD) 上,并介绍了第一个针对SD的公共大规模基准,称为TCM-SD。我们的基准包含涵盖148综合征的54,152真实临床记录。此外,我们在TCM领域中收集了大规模的未标记文本语料库,并提出了一种特定于领域的预训练语言模型,称为ZYBERT。我们使用深度神经网络进行了实验,以建立强大的性能基线,揭示SD中的各种挑战,并证明了特定领域的预训练语言模型的潜力。我们的研究和分析揭示了整合计算机科学和语言学知识以探索中医理论的经验有效性的机会。

  • 下载地址:

    https://github.com/Borororo/ZY-BERT

  •  论文地址:

    https://arxiv.org/pdf/2203.10839.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/401043.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20条项目经理成功经验,助你玩转项目管理软件

项目管理软件是现代项目管理不可或缺的工具,但仅仅掌握软件操作并不足以让你成为一名成功的项目经理。你需要的是经验和技巧,将软件的功能与实际项目管理相结合,才能真正发挥其优势。本文将分享20条项目经理成功经验,助你玩转项目…

基于华为atlas的皮带跑偏、空载、堆煤、启停探索

生乎吾前,其闻道也固先乎吾,吾从而师之;生乎吾后,其闻道也亦先乎吾,吾从而师之。吾师道也,夫庸知其年之先后生于吾乎?是故无贵无贱,无长无少,道之所存,师之所…

[C#]实现GRPC通讯的服务端和客户端实例

最近要做两个软件之间消息的通讯,学习了一下GRPC框架的通讯。根据官方资料做了一个实例。 官方资料请参考:Create a .NET Core gRPC client and server in ASP.NET Core | Microsoft Learn 开发平台:Visual Studio 2022 开发前提条件&#x…

图像识别,图片线条检测

import cv2 import numpy as np # 读取图片 img cv2.imread(1.png)# 灰度化 gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 边缘检测 edges cv2.Canny(gray, 100, 200) 当某个像素点的梯度强度低于 threshold1 时,该像素点被认为是非边缘;当梯度强度…

达梦数据库版本介绍

达梦数据库根据不同用户的不同需求,提供了三种版本的数据库:DM Standard Edition 标准版、DM Enterprise Edition 企业版、DM Security Edition 安全版。那么这三种版本有什么区别,我们该如何选择合适的版本?下面先介绍三种版本各…

language model

1、language model(LM):估计token序列的可能性 2、对于HMM,固定需要P(Y)才符合公式;对于LAS,加上P(Y)能够使效果更好 P(Y|X)需要成对的数据,而P(Y)不需要成对,所以可以得到很多数据 …

【区块链+金融服务】港融区域股权服务平台 | FISCO BCOS应用案例

中国证监会在 2020 年启动了区块链建设试点工作,提出建设基于区块链的场外市场登记系统和交易报告库,利 用区块链去中心化、不易篡改、安全稳定等技术特点,构建区域性股权市场数字化信任机制,为区域性股权市场 提供基础支撑设施。…

Linux11

Linux运行级别 graphical.target图形化模式 runlevel查看运行级别 init 6自动重启 centos7单用户模式修改密码 Windows安全模式可用来删除木马,更为方便 单用户模式修改密码 选择第一个 按e键进入编辑模式,并完成以下修改(注意&#xff0…

Java爬虫中的数据清洗:去除无效信息的技巧

在互联网信息爆炸的时代,数据的获取变得异常容易,但随之而来的是数据质量的问题。对于Java爬虫开发者来说,如何从海量的网页数据中清洗出有价值的信息,是一个既基础又关键的步骤。本文将介绍Java爬虫中数据清洗的重要性&#xff0…

【C++】深入探索类和对象:初始化列表及其static成员与友元

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇 本章将分享C中类和对象最后章节“深入探索类和对象:初始化列表及其static成员与友元”,希望通过这几篇关于类和对象文…

Linux信号的概念信号的产生

前言 我们前面已经对进程已做了介绍!知道进程具有独立性,但在运行起来后可能会"放飞自我",即不受控制的执行,这就会导致系统崩溃等问题,非常不利于管理。因此OS需要一种机制来协调和控制进程的运行&#xf…

PHP多城市多门店多端平台健身系统小程序源码

🏋️‍♀️🌍 打造健身新纪元!多城市多门店多端平台健身系统全解析 🏃‍♂️ 🌐 开篇:跨越界限,健身无界 🌍 在快节奏的现代生活中,健身已成为越来越多人追求健康与美好…

家纺四件套入驻亚马逊VC的四大优势——WAYLI威利跨境助力商家

亚马逊VC平台为供应商提供了一个庞大的客户基础。亚马逊作为全球最大的在线零售商之一,拥有数以亿计的活跃用户,这为家纺四件套品牌商家带来了前所未有的市场机遇,也深刻影响着消费者的购物体验。 以下是四大核心优势: 1.流量与曝…

AWS域名注册服务:为您的在线业务打下坚实基础

在如今的数字时代,域名是每个在线业务的基础。一个好的域名不仅可以提升品牌形象,还能为用户提供便捷的访问体验。亚马逊网络服务(AWS)提供了强大的域名注册服务,帮助企业轻松获取和管理域名。我们九河云将深入探讨AWS…

电影票购买管理系统-计算机毕设Java|springboot实战项目

🍊作者:计算机毕设残哥 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目、 源…

米联客-FPGA程序设计Verilog语法入门篇连载-24 FPGA知识_认识FPGA中的状态机

软件版本:无 操作系统:WIN10 64bit 硬件平台:适用所有系列FPGA 板卡获取平台:https://milianke.tmall.com/ 登录“米联客”FPGA社区 http://www.uisrc.com 视频课程、答疑解惑! 1概述 让FPGA电路,有序…

初识C++ · 智能指针

目录 前言: 1 智能指针的发展历史 2 unique_ptr和shared_ptr的基本使用 3 shared_ptr的模拟实现 4 有关定制删除器 前言: 智能指针的引入,我们得先从异常开始说起,异常面临的一个窘境是new了多个对象,抛异常了会…

厂家揭秘:劳保鞋里的防砸黑科技,这些材料你了解多少?

在工业生产的前沿阵地,安全生产始终是企业发展的基石,也是每一位劳动者的头等大事。在繁忙的生产线上,一双看似普通的劳保鞋,实则蕴含着保护我们双脚免受意外伤害的重要科技——防砸材料。今天,百华小编就来和大家盘点…

GitLab-CI/CD指南

由于公司没有运维,写go服务时各个环境编译部署还是略显麻烦,由于代码管理使用的是 gitlab,所以决定使用 gitlab 自带的 CI/CD 来做自动编译和部署,这样每次提交代码以后就可以自动部署到服务器上了。 gitlab 本身只有 CI/CD 的接…

STM32第十二节(中级篇):串口通信(第一节)——功能框图讲解

前言 我们在51单片机中就已经学习过了串口通信的相关知识点,那么我们现在在32单片机上进一步学习通信的原理。我们主要讲解串口功能框图以及串口初始化结构体以及固件库讲解。 STM32第十二节(中级篇):串口通信(第一节…