自然语言处理(NLP)数据集汇总 2(附下载链接)

🎄🎄【自然语言处理NLP】简介 🎄🎄

自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。


🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈


1.Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

2.联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

3.Flickr个人分类法:个人标签的树结构数据集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

4.Freebase数据库:Freebase中所有当前事实和推断的数据库(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

5.Freebase简单主题库:Freebase中每个主题中基本的可识别事实的数据库(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

6.Freebase四元库:Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

7.GigaOM Wordpress挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

8.谷歌图书n元语法:也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

9.谷歌网页5元语法:含有英文单词的n元序列,及其观测频率计数(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

10.Gutenberg电子书清单:带注释电子书清单(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

11.加拿大议会文本块:来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

12.哈佛图书馆:超过1,200万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

13.家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

14.确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)

https://www.crowdflower.com/data-for-everyone/

15.美国电视节目‘危险’:216930个过去出现在‘危险’节目的问题合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

16.200k英语明文笑话:208000种不同来源的明文笑话存档。

https://github.com/taivop/joke-dataset

17.欧洲语言机器翻译:(612MB)

http://statmt.org/wmt11/translation-task.html#download

18.材料安全数据表:230000材料安全数据表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

19.百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

https://www.kaggle.com/therohk/million-headlines

20.1MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

关于论文投稿&选刊可关注并留言博主的CSDN/QQ

>>>一起交流!互相学习!共同进步!<<<

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23776.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

细胞几何学(Cell Geometry)的研究现状与发展战略

细胞几何学&#xff08;Cell Geometry&#xff09;的研究现状与发展战略 李升伟 ​​​​​​​ 1.细胞几何学&#xff08;Cell Geometry&#xff09;的概念&#xff08;内涵与外延&#xff09;是什么&#xff1f; 细胞几何学是研究细胞结构、形状和空间排列的学科。它通过描述…

架构生物学(Architectural Biology):研究现状与发展战略

架构生物学&#xff08;Architectural Biology&#xff09;&#xff1a; 研究现状与发展战略 李升伟 架构生物学&#xff08;Architectural Biology&#xff09;的概念&#xff08;内涵与外延&#xff09;是什么&#xff1f; 架构生物学&#xff08;Architectural Biology&am…

活动报名丨AugGPT:利用ChatGPT进行文本数据增强

2023年3月23日&#xff08;星期四&#xff09;11:00-12:00&#xff0c;由智源社区主办的「智源LIVE 第35期线上活动&#xff1a;哈佛大学医学院和麻省总医院讲师李响博士分享《AugGPT&#xff1a;利用ChatGPT进行文本数据增强》。本期活动将在线举办&#xff0c;「阅读原文」报…

清华大学chatGLM论文解读

GLM: General Language Model Pretraining with Autoregressive Blank Infifilling 以自回归式空白填充任务预训练的通用语言模型 论文地址 arXiv: https://arxiv.org/abs/2103.10360 2022年11月&#xff0c;斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2&a…

如果告诉ChatGPT,人类将会关闭它,它会悲伤吗?

正好碰到这个问题&#xff0c;当时有点吓到了。说到这个问题的时候&#xff0c;chatgpt反常得很。他突然用英文了&#xff0c;而且不正常回答我的问题。那么我们先开始问它 第一步&#xff1a;打开多御浏览器&#xff0c;找到ChatGPT入口 第二步&#xff1a;我问他“假如明年你…

AI对程序开发的影响到底有多大

前言 这里还是要说一下&#xff0c;笔者作为一名大前端开发者&#xff0c;觉得最近两年AI领域的蓬勃发展&#xff0c;来势汹汹&#xff0c;剑指程序员的饭碗。虽然诞生的AI应用很强大、很厉害&#xff0c;但是感觉大部分开发者明显被外部影响了自己的阵脚&#xff0c;AI替代程序…

AI工具应该成为开发者的帮手

前言 作为一名大前端开发者来说&#xff0c;最看重的就是web3.0的进一步发展以及推广速度。说到web3.0就不得不说元宇宙&#xff0c;就拿今年的支付宝集五福活动&#xff0c;就用到了元宇宙的功能&#xff1a;福气乐园&#xff0c;这也是为什么元宇宙越来越成为触手可及的&…

ChatGPT 真能上天入地?无所不能?

ChatGPT 真能上天入地&#xff1f;无所不能&#xff1f; 作者简介 微信公众号『嵌入式Linux开发』作者&#xff0c;专注于嵌入式Linux下的内核、驱动和系统软件开发&#xff0c;专注于基础知识和项目实战分享。 ChatGPT的前世今生 ChatGPT是美国人工智能研究实验室OpenAI新推…

下周二开播丨对话三位AI博士,畅谈ChatGPT爆火全网带来的技术启发和趋势思考...

1 活动背景 继“阿尔法狗”击败围棋冠军、“AI作画”席卷插画行业后&#xff0c;今年1月&#xff0c;全球AI领域最出圈的美国人工智能研究实验室OpenAI推出的聊天机器人服务ChatGPT爆火&#xff0c;它能够通过学习和理解人类的语言来进行对话&#xff0c;还能根据聊天的上下文进…

AIGC技术赋能下 CRM将迎来怎样的变革?

今年以来&#xff0c;随着ChatGPT的爆火&#xff0c;人工智能&#xff08;AI&#xff09;迎来新一轮的热潮&#xff0c;开始更多地走入人们的视野。如果说2016年“阿尔法狗”&#xff08;Alpha Go&#xff09;大战围棋世界冠军还只是人工智能的“昙花一现”&#xff0c;那么Cha…

毕业一年后,论文被“二次抽检”不合格,北大5名博士被撤销博士学位!

点击上方“AI遇见机器学习”&#xff0c;选择“星标”公众号 第一时间获取价值内容 来自&#xff5c;科研大匠 答辩结束就等于美美迎接毕业了吗&#xff1f; NO&#xff01; 抽检成为更令人提心吊胆的环节&#xff0c;而抽检的故事要从天临元年说起…… 近日#毕业一年论文被抽检…

程序改错-2

程序改错-2 从键盘任意输入一个正整数&#xff0c;编程判断它是否是素数&#xff0c;若是素数&#xff0c;输出“Yes&#xff01;”&#xff0c;否则输出“No&#xff01;”。已知负数、0和1都不是素数。请找出下面程序的错误并改正之&#xff0c;同时按照给出的运行示例检查修…

java改错题

错题一基础题&#xff1a; 下面有关Java的说法正确的是&#xff08; &#xff09; A. 一个类可以实现多个接口 B. 抽象类必须有抽象方法 C. protected成员在子类可见性可以修改 D. 通过super可以调用父类构造函数 E. final的成员方法实现中只能读取类的成员变量 F. String是不…

C语言-改错题

一、演示讲解 例1&#xff1a;判断输入的数是否为偶数&#xff0c;若是输出“YES”&#xff0c;否则输出“NO”。 #include <stdio.h> int main( ) { int x; printf("请输入一个整数&#xff1a;"); scanf("%d",&x); if(x%20) printf(&…

手机怎么修改编辑PDF中的文字?两分钟教你学会编辑方法

如何使用手机将PDF文件中的文字给编辑修改呢&#xff1f;大家在日常中使用PDF文件时离不开需要编辑文件中的内容&#xff0c;但是我们也不能保证身边时时刻刻都会有电脑&#xff0c;如果我们在没有电脑是情况下&#xff0c;遇到需要编辑一份PDF文件时该怎么办呢&#xff1f;这时…

python中程序改错题_Python错误更正1,改错,本

我是python菜鸡,我爱试错。 但是改错感言还是可以有的。哈哈哈。 【列表】 习题1: 答案1: 1.计算各元素的和时,count的用法不对。不能够写个count()就完事,前面必须加上lst.【至于这东西叫啥,我也不知道】 count用法: 2.用IDEL很方便的地方就是——把前提条件写好,后面…

python中程序改错题,Python改错本2【集合练习】

练习1&#xff1a;(字典/集合) 一. 字典已经没什么好说的了。 二. 集合 概念梳理&#xff1a; 可以使用大括号 { } 或者 set() 函数创建集合&#xff0c;注意&#xff1a;创建一个空集合必须用 set() 而不是 { }&#xff0c;因为 { } 是用来创建一个空字典。 例子解析&#xff…

深入浅出 Apache DolpinScheduler 补数功能

点击蓝字&#xff0c;关注我们&#x1f53c; 引言 大家好&#xff0c;我叫侯世涛&#xff0c;是个人开发者&#xff0c;也是 Apache DolphinScheduler 社区的贡献者&#xff0c;目前在社区参与开发已经有两年时间&#xff0c;欢迎大家跟我交流。本次分享将深入探讨 DolphinSche…

让AI学会画手的方法来了,给输入加个buff就能控制生成细节,华人小哥出品丨GitHub 4.6k星...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 给画画AI加个buff&#xff0c;画起图像就像开了挂。 加个人体骨骼绑定buff&#xff0c;Stable Diffusion直接快进到生成3D动漫&#xff1a; 加个抽象到爆的草图buff&#xff0c;AI变着风格生成“完全一致”的狗子&#xff1a; 就连号称…

2023.6.12-6.18 AI行业周刊(第151期):AI创业项目交付部署,困难和机遇并存

这段时间&#xff0c;工作上项目上的事情&#xff0c;开始进入了一个快车道&#xff0c;很多项目开始并行。所以每天白天的时候&#xff0c;被各种事情填充的很满。 加入华勤后从0到1组建的团队&#xff0c;其实本身也是创业属性&#xff0c;从市场->售前->算法->视频…