7个顶级开源数据集来训练自然语言处理（NLP）和文本模型

7个顶级开源数据集来训练自然语言处理（NLP）和文本模型

news/2024/12/25 10:14:10/文章来源:https://blog.csdn.net/ygtu2018/article/details/132226596

推荐：使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景

NLP现在是一个令人兴奋的领域，特别是在像AutoNLP这样的用例中，但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中，试图吸收所有内容。

要意识到的是，当涉及到NLP时，你无法真正学习所有东西，因为它是一个广阔的领域，但你可以尝试取得渐进式的进步。当你坚持不懈时，你可能会发现你知道的比房间里的其他人都多。就像其他所有事情一样，这里的主要事情是采取这些渐进的步骤。

您需要采取的第一步是在数据集上训练您的 NLP 模型。创建自己的数据集是一项繁重的工作，在刚开始时实际上是不必要的。

每天都有无数的开源数据集发布，专注于单词、文本、语音、句子、俚语以及您能想到的任何其他内容。请记住，开源数据集并非没有问题。不幸的是，在抓取任何旧数据集进行测试时，您必须处理偏见、不完整的数据和一系列其他问题。

但是，网上有几个地方在策划数据集方面做得很好，可以更轻松地找到您要查找的内容：

Papers With Code - 近 5，000 个机器学习数据集被分类且易于查找。
Hugging Face - 一个很好的网站，用于查找专注于音频、文本、语音和其他专门针对 NLP 的数据集的数据集。

话虽如此，以下列表是我们推荐的一些最佳开源数据集来开始学习 NLP，或者您可以尝试各种模型并按照以下步骤操作。

1. Quora Question Insincerity Dataset

这个数据集非常有趣。在Kaggle上的NLP挑战赛中，我们提供了一个分类数据集，您必须根据问题内容预测问题是否有毒。使这个数据集变得无价的另一件事是各种Kaggle用户的伟大内核。

在同一个数据集上有许多不同的帖子，如果你想从NLP开始，这可能会有很大帮助。

文章，深度学习的文本预处理方法，包含适用于深度学习模型的预处理技术，我们在其中讨论增加嵌入覆盖率。
在第二篇文章“文本分类的常规方法”中，我们尝试带您了解一些基本的常规模型，如TFIDF，Countvectorizer，哈希等，这些模型已用于文本分类，并尝试访问其性能以创建基线。
您可以在注意力、CNN 和文本分类文章中深入研究深度学习模型，该文章侧重于解决文本分类问题的不同体系结构。
这里有一个关于使用BERT和ULMFit的迁移学习。

2. Stanford Question Answering Dataset (SQuAD)

斯坦福问答数据集（SQuAD）是源自维基百科文章的问答对的集合。

简而言之，在这个数据集中，我们得到了一个问题和一个文本，其中问题的答案在于。然后的任务是找出文本中答案所在的跨度。此任务通常称为问答任务。

如果您想更深入地研究，请查看通过Hugging Face理解BERT文章，其中分享了如何使用此数据集和BERT模型使用拥抱面孔库预测问题的答案。

3. UCI ML Drug Review Dataset

药物审查使用NLP预测疾病状况，照片由Michał Parzuchowski在Unsplash上拍摄。

你能根据药物审查预测疾病状况吗？UCI ML 药物评论数据集提供特定药物和相关条件的患者评论，以及反映整体患者满意度的 10 星患者评分系统。

该数据集可用于多类分类，如使用深度学习进行端到端多类文本分类中所述，还可以尝试使用各种数字特征以及文本来使用此数据集来解决多类问题。

4. Yelp Reviews Dataset

你喜欢食物，并希望创建一个好的评论网站吗？

这个Yelp数据集让你有Yelp餐厅评论以及其他信息，如JSON格式的类别、营业时间和关门时间。可以尝试解决的问题之一是创建一个系统将菜肴分类。或者将其用于命名实体识别（NER）以在评论中找出菜肴。你能找到或创建一个关于Yelp如何获得餐厅评论亮点的系统吗？

这也是理解Yelp业务和搜索的良好数据集。天空是您希望如何使用此数据集的限制。

5. IMDB Movie Dataset

IMDB电影信息的NLP开源数据集，照片由Marques Kaspbrak在Unsplash上拍摄。

寻找下一部要看的电影？此数据集包含来自 IMDB 的 50k 电影的电影描述、平均评分、票数、类型和演员信息。

同样，这个数据集可以以多种方式使用，而不仅仅是从NLP的角度来看。使用此数据集的最常见方法是构建推荐引擎、类型分类和查找类似的电影。

6. 20 Newsgroups

18 个新闻组数据集包含大约 000，<> 个关于 <> 个主题的新闻组帖子。主题多种多样，范围从体育、无神论、政治等。

这是一个多类分类数据集，但您也可以使用此数据集来学习主题建模，如 Python 中使用 Gensim-LDA 进行主题建模中所述。

7.IWSLT (International Workshop on Spoken Language Translation) Dataset

这个机器翻译数据集是用于翻译任务的事实标准，包含德语、英语、意大利语、荷兰语和罗马尼亚语的 TED 和 TEDx 演讲的翻译。这意味着您将能够在任意一对这些语言之间训练翻译人员。

另一个好处是可以使用torchtext.datasets通过PyTorch访问它。

如果您想更深入地了解如何使用此数据集来创建自己的转换器，我们将介绍BERT变压器及其工作原理，您还可以了解有关如何使用BERT从头开始创建转换器的更多信息。您可以了解有关NLP的更多信息并解决各种任务，并且还提供了一些可以使用这些数据集解决问题的途径。

原文链接：7个顶级开源数据集来训练自然语言处理（NLP）和文本模型 (mvrlink.com)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/84837.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

unity修改单个3D物体的重力的大小该怎么处理呢?

unity修改单个3D物体的重力的大小该怎么处理呢?

在Unity中修改单个3D物体的重力大小可以通过以下步骤实现： 创建一个新的C#脚本来控制重力： 首先，创建一个新的C#脚本（例如：GravityModifier.cs）并将其附加到需要修改重力的3D物体上。在脚本中&#xff0c…

阅读更多...

竞赛项目深度学习图像风格迁移 - opencv python

竞赛项目深度学习图像风格迁移 - opencv python

文章目录 0 前言1 VGG网络2 风格迁移3 内容损失4 风格损失5 主代码实现6 迁移模型实现7 效果展示8 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 深度学习图像风格迁移 - opencv python 该项目较为新颖，适合作为竞赛课题…

阅读更多...

NLP 时事和见解【2023】

NLP 时事和见解【2023】

一、说明 AI的新闻当然不是即时的，但作为趋势和苗头，我们不得不做出自己的决定。比如，一些软件的支持是否持续，哪些现成的软件将不再使用，等等。图片来自中途以下是NLPlanet为您选择的有关NLP和AI的每周文章&#x…

阅读更多...

vi 编辑器入门到高级

vi 编辑器入门到高级

vi 编辑器的初级用法vi 编辑器的工作模式1. 命令模式2. 文本输入模式3. 状态行vi 工作模式切换存储缓冲区 vi 编辑器命令1. 启动 vi2. 文本输入3. 退出 vi4. 命令模式下的光标移动5. 命令模式下的文本修改6. 从命令模式进入文本输入模式7. 搜索字符串8. vi 在线帮助文档 v…

阅读更多...

【雕爷学编程】Arduino动手做（201）---行空板硬件控制之基础GPIO的使用

【雕爷学编程】Arduino动手做（201）---行空板硬件控制之基础GPIO的使用

37款传感器与模块的提法，在网络上广泛流传，其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块，依照实践出真知（一定要动手做）的理念，以学习和交流为目的&#x…

阅读更多...

腾讯云轻量应用服务器端口怎么打开？图文方法来了

腾讯云轻量应用服务器端口怎么打开？图文方法来了

腾讯云轻量应用服务器端口放行在哪设置？在防火墙中可以开启端口号，腾讯云轻量应用服务器端口怎么开通？在轻量服务器管理控制台的防火墙中开启端口，如果是CVM云服务器在安全组中开通，腾讯云服务器网以轻量应用服务器开通…

阅读更多...

升级你的GitHub终端认证方式：从密码到令牌

升级你的GitHub终端认证方式：从密码到令牌

升级你的GitHub终端认证方式：从密码到令牌前言 GitHub官方在2021年8月14日进行了一次重大改变，它将终端推送代码时所需的身份认证方式从密码验证升级为使用个人访问令牌（Personal Access Token）。这个改变引起了一些新的挑战&am…

阅读更多...

《合成孔径雷达成像算法与实现》Figure3.6

《合成孔径雷达成像算法与实现》Figure3.6

代码复现如下： clc clear all close all%参数设置 TBP 100; %时间带宽积 T 10e-6; %脉冲持续时间%参数计算 B TBP/T; …

阅读更多...

网络：CISCO、Huawei、H3C命令对照

网络：CISCO、Huawei、H3C命令对照

思科、华为、锐捷命令对照表编号思科华为锐捷命令解释1 2writesavesave保存3456 如果你所处的视图为非系统视图，需要查看配置的时候，需要在该配置命令前加do。在特定的视图之下，有对应的特定命令。例如，在接口视图下的ip addre…

阅读更多...

2023年，App运行小游戏，可以玩出什么创意？

2023年，App运行小游戏，可以玩出什么创意？

疫情过后，一地鸡毛。游戏行业的日子也不好过。来看看移动游戏收入：2022年，移动游戏收入达到920亿美元，同比下降6.4%。这告诉我们，2022年对移动游戏市场来说是一个小挫折。但不管是下挫还是上升，移动游戏市…

阅读更多...

LC-杨辉三角

LC-杨辉三角

LC-杨辉三角链接：https://leetcode.cn/problems/pascals-triangle/submissions/ 上图就是一个杨辉三角，每个数等于他左上角的数与右上角的数之和。第一行就是一个1；第二行是两个1；第三行的2就是它肩膀上两个1之和,其余的类似。…

阅读更多...

【Linux 网络】网络层协议之IP协议

【Linux 网络】网络层协议之IP协议

IP协议 IP协议所处的位置网络层要解决的问题IP协议格式分片与组装网段划分特殊的IP地址IP地址的数量限制私网IP地址和公网IP地址路由 IP协议所处的位置 IP指网际互连协议，Internet Protocol的缩写，是TCP/IP体系中的网络层协议。网络层要解决的问题网络…

阅读更多...

JavaScript数据结构【进阶】

JavaScript数据结构【进阶】

注：最后有面试挑战，看看自己掌握了吗文章目录使用 splice() 添加元素使用 slice() 复制数组元素使用展开运算符复制数组使用展开运算符合并数组使用 indexOf() 检查元素是否存在使用 for 循环遍历数组中的全部元素创建复杂的多维数组将键值对添加到对象…

阅读更多...

Python web实战之Django 的缓存机制详解

Python web实战之Django 的缓存机制详解

关键词：Python、Web 开发、Django、缓存 1. 缓存是什么？为什么需要缓存？ 在 Web 开发中，缓存是一种用于存储数据的临时存储区域。它可以提高应用程序的性能和响应速度，减轻服务器的负载。当用户访问网页时&#xff…

阅读更多...

Latex安装与环境配置（TeXlive、TeXstudio与VS code的安装）编译器+编辑器与学习应用

Latex安装与环境配置（TeXlive、TeXstudio与VS code的安装）编译器+编辑器与学习应用

TeXlive 配置Tex排版系统需要安装编译器+编辑器。TeX 的源代码是后缀为 .tex 的纯文本文件。使用任意纯文本编辑器，都可以修改 .tex 文件：包括 Windows 自带的记事本程序，也包括专为 TeX 设计的编辑器（TeXworks, TeXmaker, TeXstudio, WinEdt 等），还包括一些通用的文本编…

阅读更多...

学C的第三十三天【C语言文件操作】

学C的第三十三天【C语言文件操作】

相关代码gitee自取： C语言学习日记: 加油努力 (gitee.com) 接上期： 学C的第三十二天【动态内存管理】_高高的胖子的博客-CSDN博客 1 . 为什么要使用文件以前面写的通讯录为例，当通讯录运行起来的时候，可以给通讯录中增加、删…

阅读更多...

timerfd和timer

timerfd和timer

note timerfd对应的时钟到期后，对应内部数据(uint64)计数加1 timerfd支持read方法，poll方法 code #include <sys/timerfd.h> #include <poll.h> #include <thread> #include <stdio.h> #include <string.h> #include …

阅读更多...

赛码网-01串的魔法(dp) 100%AC代码（C）

赛码网-01串的魔法(dp) 100%AC代码（C）

———————————————————————————————————— ⏩ 大家好哇！我是小光，嵌入式爱好者，一个想要成为系统架构师的大三学生。 ⏩最近在准备秋招，一直在练习编程。 ⏩本篇文章对赛码网的01串的魔法题目做…

阅读更多...

芯片常见测试手段：CP测试和FT测试

芯片常见测试手段：CP测试和FT测试

参考链接： 芯片测试的术语解释（FT、CP），持续更新...._ft测试_染不尽的流年的博客-CSDN博客如何区分芯片cp测试和ft测试 (baidu.com) 芯片常见测试手段：CP测试和FT测试 - 测量仪表 - 电子发烧友网芯片测试是极其重要…

阅读更多...

【三维重建】【深度学习】instant-nsr-pl代码Pytorch实现--训练自己的数据集

【三维重建】【深度学习】instant-nsr-pl代码Pytorch实现--训练自己的数据集

【三维重建】【深度学习】instant-nsr-pl代码Pytorch实现–训练自己的数据集基于Instant-NGP的神经表面重建：该存储库包含 NeRF 和 NeuS 的简洁且可扩展的实现，用于基于 Instant-NGP 和 Pytorch-Lightning 框架的神经表面重建，旨在为基于 Ne…

阅读更多...

最新文章

推荐文章