干货|免费文本语料训练数据集

干货|免费文本语料训练数据集

news/2024/12/28 20:06:50/文章来源:https://blog.csdn.net/m0epNwstYk4/article/details/78840688

关于Word2Vec，上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下：word2vec是Google在2013年提出的一款开源工具，其是一个Deep Learning模型（实际上该模型层次较浅，严格上还不能算是深层模型，如果word2vec上层再套一层与具体应用相关的输出层，如Softmax，便更像是一个深层模型），它将词表征成实数值向量，采用CBOW（Continuous Bag-Of-Words Model，连续词袋模型）和Skip-Gram(Continuous Skip-GramModel)两种模型。具体原理，网上有很多。

文本语料训练数据集

下载训练数据

下面提供一些网上能下载到的中文的好语料，供研究人员学习使用。

(1)中科院自动化所的中英文新闻语料库

http://www.datatang.com/data/13484

中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。

英语新闻分类语料库为Reuters-21578的ModApte版本。

(2)搜狗的中文新闻语料库

http://www.sogou.com/labs/resource/cs.php
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。

(3)李荣陆老师的中文语料库

http://www.datatang.com/data/11968
压缩后有240M大小

(4)谭松波老师的中文文本分类语料

http://www.datatang.com/data/11970

不仅包含大的分类，例如经济、运动等等，每个大类下面还包含具体的小类，例如运动包含篮球、足球等等。能够作为层次分类的语料库，非常实用。这个网址免积分(谭松波老师的主页)：http://www.searchforum.org.cn/tansongbo/corpus1.php

(5)网易分类文本数据

http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。

(6)中文文本分类语料

http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。

(7)更全的搜狗文本分类语料

http://www.sogou.com/labs/resource/cs.php
搜狗实验室发布的文本分类语料，有不同大小的数据版本供免费下载.

常见分词工具

StandardAnalyzer（中英文）

ChineseAnalyzer（中文）

CJKAnalyzer（中英文）

IKAnalyzer（中英文，兼容韩文，日文）

paoding（中文）

MMAnalyzer（中英文）

MMSeg4j（中英文）

imdict（中英文）

NLTK（中英文）

Jieba（中英文）

这几种分词工具的区别，可以参加：http://blog.csdn.net/wauwa/article/details/7865526。

更多资料

文本分类特征提取之Word2Vec

干货|开放数据集

LR如何在语言理解NLU中实现文本分类

自然语言处理入门资料推荐

书单下载 | 关于算法、编程、机器学习等书籍，也许正是你所需要的

机器学习资源共享

... ...

免责声明，如若侵犯到您的原创保护，请联系我们并立即处理。本人才疏学浅，如有不当之处，欢迎高手不吝赐教。

星光不问赶路人

时光不负有心人

更多干货内容请关注微信公众号“AI 深入浅出”

长按二维码关注

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/53478.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

GENIUS: 根据草稿进行文本生成的预训练模型，可用于多种NLP任务的数据增强...

GENIUS: 根据草稿进行文本生成的预训练模型，可用于多种NLP任务的数据增强...

©PaperWeekly 原创作者 | 郭必扬单位 | 上海财经大学信息管理与工程学院AI Lab 论文标题： GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation 论文作者： Biyang Guo,…

阅读更多...

UI自动化控制PC端微信获取当前群聊的群友列表

UI自动化控制PC端微信获取当前群聊的群友列表

在一个月前，某个群友在获取整个群的群友信息时遇到了一点问题：对整个群进行群友数据获取经测试确实有点棘手，下面我将我的解决过程公布给大家。基础教程详见： https://blog.csdn.net/as604049322/article/details/121391639 人工打开要抓取的群聊窗口后，首先获取微信窗…

阅读更多...

企业微信接入群聊机器人详细步骤

企业微信接入群聊机器人详细步骤

目录一、创建群机器人二、机器人配置三、机器人信息推送四、线上使用五、推送效果一、创建群机器人先选择一个企业微信群右键添加机器人完善机器人的头像、名称即可二、机器人配置查看生成的机器人webhook地址点击地址，里面可以查看文档和一些简单的配…

阅读更多...

每日学术速递2.1

每日学术速递2.1

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.Cv 1.SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation 标题：SeaFormer:用于移动语义分割的挤压增强型轴向变换器作者： Qian…

阅读更多...

chatgpt赋能python：Python轨迹可视化：用数据讲故事

chatgpt赋能python：Python轨迹可视化：用数据讲故事

Python轨迹可视化：用数据讲故事介绍随着物联网、智能城市等领域的发展，越来越多的数据被收集下来并存储在数据库中。这些数据对于决策者来说是非常重要的，但是如何将这些数据进行展示和分析呢？这时候Python轨迹可视化就可以派…

阅读更多...

AutoCV第八课：3D基础

AutoCV第八课：3D基础

目录 3D基础注意事项一、2023/5/11更新二、2023/5/15更新前言1. nuScenes数据集2. nuScenes数据格式3. 点云可视化4. 点云可视化工具5. 点云可视化(补充)总结 3D基础注意事项一、2023/5/11更新新增工具可视化点云，即第 4 节内容二、2023/5/15更新经杜老师…

阅读更多...

chatgpt赋能python：Python轨迹绘制：让数据可视化更易懂

chatgpt赋能python：Python轨迹绘制：让数据可视化更易懂

Python轨迹绘制：让数据可视化更易懂在数据可视化中，轨迹图应该是最为常见的一种类型了。轨迹图通过展示物体或用户在一定时间范围内移动的路径，帮助我们更加直观地理解和分析数据。在Python中，我们可以使用多种库来绘制轨迹图…

阅读更多...

chatgpt赋能python：Python坐标表示：让您的数据可视化更加精确！

chatgpt赋能python：Python坐标表示：让您的数据可视化更加精确！

Python坐标表示：让您的数据可视化更加精确！ 在数据可视化中，通过准确的坐标表示数据点的位置是非常重要的。Python作为最受欢迎的编程语言之一，有多种方法来表示坐标。在本文中，我们将深入探讨Python中坐标表示的不同…

阅读更多...

chatgpt赋能python：Python色板介绍：让数据可视化更加迷人

chatgpt赋能python：Python色板介绍：让数据可视化更加迷人

Python色板介绍：让数据可视化更加迷人在数据可视化中，合适的配色方案是非常重要的。Python色板是一种常用的工具，可以帮助数据分析师和科学家创建漂亮、易于阅读的图表。本文将为大家介绍Python色板，包括一些主流的Python色板、…

阅读更多...

人生意义

人生意义

一块蛋糕最终还是会被吃完，那么你吃它的目的是什么？ 1.你不能因为一样美好的东西最终会消失而否定它的意义。 2.生命是一场馈赠。它和所有我们收到的其它礼物，比如蛋糕一样，本身并没有意义， 但如果你能享受它的美好…

阅读更多...

程序员：我终于知道post和get的区别

程序员：我终于知道post和get的区别

效率工具传送门推荐20套实战源码程序员你可以考虑安装的15款谷歌插件 99%的人不知道搜索引擎的6个技巧 12款好用的Visual Studio插件，最后一款良心推荐 IT界知名的程序员曾说：对于那些月薪三万以下，自称IT工程师的码农们，其…

阅读更多...

chatgpt赋能python：Python通过IP连接同一局域网中的电脑

chatgpt赋能python：Python通过IP连接同一局域网中的电脑

Python通过IP连接同一局域网中的电脑在日常工作中，我们常常需要在本地局域网内进行电脑之间的通信，这时候就需要借助一些工具来进行IP连接。而对于Python编程来说，实现这个过程也非常简单。什么是IP连接 IP连接指的是使用IP地址和端口号…

阅读更多...

chatgpt赋能python：Python获取电脑IP地址方法与实例

chatgpt赋能python：Python获取电脑IP地址方法与实例

Python获取电脑IP地址方法与实例什么是IP地址 IP地址是一个数字标识符，是指在Internet协议中用作网络接口标识和定位地址的32位二进制数，通常表现为四个十进制数，每个数用“.”分隔，如192.168.0.1。在不同的网络协议中&#xf…

阅读更多...

win10计算机ip如何更改,Win10本地连接ip怎么更改_Win10怎么更改ip地址？-192路由网...

win10计算机ip如何更改,Win10本地连接ip怎么更改_Win10怎么更改ip地址？-192路由网...

问：Win10本地连接IP地址怎么更改？ 本人是电脑小白，新买的电脑，是Win10系统；请问Win10电脑中的IP地址在哪里更改？ 答：Win10系统IP地址需要在“本地连接”的属性中进行更改的。所以，…

阅读更多...

chatgpt赋能python：Python获得电脑IP地址

chatgpt赋能python：Python获得电脑IP地址

Python获得电脑IP地址在进行网络编程时，通常需要获取本机的IP地址。对于Python开发者来说，获取电脑IP地址可能是开发过程中常见需求之一。本文将介绍如何使用Python获取电脑IP地址，以及其中的一些常见问题和解决方案。什么是IP地址&#…

阅读更多...

万字长文 | ChatGPT的工作原理（二）

万字长文 | ChatGPT的工作原理（二）

— 6 — 嵌入的概念神经网络 —— 至少在它们目前的设置中 —— 从根本上说是基于数字的。因此，如果我们要用它们来处理像文本这样的东西，我们就需要一种方法来用数字表示我们的文本。当然，我们可以开始（基本上就像 ChatGPT 那…

阅读更多...

You don't have permission to access 权限问题

You don't have permission to access 权限问题

修改pip.ini配置文件如下： 综合搜索案例如下： 我遇到的情况是修改了，第一张图的配置，还是不行，那就是其他情况，虽然第二张图的这种写法，在线上是可以用的，但是在线下是不能用的&…

阅读更多...

$网络错误:windows无法访问\\，你没有权限访问\\$

网络错误:windows无法访问\\，你没有权限访问\\

网络错误:windows无法访问\\，你没有权限访问\\ 电脑突然不能网络访问。客户端：win10 服务器端：win2003 处理办法： 设置/控制面板/用户帐户/管理windows凭证检查是否存在登录过的ip信息： 如果存在，删除…

阅读更多...

关于访问权限控制问题

关于访问权限控制问题

实际上Java中是有访问权限控制的，就是我们个人的隐私的一样，我不允许别人随便来查看我们的隐私，只有我们自己同意的情况下，才能告诉别人我们的名字、年龄等隐私信息。所以说Java中引入了访问权限控制(可见性)，我们可…

阅读更多...

解决“你没有权限访问，请与网络管理员联系”

解决“你没有权限访问，请与网络管理员联系”

局域网共享时提示你"没有权限访问，请与网络管理员联系请求访问权限".局域网共享无法访问被共享的文件夹。方法/步骤 1 找到你要共享的文件夹，选中并且右键，选中属性，选择安全选项卡 2 点击安全选项卡下面的编辑&#x…

阅读更多...

最新文章

推荐文章