干货|免费文本语料训练数据集

关于Word2Vec,上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下:word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Continuous Skip-GramModel)两种模型。具体原理,网上有很多。


文本语料训练数据集


下载训练数据

下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。


(1)中科院自动化所的中英文新闻语料库

 http://www.datatang.com/data/13484

中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。

英语新闻分类语料库为Reuters-21578的ModApte版本。


(2)搜狗的中文新闻语料库 

http://www.sogou.com/labs/resource/cs.php
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。


(3)李荣陆老师的中文语料库 

http://www.datatang.com/data/11968
压缩后有240M大小


(4)谭松波老师的中文文本分类语料 

http://www.datatang.com/data/11970

不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php


(5)网易分类文本数据 

http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。

(6)中文文本分类语料 

http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。


(7)更全的搜狗文本分类语料 

http://www.sogou.com/labs/resource/cs.php
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载.


常见分词工具

StandardAnalyzer(中英文)

ChineseAnalyzer(中文)

CJKAnalyzer(中英文)

IKAnalyzer(中英文,兼容韩文,日文)

paoding(中文)

MMAnalyzer(中英文)

MMSeg4j(中英文)

imdict(中英文)

NLTK(中英文)

Jieba(中英文)

这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526


更多资料

文本分类特征提取之Word2Vec

干货|开放数据集

LR如何在语言理解NLU中实现文本分类

自然语言处理入门资料推荐

书单下载 | 关于算法、编程、机器学习等书籍,也许正是你所需要的

机器学习资源共享

... ...

免责声明,如若侵犯到您的原创保护,请联系我们并立即处理。本人才疏学浅,如有不当之处,欢迎高手不吝赐教

星光不问赶路人

时光不负有心人


更多干货内容请关注微信公众号“AI 深入浅出”

长按二维码关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53478.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强...

©PaperWeekly 原创 作者 | 郭必扬 单位 | 上海财经大学信息管理与工程学院AI Lab 论文标题: GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation 论文作者: Biyang Guo,…

UI自动化控制PC端微信获取当前群聊的群友列表

在一个月前,某个群友在获取整个群的群友信息时遇到了一点问题: 对整个群进行群友数据获取经测试确实有点棘手,下面我将我的解决过程公布给大家。 基础教程详见: https://blog.csdn.net/as604049322/article/details/121391639 人工打开要抓取的群聊窗口后,首先获取微信窗…

企业微信接入群聊机器人详细步骤

目录 一、 创建群机器人 二、机器人配置 三、机器人信息推送 四、线上使用 五、推送效果 一、 创建群机器人 先选择一个企业微信群右键添加机器人完善机器人的头像、名称即可 二、机器人配置 查看生成的机器人webhook地址点击地址,里面可以查看文档和一些简单的配…

每日学术速递2.1

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.Cv 1.SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation 标题:SeaFormer:用于移动语义分割的挤压增强型轴向变换器 作者: Qian…

chatgpt赋能python:Python轨迹可视化:用数据讲故事

Python轨迹可视化:用数据讲故事 介绍 随着物联网、智能城市等领域的发展,越来越多的数据被收集下来并存储在数据库中。这些数据对于决策者来说是非常重要的,但是如何将这些数据进行展示和分析呢?这时候Python轨迹可视化就可以派…

AutoCV第八课:3D基础

目录 3D基础注意事项一、2023/5/11更新二、2023/5/15更新前言1. nuScenes数据集2. nuScenes数据格式3. 点云可视化4. 点云可视化工具5. 点云可视化(补充)总结 3D基础 注意事项 一、2023/5/11更新 新增工具可视化点云,即第 4 节内容 二、2023/5/15更新 经杜老师…

chatgpt赋能python:Python轨迹绘制:让数据可视化更易懂

Python轨迹绘制:让数据可视化更易懂 在数据可视化中,轨迹图应该是最为常见的一种类型了。轨迹图通过展示物体或用户在一定时间范围内移动的路径,帮助我们更加直观地理解和分析数据。 在Python中,我们可以使用多种库来绘制轨迹图…

chatgpt赋能python:Python坐标表示:让您的数据可视化更加精确!

Python坐标表示:让您的数据可视化更加精确! 在数据可视化中,通过准确的坐标表示数据点的位置是非常重要的。Python作为最受欢迎的编程语言之一,有多种方法来表示坐标。在本文中,我们将深入探讨Python中坐标表示的不同…

chatgpt赋能python:Python色板介绍:让数据可视化更加迷人

Python色板介绍:让数据可视化更加迷人 在数据可视化中,合适的配色方案是非常重要的。Python色板是一种常用的工具,可以帮助数据分析师和科学家创建漂亮、易于阅读的图表。本文将为大家介绍Python色板,包括一些主流的Python色板、…

人生意义

一块蛋糕最终还是会被吃完,那么你吃它的目的是什么? 1.你不能因为一样美好的东西最终会消失而否定它的意义。 2.生命是一场馈赠。它和所有我们收到的其它礼物,比如蛋糕一样,本身并没有意义, 但如果你能享受它的美好…

程序员:我终于知道post和get的区别

效率工具传送门 推荐20套实战源码 程序员你可以考虑安装的15款谷歌插件 99%的人不知道搜索引擎的6个技巧 12款好用的Visual Studio插件,最后一款良心推荐 IT界知名的程序员曾说:对于那些月薪三万以下,自称IT工程师的码农们,其…

chatgpt赋能python:Python通过IP连接同一局域网中的电脑

Python通过IP连接同一局域网中的电脑 在日常工作中,我们常常需要在本地局域网内进行电脑之间的通信,这时候就需要借助一些工具来进行IP连接。而对于Python编程来说,实现这个过程也非常简单。 什么是IP连接 IP连接指的是使用IP地址和端口号…

chatgpt赋能python:Python获取电脑IP地址方法与实例

Python获取电脑IP地址方法与实例 什么是IP地址 IP地址是一个数字标识符,是指在Internet协议中用作网络接口标识和定位地址的32位二进制数,通常表现为四个十进制数,每个数用“.”分隔,如192.168.0.1。在不同的网络协议中&#xf…

win10计算机ip如何更改,Win10本地连接ip怎么更改_Win10怎么更改ip地址?-192路由网...

问:Win10本地连接IP地址怎么更改? 本人是电脑小白,新买的电脑,是Win10系统;请问Win10电脑中的IP地址在哪里更改? 答:Win10系统IP地址需要在“本地连接”的 属性 中进行更改的。所以,…

chatgpt赋能python:Python获得电脑IP地址

Python获得电脑IP地址 在进行网络编程时,通常需要获取本机的IP地址。对于Python开发者来说,获取电脑IP地址可能是开发过程中常见需求之一。本文将介绍如何使用Python获取电脑IP地址,以及其中的一些常见问题和解决方案。 什么是IP地址&#…

万字长文 | ChatGPT的工作原理(二)

— 6 — 嵌入的概念 神经网络 —— 至少在它们目前的设置中 —— 从根本上说是基于数字的。因此,如果我们要用它们来处理像文本这样的东西,我们就需要一种方法来用数字表示我们的文本。 当然,我们可以开始(基本上就像 ChatGPT 那…

You don't have permission to access 权限问题

修改pip.ini配置文件如下: 综合搜索案例如下: 我遇到的情况是修改了,第一张图的配置,还是不行,那就是其他情况,虽然第二张图的这种写法,在线上是可以用的,但是在线下是不能用的&…

网络错误:windows无法访问\\,你没有权限访问\\

网络错误:windows无法访问\\,你没有权限访问\\ 电脑突然不能网络访问。 客户端:win10 服务器端:win2003 处理办法: 设置/控制面板/用户帐户/管理windows凭证 检查是否存在登录过的ip信息: 如果存在,删除…

关于访问权限控制问题

实际上Java中是有访问权限控制的,就是我们个人的隐私的一样,我不允许别人随便来查看我们的隐私,只有我们自己同意的情况下,才能告诉别人我们的名字、年龄等隐私信息。 所以说Java中引入了访问权限控制(可见性),我们可…

解决“你没有权限访问,请与网络管理员联系”

局域网共享时提示你"没有权限访问,请与网络管理员联系请求访问权限".局域网共享无法访问被共享的文件夹。 方法/步骤 1 找到你要共享的文件夹,选中并且右键,选中属性,选择安全选项卡 2 点击安全选项卡下面的编辑&#x…