讲解如何使用NLTK?外加数据清理实例演示

一、如何使用NLTK?

定义:自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库,称为“文本处理”的程序设计是其基本功能,专门用于研究自然语言的语法以及语义分析的能力。
安装:
首先终端下载nltk安装包pip install nltk 然后运行

import nltk
nltk.download()

在这里插入图片描述
出现弹窗,把想下载的一横都选上,再点击download。有时可能会出现链接失败,多试几次,网不好就挂梯子
在这里插入图片描述
在执行时,根据错误提示下载,用到哪个下哪个,下的时候把nltk.download()加上执行即可。

1.用作分词的包punkt_tab

from nltk.tokenize import word_tokenize

在这里插入图片描述

import nltk
from nltk.tokenize import word_tokenize
#nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行,不下载就注释
def print_hi():input_str = 'Causal understanding is a defining characteristic of human cognition. The weather is bright today, suitable for going out to play.'tokens = word_tokenize(input_str)print(tokens)if __name__ == '__main__':print_hi()

输出结果:
在这里插入图片描述

2.Text使用

from nltk.text import Text

import nltk
from nltk.tokenize import word_tokenize
from nltk.text import Text
# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():input_str = 'Causal understanding is a defining characteristic of human cognition. The weather is bright today, suitable for going out to play.'tokens = word_tokenize(input_str)tokens = [word.lower() for word in tokens]t = Text(tokens)print(t.count('is'))#计数print(t.index('is'))#返回索引位置if __name__ == '__main__':print_hi()

输出结果:
在这里插入图片描述

3.stopwords停用词过筛

from nltk.corpus import stopwords

补充:停用词指的是如下图所示的一些主题含义不强烈的词
在这里插入图片描述
运行程序时先下载安装包
在这里插入图片描述
输出句子中的停用词

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():input_str = 'Causal understanding is a defining characteristic of human cognition. The weather is bright today, suitable for going out to play.'tokens = word_tokenize(input_str)tokens = [word.lower() for word in tokens] #lower()变小写tokens_set = set(tokens)#set() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。print(tokens_set.intersection(set(stopwords.words('english'))))#intersection()求交集if __name__ == '__main__':print_hi()

输出结果:
在这里插入图片描述
过滤掉停用词

def print_hi():input_str = 'Causal understanding is a defining characteristic of human cognition. The weather is bright today, suitable for going out to play.'tokens = word_tokenize(input_str)tokens = [word.lower() for word in tokens]tokens_set = set(tokens)filtered = [word for word in tokens_set if(word not in stopwords.words('english'))]print(filtered)

输出结果:
在这里插入图片描述

4.词性标注POS tag

from nltk import pos_tag
在这里插入图片描述

import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag
# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():input_str = 'The weather is bright today, suitable for going out to play.'tokens = word_tokenize(input_str)tokens = [word.lower() for word in tokens]tags = pos_tag(tokens)print(tags)if __name__ == '__main__':print_hi()

在这里插入图片描述
常见的为: NN名词,VB动词-VBZ动词单三-VBD动词过去时-VBG动词现在进行时,JJ形容词,DT限定词如:the,a,an,IN介词
在这里插入图片描述
在这里插入图片描述

5.分块

import nltk
from nltk.chunk import RegexpParser
from nltk import pos_tag
# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():sentence = [('the','DT'),('little','JJ'),('yellow','JJ'),('dog','NN'),('died','VBD')]grammer = "MY_CT:{<DT>?<JJ>&<NN>}"#编写MY_CT块内容规定#<DT>?<JJ>&<NN>中的?和&可以换成*,@,¥等,只是起到隔断作用cp = nltk.RegexpParser(grammer)#生成规定out = cp.parse(sentence)#分块print(out)out.draw()#调用matplotlib库可视化if __name__ == '__main__':print_hi()

在这里插入图片描述

6.自动识别并命名实体

没下载包会出现如下图所示问题,那么代码加上nltk.download()再次执行,下载提示安装包即可。
在这里插入图片描述
在这里插入图片描述

import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk import ne_chunk
# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():sentence = "Edison went to Tsinghua university today."print(ne_chunk(pos_tag(word_tokenize(sentence))))if __name__ == '__main__':print_hi()

输出结果:
在这里插入图片描述

二、数据清理实例演示

import re
import nltk
# nltk.download() #用来下载其他nltk内置安装包,用到什么下什么就行
def print_hi():sentence = "Jane Smith,jane_smith #Test @example.net,https://tem  456 Elm \St., , ,,bob@example.com, &amp 1234567890,Sam O'Connor, 35,, (123) 456-7890, 789  ,"print('原始数据:',sentence,'\n')without_special_entities = re.sub(r',|#\w*|&\w*',' ',sentence)#当出现',','#+abc','&+abc'时替换成1个空格时替换成1个空格print('去除特色符号的数据:', without_special_entities, '\n')without_whitespace = re.sub(r'\s+', ' ', without_special_entities)#当空格出现1次或者无数次时替换成1个空格print('去除多余空格的数据:', without_whitespace, '\n')without_http = re.sub(r'https*:\/\/\w*','',without_whitespace)#https*:\/\/\w*\.\w*,#逐一讲解:如果规则里面只写了https*,那么当https出现就消除,但是这里面https后面还跟其他规则,那这个*只能删掉到符合后面规则的https(1个)#:\/\/指的是://#\w*指的是https://后面的文字,有多少删多少,因为*表示出现0或者多次print('去除不完全的https的数据:', without_http, '\n')if __name__ == '__main__':print_hi()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/488693.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【PlantUML系列】状态图(六)

一、状态图的组成部分 状态&#xff1a;对象在其生命周期内可能处于的条件或情形&#xff0c;使用 state "State Name" as Statename 表示。初始状态&#xff1a;表示对象生命周期的开始&#xff0c;使用 [*] 表示。最终状态&#xff1a;表示对象生命周期的结束&…

ARM循环程序和子程序设计

1、计算下列两组数据的累加和并存入到sum1和 sum2 单元中。datal:0x12,0x935,0x17,0x100,0x95,0x345。 data2:0x357,0x778,0x129,0x188,0x190,0x155,0x167。 1.定义数据段 ;定义数据段&#xff0c;类型为data(表示为数据段)&#xff0c;权限为可读可写(程序可以读取和修改这…

【Vue3进阶】组件通信进阶使用方法——defineProps、defineExpose、defineEmits

组件通信 父传子 defineProps 在 Vue 3 中&#xff0c;defineProps 是一个用于在 <script setup> 语法中定义组件的 props 的函数。这个函数提供了一种更加明确和类型安全的方式来定义子组件的 props&#xff0c;使得子父组件之间的数据传递更加清晰和可维护。以下是 …

day11 性能测试(4)——Jmeter使用(黑马的完结,课程不全)直连数据库+逻辑控制器+定时器

【没有所谓的运气&#x1f36c;&#xff0c;只有绝对的努力✊】 目录 1、复习 1.1 断言&#xff08;3种&#xff09; 1.2 关联&#xff08;3种&#xff09; 1.3 录制脚本 2、Jmeter直连数据库 2.1 直连数据库——使用场景 2.2 直连数据库——操作步骤 2.2.1 案例1&…

如何将CSDN的文章保存为PDF?

目录 1、打开CSDN文章2、按F12或者鼠标右键选择检查并进入控制台3、在控制台输入以下代码4、然后回车&#xff08;Enter&#xff09;如果纵向显示不全就横向 1、打开CSDN文章 2、按F12或者鼠标右键选择检查并进入控制台 3、在控制台输入以下代码 (function(){ $("#side&q…

ubuntu22.04 使用crash

文章目录 前言一、apt 安装dbgsym vnlinux二、使用.ddeb包安装dbgsym vnlinux三、dbgsym发行版四、crash调试参考资料 前言 最近在适配 ubuntu系统&#xff0c;记录一下其crash的安装。 一、apt 安装dbgsym vnlinux # echo "deb http://ddebs.ubuntu.com $(lsb_release…

刷题日志【4】

目录 1、猜数字大小 1、猜数字大小 题意有点抽象&#xff0c;我大概讲一下&#xff0c;就是在1——n里面会有一个目标数&#xff0c;我们通过猜数字的方式逼近这个数字&#xff0c;直到解出这个数&#xff0c;之前我们是用二分法求最快达到求解的问题&#xff0c;这道题多了每…

【蓝桥杯最新板】蓝桥杯嵌入式液晶上实现电子时钟

这几年蓝桥杯比赛比较适合学生技能学习&#xff0c;考虑板子功能&#xff0c;提出完成的任务。 要求在液晶完成如下图效果&#xff1a; 主要是实现液晶显示时钟和数字时钟&#xff0c;具体样式可以依据实际情况微调。 实现过程&#xff1a; 1.需要画圆&#xff08;外圆、内圆…

Python知识分享第25天-快速排序算法

快速排序算法 快速排序&#xff08;QuickSort&#xff09;是一种基于分治法的高效排序算法。它通过选择一个“基准”元素&#xff0c;将数组分成两个子数组&#xff0c;其中一个子数组的所有元素都比基准小&#xff0c;另一个子数组的所有元素都比基准大&#xff0c;然后递归地…

Hive3.X——异常处理Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000

Hive3.X——异常处理Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000 01 前言 大数据系列&#xff0c;学到了Hive&#xff0c;搭建环境的时候&#xff0c;因为使用的是本机WSL2&#xff08;别问为啥不用VMware&#xff0c;问就是条件有限&#xff0c;而且WS…

[Java] 使用 VSCode 来开发 Java

目录 前言Java 环境怎么看自己是否已经配置完成&#xff1f;安装 JDK安装 Maven 环境修改 Maven 依赖源 完善 VS Code配置插件配置 Maven配置 Maven Settings配置 Maven 可执行文件地址 前言 由于使用 VSCode 编码已经成为习惯&#xff0c;并且它确实相对其他的 IDE 较为轻量化…

悬赏任务源码(悬赏发布web+APP+小程序)开发附源码

悬赏任务源码是指一个软件或网站的源代码&#xff0c;用于实现悬赏任务的功能。悬赏任务是指发布方提供一定的奖励&#xff0c;希望能够找到解决特定问题或完成特定任务的人。悬赏任务源码通常包括任务发布、任务接受、任务完成和奖励发放等功能的实现。搭建悬赏任务源码是一个…

可视化建模以及UML期末复习----做题篇

一、单项选择题。&#xff08;20小题&#xff0c;每小题2分,共40分&#xff09; 1、UML图不包括&#xff08; &#xff09; A、用例图 B、状态机图 C、流程图 D、类图 E、通信图 答案&#xff1a;C、流程图 UML中不包括传统意义上的流程图&#xff0c;流程图通常是指B…

SpringBoot中使用MyBatis-Plus详细介绍

目录 一、MyBatis-Plus的使用步骤 1.引入MybatisPlus的起步依赖 2.定义Mapper&#xff08;也叫dao&#xff09;层的接口 3.MyBatis-Plus中常用注解 4. 使用MyBatis-Plus时要做如下配置 5.条件构造器 Wrapper 一、MyBatis-Plus的使用步骤 1.引入MybatisPlus的起步依赖 My…

操作系统(4)操作系统的结构

一、无序结构&#xff08;整体结构或模块组合结构&#xff09; 1.特点&#xff1a; 以大型表格和队列为中心&#xff0c;操作系统的各部分程序围绕着这些表格进行。操作系统由许多标准的、可兼容的基本单位&#xff08;称为模块&#xff09;构成&#xff0c;模块之间通过规定的…

Windows桌面系统管理0:总目录

目 录 Windows桌面系统管理1计算机硬件组成及组装-CSDN博客文章浏览阅读353次&#xff0c;点赞14次&#xff0c;收藏3次。计算机硬件组成及组装https://blog.csdn.net/2401_86296728/article/details/144431553?fromshareblogdetail&sharetypeblogdetail&sharerId14…

在CentOS中安装和卸载mysql

在CentOS7中安装和卸载mysql 卸载mysql1、查看是否安装过mysql2、查看mysql服务状态3、关闭mysql服务4、卸载mysql相关的rpm程序5、删除mysql相关的文件6、删除mysql的配置文件my.cnf 安装mysql1、下载mysql相关的rpm程序2、检查/tmp临时目录权限3、安装mysql前的依赖检查3、安…

印闪网络:阿里云数据库MongoDB版助力金融科技出海企业降本增效

客户背景 上海印闪网络科技有限公司&#xff0c;于2017年1月成立&#xff0c;投资方包括红杉资本等多家国际知名风投公司。公司业务聚焦东南亚普惠金融&#xff0c;常年稳居行业头部。创始团队来自腾讯&#xff0c;中国团队主要由运营、风控及产研人员组成&#xff0c;核心成员…

网络基础 - TCP/IP 五层模型

文章目录 一、OSI 参考模型中各个分层的作用1、应用层2、表示层3、会话层4、传输层5、网络层6、数据链路层7、物理层 一、OSI 参考模型中各个分层的作用 1、应用层 2、表示层 负责设备固有数据格式和网络标准数据格式间的转换 3、会话层 4、传输层 负责连接的建立和断开&…

【数据结构——内排序】希尔排序(头歌实践教学平台习题)【合集】

目录&#x1f60b; 任务描述 测试说明 我的通关代码: 测试结果&#xff1a; 任务描述 本关任务&#xff1a;实现希尔排序算法。 测试说明 平台会对你编写的代码进行测试&#xff1a; 测试输入示例&#xff1a; 10 9 8 7 6 5 4 3 2 1 0 (说明&#xff1a;第一行是元素个数&a…