自然语言处理(基于预训练模型)02NLTK工具集

NLTK是对英文文本数据进行处理的常用工具

1 停用词

1.1 查看停用词

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
print(stopwords.words('english'))

2 常用语料库

2.1 未标注语料库

2.1.1 找出古腾堡语料库中的emma原文

 gutenberg下载地址:NLTK Corpora (网页内搜索gutenberg)

import nltk
from nltk.corpus import gutenberg
nltk.download('gutenberg')
print(gutenberg.raw("austen-emma.txt"))

  

2.2 人工标注语料库

2.2.1 sentence_polarity.categories():返回褒贬类别列表,即 ['neg','pos']

from nltk.corpus import sentence_polarity
[(sentence,category)for category in sentence_polarity.categories()for sentence in sentence_polarity.sents(categories = category)]

3 常用词典

3.1 WordNet

        特色:定义了同义词集合,每个同义词集合由具有相同意义的词义组成。此外,WordNet还为每一个同义词集合提供了简短的释义,不同同义词集合之间还具有一定的语义关系。以下实验举dog为例:

        WordNet下载地址:NLTK Corpora (网页内搜索owm-1.4)

3.1.1 返回dog的全部8个词义的synset

syns = wordnet.synsets("dog") # 返回dog的全部18个词义的synset

 3.1.2 返回dog第一个词义的名称、定义以及样例

firstName = syns[0].name()
firstDefine = syns[0].definition()
firstExample = syns[0].examples()

3.1.3 返回dog第一个词义的上位同义词集合

synsJh = syns[0].hypernyms()

3.1.4 返回dog与cat的同义词集合间的Wu-Palmer相似度

dog = wordnet.synset('dog.n.01')
cat = wordnet.synset('cat.n.01')
Wp = dog.wup_similarity(cat)

 

3.2 SentiWordNet

        为WordNet中每个同义词集合人工标注了三个情感值,依次是褒义、贬义和中性。

         sentiwordnet下载地址:NLTK Corpora (网页内搜索sentiwordnet)

3.2.1 查看good在形容词(a)下的第一号语义

from nltk.corpus import sentiwordnet
print(sentiwordnet.senti_synset('good.a.01'))

 

4 常用自然语言处理工具集

4.1 分句:将text分成若干个句子

分句punkt下载地址:NLTK Corpora (网页内搜索punkt)

4.1.1 引入text文本

text = gutenberg.raw("austen-emma.txt")

4.1.2 对text进行分句

sentences = sent_tokenize(text) # 对text进行分句

4.1.3 显示其中的一个句子

print(sentences[100]) # 显示其中的一个句子

 

4.2 标记解析

        主要是将单词和标点符号、空格等等拆分。

        继4.1.3:

from  nltk import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.corpus import gutenberg
text = gutenberg.raw("austen-emma.txt")
sentences = sent_tokenize(text)
print(word_tokenize(sentences[100]))

4.3 词性标记

        主要是根据词语所处的上下文,确定其具体的词性。

4.3.1 如何使用pos_tag对单个单词进行词性标记

from nltk import pos_tag
from  nltk import word_tokenize
print(pos_tag(word_tokenize("i am cxk , i like playing basketball")))

 4.3.2 查询词性的标记意思

 ragsets下载地址:NLTK Corpora (网页内搜索tagsets)

import nltk.help
print(nltk.help.upenn_tagset('NN'))

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10022.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】介绍几个语言生成的预训练模型

作者 | Chilia 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 大家好,这里是NewBeeNLP。本篇介绍四个为语言生成设计的预训练模型 -- BART,MASS,PEGASUS,UniLM。其中前三种方法都使用了Transformer Encoder-Dec…

使用ChatGPT+Xmind一键生成思维导图,简直泰裤辣

📋 个人简介 💖 作者简介:大家好,我是阿牛,全栈领域优质创作者。😜📝 个人主页:馆主阿牛🔥🎉 支持我:点赞👍收藏⭐️留言&#x1f4d…

【使用心得】最新版ChatGPT查资料

最新版ChatGPT是一款非常实用的软件,它提供了广泛的辅助工具,可帮助我在各个领域提升工作效率。使用体验更加流畅,界面也相对更加美观。 首先,最新版ChatGPT加强了语言翻译功能,并进一步完善了交互方式,使…

ChatGPT4和低代码来临,程序员面临下岗?

一个网友吐槽道: “ 建站出来了,你们说程序员会失业。 低代码出来了,你们说程序员会失业。 Copilot出来了,你们说程序员会失业。 Chatgpt出来了,你们说程序员会失业 虽然这只是网友的吐槽,但却引起了小编…

ChatGPT时代的得意忘言

David S. Soriano, CC BY-SA 4.0 via Wikimedia Commons 导读: 以ChatGPT为代表的新的人工智能语言模型,具有划时代的意义。一个值得思考的问题是,人工智能具备的测算能力,无法完全等同于人类的判断力。 在《测算与判断&#xff1…

ChatGPT提示词工程进阶教学

ChatGPT提示词工程 1 两种大型语言模型LLM1.1 基础大模型(base LLM)1.2 指令调优大模型(Instruction Tuned LLM) 2 如何更清晰、具体地书写提示词2.1 在提示词中使用“定界符”2.2 向模型请求结构化的输出2.3 要求模型检查任务条件是否满足2.4 输入多范例…

【花雕学AI】ChatGPT的四大语言处理神器:文本生成、问答、创意生成和内容优化的技巧和实例

引言:ChatGPT是一个人工智能聊天机器人,它可以理解和交流多种语言,例如中文、英文、日文、西班牙语、法语、德语等。它是由OpenAI开发的,基于GPT-3.5和GPT-4这两个大型语言模型。它不仅可以与用户进行对话,还可以根据用…

chatgpt赋能python:Python文本清洗:从混乱到整洁

Python 文本清洗:从混乱到整洁 如果你曾经在处理文本数据时花费了大量时间将信息从混乱的文本中取出来,那么你应该考虑使用 Python 进行文本清洗。Python 是一种易于学习和使用的编程语言,可用于自动化文本清洗流程,实现高效准确…

难逃 AI 的法眼:ChatGPT 文本检测器(ERNIE 文本分类)

★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>> 参考项目地址:https://github.com/Hello-SimpleAI/chatgpt-comparison-detection 本项目 Demo 地址:https://aistudio.baidu.com/aistudio/projectdetail…

chatgpt赋能python:Python对文本进行分词

Python对文本进行分词 在自然语言处理(NLP)领域中,对文本进行分词是一个重要的预处理步骤。分词的目的是将一段文本切割成由词语组成的序列,为后续的处理提供基础。 Python在NLP任务中是广泛使用的编程语言之一,有许…

chatgpt赋能python:Python中文文本预处理

Python中文文本预处理 Python作为一门广泛应用于数据分析、机器学习和人工智能的编程语言,在处理中文文本方面也有不可忽视的优势。但是由于中文特殊性,中文文本预处理也有独特的需求。本文将介绍在Python中进行中文文本预处理的常见操作。 分词 分词…

DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. www.deepspeed.ai/ DeepSpeed Integration DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

使用EasyExcel导入导出Excel

在管理一个系统时,总会有许多的数据,为了方便浏览查看数据,系统总会提供「导出Excel」的功能;有导出就有导入,在要向数据库中插入大量的数据时,我们向程序提供准备好的 Excel,然后程序读取表格内…

EasyExcel导入导出,处理数据

1.导出模块,导出中有中文文件名称,设置格式 /*** 以流方式响应回给客户端,返回值类型设置成void** param response 输出excel表格,让用户下载*/PostMapping("/exportExcel")public void exportExcel(ZqRewardProjectContract zqRew…

QT常用表格导出为Excel以及Excel导入表格

表格导出为Excel 注意:演示所用到的软件为Qt5.14.2,编译器为MinGW 64-bit,电脑必须装有office所用的类为 QAxObject,QAxObject可以实例化为一个空对象,使用它应该封装的COM对象的名称,或者使用一个指向表示…

获取微信的聊天记录导出为Excel

获取微信的聊天记录导出为Excel ios端 1.工具2.步骤 1.工具 iTunes楼月免费iTunes备份管理器DB Browser for SQLitepython 2.步骤 通过iTunes备份ipone中的数据到电脑上, 打开楼月免费iTunes备份管理器选择备份的记录 导出 微信个人信息中的DB文件夹 使用 DB Br…

Excel表格的导入导出——EasyExcel

参考视频 csdn参考地址 一、导入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.0.5</version> </dependency>二、实体类 方式一&#xff1a;Excel Property&#xff08;&…

Easyexcel导入导出多个sheet

EasyExcel对于导入导出的操作十分简洁&#xff0c;记录一下多个sheet且内容不一致的导入导出。 引入 easyExcel依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.0.1</version></d…

EasyExcel实现Excel文件多sheet导入导出

一、概述 最近公司需要做一个需求&#xff0c;通过excel上传病例信息&#xff0c;并将病例信息进行归档和整理&#xff1b;该需求可以简化为excel模板下载和excel上传并解析归档。既然知道需求了&#xff0c;找excel的操作工具jar包吧&#xff0c;发现以前常用的poi需要写的代…

导入导出excel表格EasyExcel操作

一、添加依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>2.2.3</version> </dependency>二、创建实体类 /*** 创建User类,用于构建向Excel表格中写数据的类型;* ExcelPropert…