用于自然语言处理的 Python:理解文本数据

一、说明

        Python是一种功能强大的编程语言,在自然语言处理(NLP)领域获得了极大的普及。凭借其丰富的库集,Python 为处理和分析文本数据提供了一个全面的生态系统。在本文中,我们将介绍 Python for NLP 的一些基础知识,重点是理解文本数据和实现代码来执行各种 NLP 任务。

二、用于自然语言处理的 Python:理解文本数据

        文本数据在 NLP 应用程序中起着重要作用,从情感分析到机器翻译。了解文本数据的结构和属性对于有效地处理和从中提取有意义的信息非常重要。

2.1 什么是文本数据?

通常,文本数据是指任何形式的人类可读文本。它可以来自各种媒介,包括书籍、网站、社交媒体帖子或客户评论。文本数据通常表示为字符、单词或标记的序列。

2.2 标记化:将文本分解为单元

        标记化是将文本数据分解为更小、有意义的单元(称为标记)的过程。标记可以是单词、短语,甚至是单个字符。有几个库,如NLTK(自然语言工具包)和spaCy,提供高效的标记化功能。

import nltk
nltk.download('punkt')text = "Python is my favourite programming language."
tokens = nltk.word_tokenize(text)
print(tokens)

2.3 词形还原和词干提取

        词形还原和词干提取是用于规范化文本数据中的单词的技术。词形还原将单词简化为其基本形式或字典形式,称为引理。另一方面,词干分析通过删除前缀和后缀将单词修剪为根形式。这些技术有助于减少单词变化并提高后续NLP任务的效率。

from nltk.stem import WordNetLemmatizer, PorterStemmer
nltk.download('wordnet')lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()word = "running"
print("Lemmatized Word:",lemmatizer.lemmatize(word))
print("Stemmed Word:",stemmer.stem(word))

2.4 停用词:滤除噪音

        停用词是语言中通常出现的词,不具有重要意义。停用词的示例包括“the”、“is”和“and”。在NLP中,从文本数据中删除停用词通常是有益的,因为它们会引入噪声并阻碍分析的准确性。像NLTK这样的Python库为不同的语言提供了预定义的停用词列表。

from nltk.corpus import stopwords
nltk.download('stopwords')stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token not in stop_words]
print(filtered_tokens)

2.5 词性 (POS) 标记

        词性标记是为句子中的单词分配语法标签的过程,指示它们的句法角色。这些标签可以是名词、动词、形容词或其他词性。POS 标记对于理解文本数据中单词的上下文和含义至关重要。像NLTK和spaCy这样的库提供了高效的POS标记功能。

nltk.download('averaged_perceptron_tagger')pos_tags = nltk.pos_tag(tokens)
print(pos_tags)

三、不同应用和目的

3.1 命名实体识别 (NER)

        命名实体识别是 NLP 的一个子任务,涉及识别和分类文本数据中的命名实体。命名实体可以是人员、组织、位置或任何其他专有名词的名称。像spaCy这样的Python库为NER提供了预先训练的模型,使得从文本中提取有价值的信息变得更加容易。

import spacynlp = spacy.load('en_core_web_sm')
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")for ent in doc.ents:print(ent.text, ent.label_)

3.2 情绪分析

情感分析是确定文本数据的情绪或情感基调的过程。它涉及将文本分类为正面、负面或中性。Python 提供了各种库,例如 NLTK 和 TextBlob,它们为情感分析提供了预先训练的模型。这些模型可用于分析客户反馈、社交媒体帖子或任何其他文本数据,以深入了解公众舆论。

from textblob import TextBlobtext = "Python is a great programming language."
blob = TextBlob(text)
print(blob.sentiment)

3.3 主题建模

        主题建模是一种用于从文档集合中提取基础主题或主题的技术。它有助于理解文本数据中存在的主要思想或概念。Python的流行库Gensim为主题建模提供了有效的算法,例如潜在狄利克雷分配(LDA)。这些算法可以应用于大型文本语料库,以发现隐藏的模式并生成有意义的摘要。

from gensim import corpora, modelsdocuments = ["Human machine interface for lab abc computer applications","A survey of user opinion of computer system response time","The EPS user interface management system","System and human system engineering testing of EPS"]texts = [doc.split() for doc in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]lda_model = models.LdaModel(corpus, num_topics=2, id2word=dictionary)
print(lda_model.print_topics())

3.4 文本分类

        文本分类是将文本数据分类为预定义类或类别的过程。它在垃圾邮件过滤、情绪分析、新闻分类和许多其他领域找到了应用。文本分类模型可以使用Python库(如scikit-learn和TensorFlow)进行构建和训练。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNBX = ["Python is a versatile programming language.", "I love Python.", "Python is great for data analysis."]
y = ["positive", "positive", "positive"]
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)clf = MultinomialNB().fit(X_transformed, y)
print(clf.predict(vectorizer.transform(["Python is awesome!"])))

3.5 词嵌入

词嵌入是单词的密集向量表示,用于捕获它们之间的语义关系。它们广泛用于 NLP 任务,例如单词相似性、文档聚类和语言翻译。Python的库spaCy提供了预先训练的词嵌入模型,如Word2Vec和GloVe。

nlp = spacy.load('en_core_web_md')tokens = nlp("dog cat banana")for token in tokens:print(token.text, token.has_vector, token.vector_norm, token.is_oov)

3.6 语言翻译

        语言翻译涉及将文本从一种语言转换为另一种语言。Python的流行库PyTorch提供了一个强大的机器翻译工具包,称为Fairseq。它利用深度学习模型(如变形金刚)来实现准确流畅的翻译。

        您可以安装以下库

pip install torch fairseq
import torch
from fairseq.models.transformer import TransformerModel# Load the pre-trained translation model
model_name = 'transformer.wmt19.en-de'
model = TransformerModel.from_pretrained(model_name)# Set the model to evaluation mode
model.eval()# Define the source sentence to be translated
source_sentence = "Hello, how are you?"# Translate the source sentence to the target language
translated_sentence = model.translate(source_sentence)# Print the translated sentence
print("Translated Sentence:", translated_sentence)

3.7 文本生成

        文本生成是一项具有挑战性的 NLP 任务,涉及根据给定提示生成连贯且上下文相关的文本。Python的库OpenAI GPT为ChatGPT提供支持,是一个最先进的模型,擅长文本生成。它可以在特定域上进行微调,也可以开箱即用地用于各种创意写作应用程序。

import openai# Set up your OpenAI GPT model
model_name = "text-davinci-003"
openai.api_key = "YOUR_API_KEY_HERE"# Define the prompt for text generation
prompt = "Once upon a time"# Set the maximum number of tokens to generate
max_tokens = 100# Generate text based on the prompt
response = openai.Completion.create(engine=model_name,prompt=prompt,max_tokens=max_tokens
)# Extract the generated text from the API response
generated_text = response.choices[0].text.strip()# Print the generated text
print("Generated Text:")
print(generated_text)

四、用于 NLP 的 Python 库

        Python 为 NLP 提供了广泛的库和框架,使其成为文本数据处理的首选语言。一些流行的库包括:

  • 自然语言工具包 (NLTK)
  • 空间
  • 根西姆
  • TextBlob
  • scikit-learn
  • 张量流
  • PyTorch
  • 费尔塞克
  • OpenAI GPT

        这些库为各种 NLP 任务提供了广泛的功能和预先训练的模型,使开发人员能够专注于手头的特定问题。

五、结论

        Python已经成为自然语言处理(NLP)的流行语言,因为它可以做许多不同的事情,并且有很多库。本文探讨了将 Python 用于 NLP 的基础知识,强调了理解文本数据和利用代码执行各种 NLP 任务的重要性。从词汇分词和词形还原到停止词删除、词性标记、命名实体识别、情感分析、主题建模、文本分类、单词嵌入、语言翻译和文本生成,Python 库(如 NLTK、spaCy、Gensim、TextBlob、scikit-learn、TensorFlow、PyTorch、Fairseq 和 OpenAI GPT)为高效的文本数据处理和分析提供了强大的解决方案和预训练模型。 

纳文·潘迪

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/142047.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sound/播放提示音, Haptics/触觉反馈, LocalNotification/本地通知 的使用

1. Sound 播放提示音 1.1 音频文件: tada.mp3, badum.mp3 1.2 文件位置截图: 1.3 实现 import AVKit/// 音频管理器 class SoundManager{// 单例对象 Singletonstatic let instance SoundManager()// 音频播放var player: AVAudioPlayer?enum SoundOption: Stri…

【C++】stack queue

stack & queue 一、容器适配器二、deque(了解)三、stack1. stack 的介绍2. 模拟实现 stack 四、queue1. queue 的使用2. 模拟实现 queue3. priority_queue(1)priority_queue 的介绍(2)priority_queue 的…

从零开始—【Mac系统】MacOS配置Java环境变量

系统环境说明 Apple M1 macOS Ventura 版本13.5.2 1.下载JDK安装包 Oracle官网下载地址 JDK下载【注:推荐下载JDK8 Oracle官网JDK8下载】 关于JDK、JRE、JVM的关系说明 JDK(Java Development Kit,Java开发工具包) ,是整个JAVA的核心&#…

系统学习Mysql

1.select语句 关键字执行顺序: 1.from 2.where 3.group by 4.select 5.having 6.order by 7.limit SQL 语句执行顺序如下: FROM: 指定要查询的表或子查询,可以包含 JOIN、WHERE 子句过滤等。 WHERE: 对 FROM 子句指定的表或子查询进行限制和…

快速使用Spring Cache

哈喽~大家好,这篇我们来看看快速使用Spring Cache。 🥇个人主页:个人主页​​​​​ 🥈 系列专栏:【日常学习上的分享】 🥉与这篇相关的文章: R…

【优测云服务平台】打造承载百倍级增长后台背后的力量-性能优化

项目介绍: 腾讯课堂是腾讯推出的专业在线教育平台,凭借技术优势,实现在线即时互动教学,打破地域的限制,让每个人都能接受优秀老师的指导和教学。 一、背景 2020年初,新冠病毒肆虐,疫情大面积爆…

从裸机开始安装操作系统

目录 一、预置知识 电脑裸机 win10版本 官方镜像 V.S. 正版系统 二、下载微软官方原版系统镜像 三、使用微PE系统维护U盘 四、安装操作系统 五、总结 一、预置知识 电脑裸机 ●只有硬件部分,还未安装任何软件系统的电脑叫做裸机。 ●主板、硬盘、显卡等必…

LLM - 通俗理解位置编码与 RoPE

目录 一.引言 二.Why 位置编码? 三.What 绝对位置编码? 1.绝对位置编码 A.Embedding Table B.公式计算 2.外推性 四.How 位置编码? 1.直接编号 2.乘法表示 3.严格的乘法表示 4.距离衰减 五.Thats RoPE! 1.Self-Attention 2.RoPE 的复数形式 3.RoP…

前端就业宝典---目录

工作时候扭螺丝,面试时候造火箭,现状就是如此。不管是背八股文,还是掌握了知识的精华,对答如流才是硬道理。本专栏就是要集具前端精华,规范、算法、架构、封装、原理等一并汇集,让前端的小伙伴有个思路。 大剑师的微信 gis-dajianshi, 欢迎一起交流,并非常期望您能够提…

Spring Cloud Alibaba Ribbon负载均衡器

文章目录 Ribbon 负载均衡器环境搭建1.依赖2.配置3.修改其默认的负载均衡策略3.1 验证 4.创建自定义的Rule4.1 MyRule()4.2 在配置config类中配置 5.饥饿加载6.我只想访问不想被别的访问 Ribbon 负载均衡器 背景 Ribbon 是一个用于客户端负载均衡的开源…

提高接口自动化测试效率:使用 JMESPath 实现断言和数据提取!

前言 做接口自动化,断言是比不可少的。如何快速巧妙的提取断言数据就成了关键,当然也可以提高用例的编写效率。笔者在工作中接触到了JMESPath,那到底该如何使用呢?带着疑惑一起往下看。 JMESPath是啥? JMESPath 是一…

ARM Soc内部总线

由于soc架构,把常用外设(控制器)集成到芯片内部,所以需要一种总线协调ARMcore与这些内部外设的通信,于是有了APB and AHB以及AXi这种片上总线。 同时要注意与常说的PC时代总线区分开: CPU总线(…

【PMP/软考】软件需求的三个主要层次:业务需求、用户需求和功能需求解释及实例解析

简述 当进行需求分析时,通常着重考虑三个主要层次:业务需求、用户需求和功能需求。业务需求关注项目与组织战略目标的一致性,用户需求明确最终用户的期望,而功能需求定义具体的系统功能和特性。这三个层次为项目管理和软件工程提…

工业蒸汽量预测(速通三)

工业蒸汽量预测(三) 特征优化1特征优化的方法1.1合成特征1.2特征的简单变换1.3用决策树创造新特征1.4特征组合 模型融合1模型优化1.1模型学习曲线1.2模型融合提升技术1.3预测结果融合策略1.4其他提升方法 特征优化 1特征优化的方法 可以通过合成特征、…

【LeetCode】力扣364.周赛题解

Halo,这里是Ppeua。平时主要更新C,数据结构算法,Linux与ROS…感兴趣就关注我bua! 1.最大二进制奇数 🍉题目: 🍉例子: 🍉 题解: 首先看题目,最大二进制奇数,在一个二…

MQ - 31 基础功能: 优先级队列的设计

文章目录 导图概述什么是优先级队列如何设计实现优先级队列业务实现优先级队列的效果内核支持优先级队列RabbitMQ 中优先级队列的实现总结导图 概述 当我们需要在业务中对消息设置优先级,让优先级高的消息能被优先消费,此时就需要用到消息队列中优先级队列的特性。 为了了解…

前后端分离vue简介

vue简介 vue是一个渐进式js框架,用于构建用户界面,其主要特点是易学易用、轻量、灵活和高效。Vue.js由前Google工程师尤雨溪( Evan You)在2014年创建,它的核心库只关注视图层,是一款非常优秀的MVVM框架&…

Azure AD混合部署,通过 Intune 管理设备,实现条件访问

一、设备同步到AAD上面 1、配置 AAD Connect 2、选择 3、下一步 4、配置本地 企业管理员 5、配置成功 二、通过 组策略把设备同步到 Intune 上面 1、创建一条组策略 2、设置 (1)计算机配置 → 管理模板 → Windows 组件 → MDM → 使用默认 Azure AD …

增强for循环和一般for循环的对比使用

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。个人B站主页热爱技术的小郑 ,视频内容主要是对应文章的视频讲解形式。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘…

spring源码解析——IOC之自定义标签解析

概述 之前我们已经介绍了spring中默认标签的解析,解析来我们将分析自定义标签的解析,我们先回顾下自定义标签解析所使用的方法,如下图所示: 我们看到自定义标签的解析是通过BeanDefinitionParserDelegate.parseCustomElement(ele…