文本预处理——构建词云

Python 词云或标签云是一种可视化技术,通常用于显示网站的标签或关键字。这些单个单词反映了网页的上下文,并聚集在词云中。云中的单词字体大小和颜色各不相同,表明其突出性。字体大小越大,相对于其他单词的重要性就越高。词云可以根据创建者的设想采用各种形状和大小。但是,单词的数量至关重要;太多的话会使其变得杂乱,难以阅读。

虽然创建 Python 词云的方法有很多种,但最广泛使用的类型是使用  语料库中的词频。因此,我们将使用频率类型创建词云。

词云最适合用于特定场景,在这些场景中,可视化词频或突出程度至关重要。以下是适合使用词云的一些情况:

  • 词云可以快速概览文本语料库中最常出现的单词,帮助研究人员识别模式和关键主题。
  • 在总结大量文本时,Python词云可以有效地突出显示最相关和最重要的术语,使信息更容易被受众接受。
  • 词云对于分析社交媒体平台上的情绪、主题标签或热门话题很有价值,可以简洁地表达热门主题。
  • 它们为报告、演示文稿或仪表板增加了视觉吸引力和参与度,使查看者更容易从数据中掌握重要见解。
  • 在比较多个文本源或文档时,词云可以帮助识别词频的相似性或差异性。

 使用 Python 创建一个词云可以按照以下步骤进行:

步骤1:导入必要的库

import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

步骤2:选择数据集

df = pd.read_csv("xxxxxxx.csv")

步骤3:选择词云的文本与文本量

选择用于创建 Python 词云的文本是一项重要任务。选择文本时必须检查各种因素,例如:

  • 我们有问题陈述吗?
  • 所选文本有意义吗?
  • 我们能总结一下创建的词云吗?
  • 我们的文本是否有足够数量的文本?

词云需要适量的文字,文字过多会阻碍词云的视觉效果,文字过少又没有意义。

我们可以使用 DataFrame 的 .head() 方法来检查列及其中存在的数据类型。在我们的示例中,我们将列类别设为文本。

由于列 category 在每个类别 game 之前都有一个前缀GAME,因此我们在 python 中的 wordcloud 最终会将GAME创建为最常用的单词,而 python 中的 wordcloud 在 int 中没有任何意义。因此,我们将在将category列添加到文本时执行过滤 。

步骤4:检查NULL值

需要检查我们的数据集中的空值,因为在创建词云时,它不会接受带有nan值的文本。

df.isna().sum()

步骤5:向变量添加文本

根据步骤 3 中的参数,将文本数据添加到您选择的变量中。在这里,我们将数据添加到变量文本中。

text = " ".join(cat.split()[1] for cat in df.category)

步骤 6:创建词云

创建一个 WordCloud 类的对象,并指定其名称,然后调用 generate() 方法。这里我们创建了名为word_cloud 的对象。 

WordCloud() 根据需要接受多个参数。这里我们添加两个参数:

  • collocations = False,将忽略文本中的搭配词
  • background_color = '白色',这将使文字看起来更清晰

.generate() 方法接受我们创建的文本作为参数 。在本例中,我们将 文本 变量作为 .generate() 的参数。

word_cloud = WordCloud(collocations = False, background_color = 'white').generate(text)

步骤 7:绘制词云

使用matplotlib.pyplot 的.imshow()方法将词云显示为图像。

.imshow() 接受多个参数,但在我们的示例中,我们接受两个参数:

  • 在步骤 5 中创建的 word_cloud
  • 插值 = '双线性'

由于我们使用 .imshow() 创建图像,因此图像的重采样是由于图像像素大小和屏幕分辨率不匹配而完成的。此重采样由插值参数控制,以根据我们的需要生成更柔和或更清晰的图像。有几种可用的插值类型,例如高斯、二次、双三次。这里我们使用双线性插值。

在绘制图像时关闭轴,因为我们不希望图像中出现轴刻度。

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

在本次示例中,我们使用来自Kaggle的Top Games on Google Play Store | Kaggle

完整代码

#Importing Libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from wordcloud import WordCloud
#Importing Dataset
df = pd.read_csv("android-games.csv")
#Checking the Data
df.head()
#Checking for NaN values
df.isna().sum()
#Removing NaN Values
#df.dropna(inplace = True)
#Creating the text variable
text = " ".join(cat.split()[1] for cat in df.category)
# Creating word_cloud with text as argument in .generate() method
word_cloud = WordCloud(collocations = False, background_color = 'white').generate(text)
# Display the generated Word Cloud
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456651.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VUE中文本域默认展示最底部内容

文本域内容 <textarea ref"textareaRef" style"width: 100%; resize: none;" readonly v-model"errorLog" rows"15"></textarea> 样式展示 this.$nextTick(() > { // 使用$refs获取文本域的DOM元素 const textareaInfo…

【ArcGIS Pro实操第8期】绘制WRF三层嵌套区域

【ArcGIS Pro实操第8期】绘制WRF三层嵌套区域 数据准备ArcGIS Pro绘制WRF三层嵌套区域Map-绘制三层嵌套区域更改ArcMap地图的默认显示方向指定数据框范围 Map绘制研究区Layout-布局出图 参考 本博客基于ArcGIS Pro绘制WRF三层嵌套区域&#xff0c;具体实现图形参考下图&#xf…

C++游戏开发教程:从入门到进阶

C游戏开发教程&#xff1a;从入门到进阶 前言 在游戏开发的世界里&#xff0c;C以其高效的性能和灵活的特性&#xff0c;成为了众多游戏开发者的首选语言。在本教程中&#xff0c;我们将带您从基础知识入手&#xff0c;逐步深入到实际的游戏开发项目中。无论您是初学者还是有…

算法的学习笔记—数组中只出现一次的数字(牛客JZ56)

&#x1f600;前言 在数组中寻找只出现一次的两个数字是一道经典的问题&#xff0c;通常可以通过位运算来有效解决。本文将详细介绍这一问题的解法&#xff0c;深入解析其背后的思路。 &#x1f3e0;个人主页&#xff1a;尘觉主页 文章目录 &#x1f970;数组中只出现一次的数字…

基于Netty构建WebSocket服务并实现项目群组聊天和实时消息通知推送

文章目录 前言需求分析技术预研Web端方案服务端技术 技术方案设计思路功能实现添加依赖自定义NettyServer自定义webSocketHandler使用NettyServer向在线用户发送消息 需要完善的地方 前言 我们的项目有个基于项目的在线文档编制模块&#xff0c;可以邀请多人项目组成员在线协同…

日常记录,使用springboot,vue2,easyexcel使实现字段的匹配导入

目前的需求是数据库字段固定&#xff0c;而excel的字段不固定&#xff0c;需要实现excel导入到一个数据库内。 首先是前端的字段匹配&#xff0c;显示数据库字段和表头字段 读取表头字段&#xff1a; 我这里实现的是监听器导入&#xff0c;需要新建一个listen类。 读Excel …

BiGRU实现中文关系抽取算法

获取更多完整项目代码数据集&#xff0c;点此加入免费社区群 &#xff1a; 首页-置顶必看 1. 项目简介 本项目旨在实现并训练一个深度学习模型&#xff0c;应用于时间序列数据处理或自然语言处理任务中。项目采用了门控循环单元&#xff08;GRU&#xff0c;Gated Recurrent U…

Python爬虫进阶(实战篇一)

接&#xff0c;基础篇&#xff0c;链接&#xff1a;python爬虫入门&#xff08;所有演示代码&#xff0c;均有逐行分析&#xff01;&#xff09;-CSDN博客 目录 1.爬取博客网站全部文章列表 ps:补充&#xff08;正则表达式&#xff09; 爬虫实现 爬虫代码&#xff1a; 2.爬…

uniapp uview 上传图片,数据以formData + File 形式传输

期望 后端期望前端给的传参为 formData 形式, 同时文件的数据类型为File 形式. 解决过程 将文件处理为 File 格式 uview 中的 upload 组件点击上传之后不是标准的 File 形式,点击上传单个文件之后的控制台信息如下: [{"url": "blob:http://localhost:8081/…

《Sui区块链:重塑去中心化应用的新星与未来潜力》

目录 引言 一、Sui 1、 技术架构 2、 编程语言 3、Move起源 4、Move的几个关键点&#xff1a; 5、Move 智能合约编程语言 6、智能合约编程语言可以做什么 7、和其他编程语言有什么不同 8、 安全性 9、开发者体验 10、生态系统 11、 未来发展 总结 引言 在区块链技…

鸿蒙到底是不是纯血?到底能不能走向世界?

关注卢松松&#xff0c;会经常给你分享一些我的经验和观点。 2016年5月鸿蒙系统开始立项。 2018年美国开始经济战争&#xff0c;其中一项就是制裁华为&#xff0c;不让华为用安卓。 2019年8月9日华为正式发布鸿蒙系统。问题就出在这里&#xff0c;大家可以仔细看。 安卓一…

kafka 的高可用机制是什么?

大家好&#xff0c;我是锋哥。今天分享关于【kafka 的高可用机制是什么&#xff1f;】面试题&#xff1f;希望对大家有帮助&#xff1b; kafka 的高可用机制是什么&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Apache Kafka 是一个分布式消息系统&am…

【AI学习】Mamba学习(十二):深入理解S4模型

#1024程序员节&#xff5c;征文# HiPPO的学习暂告一段落&#xff0c;按照“HiPPO->S4->Mamba 演化历程”&#xff0c;接着学习S4。 S4对应的论文&#xff1a;《Efficiently Modeling Long Sequences with Structured State Spaces》 文章链接&#xff1a;https://ar5iv…

【移动应用开发】界面设计(二)实现水果列表页面

续上一篇博客 【移动应用开发】界面设计&#xff08;一&#xff09;实现登录页面-CSDN博客 目录 一、采用ViewBinding实现一个RecyclerView 1.1 在app/build.gradle中添加recyclerview依赖&#xff0c;并打开viewBinding &#xff08;1&#xff09;在app/build.gradle中添加…

CORS预检请求配置流程图 srpingboot和uniapp

首先要会判断预检请求 还是简单请求 简单请求 预检请求 #mermaid-svg-1R9nYRa7P9Pll4AK {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-1R9nYRa7P9Pll4AK .error-icon{fill:#552222;}#mermaid-svg-1R9nYRa7P9Pll4…

智能园艺:Spring Boot植物健康系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理植物健康系统的相关信息成为必然。开发合适…

51单片机——OLED显示图片

取模软件&#xff1a;链接:https://pan.baidu.com/s/1UcrbS7nU4bsawNxsaaULfQ 提取码:gclc 1、如果图片大小和格式不合适&#xff0c;可以先用Img2Lcd软件进行调整图片大小&#xff0c;一般取模软件使用的是.bmp图片&#xff0c;可以进行输出.bmp格式。软件界面如下&#xff1…

开源vGPU方案 HAMi实现细粒度GPU切分——筑梦之路

前言 为什么需要 GPU 共享、切分等方案&#xff1f; 在使用GPU的过程中我们会发现&#xff0c;直接在裸机环境使用&#xff0c;都可以多个进程共享 GPU&#xff0c;怎么到 k8s 环境就不行了&#xff1f; 1. 资源感知 在 k8s 中资源是和节点绑定的&#xff0c;对于 GPU 资源…

打包方式-jar和war的区别

1、jar包 JAR包是类的归档文件&#xff0c;与平台无关的文件格式&#xff0c;其实jar包就是java的类进行编译生成的class文件进行打包的压缩包。 JAR以ZIP文件格式为基础&#xff0c;与ZIP不同的是&#xff0c;JAR不仅用于压缩和发布&#xff0c;还用于部署和封装库、组件和插…

R实验——logistic回归、LDA、QDAKNN

数据集介绍&#xff1a; mpg&#xff0c;miles per gallon即油耗&#xff0c;这个数据集来自卡内基梅隆大学维护的StatLib库。1983年美国统计协会博览会使用了该数据集。这个数据集是对StatLib库中提供的数据集稍加修改的版本。根据Ross Quinlan(1993)在预测属性“mpg”中的使…