Python WordCloud库与jieba分词生成词云图的完整指南

Python WordCloud库与jieba分词生成词云图的完整指南

关键技术点及代码示例

1. 安装必要的库

使用pip安装wordcloudjieba库:

pip install wordcloud
pip install jieba

2. jieba分词

精确模式
import jiebatext = "Python是广泛使用的编程语言。它被用于网站开发、数据分析、人工智能等多个领域。"
seg_list = jieba.cut(text, cut_all=False)  # 精确模式
print("精确模式: " + "/ ".join(seg_list))
搜索引擎模式
seg_list = jieba.cut_for_search(text)  # 搜索引擎模式
print("搜索引擎模式: " + "/ ".join(seg_list))

3. 去除停用词

创建一个停用词列表,并从分词结果中去除停用词:

with open('stopwords.txt', 'r', encoding='utf-8') as f:stopwords = [line.strip() for line in f.readlines()]words = [word for word in seg_list if word not in stopwords and len(word) > 1]

4. 统计词频

使用collections.Counter类统计词频:

from collections import Countercounter = Counter(words)
for word, count in counter.most_common(10):print(word, count)

5. 生成词云图

创建WordCloud对象并生成词云图:

from wordcloud import WordCloud
import matplotlib.pyplot as pltwordcloud = WordCloud(font_path='path_to_your_chinese_font.ttf',  # 指定中文字体路径background_color='white').generate_from_frequencies(dict(counter))plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()

6. 保存词云图

将生成的词云图保存为图片文件:

wordcloud.to_file('wordcloud.png')

完整代码

结合以上关键技术点,以下是生成词云图的完整代码:

import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plttext = "Python是广泛使用的编程语言。它被用于网站开发、数据分析、人工智能等多个领域。"# 使用jieba进行中文分词
seg_list = jieba.cut(text, cut_all=False)  # 精确模式# 要有这个文件stopwords.txt   去除停用词
with open('stopwords.txt', 'r', encoding='utf-8') as f:stopwords = [line.strip() for line in f.readlines()]
words = [word for word in seg_list if word not in stopwords and len(word) > 1]# 统计词频
counter = Counter(words)
# 打印词频最高的10个词
for word, count in counter.most_common(10):print(word, count)# 生成词云图
wordcloud = WordCloud(font_path='C:/Windows/Fonts/simhei.ttf',  # 指定中文字体路径background_color='white').generate_from_frequencies(dict(counter))# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()# 保存词云图
wordcloud.to_file('wordcloud.png')

注意事项

  • 确保stopwords.txt文件中包含了你想要去除的停用词,每行一个词。
  • font_path参数需要指向一个有效的中文字体文件路径,否则中文字符将无法正确显示。
  • path_to_your_chinese_font.ttf需要替换为你实际的中文字体文件路径。
  • stopwords.txtwordcloud.png是示例文件名,你可以根据需要修改它们。

通过上述代码,你可以实现从中文文本的分词到词云图的生成和保存的完整流程。这是一个非常实用的文本数据可视化工具,可以帮助你快速理解文本数据中的关键信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/461713.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机实时提取SIM卡打电话的信令声音-新的篇章(三、Android虚拟声卡探索)

手机实时提取SIM卡打电话的信令声音-新的篇章(三、Android虚拟声卡探索) 前言 前面的篇章中,我们从理论方向和实际市面上出现的音频线传输声音的方式,讨论绕开手机对SIM卡电话通话声音的封锁场景的可行性,并实际选购几款数字和模拟的USB转接…

安装fpm,解决*.deb=> *.rpm

要从生成 .deb 包转换为 .rpm 包,可以按照以下步骤修改打包脚本 1. 使用 fpm 工具 fpm 是一个强大的跨平台打包工具,可以将 .deb 包重新打包成 .rpm,也可以直接从源文件打包成 .rpm。 安装 fpm sudo apt-get install ruby-dev sudo gem in…

青出于“蓝”的合资第一新能源,“换壳”背后有门道

文/王俣祺 导语:千呼万唤始出来的新能源“马6”终于亮相了,这款马自达EZ-6本以为凭借马自达多年来在国内市场深耕的底蕴可以收获一片支持,但最近却深陷“换壳”风波。那么今天我们就一起看看,这款马自达EZ-6和被冠以“原型”的深蓝…

HT8787B 可任意限幅、内置自适应升压的2x9.0W立体声音频功放

1 特性 ● 可任意配置的限幅功能 自由配置音频限制幅度,使输出音频信号限制在固定失真水平内 ● 内置自动限温控制功能 适应不同散热条件,避免出现过温关断现象 ● 高效自适应G类升压功能,有效延长播放时间 可调节最大限流值,有效…

Ansible基本使用

目录 介绍 安装 inventory-主机清单 分组 子组 modules-模块 command shell script file copy systemd yum get_url yum_repository user mount cron 介绍 ansible是基于python开发的自动化运维工具。架构相对比较简单,仅需通过ssh连接客户机执行…

Java并发常见面试题总结(上)

线程 ⭐️什么是线程和进程? 何为进程? 进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程 在 Java 中,当我们启动 main 函数时其实就是启动了一…

38.第二阶段x86游戏实战2-HOOK窗口消息机制(解决多开窗口句柄问题)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…

【原创分享】详述中间件的前世今生

中间件是一种软件组件,位于应用程序和操作系统之间,通过提供统一的接口和功能来简化开发和管理应用程序、提高应用程序的可靠性和性能。 中间件的前世可以追溯到20世纪80年代的分布式系统和网络技术的发展。在那个时候,随着计算机网络的普及…

vite+vue3+ts使用vue3-draggable-resizable,可拖动、调整大小的模块库,真的太好用了!

前言:公司业务:在很多地方装了路灯,给路灯做了个管理系统,有管理系统肯定就是增,删,查,改,但是这次改好像有点复杂。给路灯下发指令,可以在路灯的大屏放文字,…

想给视频去背景音乐?简单几步搞定

在数字视频编辑和处理中,去除视频中的背景音乐是一个常见的需求。无论是因为背景音乐与视频内容不符,还是出于版权考虑,掌握视频去背景音乐的方法都显得尤为重要。那么,视频怎么去背景音乐呢?本文将详细介绍几种去除视…

C语言串口接收GPS数据

要在C语言中接收GPS数据,需要使用串口通信来与GPS设备进行数据交互。一个简单的串口通信代码主要包含了以下几个部分: 1.标准库头文件 stdio.h:包含输入输出函数,如 printf string.h:包含字符串处理函数&#xff0c…

深度学习:yolov3的使用--建立模型

使用argparse模块来定义和解析命令行参数 创建一个ArgumentParser对象 parser argparse.ArgumentParser() 训练的轮数,每批图像的大小,更新模型参数之前累积梯度的次数,模型定义文件的路径。 parser.add_argument("--epochs", typeint, d…

smuge error

0 Preface/Foreword 1 解决方法 第一步:跳过大文件下载,到时候统一使用快速批处理fast batch git lfs install --skip-smudge 故意敲错指令,会出现git lfs install 的usage: 第二步:clone仓库 下载结果:…

R语言机器学习与临床预测模型79--机器学习总览

R小盐准备介绍R语言机器学习与预测模型的学习笔记 你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】 01 机器学习分类 机器学习模型主要分为有监督、无监督和强化学习方法。 监督学习 监督学习是教师向学生提供关于他们在考试中是否表现良好的反馈。其中…

黑马软件测试第二篇_功能测试

软件质量模型 应用场景:提供对于软件产品从测试角度思考的一种思路 定义:实际实现的产品和需求描述是否相一致,相一致程度高说明质量满足需求(好) 如何评判软件的质量? 功能:软件产品是否具备某…

React 中组件通信的几种主要方式

一、父传子&#xff1a; 1. 传递多个属性 父组件可以通过 props 传递多个属性给子组件。 示例 // 子组件 function Son(props) {return (<div>This is Son, {props.name} - Age: {props.age}</div>); }// 父组件 function App() {const name This is App N…

精华帖分享|如何全方位无死角保护你的交易所账号

本文来源于量化小论坛策略分享会板块精华帖&#xff0c;作者为菊座&#xff0c;发布于2024年3月4日。 以下为精华帖正文&#xff1a; 01 背景 起因是这两周保4赚麻了&#xff0c;看到中性群里大佬们的曲线&#xff0c;大家都想加大仓位&#xff0c;于是我在群里提醒了下大家资…

【STM32】SD卡

(一)常用卡的认识 在学习这个内容之前&#xff0c;作为生活小白的我对于SD卡、TF卡、SIM卡毫无了解&#xff0c;晕头转向。 SD卡&#xff1a;Secure Digital Card的英文缩写&#xff0c;直译就是“安全数字卡”。一般用于大一些的电子设备比如&#xff1a;电脑、数码相机、AV…

11月第一篇新作,十一月对我好一点:C++之继承(2)

C之继承&#xff08;2&#xff09; 虚继承 很多⼈说C语法复杂&#xff0c;其实多继承就是⼀个体现。有了多继承&#xff0c;就存在菱形继承&#xff0c;有了菱形继承就有 菱形虚拟继承&#xff0c;底层实现就很复杂&#xff0c;性能也会有⼀些损失&#xff0c;所以最好不要设计…

tiktok批量添加达人怎么弄

在 TikTok 上批量添加达人可以借助一些工具或方法&#xff0c;以下是一些常见的途径&#xff1a; 点我达秘免费体验地址注册 使用达人邀约工具&#xff1a; 功能特点&#xff1a;这类工具专为 TikTok 跨境小店和本土小店提供服务&#xff0c;可以实现多国家、多店铺同时私信和…