python统计文章中高频词汇并生成词云

LZ的同事写的文章经常被公司或者上级部门发表,LZ对此觉得同事写的文章一定有什么套路或者经常使用的词句,所以LZ收集了6篇同事的文章希望统计出其文章的高频词语以此可以效仿。

首先,把6篇文章放在同一个Text文档中,准备好词云需要的背景图片(有没有无所谓),然后,开始撸代码。。。。

import jieba.analyse #引入词库
import cv2 #图片处理
from PIL import Image
#from scipy.misc import imread
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator #词云
import docx
from matplotlib.font_manager import *import codecs
import jieba
from collections import Counter  #统计
import matplotlib.pyplot as plt #数据可视化工具
from wordcloud import WordCloud
import imageio# 1.读取数据
with open("E:\Desktop\pxx1.txt", "rb") as f:text = f.read()# 2.基于 TextRank 算法的关键词抽取,top100
keywords = jieba.analyse.textrank(text, topK=100, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)  #逗号分隔list = jieba.cut(text)
c = Counter()#给分词定义条件进行筛选统计词频
for x in list:if len(x) > 1 and x != '\r\n':c[x] += 1with open(r'E:\Desktop\bb.txt', 'w', encoding='gbk') as fw:for (k,v)in c.most_common():fw.write(k+' '+str(v)+'\n')fw.close()# 指定中文字体,不然中文显示框框
font = r'./font/simhei.ttf'
print(file)
# 指定背景图,随意
image = cv2.imread('G:/Picture/413x626.jpg')wc = WordCloud(font_path=font,background_color='white',  # 背景色mask=image,  # 背景图stopwords=STOPWORDS,  # 设置停用词max_words=100,  # 设置最大文字数max_font_size=100,  # 设置最大字体width=800,height=1000,
)# 生成词云
image_colors = ImageColorGenerator(image)
wc.generate(file)# 使用matplotlib,显示词云图
plt.imshow(wc)  # 显示词云图
plt.axis('off')  # 关闭坐标轴
plt.show()# 保存图片
wc.to_file('news.png')fig, ax = plt.subplots()
myfont = r'./font/simhei.ttf'
N = 20
words = []
counts = []
for line in open(r'E:\Desktop\bb.txt'):line.strip('\n')words.append(line.split(' ')[0])counts.append(int(line.split(' ')[1].strip('\n')))
colors = ['#FA8072']#绘制前十条数据(N=20)
rects = ax.barh(words[:N], counts[:N], align='center', color=colors)
ax.set_yticklabels(words[:N],fontproperties="SimHei")
ax.invert_yaxis()
ax.set_title('pxx文章中的高频词汇TOP20',fontproperties="SimHei", fontsize=17)
ax.set_xlabel(u"出现次数",fontproperties="SimHei")
plt.show()

效果:

嗯。。。看来在文章里强调客户和工作很重要

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66502.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌阅科技让数字化阅读更便捷

阅读是快速让人提高的方法,不需要你花很多的钱只需要你沉下心耐着性子从书中得到知识与经验,掌阅科技作为一家在国内领先的数字化阅读平台更是为无数爱好阅读的人提供便利。古书有云“书中自有颜如玉,书中自有黄金屋”。现在社会的阅读可能没有颜如玉和黄金屋,但是阅读还是可以…

掌阅科技与厦门航空联合推出首个机上阅读服务“天际悦读”

【TechWeb】6月27日消息,掌阅科技和厦门航空今日联合宣布,将推出全国首个常态化空中阅读服务“天际阅读”。 厦门航空空中乘务部副总经理张玉晶指出,厦航经过对旅客画像、出行习惯与需求,以及行业发展趋势的综合分析后&#xff0c…

高清3D人体解剖图谱

目前见过的高清3D人体模型最好的一个了,截图供大家欣赏,这个可能我通过微信传的时候像素有损失,大家大量,我截取的当然也只有平面图,3D的效果,请恕我的无能,还不知道3D的人体模型要怎么截取。话…

PXI机箱大解剖

上一节给大家介绍了PXI的背景和历史,让我们对PXI的起源有了更多的认识。同时对PXI机箱做了初步介绍。本节将会从10个方面为大家详细解剖PXI机箱。 PXI槽位序号 每一个PXI槽位都有一个对应的槽位号(大部分情况下)被标注在PXI插槽下方。一般为从左到右排列。 图1.3…

经典大脑解剖网站大全

本文首发在个人博客上(7988888.xyz),此文章中所有链接均通过博客进行访问。 根据互联网公开资源,整理了部分大脑解剖学习资源网站,仅供学习参考。 在脑科学的研究中,大脑解剖学知识的了解是必不可少的&am…

视网膜生理解剖

Cornea:角膜 Pupil:瞳孔 Lris:虹膜 Lens:晶状体 Retina:视网膜 Macula:黄斑 Optic nerve:视神经 视网膜(retina)居于眼球壁的内层,是一层透明的薄膜。视网膜…

Maven仓库解剖

介绍 分类 项目从仓库找包顺序 各个仓库的介绍 本地仓库 私服 nexus私服 阿里云云效制品仓库 中央仓库 公共仓库 演示 介绍 所谓的maven仓库,其实就是存放各个依赖包的文件夹,maven不仅是构建工具和依赖管理工具以及项目信息管理工具&#xff…

冠状动脉解剖(CTA)

以下的认知,也是通过其他的文章东挪西凑出来的,结合自己的理解归纳一下。后续还会更正,也望大家指正。 1 基本概念 左冠状动脉(Left Coronary artery) 左冠状动脉主干:Left Main Artery(LM&a…

解剖常见电子元器件,了解其内部结构

作者:TubeTimeUS 排版:晓宇 看一下LED,电阻,电容,二极管等这些迷人且很有教育意义的横截面,喜欢请留言点赞并转发,感谢芯片之家小伙伴的支持! 1、电容 这是表面贴装电容的横截面&am…

大脑解剖图(纯图片)

因为上一个排版有问题,本来是左图右字的,但是它一发布就全都乱套了,修改了很多次也没改成,所以就截图重新发布了一个。 图片均来自《神经科学——探索脑》中文版(第2版)一书,Mark F.Bear [美]…

计算机内存和u盘存储原理,解剖U盘存储结构原理

原标题:解剖U盘存储结构原理 U盘的结构比较简单,主要是由USB插头、主控芯片、稳压IC(LDO)、晶振、闪存(FLASH)、PCB板、帖片电阻、电容、发光二极管(LED)等组成。 U盘的基本工作原理也比较简单:USB端口负责连接电脑,是数据输入或输…

Milvus 数据处理流程解剖

编者按:本文详细解剖 Milvus 2.0 主要的数据处理流程以及访问接入层( Access Layer)。 主要数据处理流程 MsgStream 接口 写路径 读路径 DDL 流程 建索引流程 Access Layer 代码 主要数据处理流程 Milvus 2.0 中主要的数据处理流程包括…

《C语言深度解剖》20道习题解析

1.下面的代码输出是什么&#xff1f;为什么&#xff1f; void foo(void) {unsigned int a 6; int b -20;(a b>6)? puts(">6"):puts("<6"); } 答案&#xff1a;输出  >6 原因&#xff1a;当表达式中存在有符号类型和无符号类型时所有的…

顺序表的深度解剖

篮球哥温馨提示&#xff1a;编程的同时不要忘记锻炼哦&#xff01; 时光不老&#xff0c;咱们不散&#xff0c;这里依旧是爱打篮球的程序猿带你学顺序表&#xff01; 你接下看到的可能是最详细的顺序表讲解之一 好的废话不多说&#xff0c;爱打篮球的程序猿直接带你上高速&…

C语言深度解剖——C语言关键字

每天进步一点点&#xff0c;坚持带来大改变&#xff01;&#xff01;&#xff01; 前言&#xff1a; 在C语言的学习过程中会遇到许多的关键字&#xff0c;我们是否真的详细了解这些关键字的使用方法和使用场景&#xff0c;下面我们来详解C语言中的32个关键字 1.C语言关键字概览…

C语言深度解剖:关键字

第一个C语言程序内存定义与声明变量是什么为什么要定义变量定义变量的本质定义声明 关键字 - auto局部与全局变量作用域 vs 生命周期auto 关键字 - register寄存器本质register 修饰变量 1、多文件1.1、变量声明1.2、头文件包含内容1.3、函数声明 1.4、跨文件2、static1、sizeo…

ADC采样效应及相关影响解剖

在前述文章&#xff0c;BUCK电路模拟补偿器的数字化过程 &#xff0c;我们讨论了模拟补偿器的数字化&#xff0c;事实上&#xff0c;数字化过程的第一个重要的环节就是ADC对反馈量的采样&#xff0c;本文就重点探讨一下由于ADC采样频率带来的一些问题&#xff0c;进而讨论一下相…

大脑解剖图

脑的表面解剖 1&#xff1a;嗅球 2&#xff1a;大脑 3&#xff1a;小脑 4&#xff1a;脑干 5&#xff1a;外侧裂 6&#xff1a;中央前回 7&#xff1a;中央沟 8&#xff1a;中央后回 9&#xff1a;颞上回 10&#xff1a;颞叶 11&#xff1a;额叶 12&#xff1a;顶叶 …

冠状动脉解剖结构

学习冠脉解剖结构过程中看了很多的PPT但是要么问题过多要么&#xff0c;解剖结构图展示的不够清晰明了&#xff0c;现在网络上搜集了一些比较好的PPT的截图&#xff0c;供大家学习。 CTA横断面冠脉解剖结构 PL可从左发出也可以从右侧发出 Reference&#xff1a; [1]: 帮你真正…

推荐一个解剖学网站

博主高中是物生班的&#xff0c;非常喜欢生物这门课&#xff0c;后来学了很多工程类的知识&#xff0c;愈发觉得人体真是一个伟大的工程架构&#xff0c;我们如今的工程学&#xff0c;很多也是在变相的拓展人体的能力。从这个角度来看&#xff0c;医生就是人体维修师&#xff0…