python读取txt文本数据进行分词并生成词云图片

python对数据分词,生成词云图片

小编在日常生活工作中学习到的点,在此记录一下,希望能够帮助有需要的小伙伴。


文章目录

  • python对数据分词,生成词云图片
  • 前言
  • 一、全部代码
  • 选用的图片和效果图


前言

对文本数据内容有个直观的感受,如小说哪些内容出现的最多,主要讲述什么事情等等。


提示:以下是本篇文章正文内容,下面案例可供参考

一、全部代码

import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库# 读取文件
fn = open('result.txt','r',encoding='utf-8') # 打开文件
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于', u'对',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',u'通常',u'如果',u'我们',u'需要'] # 自定义去除词库for word in seg_list_exact: # 循环读出每个分词if word not in remove_words: # 如果不在去除词库中object_list.append(word) # 分词追加到列表# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词
print (word_counts_top10) # 输出检查
word_counts_top10 = str(word_counts_top10)# 词频展示
mask = np.array(Image.open('image.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(font_path='simfang.ttf', # 设置字体格式mask=mask, # 设置背景图max_words=200, # 最多显示词数max_font_size=150, # 字体最大值background_color='white',width=800, height=600,
)wc.generate_from_frequencies(word_counts) # 从字典生成词云
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
wc.to_file('wordcloud.png')

注意:simfang.ttf文件需要在网上下载放入本地中


选用的图片和效果图

注意:选用的图片要以白色为底,如下图
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21251.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

98. 如何用 ABAP 生成带有水印(Watermark)的 PDF 文件

文章目录 1. Form Interface 的增强2. Form Template 的增强我之前写过一篇文章:每日一个 ChatGPT 使用小技巧系列之3 - 利用角色扮演提高 ChatGPT 回复的质量,有朋友评论说,向 ChatGPT 提出了通过 ABAP 给 PDF 添加水印的问题,但 ChatGPT 的回复没有任何的参考意义。 本文…

Android如何实现地图定位?Android studio+百度地图API+Android6.0系统实现地图显示、地址设置、点击地图定位功能(详细)

文章说明:本文初衷是为了记录毕设学习过程,避免忘记操作流程。该功能是毕业设计的Android软件端的功能之一,本文将从获取百度地图密钥(AK)开始,详细地对地图定位配置和相关代码进行说明,文末将附…

坚鹏:《7家银行科技高管就ChatGPT等AI问题进行一场脑暴》读后感

最近看了一篇报道——《7家银行科技高管,就ChatGPT等AI问题进行了一场脑暴》,收获特别大。作为一名银行数字化转型导师,从银行数字化转型的角度谈谈我的几点感想: 1、ChatGPT未来肯定有可能在银行得到大量地应用。网商银行等银行…

走了!再无百年阿里~

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:ChatGPT研究框架(80页PPT,附下载)…

AI已到,普通人的机会在哪里?

“普通人赚到钱很难 但是被骗到钱很容易”。 每当火起来一个行业(或者仅是一个概念),都会有人来问: 现在去做点什么,能够踩上风口? 普通人的赚钱机会在哪? 怎么做能够暴富? 让我们先…

ChatGPT火遍全球,程序员的饭碗保不住了?北漂程序员说说心里话

ChatGPT火遍全球,程序员的饭碗保不住了吗?说ChatGPT一夜火遍全球一点也不夸张,本来这玩意是互联网圈里的东西,现在发现好像网上每个人都在聊这个,连续很多天都霸占着热点榜,在股市里只要跟ChatGPT有一星星关…

GPT算法讲解(chatGPT前世)

11期:GPT系列算法与实现(chatGPT前世今生之前世) ***** 文章正常结构分三部分 ***** ***** 日常感悟***** ***** 股市瞎聊***** ***** 技术分享**** (文末加餐:深度学习的基础系列课程来啦,一步一步走进人工智能,欢迎…

对话ChatGpt…它建议我考研选择财经新闻?

最近不少打工人开始担心ChatGPT会导致自己失业。 甚至有人总结了未来因ChatGPT而失业的十大职业:1. 技术工种(程序员、软件工程师、数据分析师)2. 媒体工作者(广告、内容创作者、记者)3. 法律行业工作者(律…

机器学习丨AI产品经理应该懂哪些技术(附实战代码)

前言 本期目的:回顾之前敲代码的日常,利用生活场景帮助小白认识机器学习及学习过程中算法原理和评价指标。 适用读者:AI/数据产品经理。 阅读重点:品,细品,结合班级故事再品。 最近看了很多关于机器学习…

【学习笔记】机器学习基础--逻辑回归

系列文章目录 【第一章原理】【学习笔记】机器学习基础--线性回归_一无是处le的博客-CSDN博客 【第一章代码解释】 【线性回归】原生numpy实现波士顿房价预测_一无是处le的博客-CSDN博客 目录 系列文章目录 前言 一、【引入逻辑回归】 二、逻辑回归的介绍 定义与公式 三…

AutoCV第七课:ML基础

目录 ML基础注意事项2023/5/29更新前言1. 复习sqrt函数2. 线性回归预测房价2.1 问题分析2.2 代码实现2.3 总结 3. 逻辑回归分类3.1 问题1分析3.2 问题1代码实现3.3 问题2分析3.4 问题2代码实现3.5 拓展-导数推导3.6 总结 个人总结 ML基础 注意事项 2023/5/29更新 新增逻辑回…

机器学习之回归模型预测性能评估指标(RMSE、MSE、MAE、MAPE、SMAPE、R^2 Score、R^2 )

博主推荐访问chatGPT、急速访问Github必备魔法:SockBoom 或者网址:https://sockboom.shop/auth/register?affid212828 一、机器学习简介 机器学习就是通过大量的数据进行训练,然后得出输入数据的模型特征;再次输入相关的数据…

PyTorch常用的损失函数(ChatGPT)

L1Loss nn.L1Loss 也称为平均绝对误差(Mean Absolute Error,MAE)。它计算预测值与真实值之间的差异(即误差),然后取绝对值并求和,最后除以样本数量得到平均误差。具体来说,对于一批…

ChatGPT vs Google:谁是答案之王?微软揭示未来搜索的样子

已经习惯了网购的你,有没有想过一旦电子商务行业遭受重创,会对我们的日常生活造成什么影响呢? 我们已经习惯了在生活中碰到什么不懂的事情就 Google 一下或者百度一下,甚至许多人的职业都跟 Google 密切相关,比如自媒…

替代MySQL半同步复制,Meta技术团队推出MySQL Raft共识引擎

作者:Anirban Rahut、Abhinav Sharma、Yichen Shen、Ahsanul Haque 原文链接:https://engineering.fb.com/2023/05/16/data-infrastructure/mysql-raft-meta/ 译者:ChatGPT 责编:张红月 MySQL Raft是MySQL数据库中一种基于Raft协议…

AI for Science 的上半场:人工智能如何重新定义科学研究新范式?

AI发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。 万众瞩目下,今年10月,有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓,授予了对“链接化学…

AI for Science的上半场来了!

AI发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。 万众瞩目下,今年10月,有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓,授予了对“链接化学…

ChatGPT: 智能对话时代的未来展望与应用实践

ChatGPT: 智能对话时代的未来展望与应用实践 简介 ChatGPT 是一种基于深度学习和自然语言处理技术的人工智能对话模型。它可以通过生成自然语言文本的方式,与用户进行交互式的对话。作为一种先进的对话生成模型,ChatGPT 在近年来快速发展的人工智能领域中…

德州扑克AI实现 TexasHoldem Poker

参考了一下这篇文献,http://cowboyprogramming.com/2007/01/04/programming-poker-ai/ 自己用go实现了一个德州扑克AI,效果还可以。 正常和它玩耍的时候,互动性还不错。但是也有一点点问题,比如玩家乱来,把把都ALL IN(…

PokerNet-poker recognition: 扑克识别 (6)

文章目录 准备最终结果未来改进 准备 机器: Titan XP 12GB, 64GB RAM, 机器非常强,可靠。 下次有机会购买RTX 2080 Ti 试试 最终结果 错误率可以达到万分之一,非常可考 未来改进 精简模型多模型融合,提升准确度