Gradio 案例——将文本文件转为词云图

文章目录

  • Gradio 案例——将文本文件转为词云图
    • 界面截图
    • 依赖安装
    • 项目目录结构
    • 代码

Gradio 案例——将文本文件转为词云图

  • 利用 word_cloud 库,将文本文件转为词云图
  • 更完整、丰富的示例项目见 GitHub - AlionSSS/wordcloud-webui: The web UI for word_cloud(text to word cloud picture converter)

界面截图

image.png

依赖安装

  • 新建一个虚拟环境 Python 3.9.16
  • 依赖
    • $ pip install gradio==4.29 -i "https://pypi.doubanio.com/simple/"
    • $ pip install wordcloud==1.9.3 -i "https://pypi.doubanio.com/simple/"
    • $ pip install jieba==0.42.1 -i "https://pypi.doubanio.com/simple/"

项目目录结构

wordcloud-webui         # 目录
--/resources             # 资源目录
--/consts.py             # py文件,常量
--/gradio_interfaces.py  # py文件,Gradio视图
--/jieba_util.py         # py文件,工具库文件
--/lib_word_cloud.py     # py文件,工具库文件
--/main.py               # py文件,入口

代码

  • main.py
from gradio_interfaces import ifaceif __name__ == "__main__":iface.launch()
  • lib_word_cloud.py
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
from PIL import Imagefrom consts import *def text2wordcount_normal(text: str,background_color: str = "white",margin = 2,min_font_size = 4,max_font_size = 200,font_path = None,width: int = 400,height: int = 200,
):if not background_color or "" == str(background_color).strip():background_color = "white"if not min_font_size or  min_font_size < 1:min_font_size = 4if not max_font_size or max_font_size < 4:max_font_size = 200    if not font_path or "" == str(font_path).strip():font_path = DEFAULT_FONT_PATHif not width or width < 1:width = 400if not height or height < 1:height = 200 # Generate a word cloud imagewordcloud = WordCloud(font_path=font_path,width=width, height=height, background_color=background_color, max_words=2000, margin=margin, min_font_size=min_font_size, max_font_size=max_font_size, random_state=42).generate(text)return wordcloud.to_image()def text2wordcount_mask(text: str,background_color: str = "white",margin = 2,min_font_size = 4,max_font_size = 200,font_path = None,mask_image = None,mask_color = None,contour_width=3,contour_color="steelblue",
):if not background_color or "" == str(background_color).strip():background_color = "white"if not min_font_size or  min_font_size < 1:min_font_size = 4if not max_font_size or max_font_size < 4:max_font_size = 200   if not font_path or "" == str(font_path).strip():font_path = DEFAULT_FONT_PATHif not contour_width or contour_width < 0:contour_width = 3      if not contour_color or "" == str(contour_color).strip():contour_color = "steelblue"# mask_colorif mask_color is not None:image_colors = ImageColorGenerator(mask_color, True)else:image_colors = ImageColorGenerator(mask_image, True)# Generate a word cloud imagewordcloud = WordCloud(font_path=font_path,mask=mask_image,background_color=background_color,color_func=image_colors,contour_width=contour_width,contour_color=contour_color,max_words=2000, margin=margin, min_font_size=min_font_size, max_font_size=max_font_size, random_state=42).generate(text)return wordcloud.to_image()
  • jieba_util.py
import jieba
# jieba.enable_parallel(4)from consts import *# The function for processing text with Jieba
def jieba_processing_txt(text, userdict_list=['阿Q', '孔乙己', '单四嫂子']):if userdict_list is not None:for word in userdict_list:jieba.add_word(word)mywordlist = []seg_list = jieba.cut(text, cut_all=False)liststr = "/ ".join(seg_list)with open(STOPWORDS_PATH, encoding='utf-8') as f_stop:f_stop_text = f_stop.read()f_stop_seg_list = f_stop_text.splitlines()for myword in liststr.split('/'):if not (myword.strip() in f_stop_seg_list) and len(myword.strip()) > 1:mywordlist.append(myword)return ' '.join(mywordlist)
  • gradio_interfaces.py
import gradio as grimport lib_word_cloud
import jieba_utilfrom consts import *def service_text2wc(text_file,text_lang,text_dict: str,background_color,margin,max_font_size,min_font_size,font_file,width,height,mask_image,mask_color,contour_width,contour_color,
):if not text_file:gr.Warning(f"请传入正确的文本文件!")returnif margin < 0 :gr.Warning(f"字体间隔配置不合法!")returnif min_font_size < 0 or max_font_size < 0 or min_font_size > max_font_size:gr.Warning(f"字体大小配置不合法!")returntry:with open(file=text_file.name, encoding="utf-8") as file:text = file.read()if text_lang == '中文':gr.Info(f"选择了中文,将使用Jieba库解析文本!")userdict_list = []if text_dict is not None:# userdict_list = map(lambda w: w.strip(), text_dict.split(", "))userdict_list = [w.strip() for w in text_dict.split(",")]text = jieba_util.jieba_processing_txt(text, userdict_list)font_path = font_file.name if font_file else Noneif mask_image is not None:return lib_word_cloud.text2wordcount_mask(text,background_color,margin,min_font_size,max_font_size,font_path,mask_image,mask_color,contour_width,contour_color,)else:return lib_word_cloud.text2wordcount_normal(text, background_color, margin,min_font_size,max_font_size,font_path, width, height)except Exception as e:print(e)raise gr.Error("文本转词云图时,发生异常:" + str(e))js = """
function createGradioAnimation() {var container = document.createElement('div');container.id = 'gradio-animation';container.style.fontSize = '2em';container.style.fontWeight = 'bold';container.style.textAlign = 'center';container.style.marginBottom = '20px';var text = '欢迎使用“词云转换器”!';for (var i = 0; i < text.length; i++) {(function(i){setTimeout(function(){var letter = document.createElement('span');letter.style.opacity = '0';letter.style.transition = 'opacity 0.5s';letter.innerText = text[i];container.appendChild(letter);setTimeout(function() {letter.style.opacity = '1';}, 50);}, i * 200);})(i);}var gradioContainer = document.querySelector('.gradio-container');gradioContainer.insertBefore(container, gradioContainer.firstChild);return 'Animation created';
}
"""with gr.Blocks(title="词云转换器", js=js) as iface:with gr.Row():with gr.Column():with gr.Group():with gr.Row():input_text_file = gr.File(label="待处理的文本文件(必填)")with gr.Column():gr.Label(label="Tips", value="请传入正常可读的文本文件,如以.txt结尾的文档", color="#fee2e2")gr.File(value=EXAMPLE_TEXT_FILE, label="文本文件的样例")input_text_lang = gr.Radio(label="文本语言模式", choices=["中文", "英文"], value="中文")input_text_dict = gr.Textbox(label="自定义分词词典(可选)", info="中文模式使用,多个词之间用英文逗号分隔,例如'阿Q, 孔乙己, 单四嫂子'")with gr.Tab("普通模式"):with gr.Row():input_width = gr.Number(value=400, label="生成图像的宽", minimum=1)input_height = gr.Number(value=200, label="生成图像的高", minimum=1)gr.Label(label="Tips", value="使用该模式时,记得清理掉“Mask模式”下的“Mask图像”", color="#fee2e2")with gr.Tab("Mask模式"):with gr.Row():input_contour_width = gr.Number(value=3, label="轮廓线的粗细", minimum=0)input_contour_color = gr.Textbox(value="steelblue", label="轮廓线的颜色")with gr.Row():input_mask_image = gr.Image(label="Mask图像(决定词云的形状、颜色、宽高)")input_mask_color = gr.Image(label="若传入该图,则词云的颜色由该图决定")# gr.Image(value=EXAMPLE_MASK_IMAGE_PATH, label="Mask图像的样例", interactive=False)gr.Gallery(value=[EXAMPLE_MASK_IMAGE_PATH, EXAMPLE_MASK_IMAGE_PATH, EXAMPLE_MASK_IMAGE_PATH], label="Mask图像的样例", interactive=False)with gr.Column():with gr.Group():with gr.Row():with gr.Group():input_bg_color = gr.Textbox(value="white", label="词云图的背景色(默认为'white')")input_margin = gr.Number(value=2, label="字体间隔(默认为'2')", minimum=0)with gr.Row():input_min_font_size = gr.Number(value=4, label="字体大小-最小值", minimum=1)input_max_font_size = gr.Number(value=200, label="字体大小-最大值", minimum=4)    input_font_file = gr.File(label="词云图的字体文件(可选,如otf文件)")format_radio = gr.Radio(choices=["png", "jpeg", "webp", "bmp", "tiff"], label="词云图像格式", value="png")submit_button = gr.Button("开始处理", variant="primary")output_image = gr.Image(label="词云图", format="png")def fix_format(x):output_image.format = x return Noneformat_radio.change(fn=fix_format, inputs=format_radio)submit_button.click(fn=service_text2wc,inputs=[input_text_file,input_text_lang,input_text_dict,input_bg_color,input_margin,input_max_font_size,input_min_font_size,input_font_file,input_width,input_height,input_mask_image,input_mask_color,input_contour_width,input_contour_color,],outputs=output_image,)
  • consts.py,记得修改下下面文件的地址,和resource目录对应
# 样例文本
EXAMPLE_TEXT_FILE = r".\wordcloud-webui\resources\CalltoArms.txt"
# MASK图像样例
EXAMPLE_MASK_IMAGE_PATH = r".\wordcloud-webui\resources\parrot_mask.png "
# 分词器的 stop word 库
STOPWORDS_PATH = r".\wordcloud-webui\resources\stopwords_cn_en.txt"
# 词云图的默认字体
DEFAULT_FONT_PATH = r".\wordcloud-webui\resources\SourceHanSerifK-Light.otf"
  • resources 目录
    • parrot_mask.png parrot_mask.png
    • CalltoArms.txt https://github.com/amueller/word_cloud/blob/main/examples/wc_cn/CalltoArms.txt
    • SourceHanSerifK-Light.otf https://github.com/amueller/word_cloud/blob/main/examples/fonts/SourceHanSerif/SourceHanSerifK-Light.otf
    • stopwords_cn_en.txt https://github.com/amueller/word_cloud/blob/main/examples/wc_cn/stopwords_cn_en.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343659.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法导论实战(三)(算法导论习题第二十四章)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;算法启示录 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 前言 第二十四章 24.1-3 24.1-4 2…

DVWA-XSS(Reflected)

反射型XSS可以用来窃取cookie Low 输入1111进行测试&#xff0c;发现1111被打印 输入<script>alert(document.cookie)</script>&#xff0c;出现弹窗&#xff0c;获得cookie Medium 查看后端代码&#xff0c;发现对<script>进行了转义&#xff0c;但是…

【UML用户指南】-10-对高级结构建模-高级类

目录 1、类目 2、高级类 3、可见性 4、实例范围和静态范围 5、抽象元素、叶子元素和多态性元素 6、多重性 7、属性 8、操作 9、模板类 10、标准元素 1、类目 类目 &#xff08;classifier&#xff09;是描述结构特征和行为特征的机制。类目包括类、关联、接口、数据类…

nvm安装使用

什么是 node.js&#xff1f;&#xff1a; Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时&#xff0c;可以在服务器端运行 JavaScript。由于其非阻塞 I/O 模型和事件驱动架构&#xff0c;Node.js 非常适合构建高并发、低延迟的应用程序。随着 Node.js 的不断发展&…

STM32作业实现(四)光敏传感器

目录 STM32作业设计 STM32作业实现(一)串口通信 STM32作业实现(二)串口控制led STM32作业实现(三)串口控制有源蜂鸣器 STM32作业实现(四)光敏传感器 STM32作业实现(五)温湿度传感器dht11 STM32作业实现(六)闪存保存数据 STM32作业实现(七)OLED显示数据 STM32作业实现(八)触摸按…

SSM框架整合,内嵌Tomcat。基于注解的方式集成

介绍&#xff1a; SSM相信大家都不陌生&#xff0c;在spring boot出现之前&#xff0c;SSM一直是Java在web开发中的老大哥。现在虽说有了spring boot能自动整合第三方框架了&#xff0c;但是现在市面上任然有很多老项目是基于SSM技术的。因此&#xff0c;能熟练掌握SSM进行开发…

BL104网关钡铼技术多协议设备互操作简单一键接入

在工业环境中&#xff0c;设备之间的通信和互操作性是实现智能化生产的关键。为了满足这一需求&#xff0c;钡铼技术推出了PLC物联网关BL104&#xff0c;一款专为工业环境设计的多协议设备&#xff0c;简化了设备互操作的复杂性&#xff0c;实现了一键接入的便捷性。 PLC物联网…

30、matlab现代滤波:维纳滤波/LMS算法滤波/小波变换滤波

1、信号1和信号2的维纳滤波 实现代码 N 2000; %采样点数 Fs 2000; %采样频率 t 0:1 / Fs:1 - 1 / Fs; %时间序列 Signal1 sin(2*pi*20* t) sin(2*pi*40* t) sin(2*pi*60* t); Signal2[2*ones(1,50),zeros(1,50),-1*ones(1,100),zeros(1,50),-2*ones(1,50),zeros(1,50),1…

国产主流软硬件厂商生态分析

国产领域主流厂商汇总 信创&#xff0c;即信息技术应用创新&#xff0c;由“信息技术应用创新工作委员会”于2016年3月4日发起&#xff0c;是专注于软硬件关键技术研发、应用与服务的非营利性组织。作为科技自强的关键力量&#xff0c;信创在我国信息化建设中占据核心地位&…

GWT 与 Python App Engine 集成

将 Google Web Toolkit (GWT) 与 Python App Engine 集成可以实现强大的 Web 应用程序开发。这种集成允许你使用 GWT 的 Java 客户端技术构建丰富的用户界面&#xff0c;并将其与 Python 后端结合在一起&#xff0c;后端可以运行在 Google App Engine 上。 1、问题背景 在 Pyt…

通过Excel,生成sql,将A表数据插入B表

文章目录 投机取巧的方式,进行表数据初始化通过navicat搜索A表数据,然后复制进excel中通过excel的函数方式,将该批量数据自动生成插入B表的sql语句然后一次性拷贝生成的sql语句,放进navicat中一次执行,直接完成数据初始化

fps游戏如何快速定位矩阵

fps游戏如何快速定位矩阵 矩阵特点: 1、第一行第一列值的范围在**-1 ---- 1**之间&#xff0c;如果开镜之后值会变大。 2、第一行第三列的值始终为 0。 3、第一行第四列 的值比较大 &#xff0c; >300或者**<-300**。 根据这三个特点&#xff0c;定位矩阵已经足够了…

如何安装 CleanMyMac X 4.15.3破解版

CleanMyMac X 4.15.3破解版是一款专业的Mac系统清理软件&#xff0c;可一键智能扫描清理mac系统日志缓存磁盘垃圾和多余语言安装包&#xff0c;快速释放电脑内存&#xff0c;轻松管理和升级Mac上的应用。同时CleanMyMac X 破解版可以强力卸载恶意软件&#xff0c;修复系统漏洞&…

WPF中读取Excel文件的内容

演示效果 实现方案 1.首先导入需要的Dll(这部分可能需要你自己搜一下) Epplus.dll Excel.dll ICSharpCode.SharpZipLib.dll 2.在你的解决方案的的依赖项->添加引用->浏览->选择1中的这几个Dll点击确定。(添加依赖) 3.然后看代码内容 附上源码 using Excel; usi…

变压器绕线完成之后要做的事

1 调整感量&#xff1a;测主绕组电感量&#xff0c;通过磨气隙或垫气隙&#xff0c;测得感量没错以后&#xff0c;用胶带封装磁芯 2 测验同名端是否正确&#xff1a;两绕组首尾相连&#xff0c;测试连接后的总感量&#xff0c;是否比感量大的那个绕组还大。如果是&#xff0c;…

EasyExcel导出多个sheet封装

导出多个sheet 在需求中&#xff0c;会有需要导出多种sheet的情况&#xff0c;那么这里使用easyexcel进行整合 步骤 1、导入依赖 <dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId></dependency><d…

ssti模板注入

一、Flask应用 1、介绍 定义 Flask&#xff1a;是一个使用Python编写的轻量级web应用框架。Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。 特点 良好的文档、丰富的插件、包含开发服务器和调试器、集成支持单元测试、RESTful请求调度、支持安全cookies、基于Unicode。 …

霸气的短视频:成都科成博通文化传媒公司

霸气的短视频&#xff1a;瞬间的力量与魅力 在数字化浪潮中&#xff0c;短视频以其独特的魅力迅速崛起&#xff0c;成为社交媒体的新宠。而在众多短视频中&#xff0c;那些充满霸气、让人热血沸腾的作品&#xff0c;总能引起广泛的关注和讨论。成都科成博通文化传媒公司将从内…

在线OJ项目测试(selenium+Junit5)

目录 在线OJ项目测试的思维导图 在线OJ的UI自动化测试 测试一&#xff1a;检查未登录时的页面访问以及一些未登录时的非法操作 测试二&#xff1a;测试注册界面 测试三&#xff1a;测试登录界面 测试四&#xff1a;测试题目列表界面 测试五&#xff1a;测试题目详情界面…

优化财务管理制度提升企业经营效益—以审计代理记账为例

随着社会经济的快速发展&#xff0c;企业经营规模不断扩大&#xff0c;面临的财务管理问题也日益复杂&#xff0c;而作为其中的重要一环&#xff0c;审计代理记账已经成为了企业的必要组成部分&#xff0c;本文将重点探讨审计代理记账对于优化企业财务管理&#xff0c;提高经营…