R语言利用wordcloud2绘制词云



本次的重点绘制词云,所以并不太重视其他分析方面的论述。

本机环境:

window 10

R x64 3.3.0

R包:

tmcn:词频统计

wordcloud2:绘制词云

Rwordseg:分词

由于tmcn和Rwordseg包在R3.3.0的版本中没有可以直接在线下载安装,所以需要去搜索并且本地安装

附Rwordseg和tmcn的下载链接,注意安装Rwordseg前需要配置java环境,这里就不具体阐述了,百度即可。

https://r-forge.r-project.org/R/?group_id=1054

https://r-forge.r-project.org/R/?group_id=1571

数据文件:

本次采用自主爬虫的数据文件csv(豆瓣电影:我不是潘金莲)的评论语料

数据样式截图如下:


关于此爬虫的代码与文件,需要可以下载,如失效,也可留言

链接:http://pan.baidu.com/s/1kVe9cMj 密码:84ft


前期导入清理、分词、词频统计

library(Rwordseg)
library(tmcn)
library(wordcloud2)
data <- read.csv("d.csv",encoding="utf-8")
data <- unique(data)# 去除重复的数据

#去除评论中含有的英文和数字

text <- gsub('[a-zA-Z0-9]','',data$comment)

#插入自定义词汇

words <- c('范冰冰')

insertWords(strwords=words)

#分词

segword <- segmentCN(strwords=text)

#创建停止词库,并转为向量格式

mystopwords <- read.table("stop_words.txt",stringsAsFactors=FALSE)

mystopwords <- as.vector(mystopwords[,1])

#自定义删除停止词函数

removewords <- function(target_words,stop_words)

{

target_words <- target_words[target_words%in%stop_words==FALSE]

return(target_words)

}

segword2 <- sapply(X=segword,FUN=removewords,mystopwords)



开始绘制词云

首先介绍下wordcloud2这个函数

  1. wordcloud2(data, size = 1minSize = 0gridSize =  0,  

  2.     fontFamily = NULLfontWeight = 'normal',  

  3.     color = 'random-dark'backgroundColor = "white",  

  4.     minRotation = -pi/4, maxRotation = pi/4, rotateRatio = 0.4,  

  5.     shape = 'circle'ellipticity = 0.65, widgetsize = NULL)  

常用参数:

(1)data:词云生成数据,包含具体词语以及频率;

(2)size:字体大小,默认为1,一般来说该值越小,生成的形状轮廓越明显;

(3)fontFamily:字体,如‘微软雅黑’;

(4)fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’;;

(5)color:字体颜色,可以选择‘random-dark’以及‘random-light’,其实就是颜色色系;

(6)backgroundColor:背景颜色,支持R语言中的常用颜色,如‘gray’,‘blcak’,但是还支持不了更加具体的颜色选择,如‘gray20’;

(7)minRontatin与maxRontatin:字体旋转角度范围的最小值以及最大值,选定后,字体会在该范围内随机旋转;

(8)rotationRation:字体旋转比例,如设定为1,则全部词语都会发生旋转;

(9)shape:词云形状选择,默认是‘circle’,即圆形。还可以选择‘cardioid’(苹果形或心形),‘star’(星形),‘diamond’(钻石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五边形);


#绘制文字云

word_freq <- getWordFreq(string=unlist(segword2))

一切使用默认参数

wordcloud2(word_freq)


提取前1000个,并改变形状

wordcloud2(word_freq[0:1000,],size=1,shape='star',fontFamily="微软雅黑")


#绘制出出现频率最高的前50个词

wordcloud2(word_freq[0:1000,],size=1,shape='star',fontFamily="微软雅黑")

#自定义图片,只要是黑白图片即可,文字默认会画在黑色部分上


wordcloud2(word_freq,figPath='horse.png',size=0.5,shape='star',fontFamily="微软雅黑")


其实到这里很多参数你都可以随意尝试,怎么好看怎么调。

欢迎大家对此多多提提意见,我也不知道该写什么好了,谢谢! 大笑
















本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34243.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

同一界面画出多个QQ图(R语言)

题目&#xff1a;一名研究者用光子吸收法测量了妇女骨骼中无机物含量&#xff0c;对三根骨头主侧和非主侧记录了测量值&#xff0c;数据框“T1bones.txt”中的第2至第7列记录了相应数据。对各个变量做qq图&#xff0c;在同一个界面画出所有的qq图&#xff0c;不同的qq图用不同颜…

R语言各个包里面的数据集

关注微信公共号&#xff1a;小程在线 关注CSDN博客&#xff1a;程志伟的博客 Package Item Title csv docdatasetsAirPassengersMonthly Airline Passenger Numbers 1949-1960CSVDOCdatasetsBJsalesSales Data with Leading IndicatorCSVDOCdatasetsBODBiochemical Oxygen Dema…

R语言 聊天词云图

准备聊天记录 建议使用QQ聊天记录&#xff0c;导出txt格式 进行文本分词并可视化 install.packages("wordcloud2") install.packages("jiebaR") install.packages("jiebaRD") library(wordcloud2) library(jiebaRD) library(jiebaR) enginew…

巧用R语言实现各种常用的数据输入与输出

将数据输入或加载到R工作空间中&#xff0c;是使用R进行数据分析的第一步。R语言支持读取众多格式的数据文件&#xff0c;excel文件&#xff0c;csv文件&#xff0c;txt文件和数据库&#xff08;MYSQL数据库&#xff09;等&#xff1b;其中&#xff0c;excel和csv是我们最常遇到…

R语言安装 + 读入csv数据画图的过程中学习到的东西~~(ง •_•)ง

总体来说&#xff0c;我觉得R语言和python在画图上是有些相似的~ 目录 一、安装二、读入CSV数据三、保存代码代码 一、安装 B站上搜一个UP主&#xff1a;基因学苑。看他的安装教程及设置&#xff0c;很详细。 总体来说就是先下 R&#xff0c;再下 RStudio&#xff0c;然后使用…

超级干货 :手把手教你学习R语言(附资源链接)

作者&#xff1a;NSS&#xff1b;翻译&#xff1a;杨金鸿&#xff1b;校对&#xff1a;韩海畴&#xff0c;林亦霖&#xff1b; 本文约3000字&#xff0c;建议阅读7分钟。本文为带大家了解R语言以及分段式的步骤教程&#xff01; 人们学习R语言时普遍存在缺乏系统学习方法的问题…

R语言---使用cgdsr包下载TCGA数据---笔记整理

原文链接&#xff1a;https://mp.weixin.qq.com/s?__bizMzAxMDkxODM1Ng&mid2247486492&idx1&sn3a7251244377fdd4b2a3aa5c8cd1131a&chksm9b484ca7ac3fc5b1a21202cf25ff15a8eec434424aa3e48787129fa6f5e66ebe57ffcb631772&scene21#wechat_redirect 一&…

R语言画词云图

词云图大家都很常见,主要是用来展示词语的频次,用来发现突出贡献的词语! 用于词云图的工具很多,但制作过程有些麻烦!今天我们来使用R语言做一下词云图,看看会有什么结果! 软件介绍 R RStudio 词云图教程 1.首先我们准备一个Excel文件,将单词或者词语,以及对应的频…

【教程】使用R语言绘制词云图

哈喽&#xff0c;大家好&#xff0c;我是木易巷~ 最近木易巷在了解R语言&#xff0c;今天给大家分享一下使用R语言绘制出词云图的教程。 什么是R语言 R语言是一个开源的数据分析环境&#xff0c;起初是由数位统计学家建立起来&#xff0c;以更好的进行统计计算和绘图。由于R可…

R语言入门——笔记(二)--包(package)的使用及RStudio的使用,加载包和数据集

一&#xff1a; 1.包&#xff08;package&#xff09;的使用 包是扩展R基本功能的机制&#xff0c;集成了众多函数。如果想使用某些函数而当前R中不存在&#xff0c;就可以找对应函数的包直接使用。 去哪里找包&#xff1f;如何使用包&#xff1f; CRAN: -install.packages…

1. R语言介绍、Rstudio的基本使用、帮助命令、内置数据集

b站课程视频链接&#xff1a;https://www.bilibili.com/video/BV19x411X7C6?p1 腾讯课堂(最新&#xff0c;但是要花钱&#xff0c;我花99元买了&#xff0c;感觉不错&#xff09;&#xff1a;https://ke.qq.com/course/3707827#term_id103855009 本笔记前面的笔记参照b站视频…

【R语言】如何直接调取Wind、iFinD数据接口教程

对于从事经济、金融研究类工作的新人们其实最先遇到的是主流金融终端使用问题。国内的氛围很奇怪&#xff0c;一碰上正儿八经能派上用场的东西业内人士总是讳莫如深&#xff0c;好像别人学去了他就马上失业&#xff0c;听说现在学个最基础的数据接口都动不动要付钱&#xff0c;…

R语言高级数据管理

文章目录 高级数据管理标准差绝对中位差分位数quantile()函数百分位数 数据预处理中心化标准化 &#xff08;Standardization&#xff09;数据中心化和标准化的区别归一化&#xff08;Normalization&#xff09;标准化和归一化 概率函数协方差控制流分支结构重复和循环 自定义函…

用R语言,生成微信聊天记录词云。

首先获取微信聊天记录&#xff1a;并导出为txt文件 基于R语言&#xff1a; #install.packages("jiebaRD") #install.packages("jiebaR") #install.packages("data.table") #install.packages("stringr") #install.packages("rJa…

R语言中自带的一些数据集

在用R语言做数据分析的时候&#xff0c;我们经常需要一些数据做实验&#xff0c;尤其当学会一个新的方法或者算法的时候&#xff0c;就想赶快编程实现一下。那么&#xff0c;问题来了&#xff0c;用什么数据好呢&#xff0c;什么样的数据适合做这种实验呢&#xff1f; 好在R语…

R语言---使用RTCGA包获取TCGA数据---笔记整理

原文链接&#xff1a;https://mp.weixin.qq.com/s?__bizMzAxMDkxODM1Ng&mid2247486585&idx1&sn3035f6420904aad2c8161b362cdeb472&chksm9b484cc2ac3fc5d479fc5bce3d68d4666b763652a21a55b281aad8c0c4df9b56b4d3b353cc4c&scene21#wechat_redirect 1.RTCGA…

R语言实操记录——获取包的三种渠道及安装包的三种方式

R语言 R语言实操记录——获取包的三种渠道及安装包的三种方式 文章目录 R语言一、获取包的三种渠道二、安装包的三种方式2.1、CRAN2.2、Bioconductor2.3、Github注意 一、获取包的三种渠道 渠道1 、CRAN&#xff1a;R语言的官网&#xff0c;里面包含有绝大多部分领域的大部分…

【R语言】2022年末特辑——ggsci包色版最详分享

目录 一、前言二、官方教程2.1 NPG2.2 AAAS2.3 NEJM2.4 Lancet2.5 JAMA2.6 JCO2.7 UCSCGB2.8 d32.9 locuszoom2.10 igv2.11 uchicago2.12 startrek2.13 tron2.14 futurama2.15 rickandmorty2.16 simpsons2.17 gsea2.18 material 三、讨论 一、前言 部分新手直接化用代码跑出来…

R语言txt文件自定义词云图

在R语言中获取txt文件文本&#xff0c;并进行词频统计&#xff0c;然后自定义词云图。 先获取txt文本 wordfreqs read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt",encoding "UTF-8")这是事先用python爬虫准备好的B站番剧&#xff08;排球少…

基于R语言分析自带数据集heart

本文将对R语言中自带的heart数据集进行分析。本文会包含所有代码&#xff0c;尽可能多的使用有关可视化的函数以及数据分析的模型。 一、研究概述 1.1 数据集简介 数据集来源&#xff1a;使用R语言 glmpalh 包中自带的数据heart.data 数据集内容&#xff1a;该数据集描述了45…