关于红楼梦Python文本分析

1.  获取小说文本  读取文件

# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read()  # 读出整个文件
fn.close()  # 关闭文件

2.对文本进行处理 

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
print('预处理完毕')# 停词文档
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么','或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别','好', '可', '便', '就',' 但','越','再','更', '比','很','偏','那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道','知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶','自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个','听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家','只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐','的话','不好','鸳鸯','一时','过来','不能','心里','银子','答应','几个'} # 排除的词汇

3. 词频

# 通过键值对的形式存储词语及其出现的次数
counts1 = {}  # 存放词性词频
counts2 = {}  # 存放人物词频
# # 生成词频词性文件
def getWordTimes1():cutFinal = pseg.cut(txt)for w in cutFinal:if w.word in stopwords or w.word == None:continueelse:real_word = w.word + '_' + w.flagcounts1[real_word] = counts1.get(real_word, 0) + 1getWordTimes1()items1 = list(counts1.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items1.sort(key=lambda x: x[1], reverse=True)# 导出数据
# 分词生成人物词频(写入文档)
def wordFreq1(filepath, topn1):with codecs.open(filepath, "w", "utf-8") as f:for i in range(topn1):word, count = items1[i]f.write("{}:{}\n".format(word, count))# 生成词频文件
wordFreq1("output\\红楼梦词频词性.txt", 300)# 将txt文本里的数据转换为字典形式
fr1 = open('output\\红楼梦词频词性.txt', 'r', encoding='utf-8')
dic1 = {}
keys1 = []  # 用来存储读取的顺序
for line in fr1:# 去空白,并用split()方法返回列表v1 = line.strip().split(':')dic1[v1[0]] = v1[1]keys1.append(v1[0])
fr1.close()list_name1 = list(dic1.keys())  # 人名
list_name_times1 = list(dic1.values())  # 提取字典里的数据作为绘图数据
def create_wordproperties():bar1 = Bar()bar1.add_xaxis(list_name1[0:keshihuaTop])bar1.add_yaxis("词语出现次数", list_name_times1)bar1.set_global_opts(title_opts=opts.TitleOpts(title="词频词性可视化图", subtitle="词频词性top10"),xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))bar1.set_series_opts(label_opts=opts.LabelOpts(position="top"))# 生成 html 文件bar1.render("\\output\\红楼梦词频词性可视化图.html")

 

4. 对人名进行分析

# 得到 分词和出现次数
def getWordTimes2():# 分词,返回词性poss = pseg.cut(txt)for w in poss:if w.flag != 'nr' or len(w.word) < 2 or w.word in excludes:continue  # 当分词长度小于2或该词词性不为nr(人名)时认为该词不为人名elif w.word == '宝哥哥' or w.word == '宝玉曰' or w.word == '宝二爷' or w.word == '绛洞花主' \or w.word == '怡红公子' or w.word == '宝兄弟' or w.word == '混世魔王' or w.word == '宝玉':real_word = '贾宝玉'elif w.word == '黛玉' or w.word == '颦儿' or w.word == '潇湘妃子' or w.word == '林姑娘' or \w.word == '林妹妹' or w.word == '黛玉曰' or w.word == '颦颦':real_word = '林黛玉'elif w.word == '宝钗' or w.word == '宝钗曰' or w.word == '宝丫头' or w.word == '宝姐姐' or w.word == '薛大姑娘':real_word = '林宝钗'elif w.word == '熙凤' or w.word == '熙凤曰' or w.word == '琏二奶奶' or w.word == '凤辣子' or w.word == '凤哥儿' \or w.word == '凤丫头' or w.word == '凤姐' or w.word == '凤姐儿' or w.word == '琏二嫂子':real_word = '王熙凤'elif w.word == '贾母' or w.word == '贾母曰' or w.word == '史太君' or w.word == '老祖宗' or w.word == '老太太' \or w.word == '老神仙':real_word = '贾母'elif w.word == '湘云' or w.word == '湘云曰' or w.word == '枕霞旧友' or w.word == '史大姑娘' or w.word == '云妹妹':real_word = '史湘云'elif w.word == '姨妈' or w.word == '姨妈曰' or w.word == '薛夫人' or w.word == '薛王氏' or w.word == '姨太太':real_word = '贾迎春'elif w.word == '探春' or w.word == '探春曰' or w.word == '玫瑰花' or w.word == '蕉下客':real_word = '贾探春'elif w.word == '贾珍' or w.word == '贾珍曰' or w.word == '珍老爷' or w.word == '大爷' or w.word == '大哥哥' :real_word = '贾珍'elif w.word == '贾琏' or w.word == '贾琏曰' or w.word == '琏二爷' or w.word == '二爷':real_word = '贾琏'elif w.word == '袭人' or w.word == '袭人曰' or w.word == '蕊珠' or w.word == '花珍珠':real_word = '袭人'elif w.word == '平儿' or w.word == '平儿曰' or w.word == '小平' or w.word == '平姑娘' or w.word == '平姐姐':real_word = '平儿'  # 把相同意思的名字归为一个人else:real_word = w.wordcounts2[real_word] = counts2.get(real_word, 0) + 1getWordTimes2()
items2 = list(counts2.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items2.sort(key=lambda x: x[1], reverse=True)# 导出数据
# 分词生成人物词频(写入文档)
def wordFreq2(filepath, topn):with codecs.open(filepath, "w", "utf-8") as f:for i in range(topn):word, count = items2[i]f.write("{}:{}\n".format(word, count))# 生成词频文件
wordFreq2("D:\\Python studybag\\output\\红楼梦词频_人名.txt", 300)# 将txt文本里的数据转换为字典形式
fr = open('D:\\Python studybag\\output\\红楼梦词频_人名.txt', 'r', encoding='utf-8')
dic = {}
keys = []  # 用来存储读取的顺序
for line in fr:# 去空白,并用split()方法返回列表v = line.strip().split(':')dic[v[0]] = v[1]keys.append(v[0])
fr.close()
# 输出前几个的键值对
print("人物出现次数TOP", mainTop)
print(list(dic.items())[:mainTop])#  绘图
# 人名列表 (用于人物关系图,pyecharts人物出场次数图)
list_name = list(dic.keys())  # 人名
list_name_times = list(dic.values())  # 提取字典里的数据作为绘图数据# 可视化人物出场次数
def creat_people_view():bar = Bar()bar.add_xaxis(list_name[0:keshihuaTop])bar.add_yaxis("人物出场次数", list_name_times)bar.set_global_opts(title_opts=opts.TitleOpts(title="人物出场次数可视化图", subtitle="红楼梦TOP10"),xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))bar.set_series_opts(label_opts=opts.LabelOpts(position="top"))# bar.render_notebook()  # 在 notebook 中展示# make_snapshot(snapshot, bar.render(), "bar.png")# 生成 html 文件bar.render("D:\\Python studybag\\output\\红楼梦人物出场次数可视化图.html")

 5.词云

 

# 使用pyecharts 的方法生成词云
def creat_wordcloud_pyecharts():wordsAndTimes = list(dic.items())(WordCloud().add(series_name="人物次数", data_pair=wordsAndTimes,word_size_range=[20, 100], textstyle_opts=opts.TextStyleOpts(font_family="cursive"), ).set_global_opts(title_opts=opts.TitleOpts(title="红楼梦词云")).render("D:\\Python studybag\\output\\红楼梦词云_人名.html"))# 颜色生成
colorNum = len(list_name[0:peopleTop])# print('颜色数',colorNum)
def randomcolor():colorArr = ['1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F']color = ""for i in range(6):color += colorArr[random.randint(0, 14)]return "#" + colordef color_list():colorList = []for i in range(colorNum):colorList.append(randomcolor())return colorList

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/73031.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Google BERT 中文应用之《红楼梦》中对话人物提取

​点击上方“迈微AI研习社”&#xff0c;选择“星标★”公众号 转载自&#xff1a;PaperWeekly 庞龙刚 之前看到过一篇文章&#xff0c;通过提取文章中对话的人物&#xff0c;分析人物之间的关系&#xff0c;很好奇如何通过编程的方式知道一句话是谁说的。但是遍搜网络没有发现…

【知识图谱】构建红楼梦知识图谱

在b站看到有人用知识图谱构建红楼梦的人物关系的知识图谱&#xff0c;跟着做了一遍&#xff0c;在这里记录。 1、安装neo4j 具体见&#xff1a;https://blog.csdn.net/Zhouzi_heng/article/details/110948997 2、为python安装py2neo4j py2neo是一个社区第三方库&#xff0c…

数据驱动的未来城市八大趋势

来源&#xff1a;微信公众号腾讯研究院 趋势一 更可持续 城市的发展要为整个人类文明的永续传承和为后人能享受到更高质量的生活为目标。一个更加智慧的城市&#xff0c;势必具有着更加可持续发展的能力。新科技为城市的核心系统的设施提供了更为智能、高效率的调配方案&#x…

城市计算,交通预测,流量预测,需求预测汇总

本项目汇集了新基建和城市计算等领域的最新研究成果&#xff0c;包括白皮书、学术论文、人工智能实验室和城市数据集等相关内容。 This project is a collection of recent research in areas such as new infrastructure and urban computing, including white papers, acade…

未来城市技术v2.0

ibrand shadow 你理想中的工作、生活状态是怎么样的&#xff1f; 理想工作&#xff1a;一天只需工作2小时&#xff0c;其他时间自由安排&#xff1a;研究、实验、学习、休息… 人生方向是探索出来的 shadow eva 这种状态我也很喜欢???? &#xff0c;all 你们呢&#xff1f;…

预见2021:《2021年中国呼叫中心产业全景图谱》 未来十年八大预测

预见2021&#xff1a;《2021年中国呼叫中心产业全景图谱》 未来十年八大预测 按业务划分来看&#xff0c;呼叫中心的业务大类归到了BPO(商务流程外包)当中。呼叫中心具有高附加值、低碳经济、提高城市服务业水平、创造大量就业机会等优点。 呼叫中心产业全景图 呼叫中心是为了…

大数据时代已经来临 分析未来十年发展趋势

今天的大数据分析市场与几年前的市场截然不同&#xff0c;正是由于海量数据的暴增&#xff0c;未来十年&#xff0c;全球各行各业都将发生变革、创新和颠覆。   未来十年大数据分析的发展趋势 公有云优于私有云的优势继续扩大。公有云正逐步成为客户群的首选大数据分析平台。…

大数据预测未来趋势

数据是近年来备受关注的一门技术&#xff0c;大数据技术的战略意义不在于掌握庞大的数据信息&#xff0c;而在于对这些含有意义的数据进行专业化处理。 换而言之&#xff0c;如果把大数据比作一种产业&#xff0c;那么这种产业实现盈利的关键&#xff0c;在于提高对数据的“加工…

2022年智慧城市趋势的12个预测

随着人们继续适应过去一年带来的巨大变化&#xff0c;行业参与者分享了他们对城市发展的预期。 城市需要适应2021年的巨大挑战。除了持续且不断变化的COVID大流行之外&#xff0c;人们还面临着越来越危险的驾驶行为&#xff0c;极端天气事件&#xff0c;紧张的政治气候和不断上…

海外观察丨未来 10 大科技趋势预测全解读(上)

编者按 近年来&#xff0c;世界正经历百年未有之大变局&#xff0c;国际局势深刻演变&#xff0c;世界多极化和经济全球化在曲折中继续发展。 新冠疫情起伏反复&#xff0c;人们比任何时候都期盼依靠科学技术战胜疫情&#xff0c;依靠科技创新来推动经济复苏。随着 5G 进入商…

2023 年数据中心四大发展趋势预测

随着数据中心市场将在 2023 年继续扩张&#xff0c;一些人预测到 2032 年将增长 7.5%&#xff0c;市场价值将达到 2000 亿美元&#xff0c;数据中心在我们城市和社区高效运行中的普及也可能会扩大&#xff0c;同时它们对环境的影响也会扩大。 随着我们进入新的一年&#xff0c;…

2023看得见的未来:数据中心行业十大发展趋势

数据中心建设和消纳在不断创历史新高的同时&#xff0c;也正在遭受不少的抨击&#xff0c;因为它们消耗大量的电力和水、排放温室气体、产生垃圾填埋场的垃圾&#xff0c;却不产生有形的产品——如汽车、房屋和钢铁。 但其实我们的生产生活中&#xff0c;无论是视频流、在线购物…

[英语阅读]小布什获评《NME》杂志年度恶棍

Oasis, Muse, George W. Bush pick up NME awards 英国流行音乐杂志《NME》&#xff08;New Music Express&#xff09;周三评选出绿洲乐队为最佳英国乐队&#xff0c;而美国前总统小布什则破纪录地第六次被评选为年度恶棍。缪斯(Muse)乐队击败英国的绿洲乐队和美国的莱昂国王…

最初计算机发明家英文介绍,求助~一篇80字的电脑发展史,英语的~

满意答案 scorpiot7j8 2013.11.04 采纳率&#xff1a;53% 等级&#xff1a;12 已帮助&#xff1a;8757人 你可以略作筛选 Milestones in Computer Development WEBLIOGRAPHY AND CREDITS 2000 B.C. The abacus is first used for computations. 1642 A.D. Blaise Pascal cre…

怎样做一个好的PPT演讲

文章目录 一、做好PPT演讲的重要性二、怎么做好PPT演讲1.做一个好的PPT2.做好演讲 三、分析一些比较好的PPT演讲视频四、实例解析和总结 一、做好PPT演讲的重要性 不管是在学生时期的竞赛展示&#xff0c;毕业答辩&#xff0c;我们都需要进行PPT演讲&#xff1b;工作之后&…

谈谈演讲 - 优秀的演讲都是准备出来的

和任何技能一样&#xff0c;演讲的技能&#xff0c;也需要通过不断实战积累&#xff0c;一步步升级你的演讲技能点。我觉得&#xff0c;演讲能力的升级线路&#xff0c;大体是这样的&#xff1a; 0.演讲完全依赖临场发挥 1.意识到“优秀的演讲都是准备出来的” 2.演讲内容的策划…

记一次技术分享演讲

**丨**版权说明 : 《记一次技术分享演讲》于当前CSDN博客和乘月网属同一原创&#xff0c;转载请说明出处&#xff0c;谢谢。 本文仅谈心得&#xff0c;不谈技术 谈谈为什么写心得 笔者自入学到现在工作已有20余载&#xff0c;虽然沉淀的文笔贫平&#xff0c;可也写过数篇作文&…

俞敏洪一分钟励志演讲稿

俞敏洪一分钟励志演讲稿 人的生活方式有两种&#xff0c; 第一种方式是像草一样活着&#xff0c; 你尽管活着&#xff0c;每年还在成长&#xff0c; 但是你毕竟是一棵草&#xff0c; 你吸收雨露阳光&#xff0c; 但是长不大&#xff0c; 人们可以踩过你&#xff0c; 但是人们不…

计算机基本知识3分钟演讲稿,3分钟演讲稿范文(精选3篇)

3分钟演讲稿范文(精选3篇) 演讲稿要求内容充实&#xff0c;条理清楚&#xff0c;重点突出。在社会一步步向前发展的今天&#xff0c;能够利用到演讲稿的场合越来越多&#xff0c;那么你有了解过演讲稿吗&#xff1f;下面是小编精心整理的3分钟演讲稿范文(精选3篇)&#xff0c;希…

用《文心一言》1分钟写一篇博客简直yyds

文章目录 前言文心一言是什么文心一言可以做什么文心一言写博客申请体验写在最后 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人社区&#xff0c;欢迎你的加入&#xff1a;全栈弄潮儿的个人社区 &#x1f4d9…