对文本文件中出现的词进行次数统计

主要涉及读取文本文件、统计词出现的数目、排序、隐藏函数lambda。

随便从网页复制一篇文章保存成“train.txt”，采用以下代码读取txt文件：

def load_stop_words(file = "stopwords.txt"):with open(file,"r",encoding="utf-8") as f:return f.read().split("\n")def txt(file="train.txt"):f = open(file, "r", encoding="utf-8")line = f.readline().strip("\n")  # 读取第一行，并删除换行符data = []data.append(line)while line:  # 直到读取完文件line = f.readline().strip("\n")  # 读取一行文件，并删除换行符data.append(line)f.close()  # 关闭文件result = []stop_words = load_stop_words()for words in data:c_words = jieba.lcut(words)result.append([word for word in c_words if word not in stop_words])return result

上一步得到了一个result列表，列表中是经过分词后的一个个词语，接下来要统计这些词语出现的次数，采用字典形式存储统计结果，key为词语，value为该词出现次数，对应代码如下：

if __name__ == "__main__":text = txt()# print(text)dict = {}for words in text:for word in words:if word not in dict.keys():dict[word] = 1else:dict[word] += 1

最后对字典进行排序，按照词出现次数从大到小往后排，这里要用到sorted函数、lambda函数，对应代码如下：

res = sorted(dict.items(),key = lambda i:i[1],reverse=True)

sorted函数返回值是列表，所以输出前十个出现次数最多的词代码如下：

print(res[:10])

我的运行结果如下：

总结：

1、txt文件编码格式为utf-8

2、f.readline()一次读取一行，会读到末尾换行符"\n"；f.readlines() 读取整个文件，会读到每行末尾换行符"\n"。使用strip("\n")可删掉换行符。

3、sorted函数中，key=lambda i: i[1]表示按照排序对象的第二个元素来排序，即value，reverse=True表示倒序。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/59534.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

对文本文件中出现的词进行次数统计

相关文章

最简单的6种防止数据重复提交的方法！(干货)

马斯克成立人工智能公司X.AI：对抗ChatGPT 已买1万个GPU

十大网络安全上市公司分析，让我们重点聊聊F5

基于blinker的 microPython 小爱同学

集美大学及集美大学诚毅学院的课表导入小爱同学

基于微信小程序的网上订餐系统报告+任务书+开题报告+文献综述+中期PPT+外文翻译及原文+PPT+项目源码及数据库文件

蚌埠学院教务系统自动导入课程表到小米/Redmi手机小爱同学课程表使用说明

基于Javamail的邮件收发系统（系统+论文+开题报告+任务书+外文翻译+文献综述+答辩PPT）

电脑打不开网页，能ping通，能上QQ，解决办法。

计算机微信接收excel打不开怎么回事,电脑端微信打不开怎么解决

微信粤语语音转文字讯飞输入法更懂粤语直出文字

仿微信语音输入页面(讯飞语音)

【效率神器】电脑上实现语音输入文字

Voice input 语音输入

语音识别打字软件

语音输入实现方法

如何轻松在电脑上实现语音输入

android语音输入文字,盘点好用的语音输入APP，懒得打字的时候就说话吧！

GAF运维监控能力介绍

如果生孩子不是为了玩那将毫无意义