wordcount单词词频统计

单词出现的总次数

1、WordCount概述

WordCount算是大数据计算领域经典的入门案例，相当于Hello World。

虽然WordCount业务极其简单，但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制，这才是关键。

2、WordCount编程实现思路

map阶段的核心：把输入的数据经过切割，全部标记1，因此输出就是<单词，1>。shuffle阶段核心：经过MR程序内部自带默认的排序分组等功能，把key相同的单词会作为一组数据构成新的kv对。

lreduce阶段核心：处理shuffle完的一组数据，该组数据就是该单词所有的键值对。对所有的1进行累加求和，就是单词的总次数。

3、WordCount程序提交

上传课程资料中的文本文件1.txt到HDFS文件系统的/input目录下，如果没有这个目录，使用shell创建

hadoop fs -mkdir /input

hadoop fs -put 1.txt /input

准备好之后，执行官方 MapReduce 实例，对上述文件进行单词次数统计第一个参数：wordcount 表示执行单词统计任务；

第二个参数：指定输入文件的路径；

第三个参数：指定输出结果的路径（该路径不能已存在）；

[root@node1 mapreduce]# pwd
/export/server/hadoop-3.3.0/share/hadoop/mapreduce
[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount
/input /output

4、WordCount执行结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/38943.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

wordcount单词词频统计

1、WordCount概述

2、WordCount编程实现思路

3、WordCount程序提交

4、WordCount执行结果

相关文章

Python实现统计文本中各单词数量

华为机试—统计单词个数（map）

[云炬python3玩转机器学习] 5-7,8 多元线性回归正规解及其实现

手机号验证码登录的思路

手机验证码登录，账号登录结合

手机号验证登录用例

手机号验证码登录

chatgpt赋能python：Python代码的快捷键：让编程速度更加快速高效

chatgpt赋能python：Python实现滚动小球

流浪地球2的科学幻想与现实中的未来计算机科技

还在为投稿发愁吗？ICCVIT 2023，一个计算机、视觉与智能技术国际会议

不刷卡，不扫码，微信推出刷掌支付；Meta将再裁员6000人；AI“黑箱”被打开？谷歌找到大模型能力涌现机制|极客头条...

Chat-GPT有感

前端多语言开发，如何中英文切换

【TypeScript入门】了解TypeScript的工作流程

vue2实现中英文切换

vue实现中英文切换

vue切换中英语言制作方法（Element+i18n的使用）

vue3+antd 实现国际化切换中英文

Vue项目切换语言，vue项目国际化，使用vue-i18n前端实现中英文切换