任务3.8.4 利用RDD实现分组排行榜

文章目录

  • 1. 任务说明
  • 2. 解决思路
  • 3. 准备成绩文件
  • 4. 采用交互式实现
  • 5. 采用Spark项目
  • 实战概述:使用Spark RDD实现分组排行榜
    • 任务背景
    • 任务目标
    • 技术选型
    • 实现步骤
      • 1. 准备数据
      • 2. 数据上传至HDFS
      • 3. 启动Spark Shell
      • 4. 读取数据生成RDD
      • 5. 数据处理
      • 6. 计算TopN
      • 7. 输出结果
      • 8. 采用Spark项目实现
    • 代码实现
    • 结果展示
    • 总结

在这里插入图片描述

1. 任务说明

在这里插入图片描述

2. 解决思路

在这里插入图片描述

3. 准备成绩文件

在这里插入图片描述

4. 采用交互式实现

在这里插入图片描述

5. 采用Spark项目

在这里插入图片描述


实战概述:使用Spark RDD实现分组排行榜

任务背景

在大数据环境下,经常需要对数据进行分组和排序操作。本实战任务旨在利用Apache Spark的RDD(弹性分布式数据集)来实现对学生成绩数据的分组,并求出每个学生分数最高的前3个成绩。

任务目标

  • 处理学生成绩数据,每个学生有多条成绩记录。
  • 对每个学生的成绩进行分组。
  • 计算每个学生分数最高的前3个成绩。
  • 输出格式化的排行榜结果。

技术选型

  • 使用Apache Spark作为大数据处理框架。
  • 利用Scala语言进行编程实现。

实现步骤

1. 准备数据

  • 创建本地文件grades.txt,包含学生姓名和对应的成绩。

2. 数据上传至HDFS

  • 创建HDFS目录/topn/input
  • grades.txt上传至HDFS。

3. 启动Spark Shell

  • 执行命令spark-shell --master spark://master:7077启动Spark Shell。

4. 读取数据生成RDD

  • 使用sc.textFile读取HDFS上的成绩文件,生成RDD。

5. 数据处理

  • 将每行数据映射为(key, value)形式的二元组,其中key为学生姓名,value为成绩。
  • 使用groupByKey对RDD中的元素按照key进行分组。

6. 计算TopN

  • 对每个分组的value列表进行降序排序,并取前3个元素。

7. 输出结果

  • 格式化输出每个学生的Top3成绩。

8. 采用Spark项目实现

  • 创建Maven项目,添加Spark依赖。
  • 添加Scala SDK。
  • 创建日志和HDFS配置文件。
  • 编写Scala程序实现上述数据处理逻辑。
  • 运行程序并查看输出结果。

代码实现

以下是使用Scala编写的Spark程序示例,用于实现分组排行榜功能:

package net.huawei.rddimport org.apache.spark.{SparkConf, SparkContext}object GradeTopN {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("SparkGradeTopN").setMaster("local[*]")val sc = new SparkContext(conf)val rdd1 = sc.textFile("hdfs://master:9000/topn/input/grades.txt")val rdd2 = rdd1.map(line => line.split(" ") match {case Array(name, score) => (name, score.toInt)})val rdd3 = rdd2.groupByKey()val rdd4 = rdd3.mapValues(_.toList.sortBy(-_).take(3))rdd4.foreach(t => println(s"${t._1}${t._2.mkString(" ")}"))sc.stop()}
}

结果展示

程序运行后,将输出每个学生的Top3成绩

张三丰:94 90 87
李孟达:88 85 82
王晓云:98 97 93

总结

本实战任务展示了如何使用Spark RDD对数据进行分组和TopN计算,这是大数据领域中常见的数据处理需求。通过Spark的强大数据处理能力,可以高效地完成此类任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/360756.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Instagram 算法更新?想要吸引更多新用户请打开这些设置!

为什么你发的IG就没人看?没流量?注意了!IG算法已更新,了解最新算法、学会这些设置,你的IG自然能吸引到越来越多用户关注! Instagram 算法更新 1️⃣ 根据Instagram官方的表述,他们对算法进行了调…

分享一个好用的图幅号计算器

如果在你的工作中会分幅处理地图数据,也许这个好用的图幅号计算器能对你有所帮助。 你只需要在该工具中输入经纬度坐标,就可以为你计算出各个比例尺下的图幅号,你可以在文末查看该工具的领取方法。 一个好用的图幅号计算器 该图幅计算器工…

Redis的持久化方式和注意点

redis持久篇 两种持久化技术: AOF日志和RDB快照 Redis默认会开启RBD快照 AOF:持久化只会记录写操作命令。 是一种日志,写入到文件,有相应的格式文本 就是 Redis 里的AOF(Append Only File)持久化功能,注意只会记录写操作命令…

【C++STL】Vector扩容机制

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

网络安全事件研判

研判&#xff08;入侵检测&#xff09; 研判我理解为人工层面对入侵检测事件进行再分析&#xff0c;即借助已有的设备告警根据经验判断是否为真实攻击 研判工作要充分利用已有安全设备&#xff08;需要提前了解客户的网络拓扑以及部署设备情况&#xff09;&#xff0c;分析其近…

代码随想录算法训练营第三十四天|56. 合并区间、738.单调递增的数字、968.监控二叉树

56. 合并区间 题目链接&#xff1a;56. 合并区间 文档讲解&#xff1a;代码随想录 状态&#xff1a;无语&#xff0c;这题从右边界排序做不了&#xff01; 思路&#xff1a; 排序&#xff1a;按照区间的起始位置进行排序&#xff0c;这样后面处理时可以顺序合并重叠区间。合并…

记因hive配置文件参数运用不当导致 sqoop MySQL导入数据到hive 失败的案例

sqoop MySQL导入数据到hive报错 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 64 报错解释&#xff1a; 这个错误表明Sqoop在尝试导入数据到Hive时遇到了问题&#xff0c;导致Hive进程异常退出。状态码…

【安全审核】音视频审核开通以及计费相关

融云控制台音视频审核入口&#xff1a;音视频审核 1 音视频审核文档&#xff1a;融云开发者文档 1 提示&#xff1a; 开发环境&#xff1a; 免费体验 7 天&#xff08;含 21 万分钟音频流和 420 万张视频审核用量&#xff09;&#xff0c;免费额度用尽后&#xff0c;将关停服务…

电巢科技CIOE中国光博会:激光雷达技术应用研讨会圆满落幕!

2024年6月20日&#xff0c;由CIOE中国光博会与电巢科技联合主办的“激光雷达技术应用”线上研讨会成功举行。本次线上研讨会是CIOE中国光博会与电巢科技首次联合主办的论坛&#xff0c;旨在借助双方自身资源优势&#xff0c;为行业发展提供可靠的交流平台。接下来&#xff0c;C…

Kali Linux渗透测试指南(详细教程,建议收藏)

渗透测试是对信息系统遭受实际攻击时的一种受控模拟&#xff0c;是安全中十分重要的一部分。 渗透测试人员往往会使用一些成熟的工具&#xff0c;只有全面掌握这些工具&#xff0c;我们才能更好地进行渗透。 今天就给大家分享一份Kali Linux高级渗透测试指南&#xff0c;一共…

Android开发系列(九)Jetpack Compose之ConstraintLayout

ConstraintLayout是一个用于构建复杂布局的组件。它通过将子视图限制在给定的约束条件下来定位和排列视图。 使用ConstraintLayout&#xff0c;您可以通过定义视图之间的约束关系来指定它们的位置。这些约束可以是水平和垂直的对齐、边距、宽度和高度等。这允许您创建灵活而响…

基于51单片机的RFID门禁系统-LCD12864显示

一.硬件方案 本RFID系统设计可分为硬件部分和软件部分。硬件部分以MFRC522射频识别模块为核心&#xff0c;结合主控模块STC89C52设计系统的外围硬件电路&#xff0c;实现对射频卡的控制与MCU之间的互通。软件部分采用C语言进行系统的下位机程序的开发&#xff0c;完成与IC卡之…

数字内容“遍地开花”,AI技术如何创新“造梦”?

文 | 智能相对论 作者 | 陈泊丞 这是春晚舞台西安分会场《山河诗长安》的一幕&#xff1a;“李白”现世&#xff0c;带领观众齐颂《将进酒》&#xff0c;将中国人骨子里的豪情与浪漫演绎得淋漓尽致。 这又是浙江义乌商品市场里的另一幕&#xff1a;只会说几个英文单词的女老板…

C++初学者指南-2.输入和输出---文件输入和输出

C初学者指南-2.输入和输出—文件输入和输出 文章目录 C初学者指南-2.输入和输出---文件输入和输出1.写文本文件2.读文本文件3.打开关闭文件4.文件打开的模式 1.写文本文件 使用&#xff1a; std::ofstream&#xff08;输出文件流&#xff09; #include <fstream> // 文…

MySQL中的客户端选项(三)

默认情况下&#xff0c;LOAD DATA的LOCAL功能是否可用取决于MySQL客户端库在编译时是否启用了该功能。 当只给出--local-infile&#xff08;不带值&#xff09;时&#xff0c;它启用LOCAL数据加载。当给出--local-infile0时&#xff0c;它禁用LOCAL数据加载。当给出--local-in…

算法题--华为od机试考试(最大坐标值、寻找最富裕的小家庭、两个字符串间的最短路径问题)

目录 最大坐标值 题目描述 输入描述 输出描述 示例1 输入 输出 说明 解析 答案 寻找最富裕的小家庭 题目描述 输入描述 输出描述 示例1 输入 输出 说明 解析 答案 两个字符串间的最短路径问题 题目描述 ​编辑 输入描述 输出描述 示例1 输入 输出 …

discuz插件之优雅草超级列表互动增强v1.2版本更新

https://doc.youyacao.com/9/2142 v1.2更新 discuz插件之优雅草超级列表互动增强v1.2版本更新 [title]20220617 v1.2发布[/title] 增加了对php8的支持 增加了 对discuz3.5的支持

设计模式——桥接模式

桥接模式(Bridge) 在学习面向对象的过程中&#xff0c;可能会陷入一个误区&#xff0c;只要可以用&#xff0c;都用上继承&#xff0c;就好比因为有了新锤子&#xff0c;看什么东西都像是钉子了。   事实上&#xff0c;继承可能会带来一些麻烦。比如对象的继承关系是在编译阶…

ThreeJS-截屏下载pdf或者图片时白屏

JS-页面截图下载为pdf 关于如何下载为 pdf 在上面的这篇文章中有写&#xff0c;大家可以看下&#xff0c;下载图片代码在最下面 这时我们发现 three 部分是空白的如下&#xff1a; 这就多少有点尴尬了&#xff0c;这时我们习惯性的看下后台报错 是不是发现了惊喜&#xff0c;…

AI在肿瘤学临床决策中的应用:一种多模态方法

在临床肿瘤学领域&#xff0c;多模态人工智能&#xff08;AI&#xff09;系统通过解读各类医学数据&#xff0c;展现出提升临床决策的潜力。然而&#xff0c;这些模型在所有医学领域中的有效性尚未确定。本文介绍了一种新型的多模态医疗AI方法&#xff0c;该方法利用大型语言模…