Hadoop3教程（九）：MapReduce框架原理概述

Hadoop3教程（九）：MapReduce框架原理概述

news/2024/12/25 15:53:15/文章来源:https://blog.csdn.net/wlh2220133699/article/details/133840945

文章目录

简介
参考文献

简介

这属于整个MR中最核心的一块，后续小节会展开描述。

整个MR处理流程，是分为Map阶段和Reduce阶段。

一般，我们称Map阶段的进程是MapTask，称Reduce阶段是ReduceTask。

其完整的工作流程如图：

在这里插入图片描述

Map阶段具体的工作任务是啥呢？

1） map阶段决定，根据数据源，可以选择根据什么方式来读取数据；

默认情况下，map阶段读数据，是按行读，读取到的KV里，K是偏移量（可以理解成行数），V是这一行的内容。那map阶段是不是只能这么行读呢？

不是。

这里就要介绍一个组件，叫做InputFormat，它就是用来控制数据的读取形式。

Hadoop中的InputFormat有好几种实现，如FileInputFormat、TextInputFormat和CombineTextInputFormat等。

2）数据在被读进来之后，就会交给Mapper来进行自定义业务逻辑的处理；

3）接着进行shuffle，这是一个非常复杂的过程，可以在这里进行排序、分区、压缩、合并等等，堪称MapReduce中最核心的环节。

最后进入reduce阶段，也有一个组件，叫做OutputFormat，用来控制数据的输出形式。同样的，它也有好几种实现，默认的OutputFormat是把数据写进文件里，那我想写进数据库里，可不可以呢？

当然可以，自定义OutputFormat就可以。

接下来的几节就会围绕这个流程做展开讲述：

InputFormat
Shuffle机制
OutputFormat
Join应用

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/160606.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

开源酒店预订订房小程序源码系统+多元商户前端+后端完整搭建教程可二次开发

开源酒店预订订房小程序源码系统+多元商户前端+后端完整搭建教程可二次开发

大家好啊，罗峰今天来给大家分享一款酒店预订订房小程序源码系统，这款系统进行了全新的升级，从原来的单门店升级成了多门店，可以自由切换账号，统一管理。功能强大。以下是部分代码截图： 酒店预订订房小程序源…

阅读更多...

【数据结构】算法、时间复杂度和空间复杂度详解 ------ 算法篇

【数据结构】算法、时间复杂度和空间复杂度详解 ------ 算法篇

文章目录 📋前言一. ⛳️算法的定义二. ⛳️算法的特性2.1 输入输出2.2 输入输出2.3 有穷性2.4 确定性2.5 可行性三. ⛳️算法设计要求3.1 正确性3.2 可读性3.2 健壮性3.3 时间效率高和存储量低四. ⛳️算法效率的度量方法4.1 事后统计方法4.2 事前分析估算方法五…

阅读更多...

学术 | IEEE ICASSP学术会议申请及截止时间

学术 | IEEE ICASSP学术会议申请及截止时间

ICASSP会议即国际声学、语音与信号处理会议，是全世界最大的，也是最全面的信号处理及其应用方面的顶级会议，是IEEE（电子技术与信息科学工程师协会）旗下的重要国际会议。 2024 IEEE International Conference on Acousti…

阅读更多...

Vue - 标准开发方式、组件（全局、局部、props、事件传递）、插槽的使用

Vue - 标准开发方式、组件（全局、局部、props、事件传递）、插槽的使用

目录一、Vue 1.1、标准开发方式 1.2、组件的使用 1.2.1、全局组件 1.2.2、局部组件 1.2.3、props 传递静态数据 1.2.4、props 传递动态数据 1.2.5、事件传递 1.2.6、插槽slot 一、Vue 1.1、标准开发方式 Vue 的标准开发方式是 SPA（Single Page Applicatio…

阅读更多...

2023年【天津市安全员C证】模拟考试及天津市安全员C证实操考试视频

2023年【天津市安全员C证】模拟考试及天津市安全员C证实操考试视频

题库来源：安全生产模拟考试一点通公众号小程序天津市安全员C证模拟考试是安全生产模拟考试一点通生成的，天津市安全员C证证模拟考试题库是根据天津市安全员C证最新版教材汇编出天津市安全员C证仿真模拟考试。2023年【天津市安全员C证】模拟考试及天津市…

阅读更多...

10-SRCNN-使用CNN实现超分辨成像

10-SRCNN-使用CNN实现超分辨成像

文章目录 utils_dataset.pymodel.pytrain.pyuse.py主要文件 utils_dataset.py 工具文件，主要用来制作dataset，便于加入dataloader，用于实现数据集的加载和并行读取 model.py 主要写入网络（模型） train.py 主要用于训练 use.py 加载训练好的模型，用于测试或使用 utils_dat…

阅读更多...

ACU-01B 3HNA024871-001/03 机器人将如何改变世界

ACU-01B 3HNA024871-001/03 机器人将如何改变世界

ACU-01B 3HNA024871-001/03 机器人将如何改变世界由于改进的传感器技术以及机器学习和人工智能方面更显著的进步，机器人将继续从单纯的机械机器转变为具有认知功能的合作者。这些进步，以及其他相关领域，正在享受一个上升的轨迹，…

阅读更多...

Archive Team: The Twitter Stream Grab

Archive Team: The Twitter Stream Grab

该集合不再更新，应被视为静态数据集。从一般 Twitter 流中抓取的 JSON 的简单集合，用于研究、历史、测试和记忆的目的。这是“Spritzer”版本，最轻、最浅的 Twitter 抓取。不幸的是，我们目前无法访问流的洒水器或花园软管版本。 …

阅读更多...

MATLAB-自动批量读取文件，并按文件名称或时间顺序进行数据处理

MATLAB-自动批量读取文件，并按文件名称或时间顺序进行数据处理

我在处理文件数据时，发现一个一个文件处理效率太低，因此学习了下MATLAB中自动读取特定路径下文件信息的程序，并根据读取信息使用循环进行数据处理，提高效率，在此分享给大家这段代码并给予一些说明，希望能为…

阅读更多...

Docker逃逸---授权 SYS_ADMIN Capability逃逸原理浅析

Docker逃逸---授权 SYS_ADMIN Capability逃逸原理浅析

目录一、产生原因二、利用条件三、复现过程 1、容器内挂载宿主机cgroup 2、设置notify_no_release并寻找容器在宿主机上的存储路径 3、将恶意脚本写入release_agent 一、产生原因给容器额外授权了SYS_ADMIN Cap，并且容器以root权限运行，攻击者…

阅读更多...

数据结构之堆

数据结构之堆

目录前言堆的概念与结构堆的实现堆的初始化堆的销毁堆的显示堆的插入堆的向上调整算法堆的删除堆的向下调整算法堆的判空获取堆顶元素堆的数据个数堆的创建前言二叉树的顺序结构存储即使用数组存储，而数组存储适用于完全二叉树&#xf…

阅读更多...

C# OpenVINO Cls 图像分类

C# OpenVINO Cls 图像分类

效果耗时 class idbrown_bear, score0.86 preprocess time: 0.00ms infer time: 2.72ms postprocess time: 0.02ms Total time: 2.74ms项目代码 using OpenCvSharp; using Sdcb.OpenVINO; using Sdcb.OpenVINO.Natives; using System; using System.Diagnostics; using Sys…

阅读更多...

【分享】教你加速访问GitHub，进来学！

【分享】教你加速访问GitHub，进来学！

哈喽，大家好，木易巷来啦！ 众所周知，Github是一款程序猿必备的代码托管平台，上面已经存在了无数前辈的心血！经常需要在上面查看大佬写的一些好用的开源项目，无赖国外网站的速度实在让人难以接受。…

阅读更多...

基于ssm+vue的线上点餐系统

基于ssm+vue的线上点餐系统

末尾获取源码开发语言：Java Java开发工具：JDK1.8 后端框架：SSM 前端：Vue 数据库：MySQL5.7和Navicat管理工具结合服务器：Tomcat8.5 开发软件：IDEA / Eclipse 是否Maven项目：是目录…

阅读更多...

间歇性微服务问题...

间歇性微服务问题...

在Kubernetes环境中，最近由于特定配置导致Pod调度失败。哪种 Kubernetes 资源类型（通常与节点约束相关）可能导致此故障，尤其是在未正确定义的情况下？ 节点选择器资源配额优先级污点Pod 中断预算已有 201 人回答了该…

阅读更多...

华为数通方向HCIP-DataCom H12-831题库(单选题：261-280）

华为数通方向HCIP-DataCom H12-831题库(单选题：261-280）

第261题某网络通过部署1S-IS实现全网与通，若在一台IS-IS路由器的某接口下配置命令isis timer holding multiplier 5 level-2，则以下关于该场景的描述，正确的是哪一项? A、该接口Level-2邻居保持时间为5秒 B、该接口Level-1邻居保持时间为30秒 C、该接口为点对点链路接口 …

阅读更多...

工控网络协议模糊测试：用peach对modbus协议进行模糊测试

工控网络协议模糊测试：用peach对modbus协议进行模糊测试

0x00 背景本人第一次在FB发帖，进入工控安全行业时间不算很长，可能对模糊测试见解出现偏差，请见谅。在接触工控安全这一段时间内，对于挖掘工控设备的漏洞，必须对工控各种协议有一定的了解，然后对工控协议…

阅读更多...

Qt开发之路--模块化设计.pri文件

Qt开发之路--模块化设计.pri文件

Qt开发之路--模块化设计.pri文件 QT pro文件和pri文件的区别Chapter1 Qt开发之路--模块化设计.pri文件一：.pri文件简介二：通过.pri模块化设计三：结尾 Chapter2 Qt开发大型项目时，通过.pri文件将众多文件按功能模块分类显示Qt中多p…

阅读更多...

概率神经网络分类问题程序

概率神经网络分类问题程序

欢迎关注“电击小子程高兴的MATLAB小屋” %% 概率神经网络 %% 解决分类问题 clear all; close all; P[1:8]; Tc[2 3 1 2 3 2 1 1]; Tind2vec(Tc) %数据类型的转换 netnewpnn(P,T); Ysim(net,P); Ycvec2ind(Y) %转换回来

阅读更多...

7天狂揽 1.3w star 的 MetaGPT，他们的目标让软件公司为之一惊

7天狂揽 1.3w star 的 MetaGPT，他们的目标让软件公司为之一惊

在 AI 产品爆炸的今天，拥有各种本领的 AI 产品层出不穷，但 MetaGPT 的出现仍然显的格外耀眼，其可以实现只输入单一 prompt，就可以输出需求分析、需求文档、技术架构、最终代码等等产物，这相当于一个开发团队的输出成果…

阅读更多...

最新文章

推荐文章