MapReduce完整工作流程

1、mapreduce工作流程(终极版)

0. 任务提交

1. 拆-split逻辑切片--任务切分。 FileInputFormat--split切片计算工具 FileSplit--单个计算任务的数据范围。

2. 获得split信息和个数。

MapTask阶段

1. 读取split范围内的数据。k(偏移量)-v(行数据)

        关键API:TextInputFormat。

2. 循环调用mapper.map(k,v) 关键代码:

        while(xx.next){ mapper.map(k,v); }

3. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

        Partitioner.getPartition(k,v,reduceTask数量)--分区号。

4. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

         MapOutputBuffer--环形缓冲区。

5. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

        ① 读取k-v{分区号},对溢写范围内的数据进行排序。

        ② 存放到本地磁盘文件中,产生分区内的溢写文件。

6. 溢写完毕后,产生多个溢写文件

        ① 将多个溢写文件合并成1个有序---归并排序。

        ② combiner(分区 合并 调用reducer--局部reduce操作)【如果开启】

结果: 每个MapTask执行完毕后本地磁盘,每个分区(目录)内只有一个文件。(Key有序)

ReduceTask阶段

1. 从各个MapTask节点下载对应分区的结果文件。

        MapTask(分区0文件)

        MapTask(分区0文件)→ ReduceTask-0

        MapTask(分区0文件)

2. merge操作

        ① 排序

        ② 按照key分组

        ③ 将key相同的多个value--->[v,v,v,v]

3. 循环调用Reducer.reduce方法处理数据

        while(xxx){ reducer.reduce(k,vs); }

4. reducer.reduce输出key-value,将数据写入HDFS中。

        TextOutputForamt 格式化数据的工具类

        FileOutputFormat 指定输出HDFS的路径位置。

整个过程简述:

任务提交,根据文件大小切分Split逻辑切片,一个逻辑切分会启动一个Maptesk任务,Maptask会循环读取block块上的数据输出key和value,然后进行分区计算将输出的k、v存入临时缓冲区,缓冲区写满80%后会产生溢写文件(多个),然后将不同分区的多个溢写文件合并为一个溢写文件作为该阶段的输出文件。通过网络传输进入reduceTesk阶段,将不同split逻辑切分中的相同的分区号文件进行合并为一个文件(merge操作),作为reduceeTesk的输入文件,循环调用Reducer.reduce方法执行任务,将数据写入HDFS中。

2、Spill溢写过程详解

发生在MapReduce过程中的排序:

第一次: MapTask阶段环形缓冲区开始spill溢写,缓冲区每次溢写,发生一轮排序。 快排排序

第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序) 归并排序

第三次: ReduceTask-0 汇总多个MapTask的(对应分区-0)结果文件,归并排序

3、Shuffle过程详解

简言:站在数据的角度来讲,数据从Mapper.map方法离开,一直到数据进入Reducer.reduce方法,中间的过程。

Mapper阶段

2. 循环调用mapper.map(k,v) 关键代码:

        while(xx.next){ mapper.map(k,v); }

3. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

        Partitioner.getPartition(k,v,reduceTask数量)--分区号。

4. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

         MapOutputBuffer--环形缓冲区。

5. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

        ① 读取k-v{分区号},对溢写范围内的数据进行排序。

        ② 存放到本地磁盘文件中,产生分区内的溢写文件。

ReduceTask阶段

1. 从各个MapTask节点下载对应分区的结果文件。

        MapTask(分区0文件)

        MapTask(分区0文件)→ ReduceTask-0

        MapTask(分区0文件)

2. merge操作

        ① 排序

        ② 按照key分组

        ③ 将key相同的多个value--->[v,v,v,v]

3. 循环调用Reducer.reduce方法处理数据

        while(xxx){ reducer.reduce(k,vs); }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/474.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

毕业项目推荐:基于yolov8/yolov5/yolo11的动物检测识别系统(python+卷积神经网络)

文章目录 概要一、整体资源介绍技术要点功能展示:功能1 支持单张图片识别功能2 支持遍历文件夹识别功能3 支持识别视频文件功能4 支持摄像头识别功能5 支持结果文件导出(xls格式)功能6 支持切换检测到的目标查看 二、数据集三、算法介绍1. YO…

了解Node.js

Node.js是一个基于V8引擎的JavaScript运行时环境,它允许JavaScript代码在服务器端运行,从而实现后端开发。Node.js的出现,使得前端开发人员可以利用他们已经掌握的JavaScript技能,扩展技能树并成为全栈开发人员。本文将深入浅出地…

MAC上安装Octave

1. 当前最新版Octave是9.3版本,需要把mac os系统升级到14版本(本人之前的版本是10版本) https://wiki.octave.org/Octave_for_macOS octave的历史版本参考此文档:Octave for macOS (outdated) - Octavehttps://wiki.octave.org/Oc…

矩阵求逆的几种方式

矩阵求逆的几种方式(以二阶为例) 矩阵求逆的方法有多种,以下是常用的几种方式总结: 1. 行列式公式法 这是最常见的方法,适用于 2 2 2 \times 2 22矩阵。 对于矩阵: Φ [ a b c d ] , \Phi \begin{bma…

【优选算法篇】:深入浅出位运算--性能优化的利器

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:优选算法篇–CSDN博客 文章目录 一.位运算一.位运算概述二.常见的位运算操作符三.常见的位运…

每日十题八股-2025年1月12日

1.为什么四次挥手之后要等2MSL? 2.服务端出现大量的timewait有哪些原因? 3.TCP和UDP区别是什么? 4.TCP为什么可靠传输 5.怎么用udp实现http? 6.tcp粘包怎么解决? 7.TCP的拥塞控制介绍一下? 8.描述一下打开百度首页后发生的网络过…

微信小程序——创建滑动颜色条

在微信小程序中,你可以使用 slider 组件来创建一个颜色滑动条。以下是一个简单的示例,展示了如何实现一个颜色滑动条,该滑动条会根据滑动位置改变背景颜色。 步骤一:创建小程序项目 首先,使用微信开发者工具创建一个新…

嵌入式Linux之文件IO

一、标准IO库 1.1 打开/关闭文件 fopen 新建 fopen_test.c&#xff0c;写入以下内容&#xff1a; #include <stdio.h> int main() {/* 打开文件函数&#xff1a;FILE *fopen (const char *__restrict __filename,const char *__restrict __modes)参数&#xff1a;c…

HTML5实现好看的端午节网页源码

HTML5实现好看的端午节网页源码 前言一、设计来源1.1 网站首页界面1.2 登录注册界面1.3 端午节由来界面1.4 端午节习俗界面1.5 端午节文化界面1.6 端午节美食界面1.7 端午节故事界面1.8 端午节民谣界面1.9 联系我们界面 二、效果和源码2.1 动态效果2.2 源代码 源码下载结束语 H…

【2024年华为OD机试】(A卷,100分)- 单词倒序(Java JS PythonC/C++)

一、问题描述 题目描述 输入单行英文句子&#xff0c;里面包含英文字母&#xff0c;空格以及,.?三种标点符号&#xff0c;请将句子内每个单词进行倒序&#xff0c;并输出倒序后的语句。 输入描述 输入字符串S&#xff0c;S的长度 1 ≤ N ≤ 100 输出描述 输出倒序后的字…

插入实体自增主键太长,mybatis-plaus自增主键

1、问题 spring-boot整合mybtais执行insert语句时&#xff0c;主键id为长文本数据。 2、分析问题 1)数据库主键是否自增 2&#xff09;数据库主键的种子值设置的多少 3、解决问题 1&#xff09;数据库主键设置的时自增 3&#xff09;种子值是1 所以排查是数据库的问题 4、继…

Java高频面试之SE-11

hello啊&#xff0c;各位观众姥爷们&#xff01;&#xff01;&#xff01;本牛马baby今天又来了&#xff01;哈哈哈哈哈嗝&#x1f436; Java中是引用传递还是值传递&#xff1f; 在 Java 中&#xff0c;方法参数传递是通过 值传递 的方式实现的&#xff0c;但这可能会引起一…

Proser:升级为简易的通讯调试助手软件

我本来打算将Proser定位为一个直观的协议编辑、发送端模拟软件&#xff0c;像下面这样。 但是按耐不住升级的心理&#xff0c;硬生生的把即时收发整合了进去&#xff0c;就像这样&#xff01; 不过&#xff0c;目前针对即时收发还没有发送历史、批量发送等功能&#xff0c;…

php 使用simplexml_load_string转换xml数据格式失败

本文介绍如何使用php函数解析xml数据为数组。 <?php$a <xml><ToUserName><![CDATA[ww8b77afac71336111]]></ToUserName><FromUserName><![CDATA[sys]]></FromUserName><CreateTime>1736328669</CreateTime><Ms…

计算机视觉算法实战——打电话行为检测

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​​​​​ ​​​​​​​​​​​​​​​ ​​​​​​ ​ 1. 引言✨✨ 随着智能手机的普及&#xff0c;打电话行为检测成为了计算机视…

SpringBoot日常:集成Kafka

文章目录 1、pom.xml文件2、application.yml3、生产者配置类4、消费者配置类5、消息订阅6、生产者发送消息7、测试发送消息 本章内容主要介绍如何在springboot项目对kafka进行整合&#xff0c;最终能达到的效果就是能够在项目中通过配置相关的kafka配置&#xff0c;就能进行消息…

HTTPS SSL/TLS 工作流程

目录 一、HTTP/HTTPS 简介1、HTTP协议相关内容2、HTTPS协议3、HTTP版本差异&#xff1a; 二、HTTPS 协议工作流程解析1. 客户端请求 SSL 握手2. 服务端接收 SSL 握手连接3. TLS 握手中的密钥协商4. HTTP 数据的加密与解密5. 安全性保障 三、HTTPS 协议的相关知识拓展1. TLS 与 …

Ubuntu中使用miniconda安装R和R包devtools

安装devtools环境包 sudo apt-get install gfortran -y sudo apt-get install build-essential -y sudo apt-get install libxt-dev -y sudo apt-get install libcurl4-openssl-dev -y sudo apt-get install libxml2.6-dev -y sudo apt-get install libssl-dev -y sudo apt-g…

解决SpringBoot无法使用JDK8问题

解决SpringBoot无法使用JDK8问题 现状解决方案 现状 使用idea创建springboot项目无法选择java8。原因是23年11月的spring更新后就明确了不在支持java8版本的项目创建&#xff0c;但是目前为止很多公司开发还在用java8&#xff0c;导致会有问题的产生。 解决方案 使用idea创…

八、系统托盘与配置面板

没有人会把你变得越来越好&#xff0c;时间和经历只是陪衬。 支撑你变得越来越好的&#xff0c;是你自己坚强的意志、修养、品行、以及不断的反思和经验。 人生最好的贵人&#xff0c;就是努力向上的自己。 一、系统托盘 1、资源文件夹 新建资源文件夹&#xff0c;我们需要把…