MapReduce 机理

1.hadoop 平台进程

Namenode进程:

管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log),这些信息被Cache在RAM中,当然,这两个文件也会被持久化存储在本地硬盘。Namenode记录着每个文件中各个块所在的数据节点的位置信息,但是他并不持久化存储这些信息,因为这些信息会在系统启动时从数据节点重建。

Namenode容错机制

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。Hadoop可以通过配置来让Namenode将他的持久化状态文件写到不同的文件系统中。这种写操作是同步并且是原子化的。比较常见的配置是在将持久化状态写到本地硬盘的同时,也写入到一个远程挂载的网络文件系统。

第二种方式是运行一个辅助的Namenode(Secondary Namenode)。 事实上Secondary Namenode并不能被用作Namenode它的主要作用是定期的将Namespace镜像与操作日志文件(edit log)合并,以防止操作日志文件(edit log)变得过大。通常,Secondary Namenode 运行在一个单独的物理机上,因为合并操作需要占用大量的CPU时间以及和Namenode相当的内存。辅助Namenode保存着合并后的Namespace镜像的一个备份,万一哪天Namenode宕机了,这个备份就可以用上了。

但是辅助Namenode总是落后于主Namenode,所以在Namenode宕机时,数据丢失是不可避免的。在这种情况下,一般的,要结合第一种方式中提到的远程挂载的网络文件系统(NFS)中的Namenode的元数据文件来使用,把NFS中的Namenode元数据文件,拷贝到辅助Namenode,并把辅助Namenode作为主Namenode来运行。

DATANODE

Datanode是文件系统的工作节点,他们根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送他们所存储的块(block)的列表。

集群中的每个服务器都运行一个DataNode后台程序,这个后台程序负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个 数据时,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后,客户端直接与这个DataNode服务器上的后台程序进行通 信,并且对相关的数据块进行读/写操作。

Secondary  NameNode

Secondary  NameNode不同于NameNode,它不接受或者记录任何实时的数据变化,但是,它会与NameNode进行通信,以便定期地保存HDFS元数据的 快照。由于NameNode是单点的,通过Secondary  NameNode的快照功能,可以将NameNode的宕机时间和数据损失降低到最小。同时,如果NameNode发生问题,Secondary  NameNode可以及时地作为备用NameNode使用。

(1)       Secondary NameNode请求NameNode进行edit log的滚动(即创建一个新的edit log),将新的编辑操作记录到新生成的edit log文件;

(2)       通过http get方式,读取NameNode上的fsimage和edits文件,到Secondary NameNode上;

(3)       读取fsimage到内存中,即加载fsimage到内存,然后执行edits中所有操作(类似OracleDG,应用redo log),并生成一个新的fsimage文件,即这个检查点被创建;

(4)       通过http post方式,将新的fsimage文件传送到NameNode;

(5)       NameNode使用新的fsimage替换原来的fsimage文件,让(1)创建的edits替代原来的edits文件;并且更新fsimage文件的检查点时间。

ResourceManager(RM)
        ResourceManage 即资源管理,在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。

资源分配单位用“资源容器”(Contrainer)表示,Container是一个动态资源分配单位,它将内存、cpu、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。

1)处理客户端请求;
2)启动或监控ApplicationMaster;  
3)监控NodeManager;  
4)资源的分配与调度。

NodeManager(NM)

NodeManager进程运行在集群中的节点上,每个节点都会有自己的NodeManager。Nodemanager整个集群有多个,负责每个节点上的资源和使用。NodeManager是一个slave服务:

它负责接收处理来自ResourceManager的资源分配请求,分配具体的Container给应用。  
同时,它还负责监控并报告Container使用信息给ResourceManager。NodeManager只负责管理自身的Container,它并不知道运行在它上面应用的信息。负责管理应用信息的组件是ApplicationMaster
NodeManager的任务包括:

1)和ResourceManager保持同步
2)跟踪Node的状态
3)监控Container的生命周期,监控Container使用的资源
4)管理Distributed Cache
5)管理Container生成的日志

MapReduce机理

1.1 MapTask
工作机制简述: 输入的数据通过 split 被逻辑切分为多个 split 文件,通过 Record 按行读取内容给 map(用户实现)进行处理,数据被 map 处理结束后交给 OutputCollector 收集器,对其结果 key 进行分区(hash),然后写入 buffer,每个 maptask 都有一个内存缓冲区,存储着 map 的输出结果,当缓冲区快满时需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个 maptask 结束后,再对磁盘中 maptask 产生的所有临时文件做合并,生成最终的正式输出文件,然后等待 reducetask 获取该数据。

1.2 ReduceTask
工作机制简述: Reduce 分为 copy、sort、reduce 三个阶段。ReduceTask 从各个 MapTask 上远程 copy 一片数据,进行一次归并排序,最后由 reduce(用户实现)将数据写到 HDFS 上。

>>>>>2. 数据输入
数据输入:输入文件的格式包括:日志文件、二进制文件、数据库表等,具体的文件类型,就需要对应的 InputFormat 来读取数据。

常用的 InputFormat 的实现类:

FileInputFormat: 按照文件的内容长度进行切片,切片大小默认等于 Block 大小,切片时不需要考虑数据集整体,只是针对每一个文件单独切片。
TextInputFormat: 是 FileInputFormat 默认的实现类,按照行读取每行记录,键是存储改行在整个文件中的起始字节偏移量(offset),LongWritable 类型;值是该行的内容,Text 类型。
CombineTextInputFormat: 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,及将多个小文件交给一个 MapTask 处理。

数据块: 是 HDFS 存储的数据单位,实际上是 HDFS 将文件分成一块一块(Block)

数据切片: 是 MapReduce 程序计算输入数据的单位,一个切片会启动一个对应的 MapTask(数据切片只是逻辑上对输入的数据进行分片)

MapTask 原理

inputformat 阶段: inputFormat(默认 TextInputFormat)通过 getSplits 方法对输入目录中的文件进行逻辑切片,得到 block,但后分配对应数量的 MapTask。

read 阶段: MapTask 通过 inputFormat 获取 recordReader 对象(默认 LineRecordReader)进行读取,以 \n 最为分隔符,读取一行数据,返回 <key, value>。key 表示每行首字符的字节偏移量,value 表示这一行的内容

map 阶段: 将解析出的 <key, value> 交给用户自己继承的 Mapper 类中,执行其中的 map 方法。RecordReader 每读取一行,在这里调用一次!

 Collect 阶段: Mapper 的逻辑结束后,将每条数据通过 contect.write 进行收集数据,通过 OutputCollect.collect() 输出结果;在 collect() 方法中,会先对其进行分区(默认使用 HashPartitioner)处理,并写入一个环形缓冲区中

MapTask 提供的 Partitioner 接口,其作用是根据 key 或 value 及 reducer 的数量来决定当前输出数据应该交由 reducetask 处理,默认对 key hash 后以 reducer 数量取模(默认的取模方式是平均 reducer 的处理能力)

缓冲区的作用是批量收集 Mapper 结果,减少磁盘 I/O 的影响,key/value 对以及 partition 的结果都会被写入缓冲区(key、value 都会被序列化成字节数组)。

Spill 阶段: 当溢写线程启动后,对着缓冲区80%空间内的 key 做依次本地排序(sort),并在必要时对数据进行合并、压缩等操作

溢写的流程

1、利用快速排序算法对缓冲区内的数据进行排序,先按照分区编号排序,然后每个分区内按照key排序。

2、按照分区编号将每个分区中的数据写入任务工作目录下的临时文件 output/spillN.out(N表示当前溢写的次数)。如果有 Combiner ,则写入文件之前,对每个分区内的数据进行依次聚集操作。

3、将分区数据的元数据写到内存索引数据结构 SpillRecord 中。如果当前内存索引大小超过1MB,则将内存索引写到文件 output/spillN.out.index 中。

Merge 阶段: 每次溢写会在磁盘上生成一个临时文件(写之前判断是否需有 Combiner),当数据处理结束后,会对所有的临时文件进行一次合并,确保最终只生成一个文件(output/file.out),同时生成一个索引文件(output/file.out.index)以记录数据偏移量。

环形缓冲区

环形缓冲区是一个数组,数组中存放着 key、value 的序列化数据以及相关的元数据,包括 partition、key的起始位置、value的起始位置、value的长度等。

缓冲区的默认大小是100MB,当缓冲区80%的空间被占用是,就会启动溢写(Spill),Mapper 的输出结果可以往剩下20%的空间继续写入数据。

 MapTask 并行度决定依据

一个 Job 的 Map 阶段并行度由 Job 的分片数决定。每一个 Split 分片分配一个 MapTask 进行处理。

Shuffle

Shuffle: map 阶段完成后,数据需要传输到 reduce,这中间的(数据处理)过程可称为 shuffle(洗牌,发牌)。

shuffle的核心机制包括:数据分区、排序、分组、规约、合并等过程。

input Split: 输入的数据分片后,每一个 split 都会由一个 Mapreduce 处理,最先由 map 进行处理

 Map 阶段的 Shuffle:

Collect 阶段: 将MapTask的结果输出到默认大小为100M的环形缓冲区,保存的是key/value序列化数据,Partition分区信息等。

Spill 阶段: 当内存中的数据量达到一定的阀值(80%)的时候,就会将数据写入本地磁盘。在将数据写入磁盘之前,线程首先根据数据最终要传递到的 Reduce 任务把数据划分成相应的分区(Partition),每个分区中对数据的 key 进行一次排序的操作,如果配置了combiner(预聚合),还会将有相同分区号和 key 的数据进行聚合。

 Merge 阶段: 把所有溢出的临时文件进行一次合并操作,以确保一个MapTask最终只产生一个中间数据文件。

溢出写文件归并完毕后,Map 任务将删除所有的临时溢出写文件,并告知 TaskTracker 任务已完成,只要其中一个 Map 任务完成,Reduce 任务就会开始复制它的输出(Copy 阶段)。

Map 任务的输出文件放置在运行 Map 任务的 TaskTracker 的本地磁盘上,它是运行 Reduce 任务的 TaskTracker 所需要的输入数据。

 Reduce 阶段的 Shuffle:

Copy 阶段:ReduceTask启动Fetcher线程到已经完成MapTask的节点上,根据自己的分区号,复制一份属于自己的数据,这些数据默认会保存在内存的缓冲区中,当内存的缓冲区达到一定的阀值的时候,就会将数据写到磁盘之上。

 Merge 阶段:在ReduceTask远程复制数据的同时,会在后台开启两个线程(一个是内存到磁盘的合并,一个是磁盘到磁盘的合并),对本地的数据文件进行合并操作。

merge 有三种形式:

内存到内存:该形式不启用

内存到磁盘:该形式一直在运行

磁盘到磁盘:marge阶段,生成最终的文件

Sort 阶段:在对数据进行合并的同时,会进行排序操作,由于MapTask 阶段已经对数据进行了局部的排序,ReduceTask只需对Copy的数据进行归并排序。

最终文件默认位于磁盘中,当 Reduce 的输出文件已定,整个 Shuffle 阶段就结束了,但后进行 Reducer 的执行(从文件中取出每一个键值对,调用用户自定义的 reduce 方法)。

Partition 分区

当数据文件过大时,我们可以按照不同的条件将大文件拆分为小分进行处理,比如按照区域划分、按照日期划分等。

分区: MapReduce 在 Map 阶段结束后,会对数据按照 key 进行分区。

默认分区数据量为1,如果job中设置了 reduceTask 数量,则分区数量与 reduceTask 数量一致。

Partitioner

在 Driver 中,我们可以通过 job.setNumReduceTasks(Num) 来自定义分区数量,在理解之前就先试下。

对原本输出一个文件的案例的 Driver 修改其 ReduceTasks 数量:

分区数量

分区数 = reduce数:理想状态

分区数 > reduce数:任务报错

分区数 < reduce数:生成多余空文件

 Comparable 排序

MapTask 和 ReduceTask 均会对数据按照 key 的字典顺序进行(快速)排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。

Task的排序
对于 MapTask ,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序。

对于 ReduceTask ,它从每个 MapTask 上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后,ReduceTask 统一对内存和磁盘上的所有数据进行一次归并排序。

排序分类
部分排序: MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。

全局排序: 最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce所提供的并行架构。

辅助排序: (GroupingComparator分组) ,在Reduce端对key进行分组。应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时,可以采用分组排序。

⼆次排序: 如果需要中间过程对key的分组规则和reduce前对key的分组规则不同,那么可以通过 JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上 JobConf.setOutputKeyComparatorClass(Class) 可用于控制中间过程的key如何被分组,所以结合两者可以实现按值的二次排序。

 Combiner 预聚合

Combiner: 是 MapReduce 提供的一个 Mapper 端的预聚合机制,是对每个 Mapper 产生的结果进行本地聚集。

ReduceTask 原理

ReduceTask 并行度决定机制

ReduceTask 的并行度将影响 Job 执行的并发度和,执行效率。

ReduceTask 数量的设置:

job.setNumReduceTasks(X);
ReduceTask 的数量默认为1,对应最终输出文件的数量。如果数据分布不均匀,就有可能在Reduce阶段产生数据倾斜。

数据输出

数据输出的父类为 OutputFormat。

常用的 OutputFormat 的实现类:

TextOutputFormat:默认的输出格式,它把每条记录写为文本行,且

key/value 可以是任意类型

SequenceFileOutputFormat:将输出写为一个顺序文件,格式紧凑易于压缩,如果输出需要为后续 MapReduce 任务的输入,这便是一种很好的输出格式。

自定义输出:符合特定需求,比如输出数据到MySQL、HBase等存储框架中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/311824.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

命令模式

命令模式&#xff1a;将一个请求封装为一个对象&#xff0c;从而使你可用不同的请求对客户进行参数化&#xff1b;对请求排队或记录请求日志&#xff0c;以及支持可撤销的操作。 命令模式的好处&#xff1a; 1、它能较容易地设计一个命令队列&#xff1b; 2、在需要的情况下&a…

【Phytium】飞腾D2000 UEFI/EDK2 适配 RTC(IIC SD3077)

文章目录 0. env1. 软件2. 硬件 10. 需求1. 硬件2. 软件 20. DatasheetCPURTC 30. 调试步骤1. 硬件环境搭建2. UEFI 开发环境搭建3. 修改步骤1. UEFI 中使能RTC驱动、配置RTC信息等1.1 使能RTC驱动1.2 修改RTC对应的IIC配置信息1.3 解决驱动冲突1.4 验证波形 2. 修改对应RTC驱动…

1、MYSQL系列-深入理解Mysql索引底层数据结构与算法

索引的本质 索引是帮助MySQL高效获取数据的排好序的数据结构 索引数据结构 二叉树红黑树Hash表BTree B-Tree B-Tree 叶节点具有相同的深度&#xff0c;叶节点的指针为空&#xff0c;所有索引元素不重复&#xff0c;节点中的数据索引从左到右递增排列 BTree(B-Tree变种) 非叶…

使用FastDDS编译IDL文件

1.安装FastDDS环境 Ubuntu22.04 1.1安装依赖的软件 sudo apt-get update //基础工具安装 sudo apt install cmake g python3-pip wget git //Asio 是一个用于网络和低级 I/O 编程的跨平台C库&#xff0c;它提供了一致的 异步模型。 TinyXML2是一个简单&#xff0c;小巧&…

Leetcode 4. 寻找两个正序数组的中位数

心路历程&#xff1a; 这道题暴力解很简单&#xff0c;一看到要求O(log(mn))的复杂度就只能是双指针&#xff0c;但是实测发现这道题用归并排序更快。这可能就是平均复杂度和实际复杂度的Gap吧。 二分法的思路&#xff1a; 要找到第 k (k>1) 小的元素&#xff0c;那么就取…

利用redis和fastapi实现本地与平台策略进行交互

redis在pandas一文有详细使用方法(一文教会pandas-CSDN博客)&#xff0c;具体可视化软件有redisstudio等。它是一个由 Salvatore Sanfilippo 写的 key-value 存储系统&#xff0c;是跨平台的非关系型数据库。 Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络…

NTC热敏电阻采集温度-单片机通用模板

NTC热敏电阻采集温度-单片机通用模板 一、NTC热敏电阻转换温度的原理二、AT104Tem.c的实现三、AT104Tem.h的实现 一、NTC热敏电阻转换温度的原理 ①NTC热敏电阻会随着温度的升高&#xff0c;电阻值R逐渐降低&#xff1b;②硬件搭建电阻分压电路采集ADC逆推热敏电阻当前的阻值&…

ArcGIS加载的各类地图怎么去除服务署名水印

昨天介绍的&#xff1a; 一套图源搞定&#xff01;清新规划底图、影像图、境界、海洋、地形阴影图、导航图-CSDN博客文章浏览阅读373次&#xff0c;点赞7次&#xff0c;收藏11次。一体化集成在一起的各类型图源&#xff0c;比如包括影像、清新的出图底图、地形、地图阴影、道路…

如何在PPT中获得网页般的互动效果

如何在PPT中获得网页般的互动效果 效果可以看视频 PPT中插入网页有互动效果 当然了&#xff0c;获得网页般的互动效果&#xff0c;最简单的方法就是在 PPT 中插入网页呀。 那么如何插入呢&#xff1f; 接下来为你讲解如何获得&#xff08;此方法在 PowerPoint中行得通&#…

Modality-Aware Contrastive Instance Learning with Self-Distillation ... 论文阅读

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection 论文阅读 ABSTRACT1 INTRODUCTION2 RELATEDWORKS2.1 Weakly-Supervised Violence Detection2.2 Contrastive Learning2.3 Cross-Modality Knowle…

Yolo-world+Python-OpenCV之摄像头视频实时目标检测

上一次介绍了如何使用最基本的 Yolo-word来做检测&#xff0c;现在我们在加opencv来做个实时检测的例子 基本思路 1、读取离线视频流 2、将视频帧给yolo识别 3、根据识别结果 对视频进行绘制边框、加文字之类的 完整代码如下&#xff1a; import datetimefrom ultralytics …

excel 无法正确处理 1900-03-01 前的日期

问题由来&#xff1a;excel 用公式 TEXT(A1,"yyyy-mm-dd") 转日期时&#xff0c;当A1 的值等于59 的时候&#xff0c;返回值是1900-02-28&#xff1b;当A1 的值等于61 的时候&#xff0c;返回值是1900-03-01&#xff1b;那么当 A1的值为 60 的时候&#xff0c;返回值…

权限管理Ranger详解

文章目录 一、Ranger概述与安装1、Ranger概述1.1 Ranger介绍1.2 Ranger的目标1.3 Ranger支持的框架1.4 Ranger的架构1.5 Ranger的工作原理 2、Ranger安装2.1 创建系统用户和Kerberos主体2.2 数据库环境准备2.3 安装RangerAdmin2.4 启动RangerAdmin 二、Ranger简单使用1、安装 R…

PDF文档电子签名怎么做?

如何确保电子文档的签署具有公信力和法律效力&#xff0c;防止伪造和假冒签名等问题&#xff0c;是电子文档无纸化应用面临的重要挑战。本文将详细介绍PDF文档电子签名的概念、重要性、实施步骤以及相关的法律背景&#xff0c;帮助用户理解并有效应用PDF文档电子签名技术。 1.…

# RAG | Langchain # Langchain RAG:打造Markdown文件的结构化分割解决方案

【文章简介】 在信息技术的现代背景下&#xff0c;高效地处理和分析文本数据对于知识获取和决策支持至关重要。Markdown文件因其易读性和高效性&#xff0c;在文档编写和知识共享中占据了重要地位。然而&#xff0c;传统的文本处理方法往往忽视了Markdown的结构化特性&#xff…

深度学习 Lecture 7 迁移学习、精确率、召回率和F1评分

一、迁移学习&#xff08;Transfer learning) 用来自不同任务的数据来帮助我解决当前任务。 场景&#xff1a;比如现在我想要识别从0到9度手写数字&#xff0c;但是我没有那么多手写数字的带标签数据。我可以找到一个很大的数据集&#xff0c;比如有一百万张图片的猫、狗、汽…

卷积神经网络的结构组成与解释(详细介绍)

文章目录 前言 1、卷积层 2、激活层 3、BN层 4、池化层 5、FC层&#xff08;全连接层&#xff09; 6、损失层 7、Dropout层 8、优化器 9、学习率 10、卷积神经网络的常见结构 前言 卷积神经网络是以卷积层为主的深层网络结构&#xff0c;网络结构包括有卷积层、激活层、BN层、…

专业140+总410+国防科技大学831信号与系统考研经验国防科大电子信息与通信,真题,大纲,参考书。

应群里同学要求&#xff0c;总结一下我自己的复习经历&#xff0c;希望对大家有所借鉴&#xff0c;报考国防科技大学&#xff0c;专业课831信号与系统140&#xff0c;总分410&#xff0c;大家以前一直认为国防科技大学时军校&#xff0c;从而很少关注这所军中清华&#xff0c;现…

【C++】哈希一

这篇博客要说的是哈希算法&#xff0c;哈希又称为散列&#xff0c;它是将存储的值和存储的位置建立起关联关系的一种算法&#xff0c;或者说是一种将任意长度的数据映射为固定长度的输出的算法。 什么意思呢&#xff1f;我们来看一个例子&#xff1a;比如说我们要存储1&#xf…

Github 2024-04-12 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-12统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目6TypeScript项目2Cuda项目1C++项目1C项目1HTML项目1Jupyter Notebook项目1JavaScript项目1Python - 100天从新手到大师 创建周期:22…