Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题

文章目录

  • 一、HDFS
    • 1、Hadoop的三大组成部分
    • 2、本地模式和伪分布模式的区别是什么
    • 3、什么是HDFS
    • 4、如何单独启动namenode
    • 5、hdfs的写入流程
    • 6、hdfs的读取流程
    • 7、hdfs为什么不能存储小文件
    • 8、secondaryNameNode的运行原理
    • 9、hadoop集群启动后离开安全模式的条件
    • 10、hdfs集群的开机启动流程
  • 二、MapReduce
    • 1、MapReduce的原理
    • 2、MapReduce的shuffer过程
    • 3、块和片的区别
    • 4、Combiner
    • 5、环形缓冲区
  • 三、Yarn
    • 1、Yarn的三种调度器


一、HDFS

1、Hadoop的三大组成部分

1、HDFS(分布式文件系统):用于存储大规模的数据,具有高容错性和可扩展性
2、MapReduce(分布式计算框架):用于处理大规模数据的编程模型和计算框架
3、YARN(资源管理框架):负责管理集群中的资源分配和任务调度

2、本地模式和伪分布模式的区别是什么

本地模式是在单个节点上运行所有的进程,资源利用相对简单,通常将数据存储在本地文件系统中
而伪分布模式虽然也是在单个节点上运行,但会模拟出分布式环境,分配和管理多个进程所需的资源,会按照分布式的架构来组织和存储数据

3、什么是HDFS

HDFS(Hadoop 分布式文件系统)是 Hadoop 生态系统中的核心组件之一,它是一种用于大规模数据存储的分布式文件系统,具有高容错性和可扩展性,其中
namenode负责管理datanode节点,记录各个块的信息;
secondarynamenode负责帮助namenode完成fsimage和edits文件的合并
datanode负责存储数据

4、如何单独启动namenode

hdfs --daemon start namenode

5、hdfs的写入流程

在这里插入图片描述

客户端发送写请求,namenode接收后先校验权限,然后通过机架算法,计算出三个节点,将这三个节点发送给客户端,客户端通过pipeline通道向这三个节点写入数据,传递的单位是packet,一个packet大小为64KB,各个节点传递完成后,给客户端响应

6、hdfs的读取流程

在这里插入图片描述

客户端发送读请求,namenode接收后先校验权限,然后从自己内存中查看文件放在哪几个节点,并将其详细信息发送给客户端,客户端到对应datanode节点去拉取数据,然后将拉取的数据整合,再发送给客户端。

7、hdfs为什么不能存储小文件

HDFS文件系统中,默认需要将存储的数据进行切割存储的,每一个块是128M,不管一个块中存放的是大文件还是小文件,都有元数据,这个元数据大约占用内存150字节,如果存放过多的小文件,会占用过多的块,从而消耗过多内存。

8、secondaryNameNode的运行原理

1、SecondaryNameNode 每隔一个小时,去nameNode中拉取数据
2、拉取的时候,会终止当前的edits文件,生成一个新的edits_inprogress_XXX.
3、接着会将edits文件和最新的fsiamge文件拉取到SecondaryNameNode的服务器上进行合并,生成一个最新的fsimage.ckpt
4、将fsimage.ckpt传递给nameNode ,NameNode 修改一下名字,变为新的fsimage ,删除掉之前的倒数第二个文件。因为fsimage只保留两个最新的文件。

9、hadoop集群启动后离开安全模式的条件

解除安全模式需要满足两个条件:

1、每个数据块的副本数量达到了设定的阈值
2、并且加载出来的副本总数和所有数据块的所有副本数之和的比值需要大于99.99%

10、hdfs集群的开机启动流程

  1. 初始化 NameNode:与SecondaryNameNode配合,读取fsimage和edits文件,加载元数据,并重新生成一个新的edits文件
  2. 启动 DataNode,并与NameNode建立心跳机制
  3. 进入安全模式:只读模式,不能删除和修改文件
  4. 达到条件后,解除安全模式

二、MapReduce

1、MapReduce的原理

AppMaster: 整个Job任务的核心协调工具
MapTask: 主要用于Map任务的执行 ReduceTask:
主要用于Reduce任务的执行

一个任务提交 --> AppMaster–> 根据切片的数量统计出需要多少个MapTask任务 -->向ResourceManager(Yarn平台的老大)索要资源 --> 执行Map任务,先读取一个分片的数据,传递给map方法。–> map 方法不断的溢写 --> reduce 方法 --> 将统计的结果存放在磁盘上。

2、MapReduce的shuffer过程

1、Shuffle 过程是 MapReduce 框架中连接 Map 阶段和 Reduce 阶段的中间环节,它的主要作用是对 Map
阶段的输出结果进行整理和分区,以便 Reduce 任务能够高效地获取和处理数据。
2、map端写出数据到环形缓冲区中,环形缓冲区默认阈值为100MB,达到该阈值的80%,就开始溢写数据到磁盘,map会将这些小的磁盘文件进行归并和快排,变成一个大文件。
3、reduce端根据不同的分区,拉取map写到磁盘中对应的数据
4、而这个过程被称为shuffle过程,简单来说就是reduce对map端数据的各种拉取,就是数据的拉来拉去

3、块和片的区别

1、块是物理概念,片是逻辑概念。一般片 = 块,但是到最后一次的时候,有可能片> 块,但是绝对不能超过块的1.1倍。
2、mapreduce 启动多少个MapTask任务跟片有关系,有多少个片,就启动多少个map任务。跟块儿无关。

4、Combiner

Combiner其实就是运行在mapTask中的reducer。 Reducer其实就是合并代码的。Combiner是作用在Map端的。
Combiner 只能用于对统计结果没有影响的场景下。 一般只用于统计之和,统计最大值最小值的场景下。统计平均值等情况是不能用的。

5、环形缓冲区

1、环形缓冲区,其实是一个数组,将数组分为两部分,分割的这个点就称之为轴心。
2、存储KV真实数据,是顺时针存储
3、每一个KV真实数据都有对应的元数据,元数据是逆时针存储。
4、当两者数据占用空间达到80%的时候,需要清理数据,清理完之后,轴心发生了变化

三、Yarn

1、Yarn的三种调度器

1、FIFO Scheduler(FIFO调度器):先进先出,先进去的任务先执行
缺点:假如第一个任务很大,就会阻塞后面的小任务
2、Capacity Scheduler(容量调度器):将cpu资源分为多个队列,将不同类型的任务分到不同队列中
缺点:如果真遇到了大任务,执行的时间会稍微长一些。因为要时刻给小的任务预留资源
3、Fair Scheduler(公平调度器):根据当前正在运行的任务数量和资源使用情况,为新任务分配适当的资源
缺点:资源分配可能不够精准,对小任务响应可能不及时

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/429336.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何导入一个Vue并成功运行

注意1:要确保自己已经成功创建了一个Vue项目,创建项目教程在如何创建Vue项目 注意2:以下操作均在VS Code,教程在VS Code安装教程 一、Vue项目导入VS Code 1.点击文件,然后点击将文件添加到工作区 2. 选择自己的vue项…

有女朋友后,怎么养成贤内助?为自己找个好伴侣,为孩子找个好妈妈,为母亲找个好儿媳

有女朋友后,怎么养成贤内助?为自己找个好伴侣,为孩子找个好妈妈,为母亲找个好儿媳 时代背景女生有点作怎么办?大商家族的爱情观 时代背景 一块钱的东西,赋予俩块钱的意义,三块钱卖出去。 用商…

企业急于采用人工智能,忽视了安全强化

对主要云提供商基础设施上托管的资产的安全分析显示,许多公司为了急于构建和部署 AI 应用程序而打开安全漏洞。常见的发现包括对 AI 相关服务使用默认且可能不安全的设置、部署易受攻击的 AI 软件包以及不遵循安全强化指南。 这项分析由 Orca Security 的研究人员进…

Python爬虫使用实例-umei

优美图库 www.umei.cc BV1Ag41137re 1/获取资源 查看网站资源结构 多页,每个item只有一张图 多页,每个item都是一个图集 最大页码 内外层图集均有若干page。 通过尾页按钮确定pageNum: 2/发送请求 response requests.get(urlurl, header…

蓝桥杯【物联网】零基础到国奖之路:十. OLED

蓝桥杯【物联网】零基础到国奖之路:十.OLED 第一节 硬件解读第二节 MDK配置 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/fa7660b81be9407aa19c603561553db0.png)第三节 代码 第一节 硬件解读 OLED硬件知识: 第二节 MDK配置 第三节 代码 include头文件。 编…

Vue3 中组件传递 + css 变量的组合

文章目录 需求效果如下图所示代码逻辑代码参考 需求 开发一个箭头组件&#xff0c;根据父组件传递的 props 来修改 css 的颜色 效果如下图所示 代码逻辑 代码 父组件&#xff1a; <Arrow color"red" />子组件&#xff1a; <template><div class&…

VM-Ubantu中使用vscode头文件报错——解决办法

问题 系统中头文件明明存在但是却报错 解决方法 在报错的文件中点击&#xff0c;shift ctrl p选择Edit Configurations(JSON) 修改文件内容 原文件内容 修改之后的内容 {"configurations": [{"name": "Linux","includePath":…

https加密原理

以为http的数据都是以明文传送&#xff0c;会有很大的安全问题&#xff0c;所以出现的https协议。https就是在http协议的基础上增加了一个安全层&#xff0c;可以对数据进行加密和解密(例如SSL、TLS等)。 https加密解密的原理&#xff1a;证书非对称加密对称加密 在讲解原理前…

你了解system V的ipc底层如何设计的吗?消息队列互相通信的原理是什么呢?是否经常将信号量和信号混淆呢?——问题详解

前言&#xff1a;本节主要讲解消息队列&#xff0c; 信号量的相关知识。 ——博主主要是以能够理解为目的进行讲解&#xff0c; 所以对于接口的使用或者底层原理很少涉及。 主要的讲解思路就是先讨论消息队列的原理&#xff0c; 提一下接口。 然后讲解ipc的设计——这个设计一些…

QT打包--windeployqt执行,运行程序提示缺少库

执行windeployqt.exe D:\Data\code\QtCode\Release\RegularExp\RegularExp.exe 生成相应的dll动态库 执行RegularExp.exe&#xff0c;出错&#xff1a;“由于找不到libgcc_s_seh-1.dll…” 找到安装的qt对应的libgcc_s_seh-1.dll拷贝到RegularExp.exe同级目录下&#xff0c; 执…

Qt 窗口事件机制

在 Qt 开发中&#xff0c;窗口的关闭、隐藏、显示等事件是常见且重要的功能。不同的事件触发条件、处理方式不同&#xff0c;了解和掌握这些事件有助于我们更好地控制窗口行为。本文将详细讲解这些事件的使用方法&#xff0c;并通过代码实例来展示其应用。 1. done(int r) — 关…

嵌入式C语言自我修养:GNU C编译器扩展语法精讲

在Linux内核的源码中&#xff0c;你会发现许多这样的“奇特”代码。它们看起来可能有点陌生&#xff0c;但它们实际上是C语言的一种扩展形式&#xff0c;这种扩展在C语言的标准教材中往往不会提及。这就是为什么你在阅读Linux驱动代码或内核源码时&#xff0c;可能会感到既熟悉…

写一下线性表

如果你是c语言, "不会"c, 那么... 把iostream当成stdio.h 把cout当成printf, 不用管啥类型, 变量名字一给输出完事 把cin>>当成scanf, 变量名字一给输入完事 把endl当成\n, 换行. 哦对了, malloc已经不建议使用了, 现在使用new, 把new当作malloc, 把delete当…

【工具变量】科技金融试点城市DID数据集(2000-2023年)

时间跨度&#xff1a;2000-2023年数据范围&#xff1a;286个地级市包含指标&#xff1a; year city treat post DID&#xff08;treat*post&#xff09; 样例数据&#xff1a; 包含内容&#xff1a; 全部内容下载链接&#xff1a; 参考文献-pdf格式&#xff1a;https://…

【JVM】概述

前言 Java的技术体系主要由支撑Java程序运行的虚拟机、提供各开发领域接口支持的Java类库、Java编程语言及许许多多的第三方Java框架&#xff08;如Spring、MyBatis等&#xff09;构成。在国内&#xff0c;有关Java类库API、Java语言语法及第三方框架的技术资料和书籍非常丰富&…

Spring Boot蜗牛兼职网:全栈开发

第4章 系统设计 4.1 系统体系结构 蜗牛兼职网的结构图4-1所示&#xff1a; 图4-1 系统结构 登录系统结构图&#xff0c;如图4-2所示&#xff1a; 图4-2 登录结构图 蜗牛兼职网结构图&#xff0c;如图4-3所示。 图4-3 蜗牛兼职网结构图 4.2开发流程设计 系统流程的分析是通…

抖音短视频矩阵系统OEM源码开发注意事项,功能开发细节流程全揭秘

抖音短视频矩阵系统OEM源码开发注意事项,功能开发细节流程全揭秘 在当今数字化时代背景下&#xff0c;短视频产业正经历前所未有的快速发展。其中&#xff0c;抖音凭借其创新的算法及多元内容生态获得巨大成功&#xff0c;吸引了众多用户。对于意欲进入短视频领域的创业者而言&…

移动技术开发:ListView水果列表

1 实验名称 ListView水果列表 2 实验目的 掌握自定义ListView控件的实现方法 3 实验源代码 布局文件代码&#xff1a; activity_main.xml: <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.androi…

springboot注册和注入组件方式概览

IoC&#xff1a;Inversion of Control&#xff08;控制反转&#xff09; 控制&#xff1a;资源的控制权&#xff08;资源的创建、获取、销毁等&#xff09; 反转&#xff1a;和传统的方式不一样了 DI &#xff1a;Dependency Injection&#xff08;依赖注入&#xff09; 依赖&…

国人卖家可折叠无线充电器发起TRO专利维权,功能相同可能侵权

案件基本情况&#xff1a;起诉时间&#xff1a;2024-8-5案件号&#xff1a;2024-cv-22971原告&#xff1a;SHANGXING TECHNOLOG (SHENZHEN) CO., LTD原告律所&#xff1a;Rubio & Associates, P.A.起诉地&#xff1a;佛罗里达州南部法院涉案商标/版权&#xff1a;原告品牌简…