大数据面试题--企业面试真题

大数据面试题--企业面试真题

PlanHub

点击访问获取:

大数据面试体系专栏_酷兜科技​www.kudoumh.top/hlwai/85.html

点击访问获取:

大数据面试体系专栏_酷兜科技​www.kudoumh.top/hlwai/85.html

大数据面试题汇总

HDFS

1、 HDFS 读写流程。

2、HDFS 在读取文件的时候,出现Block块突然损坏了怎么办

3、HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办

4、NameNode 在启动的时候会做哪些操作

5、Secondary NameNode 的工作机制。

6、Secondary NameNode 不能恢复 NameNode 的全部数据,那如何保证NameNode 数据存储安全?

7、HA高可用模式下的共享存储实现方案有哪些?

8、在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂问题?

9、小文件过多会有什么危害,如何避免?

10、请描述 HDFS 的组织架构?

MapReduce

1、请说下 MR 中 Map Task 的工作机制

2、 请说下 MR 中 Reduce Task 的工作机制

3、 请说下 MR 中 Shuffle 阶段

4、 Shuffle 阶段的数据压缩机制了解吗

5、 在写 MR 时,什么情况下可以使用规约(combiner)?

YARN

1、YARN 的任务提交流程是怎样的

2、 YARN 的资源调度三种模型了解吗

3、 YARN 集群的架构和工作原理知道多少

HIVE

1、Hive 内部表和外部表的区别

2、 Hive 有索引吗

3、运维如何对Hive 进行调度

4、ORC、Parquet 等列式存储的优点

5、 数据建模用的哪些模型?

6、为什么要对数据仓库分层?

7、使用过 Hive 解析JSON 串吗

8、sort by 和 order by 的区别

9、数据倾斜怎么解决

10、Hive 小文件过多怎么解决

11、Hive 优化有哪些

Spark

1、Spark 的运行流程?

2、Spark 有哪些组件?

3、Spark 中的 RDD 机制理解吗?

4、RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么?

5、介绍一下 cogroup rdd 实现原理,你在什么场景下用过这个 rdd?

6、如何区分 RDD 的宽窄依赖?

7、为什么要设计宽窄依赖?

8、DAG 是什么?

9、 DAG 中为什么要划分 Stage?

10、 如何划分 DAG 的 stage?

11、DAG 划分为 Stage 的算法了解吗?

12、对于 Spark 中的数据倾斜问题你有什么好的方案?

13、Spark 中的 OOM 问题?

14、 Spark 中数据的位置是被谁管理的?

15、Spae

个数?

16、 介绍

对于缩小

17、Spar

18、Spar

19、Spar

20、 通常来说,Spark 与 MapReduce 相比,Spark 运行效率更高。请说明效率更高来源于 Spark 内

置的哪些机制?

21、Hadoop 和 Spark 的相同点和不同点?

22、Hadoop 和 Spark 使用场景?

23、Spark 如何保证宕机迅速恢复?

24、 RDD 持久化原理?

25、Checkpoint 检查点机制?

26、Checkpoint 和持久化机制的区别?

27、Spark Streaming 以及基本工作原理?

28、DStream 以及基本工作原理?

29、Spark Streaming 整合 Kafka 的两种模式?

30、Spark 主备切换机制原理知道吗?

31、Spark 解决了 Hadoop 的哪些问题?

32、数据倾斜的产生和解决办法?

33、你在使用 Spark Sql 处理的时候, 处理过程中用的 DataFrame 还是直接写的 Sql?为什么?

34、 Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?

35、Spark Master 使用 Zookeeper 进行 HA,有哪些元数据保存到Zookeeper 里面?

36、如何实现 Spark Streaming 读取Flume 中的数据?

37、 在实际开发的时候是如何保证数据不丢失的?

38、RDD 有哪些缺陷?

Kafka

1、为什么要使用 kafka?

2、Kafka 消费过的消息如何再消费?

3、kafka 的数据是放在磁盘上还是内存上,为什么速度会快?

4、Kafka 数据怎么保障不丢失?

5、采集数据为什么选择kafka?

6、kafka 重启是否会导致数据丢失?

7、kafka 宕机了如何解决?

8、为什么 Kafka 不支持读写分离?

9、kafka 数据分区和消费者的关系?

10、kafka 的数据 offset 读取流程

11、kafka 内部如何保证顺序,结合外部组件如何保证消费者的顺序?

12、Kafka 消息数据积压,Kafka 消费能力不足怎么处理?

13、Kafka 单条日志传输大小

HBase

1、Hbase 是怎么写数据的?

2、HDFS 和HBase 各自使用场景

3、Hbase 的存储结构

4、 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些

5、HBase 的 rowkey 设计原则

6、HBase 的列簇设计

7、HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别

Flink

1、简单介绍一下Flink

2、Flink 的运行必须依赖 Hadoop 组件吗?

3、Flink 集群运行时角色

4、Flink 相比 Spark Streaming 有什么区别

5、介绍下 Flink 的容错机制(checkpoint)

6、Flink checkpoint 与 Spark Streaming 的有什么区别或优势吗?

7、Flink 是如何保证 Exactly-once 语义的?

8、如果下级存储不支持事务,Flink 怎么保证exactly-once

9、Flink

10、Flink

11、Flink

12、如何

13、Flink

14、Ope

15、Flink

16、如何处理生产环境中的数据倾斜问题

17、Flink 中的 Time 有哪几种

18、Flink 对于迟到数据是怎么处理的

19、Flink 中 window 出现数据倾斜怎么解决

20、Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里

21、Flink 设置并行度的方式

22、Flink 中 Task 如何做到数据交换

23、Flink 的内存管理是如何做的

24、介绍下 Flink 的序列化

25、Flink 海量数据高效去重

26、Flink SQL 的是如何实现的

业务方面

1、ODS 层采用什么压缩方式和存储格式?

2、DWD 层做了哪些事?

3、DWS 层做了哪些事?

4、在处理大数据过程中,如何保证得到期望值

5、你感觉数仓建设中最重要的是什么

6、数据质量怎么监控

7、数据分析方法论了解过哪些?

算法

1、排序算法相关概念

2、快速排序

3、归并排序

4、查找算法包含哪些?

5、二分查找

6、二叉树实现及遍历

大数据面试题汇总

HDFS

1、 HDFS 读写流程。

HDFS 写流程:

1. Client 客户端发送上传请求,通过RPC与NameNode建立通信,NameNode 检查该用户是否有上

传权限,以及上传的文件是否在 HDFS 对应的目录下重名,如果这两者有任意一个不满足,则直

接报错,如果两者都满足,则返回给客户端一个可以上传的信息;

2. Client 根据文件的大小进行切分,默认 128M 一块,切分完成之后给NameNode 发送请求第一个

block 块上传到哪些服务器上;

3. NameNode 收到请求之后,默认会进行三副本备份,根据网络拓扑和机架感知以及副本机制进行

文件分配,返回可用的 DataNode 的地址。

4. 客户端收到地址之后与服务器地址列表中的一个节点如 A 进行通信,本质上就是 RPC 调用,建立

pipeline,A 收到请求后会继续调用 B,B 在调用C,将整个 pipeline 建立完成,逐级返回

Client;

点击访问获取:

大数据面试体系专栏_酷兜科技​www.kudoumh.top/hlwai/85.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493535.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lambda初探(一)

发生捕获时,拿到x,y的值 退出lambda表达式后,foo外层的值不变化。foo内部的x,值是持续的,像static。即使退出foo函数后,值的状态依然保持。 外层x的值变化,并不影响foo内部。 foo运行了两次,内…

【D3.js in Action 3 精译_046】DIY 实战:在 Observable 平台利用饼图布局函数实现 D3 多个环形图的绘制

当前内容所在位置: 第五章 饼图布局与堆叠布局 ✔️ 5.1 饼图和环形图的创建 ✔️ 5.1.1 准备阶段(一)5.1.2 饼图布局生成器(二)5.1.3 圆弧的绘制(三)5.1.4 数据标签的添加(四&#…

基于Spring Boot的智慧农业专家远程指导系统

一、系统背景与意义 随着科技的不断进步,农业领域也在积极寻求创新与发展。然而,传统农业生产中农民往往依靠经验进行种植和养殖,缺乏科学的指导和技术支持。同时,农业专家资源有限,难以覆盖广大的农村地区&#xff0…

【JavaEE初阶】线程 和 thread

本节⽬标 认识多线程 掌握多线程程序的编写 掌握多线程的状态 一. 认识线程(Thread) 1概念 1) 线程是什么 ⼀个线程就是⼀个 "执⾏流". 每个线程之间都可以按照顺序执⾏⾃⼰的代码. 多个线程之间 "同时" 执⾏着多份代码. 还…

练习题 最小栈

最小栈 最小栈 class MinStack {private Stack<Integer> stack;private Stack<Integer> minstack;public MinStack() {stacknew Stack<>();minstacknew Stack<>();}public void push(int val) {stack.push(val);if(minstack.empty()){minstack.push(…

全志H618 Android12修改doucmentsui鼠标单击图片、文件夹选中区域

背景: 由于当前的文件管理器在我们的产品定义当中,某些界面有改动的需求,所以需要在Android12 rom中进行定制以符合当前产品定义。 需求: 在进入File文件管理器后,鼠标左击整个图片、整个文件夹可以选中该类型,进行操作,故代码分析以及客制化如下: 主要涉及的代码:…

堆【Lecode_HOT100】

文章目录 1.数组中的第&#xff2b;个最大元素No.2152.前K个高频元素347 1.数组中的第&#xff2b;个最大元素No.215 方法一&#xff1a;NlogN不能满足时间复杂度的要求 public int findKthLargest(int[] nums, int k) {Arrays.sort(nums);return nums[nums.length-k];}方法二&…

Android 搭建AIDL Client和Server端,双向通信

一、背景 使用AIDL,搭建Client和Server端,实现跨进程通讯,即两个应用之间可以相互通讯。这里列举AIDL实现的方式和需注意的细节&#xff0c;并附上源码。 二、实现方式 2.1 定义AIDL需要的接口,名字为xxx.aidl,Client和Server端 AIDL接口的包名和aidl文件必须一致&#xff0c…

HIPT论文阅读

题目《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》 论文地址&#xff1a;[2206.02647] Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning 项目地址&#xff1a;mahmoodlab/HI…

[ESP]从零开始的Arduino IDE安装与ESP环境配置教程

一、前言 最近也是在比赛方面比较忙&#xff0c;没有更多的时间和精力去更新长文章了。这几周都更倾向于环境搭建的教程&#xff0c;这类教程写起来确实方便&#xff0c;也不怎么费时间&#xff0c;一个下午基本可以搞定&#xff0c;哈哈&#xff0c;我保证不是在为自己想摆烂找…

投标心态:如何在“标海战术”中保持清醒的头脑?

在竞争激烈的市场环境下&#xff0c;“标海战术”——即大规模参与投标——已经成为许多企业争取市场份额的重要策略。然而&#xff0c;盲目追求投标数量可能导致资源浪费、团队疲劳以及战略目标的模糊化。在这种高强度的竞争模式中&#xff0c;如何保持清醒的头脑&#xff0c;…

wxWidgets使用wxStyledTextCtrl(Scintilla编辑器)的正确姿势

开发CuteMySQL/CuteSqlite开源客户端的时候&#xff0c;需要使用Scintilla编辑器&#xff0c;来高亮显示SQL语句&#xff0c;作为C/C领域最成熟稳定又小巧的开源编辑器&#xff0c;Scintilla提供了强大的功能&#xff0c;wxWidgets对Scintilla进行包装后的是控件类&#xff1a;…

【原生js案例】让你的移动页面实现自定义的上拉加载和下拉刷新

目前很多前端UI都是自带有上拉加载和下拉刷新功能,按照官网配置去实现即可,比如原生小程序,vantUI等UI框架,都替我们实现了内部功能。 那如何自己来实现一个上拉加载和下拉刷新的功能? 实现效果 不用浏览器的css滚动条,自定义实现滚动效果 自定义实现滚动,添加上拉加载…

批处理理解

初识批处理 如何批处理&#xff1a; 命名&#xff1a;.bat 方法&#xff1a;创建一个记事本文件&#xff0c;然后将其扩展改为.bat 批处理作用&#xff1a;自上而下成批处理每一条DOS命令&#xff0c;直到执行到最后一条。运行环境&#xff1a;当然是我们cmd了 回归我学过的…

APM32F411使用IIS外设驱动es8388实现自录自播

前言&#xff1a; 从零开始学习I2s外设&#xff0c;配置Es8288寄存器实现录音播放。本文章使用主控芯片是APM32F411系类。音频相关的概念比较多&#xff0c;就不再次做过多的介绍&#xff0c;本文章只是简单实现边录边播功能。APM系类兼容st的芯片&#xff0c;所以用st的hal库来…

OB删除1.5亿数据耗费2小时

目录 回顾&#xff1a;mysql是怎么删除数据的&#xff1f; 删除方案 代码实现 执行结果 结论 本篇是实际操作 批量处理数据以及线程池线程数设置 记录学习 背景&#xff1a;有一张用户标签表&#xff0c;存储数据量达4个亿&#xff0c;使用OceanBase存储&#xff0c;由于…

20241217使用M6000显卡在WIN10下跑whisper来识别中英文字幕

20241217使用M6000显卡在WIN10下跑whisper来识别中英文字幕 2024/12/17 17:21 缘起&#xff0c;最近需要识别法国电影《地下铁》的法语字幕&#xff0c;使用 字幕小工具V1.2【whisper套壳/GUI封装了】 无效。 那就是直接使用最原始的whisper来干了。 当你重装WIN10的时候&#…

linux普通用户使用sudo不需要输密码

1.root用户如果没有密码&#xff0c;先给root用户设置密码 sudo passwd root #设置密码 2.修改visudo配置 su #切换到root用户下 sudo visudo #修改visudo配置文件 用户名 ALL(ALL) NOPASSWD: ALL #下图所示处新增一行配置 用户名需要输入自己当前主机的用户名

【C++11】可变模板参数

目录 可变模板的定义方式 参数包的展开方式 递归的方式展开参数包 STL中的emplace相关接口函数 STL容器中emplace相关插入接口函数 ​编辑 模拟实现&#xff1a;emplace接口 C11的新特性可变参数模板能够让您创建可以接受可变参数的函数模板和类模板&#xff0c;相比 C9…

python 曲线拟合,曲线拟合交点

目录 效果图: 源代码: 效果图: 源代码: import json import os import shutilimport cv2 import numpy as npfrom numpy.polynomial.polynomial import Polynomialdef calculate_distance(x1, y1, x2, y2):return np.sqrt((x2 - x1) ** 2 + (y2 - y1) ** 2)def get_new_g…