hadoop分布式计算组件

什么是计算、分布式计算?

·计算:对数据进行处理,使用统计分析等手段得到需要的结果
·分布式计算:多台服务器协同工作,共同完成一个计算任务

分布式计算常见的2种工作模式
  1. 分散->汇总(MapReduce就是这种模式)
  2. 中心调度->步骤执行(大数据体系的Spark、Flink等是这种模式)

hadoop分布式计算框架-MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
·Map
·Reduce
其中
·Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理
·Reduce.功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce.功能接口即可。
目前map reduce框架代码开发已经逐渐淘汰,但由于hive分布式sql框架底层是map reduce实现的,所以map reduce仍活跃在一线。
MapReduce是基于YARN运行的,99%场景下map reduce都是集成在yarn集群中运行的

YARN的资源调度

YARN管控整个集群的资源进行调度,那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
比如,一个具体的MapReduce程序。
我们知道,MapReduce程序会将任务分解为若干个Map任务和Reduce任务。
假设,有一个MapReduce程序,分解了3个Map任务,和1个Reduce任务,每个map任务需要2GB运行内存,每个reduce任务需要4GB运行内存,那么如何在YARN的监管(管理)下运行呢?
在这里插入图片描述

map程序和reduce程序会告诉yarn所需的资源情况,向yarn申请资源,yarn则会根据资源情况,分配具体的任务运行

在这里插入图片描述

YARN的核心架构

YARN,主从架构,有2个角色
·主(Master)角色:ResourceManager
整个集群的资源调度者,负责协调调度各个程序所需的资源。
·从(Slave)角色:NodeManager
单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用

在这里插入图片描述

如上图,某个程序告知yarn我需要的资源情况,yarn的resource manager查看资源情况,并通知到node manager,node manager会通过容器技术,创建容器来占用对应的资源,然后再分配具体的程序来运行。yarn能抢占资源及精准分配资源是通过容器技术实现的。

YARN辅助角色

YARN的架构中除了核心角色,即:
·ResourceManager:集群资源总管家
·NodeManager:单机资源管家
还可以搭配2个辅助角色使得YARN集群运行更加稳定
。代理服务器(ProxyServer):Web Application Proxy Web应用程序代理
。历史服务器(obHistoryServer):应用程序历史信息记录服务

Web应用代理(Web Application Proxy)

代理服务器,即W2b应用代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但是可以配置为在独立模式下运行。使用代理的原
因是为了减少通过YARN进行基于网络的攻击的可能性。
这是因为,YARN在运行时会提供一个WEB UI站点(同HDFS的WEB UIS站点一样)可供用户在浏览器内查看YARN的运行信息
对外提供WEB站点会有安全性问题,而代理服务器的功能就是最大限度保障对WEB UIE的访问是安全的。比如:

  • 警告用户正在访问一个不受信任的站点
  • 剥离用户访问的Cookie等

代理服务器默认集成在了ResourceManager中
也可以将其分离出来单独启动,如果要分离代理服务器

  1. 在yarn-site.xml中配置yarn.web-proxy.address参数即可(部署环节会使用到)
    在这里插入图片描述

2.并通过命令启动它即可$HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver

JobHistoryServer历史服务器

历史服务器的功能很简单:记录历史运行的程序的信息以及产生的日志并提供WEBU站点供用户使用浏览器查看。它可以收集各个服务器的日志数据并统一汇总到hdfs上,方便用户查看

开启历史服务器需要配置:

  1. 开启日志聚合,允许从容器中抓取日志到hdfs中集中存储
    在这里插入图片描述

  2. 配置历史服务器端口和主机
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/300795.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 引擎离线安装包采集脚本

文章目录 一、场景说明二、脚本职责三、参数说明四、操作示例五、注意事项 一、场景说明 本自动化脚本旨在为提高研发、测试、运维快速部署应用环境而编写。 脚本遵循拿来即用的原则快速完成 CentOS 系统各应用环境部署工作。 统一研发、测试、生产环境的部署模式、部署结构、…

docker 部署 Epusdt - 独角数卡 dujiaoka 的 usdt 支付插件

部署 部署说明 部署之前必须注意的几点事项,该教程不一定适合所有用户: 本教程主要是使用 docker 部署,宝塔用户或宿主机直接安装的用户请直接参考官网教程.本教程是独立部署 epusdt,使用独立的mysql和redis,与dujiaoka项目分开. 在研究的过程中发现 epusdt 也需要用到 mys…

如何成为一名优秀的工程师下

身为工程师,理所当然要重视实践,自然科学不管发展到何时都离不开实验。 电子学本身就是 为了指导工程实践。所以不要谈空洞的理论。现在很多毕业生都面临这样的问题,总是谈一些空洞的理论,甚至错误的但还不以为然的理论。实践可以…

vmware和ubuntu的问题与解决

1.问题与对策 最近使用vmware安装ubuntu16和ubuntu20,遇到了挺多的问题,如下 ubuntu在用过多次后,重启后登录用户名后会出现花屏的现象。 解决方案如下 在键盘上同时按键:Ctrl Alt F4,进入命令行模式,…

Django项目定时任务django-crontab

首先定义一个定时任务函数tasks.py(见文章末尾示例),编写函数,然后在setting.py中配置定时任务 1、首先安装django-crontab pip install django-crontab 2、在setting.py中添加应用 (在所有自定义注册app之上) INSTALLED_APPS …

配置vscode用于STM32编译,Debug,github上传拉取

配置环境参考: Docs 用cubemx配置工程文件,用VScode打开工程文件。 编译的时候会有如下报错: vscode出现process_begin :CreateProcess failed 系统找不到指定文件 解决方案:在你的makefile中加上SHELLcmd.exe就可以了 参考…

服务器数据恢复—EqualLogic PS6100系列存储数据恢复案例

服务器数据恢复环境: 某品牌EqualLogic PS6100系列存储阵列是一款容错功能较强的存储设备,具有较高的安全性能。一些硬件故障或者误操作也会破坏该系列存储内的数据,下面分享一个北亚企安数据恢复工程师接到的一个关于EQ PS6100存储的数据恢复…

手机如何在线制作gif?轻松一键在线操作

现在大家都喜欢使用手机来拍摄记录有趣的事物,但是时间长了手机里的视频越来越多导致手机存储空间不够了,这些视频又不想删除时应该怎么办呢?这个很简单,下面就给大家分享一款不用下载手机就能操作的视频转gif网站-GIF中文网&…

从头开发一个RISC-V的操作系统(四)嵌入式开发介绍

文章目录 前提嵌入式开发交叉编译GDB调试,QEMU,MAKEFILE练习 目标:通过这一个系列课程的学习,开发出一个简易的在RISC-V指令集架构上运行的操作系统。 前提 这个系列的大部分文章和知识来自于:[完结] 循序渐进&#x…

Autodesk AutoCAD 2025 (macOS, Windows) - 自动计算机辅助设计软件

Autodesk AutoCAD 2025 (macOS, Windows) - 自动计算机辅助设计软件 AutoCAD 2024 开始原生支持 Apple Silicon,性能提升至 2 倍 请访问原文链接:https://sysin.org/blog/autodesk-autocad/,查看最新版。原创作品,转载请保留出处…

elementPlus el-table动态列扩展及二维表格

1、循环列数据源&#xff0c;动态生成列 <template><div><el-table ref"table" :data"pageData.tableData" stripe style"width: 100%"><el-table-column v-for"column in pageData.columns" :key"column.p…

不能在主机和虚拟机之间拷贝文本(虚拟机ubuntu16.04)

问题 ubuntu16.04不能在主机和虚拟机之间拷贝文本。 原因 vmware tools没安装好。 解决办法 重新安装vmware tools&#xff0c;步骤入下&#xff1a; 让虚拟机加载C:\Program Files (x86)\VMware\VMware Workstation\linux.iso光盘文件&#xff0c;设置如下&#xff1a; …

嵌入式学习49-单片机2

指令周期 1M 机器周期 12M &#xff08;晶体震荡器产生&#xff09; 中断两种方式 …

从头开发一个RISC-V的操作系统(五)汇编语言编程

文章目录 前提RISC-V汇编语言入门RISC-V汇编指令总览汇编指令操作对象汇编指令编码格式add指令介绍无符号数 练习参考链接 目标&#xff1a;通过这一个系列课程的学习&#xff0c;开发出一个简易的在RISC-V指令集架构上运行的操作系统。 前提 这个系列的大部分文章和知识来自于…

uniapp - 微信小程序 - 使用uCharts的一些问题

文章目录 uniapp - 微信小程序 - 使用uCharts的一些问题一、开发者工具显示正常&#xff0c;真机调试统计图不随页面滚动二、数据过多开启滚动条&#xff0c;无法滑动滚动条三、饼图点击不显示提示窗/点击位置bug、多个同类型统计图点击不显示提示框问题四、 formatter 自定义 …

抖音-引流私域转化模式1.0现场视频,从抖音源源不断把人加到私域,

抖音-引流私域转化模式1.0现场视频&#xff0c;从抖音源源不断把人加到私域&#xff0c;让加到私域的粉丝买单 抖音-引流私域转化模式1.0现场视频&#xff0c;从抖音源源不断把人加到私域 - 百创网-源码交易平台_网站源码_商城源码_小程序源码 课程内容&#xff1a; 01.第一…

SpringBoot3整合RabbitMQ之三_工作队列模型案例

SpringBoot3整合RabbitMQ之三_工作队列模型案例 文章目录 SpringBoot3整合RabbitMQ之三_工作队列模型案例2. 工作队列模型1. 消息发布者1. 创建工作队列的配置类2. 发布消费Controller 2. 消息消费者One3. 消息消费者Two4. 消息消费者Three5. 输出结果 2. 工作队列模型 1. 消息…

mysql_secure_installation初始化数据库报Access denied

使用mysql_secure_installation配置时出错&#xff1a; 可能输入密码错误&#xff0c;重新复制&#xff0c;粘贴密码。 或者&#xff1a; 登录mysql&#xff0c;设置密码&#xff0c;然后再设置权限。 mysql -u root -p [输入密码] sql>set passwordpassword("newPa…

数字人解决方案——Champ单个视频单张图像生成可控且一致的人体视频生成

概述 Champ是阿里巴巴集团、南京大学和复旦大学的研究团队共同提出了一种创新的人体动画生成技术&#xff0c;Champ能够在仅有一段原始视频和一张静态图片的情况下&#xff0c;激活图片中的人物&#xff0c;使其按照视频中的动作进行动态表现&#xff0c;极大地促进了虚拟主播…