大数据学习(66)- CDH管理平台

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


一、CDH简介

        CDH(Cloudera Distribution for Hadoop) 是 Cloudera 公司基于 Apache Hadoop 生态系统构建的一个企业级大数据平台。它集成了 Hadoop 的核心组件(如 HDFS、YARN、MapReduce)以及其他常用的大数据工具(如 Hive、Spark、HBase 等),并提供了统一的管理和监控工具(如 Cloudera Manager)。

        CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。

        简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。

        Cloudera Manager的功能:
1)管理:对集群进行管理,例如添加、删除节点等操作

2)监控:监控集群的健康情况,对设置的各种指标和系统的具体运行情况进行全面的监控

3)诊断:对集群出现的各种问题进行诊断,并且给出建议和解决方案

4)集成:多组件可以进行版本兼容间的整合

Cloudera Manager Server由以下几个部分组成:
Agent:安装在每台主机上。该代理负责启动和停止的过程,拆包配置,触发装置和监控主机。
Management Service:由一组执行各种监控,警报和报告功能角色的服务。
Database:存储配置和监视信息。通常情况下,多个逻辑数据库在一个或多个数据库服务器上运行。
Cloudera Repository:软件由Cloudera 管理分布存储库。
Clients:是用于与服务器进行交互的接口。
Admin Console :基于Web的用户界面与管理员管理集群和Cloudera管理。
API :与开发人员创建自定义的Cloudera Manager应用程序的API。

二、CDH架构

  1. 存储层

            核心组件:HDFS(Hadoop Distributed File System)。负责存储大规模的数据文件。HDFS通过将数据文件分割成多个数据块,并将这些数据块分布存储在集群中的多个节点上,实现了高可用性和高性能的文件存储。
  2. 计算层

            核心组件YARN(Yet Another Resource Negotiator)、MapReduce、Spark等。负责处理和分析存储在HDFS中的数据。YARN作为资源管理器,负责动态分配和管理集群中的计算资源,如CPU、内存等。MapReduce和Spark等计算框架则利用YARN提供的资源,执行各种计算任务,如数据清洗、转换、分析等。
  3. 管理层

             核心组件:Cloudera Manager(CM)负责管理和监控Hadoop集群。CM提供了一个直观的用户界面,使得用户可以方便地安装、配置、监控和管理Hadoop集群中的各个组件。此外,CM还提供了自动化运维功能,如自动故障恢复、资源优化等,降低了运维成本。
  4. 安全层

             核心组件:Kerberos认证、数据加密等。负责保障数据的安全性和隐私性。CDH集成了Kerberos认证机制,确保只有经过授权的用户才能访问集群资源。同时,CDH还支持数据加密技术,对传输和存储过程中的数据进行加密,防止数据被窃取或篡改。

2. CDH 的架构图

以下是 CDH 的典型架构图:

+---------------------------------------------------+
|                   Cloudera Manager                |
|  - 集群部署、监控、管理                            |
+---------------------------------------------------+
|                   Security (Sentry/Knox)          |
|  - 数据访问控制、API 安全                          |
+---------------------------------------------------+
|                   Data Integration & Transport    |
|  - Sqoop, Flume, Kafka                            |
+---------------------------------------------------+
|                   Data Storage & Access           |
|  - HBase, Kudu, Solr                              |
+---------------------------------------------------+
|                   Data Processing                 |
|  - Hive, Spark, Impala, Pig                       |
+---------------------------------------------------+
|                   Resource Management (YARN)      |
|  - ResourceManager, NodeManager                   |
+---------------------------------------------------+
|                   Distributed Storage (HDFS)      |
|  - NameNode, DataNode                             |
+---------------------------------------------------+
|                   Hardware Infrastructure         |
|  - 物理机或虚拟机                                  |
+---------------------------------------------------+

三、 CDH 的工作流程

一、安装与配置

  1. 下载与安装

    • 从Cloudera官方网站或可靠的镜像源下载CDH安装包。
    • 根据集群的硬件环境和业务需求,选择合适的安装方式(如tar包安装、parcels包安装等)。
    • 在集群的各个节点上安装CDH及其相关组件,包括HDFS、YARN、Hive、HBase、Impala、Spark等。
  2. 配置集群

    • 使用Cloudera Manager(CM)进行集群配置。CM是一个图形化界面工具,用于安装、配置、监控和管理Hadoop集群。
    • 在CM中配置集群的硬件资源、网络设置、存储配置等。
    • 添加和配置集群中的各个节点,确保它们能够正确地协同工作。

二、数据存储与管理

  1. 数据存储

    • 使用HDFS作为底层存储系统,将大规模的数据文件分割成多个数据块,并分布存储在集群中的多个节点上。
    • HDFS提供了高可靠性和高性能的文件存储服务,确保数据的安全性和可用性。
  2. 数据管理

    • 使用YARN作为资源管理器,负责动态分配和管理集群中的计算资源(如CPU、内存等)。
    • YARN支持多种计算框架(如MapReduce、Spark等),使得用户可以根据实际需求选择合适的计算框架来处理数据。

三、数据处理与分析

  1. 数据加载与预处理

    • 使用Hive、Sqoop等工具将外部数据源(如关系型数据库、NoSQL数据库等)中的数据加载到HDFS中。
    • 使用HiveQL或Spark SQL对数据进行预处理操作,如数据清洗、转换、格式化等。
  2. 数据分析与挖掘

    • 使用Hive、Impala等工具对存储在HDFS中的数据进行查询和分析。Hive提供了类似于SQL的查询语言,使得用户可以方便地进行数据分析和报表生成。
    • 使用Spark、Mahout等工具对大数据集进行挖掘和机器学习操作,发现数据中的隐藏模式和趋势。

四、任务调度与执行

  1. 任务调度

    • 使用Oozie、DolphinScheduler等任务调度工具来定义和管理复杂的工作流。这些工具支持任务之间的依赖关系管理和触发条件设置,使得用户可以轻松地构建和执行复杂的数据处理任务。
  2. 任务执行

    • 将定义好的工作流提交给YARN进行调度和执行。YARN会根据集群的资源情况和任务的需求,动态分配计算资源给各个任务。
    • 任务执行过程中,YARN会监控任务的执行状态和资源使用情况,并在必要时进行资源调整和任务重试等操作。

五、监控与管理

  1. 集群监控

    • 使用Cloudera Manager对集群进行实时监控和管理。CM提供了丰富的监控指标和报警功能,使得用户可以及时发现和处理集群中的异常情况和性能瓶颈。
  2. 资源优化

    • 根据监控数据和分析结果,对集群的资源进行优化和调整。例如,增加节点数量、调整资源分配策略、优化任务执行计划等,以提高集群的性能和可用性。

四、总结

        CDH的工作流程涉及多个步骤和组件的协同工作,包括安装与配置、数据存储与管理、数据处理与分析、任务调度与执行以及监控与管理等。通过CDH的工作流程,用户可以方便地构建和管理大规模的数据处理系统,实现高效、可扩展和易于管理的大数据处理。

参考:https://blog.csdn.net/wt334502157/article/details/120290580https://blog.csdn.net/wt334502157/article/details/120290580

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33859.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python字符串高效优化策略:特定编码 -> Unicode码点 -> UTF-8(可自定义)

Python利用唯一uni-pot中介打理,任意制式输出(首选uyf-8)。 笔记模板由python脚本于2025-03-14 23:37:04创建,本篇笔记适合喜欢探究字符串编码细节的coder翻阅。 【学习的细节是欢悦的历程】 博客的核心价值:在于输出思…

Linux自动化构建工具—make/makeflie

目录 1、为什么我们需要make和makefile 2、makefile文件的基本语法 makefile文件的语法和make指令的用法 定义变量 3、PHONY关键字 .PHONY 的语法 为什么需要.PHONY? 1、为什么我们需要make和makefile make 和 Makefile 是软件开发中用于自动化构建和管理代…

使用DeepSeek完成一个简单嵌入式开发

开启DeepSeek对话 请帮我使用Altium Designer设计原理图、PCB,使用keil完成代码编写;要求:使用stm32F103RCT6为主控芯片,控制3个流水灯的原理图 这里需要注意,每次DeepSeek的回答都不太一样。 DeepSeek回答 以下是使…

OSPF-2 邻接建立关系

上一期我们说了OSPF的邻居建立关系以及OSPF邻居关系建立中建立失败的因素以及相关实验案例 这一期我们来说说OSPF的邻接关系建立时需要交互哪些报文以及失败因素及原因和相关实验案例 一、概述 在运行了OSPF的网络当中为了交互链路状态信息和路由信息,互相之间需要建立邻接关…

app.config.globalProperties

目录 一:基础使用 1、简介 2、使用 3、打印结果: 二:封装 1、创建一个.ts文件(utils/msg.ts) 2、在main.ts中全局注册 3、在页面中使用 4、打印结果 一:基础使用 1、简介 app.config.globalProperties 是 Vue 3 应用实例(app)的一个配置属性&…

初探大模型开发:使用 LangChain 和 DeepSeek 构建简单 Demo

最近,我开始接触大模型开发,并尝试使用 LangChain 和 DeepSeek 构建了一个简单的 Demo。通过这个 Demo,我不仅加深了对大模型的理解,还体验到了 LangChain 和 DeepSeek 的强大功能。下面,我将分享我的开发过程以及一些…

基于RWA 与 AI-Agent 协同的企业数字化生态构建

在当前数字经济高速发展的背景下,企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业,正通过现实世界资产(RWA)数字化与人工智能代理(AI-Agent)的协同应用&#x…

专题地图的立体表达-基于QGIS和PPT的“千层饼”视图制作实践

目录 前言 一、QGIS准备基础数据 1、QGIS 相关插件 2、图层标绘操作 二、PPT中制作 1、调整图片的规格 2、设置旋转 3、添加文字 三、总结 前言 在信息爆炸的时代,数据的可视化呈现变得愈发关键,而专题地图作为传递地理空间信息的有力工具&#…

3D文物线上展览如何实现?

3D文物线上展览的实现主要依赖于一系列先进的数字技术和创新手段,以下是实现3D文物线上展览的关键步骤和技术要点: 一、文物数字化采集与建模 高精度扫描: 使用专业的3D扫描仪对文物进行高精度扫描,获取文物的三维数据。积木易…

SpringCloud 学习笔记1(Spring概述、工程搭建、注册中心、负载均衡、 SpringCloud LoadBalancer)

文章目录 SpringCloudSpringCloud 概述集群和分布式集群和分布式的区别和联系 微服务什么是微服务?分布式架构和微服务架构的区别微服务的优缺点?拆分微服务原则 什么是 SpringCloud ?核心功能与组件 工程搭建父项目的 pom 文件 注册中心Rest…

1140:验证子串--next.data()、KMP和find

1140:验证子串--KMP 题目 解析next.data()KMP代码Find代码 题目 解析 对于字符串的匹配常见的KMP算法【面试常考】 KMP中需要注意的是:应该从下标1开始遍历,因为下标0前面无值,不能匹配next 固在循环外应初始next[0]0;//易忘点 …

Python 实现大文件的高并发下载

项目背景 基于一个 scrapy-redis 搭建的分布式系统,所有item都通过重写 pipeline 存储到 redis 的 list 中。这里我通过代码演示如何基于线程池 协程实现对 item 的中文件下载。 Item 结构 目的是为了下载 item 中 attachments 保存的附件内容。 {"crawl_tim…

ubuntu中用docker下载opengauss

1.安装docker sudo apt install docker.io2.拉取opengauss镜像 sudo docker pull enmotech/opengauss3.创建容器 sudo docker run --name opengauss --privilegedtrue -d -e GS_PASSWORDEnmo123 enmotech/opengauss:latest3.5.如果容器停止运行(比如关机了&#…

从零基础到能独立设计单片机产品,一般需要经历哪些学习阶段?

相信很多人,内心都有“钢铁侠”的幻想,成为能写程序,能设计硬件,能设计结构,能焊接的全能型人才。 上次徐工问我,如果你财富自由了,想去做啥? 我说出来,可能大家都不信&a…

cursor中git提交记录出现 签出(已分离)

我当时在cursor中的git记录右键点击 签出(已分离) 就导致最左边的记录图标的颜色由蓝色变为了橙色 后面提交的记录都不在显示本地分支和远程分支 创建新分支:在您当前的分离HEAD状态下,创建一个新的分支来保存这些提交。 git checkout -b new-branch-nam…

软件测试之测试用例

1. 什么是测试用例 测试用例(TestCase)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。 设计测试⽤例原则⼀: 测试⽤例中⼀个必需部分是对预期输出或结果进⾏定义 使…

Unity2D 井字棋

Unity版本2022.3 场景布置 其中可以通过给Board对象添加Grid Layout Group,然后设置每个子物体所占宽高快速排整齐。用完删掉。每个落子的方格ChessBox都是一个Button。 根据Board的宽高除以三即可。 然后隐藏按钮,通过设置alpha值实现。 将ChessBox的…

专题三搜索插入位置

1.题目 题目分析: 给一个目标值,然后要在排序的整数数组中,找到跟目标值一样的,如果没有就把这个值插入进去,然后返回插入后的下标。 2.算法原理 根据题目的时间复杂度可以知道要用二分,开始划分区域&…

正式进入linux 1.0

切记:在Linux中空格很重要 回车键也很重要,不要按两次回车键 ls是显示当前所有文件夹 具体解释: 前面的东西是用户名 后面的是设备名(计算机名) 这是因为linux允许不同用户在终端下进行操作,这么做可以…

分页查询的实现

目录 前言 一.问题描述 二.后端实现步骤 2.1配置PageHelper插件 ①导入依赖 ②在application.yml配置文件中添加相关配置 2.2编写一个入门的程序,体验分页过程 2.3定义一个vo,用来收集分页后的所有信息 2.4修改serviceImpl层的代码 2.5动态设…