尚硅谷课程【笔记】——大数据之Hadoop【一】

课程视频链接:尚硅谷Hadoop3.x教程

一、大数据概论

1)大数据概念

        大数据(Big Data):指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

        大数据主要解决:海量数据(TB、PB、EB)的存储和海量数据的分析计算

2)大数据特点(5V)

  • Volume (大量):数据规模巨大,从TB到PB甚至EB级别。

  • Velocity(高速):数据生成、处理和分析的速度快(如实时流数据)。

  • Variety  (多样):数据类型的多样性(结构化、半结构化、非结构化数据等)。

                起源:2001年由Gartner分析师Doug Laney首次提出,作为大数据的核心定义

  • Veracity(真实性):数据的质量和可信度(如噪声、不确定性、数据来源的可靠性)。

             背景:IBM等企业强调数据质量对分析结果的影响,因此将其纳入核心特征。
  • Value     (价值):指的是数据价值密度相对较低,即海量数据中只有少数是有价值的信息

3)大数据部门组织结构


二、从Hadoop框架讨论大数据生态

1)Hadoop是什么?

  •         Hadoop是由Apache基金会所开发的分布式系统基础架构
  •         从广义上来说,Hadoop指一个更广泛的概念——Hadoop生态圈。


2)Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworkds

        Apache版本是最原始、最基础的版本,对入门学习最好。

        Xloudera在大型互联网企业中用的较多(收费)。

        Hortonworks文档较好。

Apache Hadoop:

官网地址:https://hadoop.apache.org/releases.html


3)Hadoop的优势

        1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

        2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

        3)高效性:在MpaReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

        4)高容错性:能够自动将失败的任务重新分配。


4)Hadoop组成(重点)

        在Hadoop1.x中,MapReduce同时处理业务逻辑运算资源调度耦合性较大;在Hadoop2.x中,增加了Yarn部分,由Yarn负责资源的调度,降低了耦合性。Hadoop3.x在组成方面和Hadoop2.x一致,只是增加了部分新功能。

HDFS架构概述

        1)NameNode(nn):存储文件的元数据(文件名、文件目录结构文件属性等),以及每个文件的块列表和块所在的DataNode等。

        2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

        3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

Yarn架构概述

1)ResourceManager(RM)主要作用:

        (1)处理客户端请求

        (2)监控NodeManager

        (3)启动或监控ApplicationMaster

        (4)资源的分配和调度

2)NodeManager(NM)主要作用:

        (1)管理单个节点上的资源

        (2)处理来自ResourceManager的命令

        (3)处理来自ApplicationMaster的命令

3)ApplicationMaster(AM)作用:

        (1)负责数据的切分

        (2)为应用程序申请资源,并分配给内部的任务

        (3)任务的监控与容错

4)Container

        Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

MapReduce架构概述

MapReduce将计算分为两个阶段:Map阶段Reduce阶段

        1)Map阶段负责并行处理输入数据

        2)Reduce阶段对Map结果进行汇总

HDFS、YARN、MapReduce协作关系

        DateNode负责存储实际的数据,NameNode负责记录分片数据存在哪个DataNode上。当NameNode“挂”掉以后,SecondaryNode会备份一份数据,来恢复NameNode的部分工作。

        当客户Client向Hadoop集群提交一个任务Job时,此时ResourceManager会找一个节点开启一个Container,将用户提交的任务App Mstr放在该容器中。然后App Mstr会向ResourceManager申请资源,ResourceManager收到申请后会分配给它资源,在该任务中,分配了两个Container容器分别用于执行MapTask任务,分配一个Container容器用于ReduceTask,最终将执行结果写入到DataNode上。


5)大数据技术生态体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18834.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMeter工具介绍、元件和组件的介绍

Jmeter功能概要 JDK常用文件目录介绍 Bin目录:存放可执行文件和配置文件 Docs目录:是Jmeter的API文档,用于开发扩展组件 printable_docs目录:用户帮助手册 lib目录:存放JMeter依赖的jar包和用户扩展所依赖的Jar包…

【云安全】云原生- K8S kubeconfig 文件泄露

什么是 kubeconfig 文件? kubeconfig 文件是 Kubernetes 的配置文件,用于存储集群的访问凭证、API Server 的地址和认证信息,允许用户和 kubectl 等工具与 Kubernetes 集群进行交互。它通常包含多个集群的配置,支持通过上下文&am…

springboot整合mybatis-plus(保姆教学) 及搭建项目

一、Spring整合MyBatis (1)将MyBatis的DataSource交给Spring IoC容器创建并管理,使用第三方数据库连接池(Druid,C3P0等)代替MyBatis内置的数据库连接池 (2)将MyBatis的SqlSessionFactory交给Spring IoC容器创建并管理,使用spring-mybatis整…

数据结构6

一、哈希散列--通讯录查找 #include "hash.h" #include <stdio.h> #include <stdlib.h> #include <string.h>//int *a[10];int hash_function(char key) {if (key > a && key < z){return key - a;}else if (key > A && …

Java 大视界 -- 全球数据治理格局下 Java 大数据的发展路径(89)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

基于CanMV IDE 开发软件对K210图像识别模块的开发

简介 CanMV IDE 是一款专为 K210 芯片设计的图形识别 Python 软件&#xff0c;它提供了强大的功能&#xff0c;帮助开发者轻松实现基于 K210 芯片的图形识别应用。无论你是初学者还是经验丰富的开发者&#xff0c;CanMV IDE 都能为你提供便捷的开发环境和丰富的资源。 硬件资…

Unity学习part3

此为b站视频【【Unity教程】零基础带你从小白到超神】 https://www.bilibili.com/video/BV1gQ4y1e7SS/?p55&share_sourcecopy_web&vd_source6e7a3cbb802eb986578ad26fae1eeaab的笔记 1、反向动力学 打开ik处理 public class PlayerMoveController : MonoBehaviour {…

STM32——HAL库开发笔记19(串口中断接收实验)(参考来源:b站铁头山羊)

本实验&#xff0c;我们以中断的方式使得串口发送数据控制LED的闪烁速度&#xff0c;发送1&#xff0c;慢闪&#xff1b;发送2&#xff0c;速度正常&#xff1b;发送3&#xff0c;快闪。 一、电路连接图 二、实现思路&CubeMx配置 1、实现控制LED的闪烁速度 uint32_t bli…

Golang关于结构体组合赋值的问题

现在有一个结构体&#xff0c;其中一个属性组合了另外一个结构体&#xff0c;如下所示&#xff1a; type User struct {Id int64Name stringAge int64UserInfo }type UserInfo struct {Phone stringAddress string }如果要给 User 结构体的 Phone 和 Address 赋值的话&am…

更高效实用 vscode 的常用设置

VSCode 可以说是文本编辑神器, 不止程序员使用, 普通人用其作为文本编辑工具, 更是效率翻倍. 这里分享博主对于 VSCode 的好用设置, 让 VSCode 如虎添翼 进入设置 首先进入设置界面, 后续都在这里进行配置修改 具体设置 每项配置通过搜索关键字, 来快速定位配置项 自动保存…

深度学习之卷积神经网络框架模型搭建

卷积神经网络框架模型搭建 目录 卷积神经网络框架模型搭建1 卷积神经网络模型1.1 卷积神经网络1.2 卷积层&#xff08;Convolutional Layer&#xff09;1.2.1 输出特征图 1.3 激活函数1.4 池化层&#xff08;Pooling Layer&#xff09;1.5 全连接层&#xff08;Fully Connected…

【深度强化学习】Actor-Critic 算法

本书之前的章节讲解了基于值函数的方法&#xff08;DQN&#xff09;和基于策略的方法&#xff08;REINFORCE&#xff09;&#xff0c;其中基于值函数的方法只学习一个价值函数&#xff0c;而基于策略的方法只学习一个策略函数。那么&#xff0c;一个很自然的问题是&#xff0c;…

数据结构——二叉树(2025.2.12)

目录 一、树 1.定义 &#xff08;1&#xff09;树的构成 &#xff08;2&#xff09;度 2.二叉树 &#xff08;1&#xff09;定义 &#xff08;2&#xff09;二叉树的遍历 &#xff08;3&#xff09;遍历特性 二、练习 1.二叉树 &#xff08;1&#xff09;创建二叉树…

安科瑞光伏发电防逆流解决方案——守护电网安全,提升能源效率

安科瑞 华楠 18706163979 在当今大力发展清洁能源的时代背景下&#xff0c;光伏发电作为一种可持续的能源解决方案&#xff0c; 正得到越来越广泛的应用。然而&#xff0c;光伏发电过程中出现的逆流问题&#xff0c;给电网的安全稳定 运行带来了诸多挑战。若不能有效解决&…

3、树莓派5 安装VNC查看器 开启VNC服务器

在前序文章中&#xff08; 2、树莓派5第一次开机&#xff09;&#xff0c;可以使用三种方式开机&#xff0c;其中使用网线及wifi的方式均需要使用到VNC查看器进行远程桌面控制&#xff0c;本文将介绍如何下载安装并配置及使用VNC查看器及服务器&#xff0c;对前序文章做一些补充…

牛客周赛 Round 80

前言 这场比赛是很有意思的&#xff0c;紧跟时事IG杯&#xff0c;大卞"神之举手"&#xff0c;0胜拿下比赛&#xff0c;我当时也是完整的看完三场比赛&#xff0c;在第二次说直接两次罚下的时候我真是直接暴起了&#xff0c;然后第三场当时我正在吃饭&#xff0c;看到…

文档格式转换引擎开发:支持PDF与OFD的技术实现

最新技术资源&#xff08;建议收藏&#xff09; https://www.grapecity.com.cn/resources/ 前言 近年来&#xff0c;中国在信息技术领域持续追求自主创新和供应链安全&#xff0c;伴随信创上升为国家战略&#xff0c;一些行业也开始明确要求文件导出的格式必须为 OFD 格式。OF…

VSCode Error Lens插件介绍(代码静态检查与提示工具)(vscode插件)

文章目录 VSCode Error Lens 插件介绍**功能概述****开发背景****使用方法****适用场景** VSCode Error Lens 插件介绍 功能概述 Error Lens 是一款增强 VS Code 错误提示的扩展工具&#xff0c;通过 内联显示错误和警告信息&#xff0c;直接定位代码问题&#xff0c;提升开发…

快速幂(算法)的原理

快速幂算法 快速幂数学原理算法实现OJ题展示不用高精度计算二进制指数的高精度计算数学题等差数列和等比数列计数原理 快速幂 求 ( a b ) % n (a^b)\%n (ab)%n的结果&#xff08;即 a a a的 b b b次方&#xff0c;再除以 n n n得到的余数&#xff09;。 利用程序求解时&#…

无人机遥感在农林信息提取中的实现方法与GIS融合应用

在新一轮互联网信息技术大发展的现今&#xff0c;无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节&#xff0c;逐步摆脱人力依赖&#xff1b;在施肥灌溉环节构建智慧节能系统&a…