HDFS架构刨析

HDFS架构刨析

  • 概述
  • HDFS架构图
  • 整体概述
    • 主角色:namenode
      • fsimage内存元数据镜像文件
      • edits log(Journal)编辑日志
    • 从角色:datanode
    • 主角色辅助角色:secondarynamenode
  • 重要特性
    • 主从架构
    • 分块存储机制
    • 副本机制
    • namespace
    • 元数据管理
    • 数据块存储

概述

  • HDFS是Hadoop distribute file system的简称,意味:Hadoop分布式文件系统
  • HDFS是Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在
  • HDFS解决的问题就是大数据如何存储,它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力
    在这里插入图片描述

HDFS架构图

  • HDFS集群遵循主从架构(master/slave)。通常包括一个主节点和多个从节点
  • 在内部,文件分块存储,每个块根据复制因子存储在不同的从节点计算机上形成备份
  • 主节点存储和管理文件系统namespace,即有关文件块的信息,例如块位置,权限等;从节点存储文件的数据块
  • 主从各司其职,相互配合,共同对外提供文件分布式存储服务。当然内部细节对用户来说是透明的
    在这里插入图片描述

整体概述

  • HDFS遵循主从架构
  • namenode是主节点,负责存储和管理文件系统元数据信息,包括namespace目录结构,文件块位置信息等
  • datanode是从节点,负责存储文件具体的数据块
  • 两种角色各司其职,共同协调完成分布式的文件存储服务
  • secondarynamenode是主角色的辅助角色,帮助主角色进行元数据的合并
    在这里插入图片描述

主角色:namenode

  • namenode是Hadoop分布式系统的核心,架构中的主角色
  • namenode维护和管理文件系统元数据,包括名称空间目录树结构,文件和块的位置信息,访问权限等信息
  • 基于此,namenode成为访问HDFS的唯一入口
  • namenode内部通过内存和磁盘文件两种方式管理元数据
  • 其中磁盘上的元数据文件包括simage内存元数据镜像文件和edits log(Journal)编辑日志
  • 在Hadoop2之前,namenode是单点故障。Hadoop2中引入高可用性。Hadoop集群体系结构允许在集群中以热备配置运行两个或多个namenode
    在这里插入图片描述

fsimage内存元数据镜像文件

fsimage 是 Hadoop 分布式文件系统(HDFS)的内存元数据镜像文件。它包含了关于文件系统命名空间、文件块信息、权限和属性等元数据的详细记录。

fsimage 文件是 HDFS 中重要的元数据文件,用于恢复文件系统的状态和内容。当 HDFS 启动时,它会读取 fsimage 文件并将其中的元数据加载到内存中,以便提供文件系统的元数据服务。当文件系统发生变化时(如创建、删除或修改文件),HDFS 会将这些变化记录在编辑日志(edits log)中,然后可以根据编辑日志和当前的 fsimage 文件来恢复文件系统的状态。

由于 fsimage 文件是完整的元数据镜像,它可以在文件系统启动时快速加载到内存,从而加快了文件系统的启动速度。此外,fsimage 文件还可以进行压缩来减小文件大小,并且可以定期生成检查点,以保证文件系统的一致性和可靠性。

需要注意的是,fsimage 文件只包含元数据信息,不包含实际的文件数据。实际的文件数据存储在 HDFS 的数据块中,而不是 fsimage 文件中。

总结起来,fsimage 文件是 HDFS 中的内存元数据镜像文件,用于恢复文件系统的状态和内容。通过读取 fsimage 文件和编辑日志,HDFS 可以在启动时加载元数据并提供文件系统的服务。

edits log(Journal)编辑日志

edits log(也称为编辑日志)是 Hadoop 分布式文件系统(HDFS)中的一种日志文件,用于记录对文件系统的变更操作。

在 HDFS 中,当发生文件系统的变更操作时,例如创建、删除、重命名文件或目录,以及修改文件的权限或属性,这些变更将会被记录在 edits log 中。edits log 记录了文件系统的逻辑操作,而不是实际的数据块内容。

edits log 具有持久性和顺序性的特点。它是一个追加写日志文件,新的变更操作将会被追加到日志文件的末尾。这种顺序写入的方式使得 HDFS 可以快速写入变更操作,同时保证了操作的顺序性。

通过记录变更操作在 edits log 中,HDFS 可以保证数据的一致性和可恢复性。当文件系统启动时,HDFS 会加载 fsimage 文件和最后一个 edits log 文件,并根据其中的操作重放文件系统的变更过程,从而恢复文件系统的状态。这个过程被称为“日志回放”(log replay)。

在运行过程中,HDFS 会定期将 edits log 合并成较大的文件,并创建一个新的空的 edits log 文件,以减少日志文件的数量和提高效率。

总结起来,edits log 是 HDFS 中的一种日志文件,用于记录对文件系统的变更操作。它具有持久性和顺序性特点,通过日志回放,HDFS 可以恢复文件系统的状态并保证数据的一致性和可恢复性。

从角色:datanode

  • datanode是Hadoop HDFS中的从角色,负责具体的数据块存储
  • datanode的数量决定了HDFS集群的整体数据存储能力,通过和namenode配合维护着数据块
    在这里插入图片描述

主角色辅助角色:secondarynamenode

  • 除了datanode和namenode之外,还有lingerie守护进程,它称为secondarynamenode。充当namenode的辅助节点,但不能替代namenode
  • 当namenode启动时,namenode合并Fsimage和edits log文件以还原当前文件系统名称空间。如果edits log过大不利于加载,secondarynamonode就辅助namenode从namenode下载Fsimage文件和edits log文件进行合并
    在这里插入图片描述

重要特性

主从架构

  • HDFS采用master/slave架构。一般一个HDFS集群是有一个namenode和一定数目的datanode组成
  • namonode是HDFS主角点,datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服务
    在这里插入图片描述

分块存储机制

  • HDFS中的文件在物理上是分块存储(block)的,快的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs:blocksize,默认大小是128m
    在这里插入图片描述

副本机制

  • 文件的所有block都会有副本。每个文件的block大小(dfs.blocksize)和副本系数(dfs.replication)都是可配置的。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变
  • 默认dfs.replication的值是3,也就是会额外再复制2份,连同本身共3份副本

在这里插入图片描述

namespace

  • HDFS支持传统的层次型文件组织结构。用户可以创建目录然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建,删除,移动或重命名文件
  • namenode负责维护文件系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被namenode记录下来
  • HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,例如:hdfs://namenode:port/dir-a/dir-b/dir-c/file-data

在这里插入图片描述

元数据管理

在HDFS中,namenode管理的元数据具有两种类型

  • 文件自身属性
    • 文件名称,权限,修改时间,文件大小,复制因子,数据块大小
  • 文件块位置映射信息
    • 记录文件块和datanode之间的映射信息,即哪个块位于哪个节点上

在这里插入图片描述
在这里插入图片描述

数据块存储

  • 文件的各个block的具体存储管理由datanode节点承担。每一个block都可以在多个datanode上存储
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/73363.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

几个使用Stable Diffusion XL 1.0生成的图像示例。 新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。 周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述…

STM32CUBUMX配置RS485 modbus STM32(从机)亲测可用

———————————————————————————————————— ⏩ 大家好哇!我是小光,嵌入式爱好者,一个想要成为系统架构师的大三学生。 ⏩最近在开发一个STM32H723ZGT6的板子,使用STM32CUBEMX做了很多驱动&#x…

【VUE】解决图片视频加载缓慢/首屏加载白屏的问题

1 问题描述 在 Vue3 项目中,有时候会出现图片视频加载缓慢、首屏加载白屏的问题 2 原因分析 通常是由以下原因导致的: 图片或视频格式不当:如果图片或视频格式选择不当,比如选择了无损压缩格式,可能会导致文件大小过大…

青蛙过河 [递推法]

青蛙过河 [递推法] 题目描述输入输出样例输入样例输出样例 递推解答A C 代码 题目描述 有一条河,左边一个石墩( A A A区)上有编号为 1 , 2 , 3 , 4 , … , n 1,2,3,4&am…

Django实现音乐网站 ⑵

使用Python Django框架制作一个音乐网站,在系列文章1的基础上继续开发,本篇主要是后台歌手表模块开发。 目录 表结构设计 歌手表(singer)结构 创建表模型 设置图片上传路径 创建上传文件目录 生成表迁移 执行创建表 后台管…

刷题笔记 day5

力扣 202 快乐数 首先来分析什么样的数是快乐数, 解题思路: 1)定义快慢指针 ; 2)快指针走两步,慢指针走一步 ;3)两个指针相遇时判断相遇的数值是否为1。 怎样处理 取各分位数的平…

软考A计划-系统集成项目管理工程师-信息文档和配置管理-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者 专注于Android/Unity和各种游…

【计算机视觉中的 GAN 】如何稳定GAN训练(3)

一、说明 在上一篇文章中,我们达到了理解未配对图像到图像翻译的地步。尽管如此,在实现自己的超酷深度GAN模型之前,您必须了解一些非常重要的概念。如本文所提的GAN模型新成员的引入:Wasserstein distance,boundary eq…

四、JVM-对象内存模型

Java对象内存模型 一个Java对象在内存中包括3个部分:对象头、实例数据和对齐填充 数据 内存 – CPU 寄存器 -127 补码 10000001 - 11111111 32位的处理器 一次能够去处理32个二进制位 4字节的数据 64位操作系统 8字节 2的64次方的寻址空间 指针压缩技术 JDK1.6出…

尝试多数据表 sqlite

C 唯一值得骄傲的地方就是 通过指针来回寻址 😂 提高使用的灵活性 小脚本buff 加成

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

文章目录 一、检测相关(5篇)1.1 TALL: Thumbnail Layout for Deepfake Video Detection1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Vi…

从录取成绩的角度来看,浙大MPA面试的客观公正性是有一定依据的

时间即将来到八月份!不知道目前考生们今年的备考情况怎么样了,度过比较煎熬的三伏天,距离考研冲刺的时间越来越近! 提前批面试申请对于不同的项目以及不同的考生意义都不一样。比如真正的学霸人物对于提面的申请与不申请一般差别不…

关于K8s的Pod的详解(一)

关于K8s的Pod的详解(一) Pod和API server的通信加快Pod启动更改Pod的资源Pod 的持久卷的单个访问模式Pod 拓扑分布约束Pod 拓扑分布中的最小域数 Pod 作为k8s创建,调度,管理的基本单位。由上级的Controller对Node上安装的Kubelet发…

Pytorch深度学习之余弦退火学习率设置

1. 什么是余弦退火学习率? 余弦退火学习速率调度是改进深度神经网络学习过程的常用方法。当深度神经网络在大型数据集上训练时,它尤其有用,因为在大型数据集中,学习过程可能会陷入局部极小值。在训练过程中,学习率以不…

MongoDB文档--架构体系

阿丹: 在开始学习先了解以及目标知识的架构体系。就能事半功倍。 架构体系 MongoDB的架构体系由以下几部分组成: 存储结构:MongoDB采用文档型存储结构,一个数据库包含多个集合,一个集合包含多个文档。存储形式&#…

C语言假期作业 DAY 01

题目 1.选择题 1、执行下面程序,正确的输出是( ) int x5,y7; void swap() { int z; zx; xy; yz; } int main() { int x3,y8; swap(); printf("%d,%d\n",x, y)…

ZooKeeper原理剖析

1.ZooKeeper简介 ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能: 帮助系统避免单点故障,建立可靠的应用程序。提供分布式协作服务和维护配置信息。 2.ZooKeeper结构 ZooKeeper集群中的节点分为三种角色:Le…

自动驾驶感知系统-全球卫星定位系统

卫星定位系统 车辆定位是让无人驾驶汽车获取自身确切位置的技术,在自动驾驶技术中定位担负着相当重要的职责。车辆自身定位信息获取的方式多样,涉及多种传感器类型与相关技术。自动驾驶汽车能够持续安全可靠运行的一个关键前提是车辆的定位系统必须实时…

【雕爷学编程】MicroPython动手做(33)——物联网之天气预报3

天气(自然现象) 是指某一个地区距离地表较近的大气层在短时间内的具体状态。而天气现象则是指发生在大气中的各种自然现象,即某瞬时内大气中各种气象要素(如气温、气压、湿度、风、云、雾、雨、闪、雪、霜、雷、雹、霾等&#xff…

STM32基础入门学习笔记:核心板 电路原理与驱动编程

文章目录: 一:LED灯操作 1.LED灯的点亮和熄灭 延迟闪烁 main.c led.c led.h BitAction枚举 2.LED呼吸灯(灯的强弱交替变化) main.c delay.c 3.按键控制LED灯 key.h key.c main.c 二:FLASH读写程序(有…