复习打卡大数据篇——Hadoop HDFS 02

目录

1. HDFS辅助工具

2. namenode安全模式


1. HDFS辅助工具

跨集群数据拷贝

当我们需要跨集群进行文件数据的拷贝时可以用:

hadoop distcp 集群1的某个文件路径  要拷贝到集群2的地址路径


文件归档工具archive

由于HDFS的块的数量取决于文件的大小和数量,当有太多的小文件时就会产生大量的块,从而产生大连元数据信息,会占用Namenode的内存,而文件归档工具archive就是解决这个问题的,可以把多个小文件归档为一个文件,实际应用中可以根据时间定时进行归档。

使用示例:

首先准备三个小文件 1.txt 2.txt 3.txt,里面内容分别为1 2 3

然后将其归档:hadoop archive -archiveName test.har -p /small  /archive_output/

 表示将/small下的文件归档到/archive_output/下,名字为 test.har,运行之后可以发现走的是MR

归档后可以将我们原来的小文件删了,防止占内存。

test.har点开后里面有四个文件,一个是成功标识、还有2个索引文件、然后是多个part文件、这里只有一个,里面存放了小文件数据

 点开part-0:

里面存放了1 2 3

如何解压归档文件呢?

注意archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行,但是要使用不同的URI。Hadoop Archives的URI是:

har://scheme-hostname:port/archivepath/fileinarchive  

scheme-hostname格式为hdfs-域名:端口,如果没有提供scheme-hostname,它会使用默认的文件系统。这里我已经设置我的默认文件系统为HDFS。

使用命令:hadoop fs -cp har:///archive_output/test.har  /small/ 解压归档文件到small里

文件又回来了:

总结:Hadoop Archives 是一种特殊的归档格式,每个 Hadoop Archive 对应一个文件系统目录,其文件扩展名为 *.har。创建归档的过程实际上是执行一个 MapReduce 任务,因此需要在 Hadoop 集群中运行相关命令。归档文件的大小与原始文件所占用的硬盘空间相同。此外,归档文件不支持压缩,尽管它们表面上看似已被压缩。一旦归档文件生成后无法直接修改,如果需要更改,必须重新创建一个新的归档文件。通常情况下,归档后的文件很少会被再次修改,因为它们通常是按照每日或每周等时间周期进行存档。需要注意的是,在归档创建过程中,源文件不会被改变或删除。

2. namenode安全模式

什么是安全模式?

安全模式是 HDFS 的一种特殊运行状态,其主要功能是确保系统中的数据块安全并保持数据一致性。在安全模式下,HDFS 只允许执行读取操作,而不允许进行任何修改、删除或其他变更操作。这种保护机制通常在 NameNode(主节点)启动时启用,用来检查整个文件系统的健康状况。
在 NameNode 启动后,系统会等待所有 DataNode(数据节点)报告自己存储的块信息。只有当 HDFS 中的大多数数据块副本达到预设的最低安全比例(通过配置参数定义)时,系统才会退出安全模式,恢复正常运行。如果系统未达到这个比例,会自动启动块复制操作,确保数据块的副本数达到安全要求。
例如配置文件中设置的副本数量为 3(参数 dfs.replication),理论上每个数据块应该有 3 个副本分布在不同的 DataNode 上。如果实际只有 2 个副本存在,则副本比例为 2/3=0.66。在配置文件 hdfs-default.xml 中定义了最小副本比例(参数 dfs.namenode.safemode.threshold-pct),其默认值为 0.999。由于 0.66 小于 0.999,系统会自动将数据块复制到其他 DataNode 上,直到副本比例不低于 0.999。如果系统中某个数据块有 4 个副本,而超过了设定的 3 个副本,系统会自动删除多余的 1个副本。

当我们启动Hadoop集群,立刻去web看的话安全模式这里是打开的,图中已经关闭了。

一些关于安全模式的配置参数

dfs.namenode.replication.min: 每个数据块最小副本数量,默认为1. 在上传文件时,达到最小副本数,就认为上传是成功的。
dfs.namenode.safemode.threshold-pct: 达到最小副本数的数据块的百分比。默认为0.999f。小于等于0意味不进入安全模式,大于1意味一直处于安全模式。
dfs.namenode.safemode.min.datanodes: 离开安全模式的最小可用datanode数量要求,默认为0.也就是即使所有datanode都不可用,仍然可以离开安全模式。
dfs.namenode.safemode.extension: 当集群可用block比例,可用datanode都达到要求之后,如果在extension配置的时间段之后依然能满足要求,此时集群才离开安全模式。单位为毫秒,默认为30000.也就是当满足条件并且能够维持30秒之后,离开安全模式。 这个配置主要是对集群稳定程度做进一步的确认。避免达到要求后马上又不符合安全标准。

综上要离开安全模式:达到副本数量的block要满足比例要求,存活的datanode数量要满足要求,以上满足后经过设置的等待时间后仍然没问题就可以离开安全模式。

手动进入安全命令:hdfs dfsadmin -safemode enter

手动离开安全模式:hdfs dfsadmin -safemode leave

手动进入安全模式 进行集群的维护升级等动作 避免了群起群停浪费时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493042.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mamba安装环境和使用,anaconda环境打包

什么是mamba Mamba是一个极速版本的conda,它是conda的C重新实现,使用多线程并行处理来加速包和依赖项的下载。 Mamba旨在提高安装、更新和卸载Python包的速度,同时保持与conda相同的兼容性和命令行接口。 Mamba的核心部分使用C实现&#xff…

Sigrity System Explorer Snip Via Pattern From Layout模式从其它设计中截取过孔模型和仿真分析操作指导

Sigrity System Explorer Snip Via Pattern From Layout模式从其它设计中截取过孔模型和仿真分析操作指导 Sigrity System Explorer Snip Via Pattern From Layout模式支持从其它设计中截取过孔模型用于仿真分析,同样以差分模板为例 具体操作如下 双击打开System Explorer软件…

顺序表的操作

注意位序和数组下标的关系 插入: 插入的时间复杂度: 最深层语句: 最好情况 最坏情况 平均情况 删除: 查找:

以腾讯混元模型为例,在管理平台上集成一个智能助手

背景 前几天,公司的同事们一起吃了个饭,餐桌上大家聊到大模型的落地场景。我个人在去年已经利用百度千帆平台写过案例,并发过博客(传送门👉:利用文心千帆打造一个属于自己的小师爷)&#xff0c…

计算机基础 试题

建议做的时候复制粘贴,全部颜色改为黑色,做完了可以看博客对答案。 一、单项选择题(本大题共25小题,每小题2分,共50分〉 1.计算机内部采用二进制数表示信息,为了便于书写,常用十六进制数表示。一个二进制数0010011010110用十六进制数表示为 A.9A6 B.26B C.4D6 D.…

[机器学习]XGBoost(3)——确定树的结构

XGBoost的目标函数详见[机器学习]XGBoost(2)——目标函数(公式详解) 确定树的结构 之前在关于目标函数的计算中,均假设树的结构是确定的,但实际上,当划分条件不同时,叶子节点包含的…

【AI驱动的数据结构:包装类的艺术与科学】

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” 文章目录 包装类装箱和拆箱阿里巴巴面试题 包装类 在Java中基本数据类型不是继承来自Object,为了…

探索Moticon智能传感器鞋垫OpenGo的功能与优势

Moticon智能传感器鞋垫OpenGo是一款专为运动科学和临床研究设计的先进工具。它通过13枚压力传感器、1枚3D加速器和1枚温度传感器,实时监测脚部的压力分布和步态变化。用户可以通过配套的Beaker应用,将这些数据以图表形式呈现,便于分析和理解。…

hive注释comment中文乱码解决

问题描述 当使用以下命令查看表的元数据信息时出现中文乱码(使用的是idea连接hive) desc formatted test.t_archer; 解决 连接保存hive元数据的MySQL数据库,执行以下命令: use hive3; show tables;alter table hive3.COLUMNS_…

模型 结构化思维

系列文章 分享 模型,了解更多👉 模型_思维模型目录。分步拆解,系统思考。 1 结构化思维的应用 1.1 提升销售额的结构化思维应用案例 小李是一家电商公司的运营经理,面对激烈的市场竞争,公司希望在下个季度实现销售额…

uniApp上传文件踩坑日记

最近在做移动端app,开始接触uniapp。想着直接用PC端的前后端API去做文件上传,但是uniapp的底层把请求拆成了普通请求和文件上传请求,所以不能用一个axios去做所有请求的处理,拆成uni.request和uni.uploadFile去分别处理两种情况。…

数据压缩比 38.65%,TDengine 重塑 3H1 的存储与性能

小T导读:这篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一。作者通过自身实践,详细分享了 TDengine 在高端装备运维服务平台中的应用,涵盖架构改造、性能测试、功能实现等多个方面。从压缩效率到查询性能&#x…

电气设计 | 低压接地系统:TN-C 、TN-S、TN-C-S、TT适用哪些场所?

电气设计 | 低压接地系统:TN-C 、TN-S、TN-C-S、TT适用哪些场所? 1、低压配电系统简介2、各种低压配电系统介绍2.1、TN-C系统2.2、TN-S系统2.3、TN-C-S 系统2.4、TT 系统2.5、IT 系统 1、低压配电系统简介 低压配电系统有TN-C、TN-S、TN-C-S、TT和IT五种…

onlyoffice连接器 二次开发 合同等制式模板化技术开发方案【三】

一、期望效果 目前曹瑞版本onlyoffice已经实现:书签模式 和 控件模式,用以支持该方案。 【图1】字段绑定 【图2】模板发起 【图3】接入表单 思路讲解: 业务系统开发中通常希望能够通过绑定form字段给word,从而达到双向同步效果&am…

word实现两栏格式公式居中,编号右对齐

1、确定分栏的宽度 选定一段文字 点击分栏:如本文的宽度为22.08字符 2、将公式设置为 两端对齐,首行无缩进。 将光标放在 公式前面 点击 格式-->段落-->制表位 在“制表位位置”输入-->11.04字符(22.08/211.04字符)&…

37. Three.js案例-绘制部分球体

37. Three.js案例-绘制部分球体 实现效果 知识点 WebGLRenderer WebGLRenderer 是Three.js中的一个渲染器类,用于将3D场景渲染到网页上。 构造器 WebGLRenderer( parameters : Object ) 参数类型描述parametersObject渲染器的配置参数,可选。 常用…

笔记本电脑需要一直插着电源吗?电脑一直充电的利弊介绍

笔记本电脑属于常用电子设备,它的便携性和功能性给我们带来了很多便利。但是,我们在使用笔记本电脑的时候,是否应该一直插着电源呢?这个问题可能困扰了很多人,因为不同的使用方式可能会对笔记本电脑的性能和寿命产生不…

深入理解延迟队列:原理、实现与应用

深入理解延迟队列:原理、实现与应用 1. 什么是延迟队列 延迟队列(Delayed Queue)是一种特殊的队列,它的特点是队列中的元素需要在指定的时间后才能被消费者获取和处理。与普通的先进先出(FIFO)队列不同&a…

内容与资讯API优质清单

作为开发者,拥有一套API合集是必不可少的。这个开发者必备的API合集汇集了各种实用的API资源,为你的开发工作提供了强大的支持!无论你是在构建网站、开发应用还是进行数据分析,这个合集都能满足你的需求。你可以通过这些免费API获…

jQuery总结(思维导图+二维表+问题)

关于什么是jQuery:(下面是菜鸟里的介绍) jQuery 是一个 JavaScript 库。 jQuery 极大地简化了 JavaScript 编程。 jQuery 很容易学习。 而jQuery对我的感受就是,链式运用的很形象,隐式迭代还有一些兼容性强的优点&…