Hadoop之HDFS的原理和常用命令及API(java)

1、简介

        书接上回,上篇博文中介绍如何安装Hadoop和基本配置,本文介绍Hadoop中分布式文件组件--HDFS,在HDFS中,有namenode、datanode、secondnamenode这三个角色,本文将详细介绍这几个组件是如何进行协作的,以及HDFS常用命令和一些api的使用。

HDFS特点:

  • 高容错性:拥有副本机制,提高容错性;
  • 适合处理大数据量:能够处理GB、TB、PB级别的数据量;
  • 数据传输有延迟:不适合低延时数据访问;
  • 不适合大量小文件存储:文件信息都会存储在namenode中,namenode内存空间有限,而且小文件过多会导致磁盘寻址时间长;
  • 不支持文件并发写入、修改:只支持串行写,而且只支持追加,不支持修改。
2、HDFS中几个组件的原理及使用

2.1、NameNode(nn)

        NameNode是master,是HDFS中的管理者,管理HDFS文件的命令空间、文件副本策略、管理数据块映射信息、处理客户端的读写请求等。存储文件数据块元数据信息,NameNode的默认空间为128G,每个block的元数据信息占用150B。

2.2、DataNode(dn)

        datanode是执行NameNode下发的操作命令,存储实际的数据块,执行数据块的读写操作,文件块大小默认是 128Mb ,可通过 dfs.blocksize 参数设置(在 hdfs-site.xml 文件中设置)。

2.3、SecondaryNameNode(2nn)

        SecondaryNameNode并非NameNode的热备份,当NameNode挂掉的时候,辅助回复NameNode;在NameNode正常的时候,辅助NameNode,分摊NameNode工作量。

2.4、NameNode 和 SecondaryNameNode 的工作机制

        NameNode节点因为经常响应客户请求,需要及时获取请求文件的元数据信息。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此HDFS会产生元数据备份文件存储在磁盘中,备份文件为FsImage。

        在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,就能合成元数据。但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode 节点完成,又会效率过低。因此,引入一个新的节点SecondaryNameNode,专门用于FsImage和Edits的合并。

注:第一次启动NameNode格式化后,创建Fsimage和Edits文件。

2.5、hdfs读写原理
2.5.1、读原理

2.5.2、写原理

3、HDFS常用命令

        HDFS命令可以使用 hadoop fs  也可以使用 hdfs dfs 命令。 

# 1、帮助命令
hadoop fs -help 具体命令(例如:rm、get)
# 2、上传文件(拷贝)
hadoop fs -put/copyFromLocal 本地文件 hdfs目录   
hadoop fs -put/copyFromLocal test.txt /test  
# 3、上传文件(剪切)
hadoop fs -moveFromLocal 本地文件 hdfs目录
# 4、追加文件内容
hadoop fs -appendToFile 本地文件 hdfs文件
# 5、下载
hadoop fs -get/copyToLocal HDFS文件 本地文件
# 6、hdfs类似于linux命令的操作
hadoop fs -ls/mv/rm/du/chmod/chown/mkdir/tail/cp/cat ...
4、HDFS的API操作

        关于HDFS操作使用test方式运行代码。

4.1、引入依赖
<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.4</version>
</dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.3.1</version>
</dependency><dependency><groupId>org.junit.platform</groupId><artifactId>junit-platform-launcher</artifactId><version>1.10.3</version><scope>test</scope>
</dependency>
4.2、搭建测试代码框架

        关于HDFS操作的API,可以使用fs对象进行操作,这些API都可以很快上手。对于HDFS的使用,需要根据使用场景进行一些自定义设置,需要在Configuration中指定即可

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.jupiter.api.AfterAll;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;
import org.junit.jupiter.api.TestInstance;
import org.springframework.boot.test.context.SpringBootTest;
import java.net.URI;
import java.util.Arrays;@SpringBootTest(classes = TestHDFS.class)
@TestInstance(TestInstance.Lifecycle.PER_CLASS)
public class TestHDFS {FileSystem fs;@BeforeAllpublic void init() throws  Exception{Configuration configuration = new Configuration();URI uri = new URI("hdfs://192.168.0.66:8020");fs = FileSystem.get(uri, configuration);}@AfterAllpublic void destory() throws Exception{fs.close();}@Testpublic void getStatus() throws Exception{FileStatus[] fileStatuses = fs.listStatus(new Path("/test/test.txt"));for(FileStatus status : fileStatuses){System.out.println(status.getPath());System.out.println("is directory" + status.isDirectory());System.out.println("is file" + status.isFile());}}@Testpublic void getFiles() throws Exception{RemoteIterator<LocatedFileStatus> statusRemoteIterator = fs.listFiles(new Path(("/test")), true);while (statusRemoteIterator.hasNext()) {LocatedFileStatus status = statusRemoteIterator.next();System.out.println(Arrays.toString(status.getBlockLocations()));System.out.println(status.getPath());System.out.println(status.isFile());System.out.println(status.getBlockSize());System.out.println(status.getOwner());}}
}
5、HDFS配置

        在HDFS中有几种配置文件:

  1. hdfs-default.xml:定义HDFS默认参数;
  2. hdfs-site.xml:在 etc/hadoop目录下,可以自定义配置;
  3. 在java项目中的resources目录下 hdfs-site.xml:自定义配置;
  4. 在java代码中的Configuration中指定。

几种配置文件的优先级为:1 < 2 < 3 < 4。在使用过程中需要根据使用场景来自定义参数。

6、总结

         本文详细介绍HDFS读写以及NameNode和SecondaryNameNode之间如何协调工作的原理,让大家对HDFS有了进一步了解,同时介绍HDFS一些常用命令,可以帮助我们使用命令直接操作HDFS,最后介绍如何将HDFS引入到项目中,如何在代码中实现HDFS的操作。关于更多Hadoop组件相关知识,将在后续持续更新。

       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415393.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构 | 每日一题】图的概念辨析

图的概念辨析 考点分析&#xff1a;我们学习数据结构图的第一小节就是&#xff1a;图的基本概念&#xff0c;我们会发现图的概念非常多且有些概念之间又很像&#xff0c;而对于初学者来说&#xff0c;相比树的概念是不好理解的&#xff0c;很容易搞混&#xff0c;因此做了这么…

传输层(TCP、UDP、RDT详解)

目录 1.无连接传输&#xff1a;UDP UDP&#xff1a;User Datagram Protocol&#xff08;用户数据报协议&#xff09; UDP&#xff1a;校验和 Internet校验和的例子 2.可靠数据传输&#xff08;Rdt&#xff09;的原理 可靠数据传输&#xff1a;问题描述 1.Rdt1.0&#xff…

【hot100篇-python刷题记录】【在排序数组中查找元素的第一个和最后一个位置】

R7-二分查找篇 目录 双指针 二分优化 ps: 思路&#xff1a; 双指针 直接用双指针回缩啊 class Solution:def searchRange(self, nums: List[int], target: int) -> List[int]:ret[-1,-1]left,right0,len(nums)-1while left<len(nums):if nums[left]target:ret[0]…

华为Huawei路由器交换机SSH配置

华为设备的SSH登录配置需要5个步骤&#xff0c;示例如下&#xff1a; 一、配置命令 使能SSH功能 stelnet server enable生成公钥 rsa local-key-pair create 1024配置AAA用户密码及相应授权 aaalocal-user xxx password cipher xxxyyy1234local-user xxx privilege level …

三十二、初识Gin框架

目录 一、搭建web项目 1、引入gin依赖 2、搭建项目结构 二、路由绑定 1、创建路由 解释&#xff1a; 2、创建实例化模块 3、创建具体事项 4、main中添加注册 一、搭建web项目 1、引入gin依赖 在项目路径下&#xff0c;终端中输入 go get -u github.com/gin-gonic/gin…

语音测试(一)视频转音频

视频转音频 下载ffmpeg工具进入bin目录cmd进入控制台输入命令 ffmpeg.exe -i ./视频.mp4 ./音频.wav

C语言试题(含答案解析)

单选 1.下面C程序的运行结果为&#xff08;&#xff09; int main(void) {printf("%d", B < A);return 0; }A.编译错误 B.1 C.0 D.运行错误 A’的ascii码值为65&#xff0c;‘B’的ascii码值为66&#xff0c;‘B’<‘A’是不成立的&#xff0c;返回0&#xf…

什么是W外链?外链的优势有哪些?

一、定义 定义W 外链是一家企业级在线短链接生成工具&#xff0c;免费的微信获客助手&#xff0c;支持批量短链接网址生成等&#xff0c;还支持自定义域名短链接数据统计等。在链接缩短的同时&#xff0c;支持高并发、防劫持&#xff0c;是专业的在线生成短链接工具。 网络营…

PrimeTime low power-多电压设计流程(3)

4.Golden UPF flow Golden UPF flow是维护设计多电压电源意图的可选方法。它在整个综合、物理实现和验证步骤中使用原始的Golden UPF 文件,以及由综合和物理实现工具生成的supplemental UPF 文件。 图 141 比较了传统的 UPF-prime 流程与Golden UPF 流程。 Golden UPF 流程在…

达梦数据库事务管理

目录 一、事务简介 二、事务特性 1.原子性 2.一致性 3.隔离性 4.持久性 三、事务提交 1.自动提交模式 2.手动提交模式 3.隐式提交 四、事务回滚 1.自动回滚 2.手动回滚 3.回滚到保存点 4.语句级回滚 五、事务锁定 1.锁模式 &#xff08;1&#xff09;共享锁 …

【加密社】马后炮视角来看以太坊二层战略

阅读正文前先给大家普及下知识&#xff0c;以下文章中提到的 Blobs指的是&#xff1a;"Blob Carriers" 或 "Calldata Blobs" 这是在以太坊网络中用于携带数据的一种方式&#xff0c;尤其是在涉及Rollup&#xff08;如Optimistic Rollup和ZK-Rollup&#xf…

【Git】IDEA代码合并|merge into

&#x1f4dd;个人主页&#x1f339;&#xff1a;执键行天涯 ⏩收录专栏⏪&#xff1a;多线程进阶 &#x1f921;往期回顾&#x1f921;&#xff1a;【不安全的集合类】同步容器&#xff08;如ConcurrentHashMap&#xff09;、并发集合&#xff08;如CopyOnWriteArrayList &…

【正点原子K210连载】第三十四章 image图像滤波实验 摘自【正点原子】DNK210使用指南-CanMV版指南

第三十四章 image图像滤波实验 在上一章节中&#xff0c;介绍了image模块中元素绘制方法给的使用&#xff0c;本章将继续介绍image模块中图像滤波方法的使用。通过本章的学习&#xff0c;读者将学习到image模块中图像滤波的使用。 本章分为如下几个小节&#xff1a; 34.1 imag…

【通过h5作为中转页跳转到微信小程序】

1。从小程序跳转小程序内部页面 <!DOCTYPE html> <html><head><title>H5跳转小程序</title><meta charset"UTF-8"><meta name"viewport"content"widthdevice-width, initial-scale1.0, minimum-scale1.0, ma…

【知识库系列】MPR/多模态方向观察:图像视频与3D生成

多模态背后的backbone会长成什么样&#xff1f; 各种模态到梯度下降到最后会不会都差不多&#xff1f; Sora 是不是已经被追上了? 我们真的把视频数据都用好了吗&#xff1f; 知识库完整文档&#xff1a; MPR/多模态方向观察&#xff1a;图像视频与3D生成&#xff1a;https…

基于RK3568平台移植ffmpeg3.4.5及ffmpeg验证

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、移植流程3.1 编译x2643.2 编译mpp3.3 编译ffmpeg四、ffmpeg验证4.1 ffmpeg配置说明4.2 ffmpeg推流/拉流使用说明4.2.1 使用http方式推流/拉流4.2.1.1 先执行ffmpeg服务4.2.1.2 再执行ffmpeg进行推流4.2.1.3 最后执行vlc进…

linux中最简单方式使用crontab打印当前时间

因特殊需求&#xff0c;需要在linux的某个文件中每分钟打印出当前时间。 先手动试一下命令&#xff1a; echo $(date) 打印出&#xff1a; Mon Sep 1 09:28:06 AM CST 2024 而我需要达到的效果是&#xff1a; 2024-09-01 09:28:06 于是命令改成了&#xff1a; echo $(date &quo…

《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-03-移动通信网网络架构

文章目录 1. 5GS与DN互连1.1 5GS概述1.2 5GS 与DN网络的连接关系1.3 UE连接DN的两种模式1.3.1 透明模式1.3.2 非透明模式 2. 5G 网络边缘计算 1. 5GS与DN互连 1.1 5GS概述 5GS&#xff1a;5G SystemDN&#xff1a;Data NetworkIMS&#xff1a;IP Media Subsystem&#xff08;一…

并发集合:ConcurrentHashMap解析

1、ConcurrentHashMap 介绍 1.1、ConcurrentHashMap 概述 ConcurrentHashMap 是线程安全的HashMap&#xff0c;但最早的线程安全的HashMap 是 HashTable &#xff0c;HashTable 现在已经弃用&#xff0c;因为它是使用synchronized 来保证线程安全&#xff0c;性能比较低&#…

安卓(Android)平台上的MVVM架构:关键知识点、优劣分析及实践示例

​ 一、安卓MVVM架构核心知识点 1.1、架构组成 1.1.1、Model层 承载业务逻辑与数据实体&#xff0c;独立于UI并与ViewModel进行交互&#xff0c;实现数据获取与处理功能。 1.1.2、View层 负责用户界面展示&#xff0c;借助Android XML布局文件及Activity/Fragment等组件&a…