目录
一、进程启停管理
(一)一键启停脚本
(二)单进程启停
二、文件系统操作命令
(一)HDFS文件系统基本信息
1.前置介绍
(二)命令介绍
1.新旧版本命令介绍
2.创建文件夹
3.查看指定目录下内容
4.上传文件到HDFS指定目录下
5.查看HDFS文件内容
6.下载HDFS文件
7.拷贝HDFS文件
9.HDFS数据移动操作
10.HDFS数据删除操作
11.HDFS shell其它命令
12.HDFS WEB浏览
一、进程启停管理
(一)一键启停脚本
Hadoop HDFS组件内置了HDFS集群的一键启停脚本。
$HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群
执行原理:
1.在执行此脚本的机器上,启动SecondaryNameNode
2.读取core-site.xml内容(fs.defaultFS项),确认NameNode所在机器,启动NameNode
3.读取workers内容,确认DataNode所在机器,启动全部DataNode
$HADOOP_HOME/sbin/stop-dfs.sh,一键关闭HDFS集群
执行原理:
1.在执行此脚本的机器上,关闭SecondaryNameNode
2.读取core-site.xml内容(fs.defaultFS项),确认NameNode所在机器,关闭NameNode
3.读取workers内容,确认DataNode所在机器,关闭全部NameNode
(二)单进程启停
除了一键启停外,也可以单独控制进程的启停。
1. $HADOOP_HOME/sbin/hadoop-daemon.sh,此脚本可以单独控制所在机器的进程的启停
用法:hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)
2. $HADOOP_HOME/bin/hdfs,此程序也可以用以单独控制所在机器的进程的启停
用法:hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)
二、文件系统操作命令
(一)HDFS文件系统基本信息
1.前置介绍
HDFS文件系统基本信息
HDFS作为分布式存储的文件系统,有其对数据的路径表达方式。
HDFS同Linux系统一样,均是以/作为根目录的组织形式
Linux: /usr/local/hello.txt
HDFS: /usr/local/hello.txt
如何区分呢?
Linux:file:///
HDFS:hdfs://namenode:port/
hdfs://就是hdfs文件系统的协议
namenode主机名 和 通讯端口
如上路径:
Linux:file:///usr/local/hello.txt
HDFS:hdfs://hp1:8020/usr/local/hello.txt
协议头file:/// 或 hdfs://hp1:8020/可以省略
需要提供Linux路径的参数,会自动识别为file://
除非你明确需要写或不写会有BUG,否则一般不用写协议头
(二)命令介绍
1.新旧版本命令介绍
关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系
hadoop命令(老版本用法),用法:hadoop fs [generic options]
hdfs命令(新版本用法),用法:hdfs dfs [generic options]
两者在文件系统操作上,用法完全一致
用哪个都可以
某些特殊操作需要选择hadoop命令或hdfs命令
2.创建文件夹
hadoop fs -mkdir [-p] <path> ...
hdfs dfs -mkdir [-p] <path> ...
path 为待创建的目录
-p选项的行为与Linux mkdir -p一致,它会沿着路径创建父目录。
当前作为hadoop用户,没有权限在linu本地根目录下创建文件,所以路径改为home下的hadoop,这样就在linux本地创建了一个叫test的文件夹,因为我们使用的协议头是file:///
如果你要在整个hadoop中创建,应当这样写:
这样就是创建在我们hdfs里面的
协议头也是可以不用写的,像这样:
3.查看指定目录下内容
hadoop fs -ls [-h] [-R] [<path> ...]
hdfs dfs -ls [-h] [-R] [<path> ...]
path 指定目录路径(你要查看的路径)
-h 人性化显示文件size
-R 递归查看指定目录及其子目录
不带 -R 就只能看到根下面有什么
4.上传文件到HDFS指定目录下
是从Linux到hdfs的过程
hadoop fs -put [-f] [-p] <localsrc> ... <dst>
hdfs dfs -put [-f] [-p] <localsrc> ... <dst>
-f 覆盖目标文件(已存在下)
上传文件有冲突的话可以直接-f覆盖掉
-p 保留访问和修改时间,所有权和权限。
localsrc 本地文件系统(客户端所在机器)
dst 目标文件系统(HDFS)
在hadoop的home目录下创建一个文件夹
里面写上你想写的内容,然后保存退出
这个时候就可以看到我们home目录下面有我们刚刚创建的txt文件
现在我们要把这个文件上传到整个hadoop系统的根目录下面
我们再上传一个
先新建
可以看到本地有了该文件
此次上传不带协议头,可以发现仍旧上传成功
5.查看HDFS文件内容
hadoop fs -cat <src> ...
hdfs dfs -cat <src> ...
读取指定文件全部内容,显示在标准输出控制台。
读取大文件可以使用管道符配合more
hadoop fs -cat <src> | more
hdfs dfs -cat <src> | more
真正的生产环境中,数据量非常大,60GB都有可能,此时用cat看内容是输出不完整的,软件中断容易干崩溃。所以对于大文件来说,我们可以借用linux的管道符,给它一个more命令,more是Linux中对内容进行翻页的命令,然后按空格翻页
hadoop fs -cat /test.txt | more
补充一点:set nu 显示行号
6.下载HDFS文件
下载是hdfs向linux去下载
hadoop fs -get [-f] [-p] <src> ... <localdst>
hdfs dfs -get [-f] [-p] <src> ... <localdst>
下载文件到本地文件系统指定目录,localdst必须是目录
-f 覆盖目标文件(已存在下)
下载文件有冲突的话可以直接-f覆盖掉
-p 保留访问和修改时间,所有权和权限。
首先把我们linux本地的东西都删掉,ll 或者ls 查看会发现没有任何东西
再把hdfs的文件下载到linux本地
7.拷贝HDFS文件
hadoop fs -cp [-f] <src> ... <dst>
hdfs dfs -cp [-f] <src> ... <dst>
-f 覆盖目标文件(已存在下)
<src>和 <dst>都是hdfs路径,所以这是hdfs对hdfs进行复制
hadoop fs -cp /test.ext /home/
把test.ext复制到/home里面去
hadoop fs -cp -f /ayu.ext /home/
-f 即强制覆盖
hadoop fs -cp -f /ayu.ext /home/abc.txt
cp同Linux一样兼具改名的效果,把test.ext复制到/home里面去并改名为abc.txt
8.追加数据到HDFS文件中
hdfs文件系统,还可以完成文件的修改工作。这个修改工作跟linux中的vim不一样,整个hdfs的文件修改只支持两种。第一种是直接删掉,第二种是追加内容。我们整个文件系统,只能够进行删除和追加,不能修改里面某一行或某一个字符。
hadoop fs -appendToFile <localsrc> ... <dst>
hdfs dfs -appendToFile <localsrc> ... <dst>
将所有给定本地文件的内容追加到给定dst文件。
dst如果文件不存在,将创建该文件。
如果<localSrc>为-,则输入为从标准输入中读取。
9.HDFS数据移动操作
hadoop fs -mv <src> ... <dst>
hdfs dfs -mv <src> ... <dst>
移动文件到指定文件夹下
可以使用该命令移动数据,重命名文件的名称
hadoop fs -mv /test.txt /bigdata/
把test.txt移动到/bigdata里面去
同时具有改名效果:
hadoop fs -mv /test.txt /bigdata/abc.txt
把test.txt移动到/bigdata里面并改名为abc.txt
10.HDFS数据删除操作
hadoop fs -rm -r [-skipTrash] URI [URI ...]
hdfs dfs -rm -r [-skipTrash] URI [URI ...]
删除指定路径的文件或文件夹
删文件 -rm
删文件夹 -rm -r
(此图由于网络超时没能传上来,将就看一下)
-skipTrash 跳过回收站,直接删除
回收站功能默认关闭,如果要开启需要在core-site.xml内配置:
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
<property>
<name>fs.trash.checkpoint.interval</name>
<value>120</value>
</property>
配置如下内容:
1440表示回收站的数据能够保留一天
120表示的是分钟,每两小时检查一次,如果超过1440的限制,就彻底清空。
无需重启集群,配置后即刻生效。在哪个机器配置的,在哪个机器执行命令就生效。
回收站默认位置在:/user/用户名(hadoop)/.Trash
11.HDFS shell其它命令
命令官方指导文档
Apache Hadoop 3.3.4 – Overview
12.HDFS WEB浏览
除了使用命令操作HDFS文件系统外,在HDFS的WEB UI上也可以查看HDFS文件系统的内容。
使用WEB浏览操作文件系统,一般会遇到权限问题
这是因为WEB浏览器中是以匿名用户(dr.who)登陆的,其只有只读权限,多数操作是做不了的。
如果需要以特权用户在浏览器中进行操作,需要配置如下内容到core-site.xml并重启集群
<property>
<name>hadoop.http.staticuser.user</name>
<value>hadoop</value>
</property>
但是,不推荐这样做
HDFS WEBUI,只读权限挺好的,简单浏览即可
如果给与高权限,会有很大的安全问题,造成数据泄露或丢失