Hadoop集群运维管理

一、Hadoop 集群进程管理
- 1.1 NameNode 守护进程管理
- 1.2 DataNode 守护进程管理
- 1.3 ResourceManager 守护进程管理
- 1.4 NodeManager 守护进程管理
二、Hadoop 集群运维技巧
- 2.1 查看日志
- 2.2 清理临时文件
- 2.3 定期执行负载均衡
- 2.4 文件系统检查
- 2.5 元数据备份
三、Hadoop 集群动态扩缩容
- 3.1 使用背景
- 3.2 原 Hadoop 集群配置
- 3.2.1 配置 include 和 exclude 文件路径
- - 3.2.2 添加 include 和 exclude文件
  - 3.2.3 同步修改配置文件
- 3.3 Hadoop 集群启动
- - 3.1.1 启动 Zookeeper
  - 3.1.2 启动 HDFS 集群
  - 3.1.3 启动 YARN 集群
- 3.4 Hadoop 集群动态扩容
- - 3.4.1 克隆一台 Centos 7 服务器，并配置集成环境
  - 3.4.2 修改 include 文件并同步
  - 3.4.3 刷新 NameNode
  - 3.4.4 刷新 resourceManager
  - 3.4.5 修改配置文件 slaves
  - 3.4.6 启动新增节点进程
  - 3.4.6 检查新增节点
  - 3.4.7 启动负载均衡
- 3.5 Hadoop 集群动态收缩
- - 3.5.1 修改 exclude 文件
  - 3.5.2 刷新 NameNode
  - 3.5.3 刷新 resourceManager
  - 3.5.4 开始解除节点
  - 3.5.4 停止退役节点进程
  - 3.5.5 修改include文件
  - 3.5.6 刷新NameNode和ResourceManager
  - 3.5.7 修改slaves文件
  - 3.5.8 启动负载均衡

文本使用工具脚本 deploy.sh 和 runRemoteCmd.sh ，可以到《ZooKeeper 集群的详细部署》的 4.1 章节查看如何使用

一、Hadoop 集群进程管理

1.1 NameNode 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode

在这里插入图片描述

从上图可以看出当 hadoop1 停用 namenode 后，hadoop2 的 namenode 节点由 standby 转换为 active

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start namenode

1.2 DataNode 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

1.3 ResourceManager 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop resourcemanager

在这里插入图片描述

从上图可以看出当 hadoop1 停用 resourcemanager 后，hadoop2 的 resourcemanager 节点由 standby 转换为 active

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start resourcemanager

1.4 NodeManager 守护进程管理

下线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop nodemanager

上线操作

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start nodemanager

二、Hadoop 集群运维技巧

2.1 查看日志

$ HAD00P HOME/logs/hadoop-hadoop-namenode-hadoop1.log
$ HAD00P H0ME/logs/yarn-hadoop-resourcemanager-hadoop1.log
$ HAD00P H0ME/logs/hadoop-hadoop-datanode-hadoop1.log
$ HAD00P HOME/logs/yarn-hadoop-nodemanager-hadoop1.log

2.2 清理临时文件

HDFS的临时文件路径: ${hadoop.tmp.dir}/mapred/staging 本地临时文件路径:$ {mapred.local.dir}/mapred/local

2.3 定期执行负载均衡

脚本：/usr/local/hadoop/sbin/start-balancer.sh -t 10%
-t:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。

2.4 文件系统检查

命令：/usr/local/hadoop/bin/hdfs fsck /
在这里插入图片描述

2.5 元数据备份

命令：/usr/loacl/hadoop/bin/hdfs ‘dfsadmin’ -fetchImage fsimage.backup
在这里插入图片描述

三、Hadoop 集群动态扩缩容

3.1 使用背景

随着公司业务的增长，数据量越来越大，原有 DataNode,节点的容量已经不能满足数据存储的需求，需要在原有集群基础上动态添加新的数据节点，也就是俗称的动态扩容。如果在 Hadoop 集群运行过程中，某些节点变得反常，例如故障率过高或者性能过低，可能就需要停止这些节点上的 Hadoop 服务，并从 Hadoop 集群中移除，也就是俗称的动态缩容。通常情况下，节点需要同时运行 DataNode 和 NodeManager守护进程，所以两者一般同时新增或者移除。

3.2 原 Hadoop 集群配置

在 Hadoop 集群进行动态扩缩容之前，首先需要修改原有集群的配置文件，具体操作步骤如下所示。
配置之前，先停止 hdfs 集群和 yarn 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-dfs.sh 
[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/stop-yarn.sh

3.2.1 配置 include 和 exclude 文件路径

在 NameNode 节点(hadoop1)上，修改 hdfs-sitexml配置文件添加 dfs.hosts 和 dfs.hosts.exclude 属性，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

添加如下内容：

<property><name>dfs.hosts</name><value>/usr/local/hadoop/etc/hadoop/include</value>
</property>
<property><name>dfs.hosts.exclude</name><value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

在 ResourceManager 节点(hadoop1)上，修改 yarn-site.xml 配置文件，添加 yarn.resourcemanager.nodes.include-path 和 yarn.resourcemanager.nodes.exclude-path 属性，具体操作如下所示：

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加如下内容：

<property><name>dfs.hosts.exclude</name><value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>
<property><name>yarn.resourcemanager.nodes.exclude-path</name><value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

3.2.2 添加 include 和 exclude文件

在 NameNode 和 ResourceManager,节点(hadoop1)上，创建 include 文件，并将集群节点的 hostname,信息添加到 include 文件中，具体操作如下所示。

添加 include 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

添加如下内容，不要换行和空格。

hadoop1
hadoop2
hadoop3

添加 exclude 文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

暂时不添加内容，大家可以根据实际需要添加排查的服务器

3.2.3 同步修改配置文件

将 hadoop1 节点上中修改的配置文件远程拷贝到集群其他节点，具体操作如下。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ slave
hdfs-site.xml                                                              100% 4207     2.7MB/s   00:00    
hdfs-site.xml                                                              100% 4207     2.2MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/yarn-site.xml /usr/local/hadoop/etc/hadoop/ slave
yarn-site.xml                                                              100% 3401     2.9MB/s   00:00    
yarn-site.xml                                                              100% 3401     2.6MB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave
include                                                                    100%   24    16.2KB/s   00:00    
include                                                                    100%   24    30.9KB/s   00:00    
[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave
exclude                                                                    100%    0     0.0KB/s   00:00    
exclude                                                                    100%    0     0.0KB/s   00:00

在这里插入图片描述

3.3 Hadoop 集群启动

3.1.1 启动 Zookeeper

[root@hadoop1 hadoop]# runRemoteCmd.sh "/usr/local/zookeeper/bin/zkServer.sh start" all

3.1.2 启动 HDFS 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-dfs.sh

3.1.3 启动 YARN 集群

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-yarn.sh

3.4 Hadoop 集群动态扩容

3.4.1 克隆一台 Centos 7 服务器，并配置集成环境

配置内容：修改固定IP、/etc/hostname、/etc/hosts、关闭防火墙、免密、时钟同步，具体可以参考《ZooKeeper 集群的详细部署》

在此处我新增了一台 hadoop4 IP地址：192.168.220.154

完成以上继续配置

3.4.2 修改 include 文件并同步

在 NameNode 和 ResouceMamager节点(hadoop1)上，修改 include 文件，并将新增节点的 hostname,信息添加到 include 文件中，具体操作如下所示。

[root@hadoop1 hadoop]# vim ./etc/hadoop/include

修改为如下内容（不要添加空格和换行）：

hadoop1
hadoop2
hadoop3
hadoop4

在这里插入图片描述
将 hadoop1 的 include 文件同步到其他服务器

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

3.4.3 刷新 NameNode

将一系列审核过的 DataNode 来更新 NameNode 设置，具体操作如下所示：

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

在这里插入图片描述

3.4.4 刷新 resourceManager

将一系列审核过的 NodeManager 来更新 ResourceManger 设置，具体操作如下所示：

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

在这里插入图片描述

3.4.5 修改配置文件 slaves

[root@hadoop1 hadoop]# cat /usr/local/etc/hadoop/slaves

新增 hadoop4 主机名称节点，配置如下：

hadoop1
hadoop2
hadoop3
hadoop4

将 hadoop1 中配置好的 slaves 推送到其他hadoop 节点

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.4.6 启动新增节点进程

在新增的 hadoop4 节点中，使用如下命令启动 DataNode 和 NodeManager 守护进程

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

在这里插入图片描述

3.4.6 检查新增节点

分别通过 HDFS(地址:http://hadoop1:50070/)和 YARN(地址:http:/hadoop1:8088/)的 Web界面，查看新增节点 hadoop4 是否添加成功。如果能检査到新的 DataNode 和 NodeManager,则说明 Hadoop 集群扩容成功了。

在这里插入图片描述

3.4.7 启动负载均衡

当 Hadoop 集群扩容成功之后,HDFS 集群不会自动将数据块从旧的 DataNode 迁移到新的 DataNode,以保持集群数据负载均衡，而是需要用户手动执行脚本来实现负载均衡，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh

3.5 Hadoop 集群动态收缩

从 Hadoop 集群移除节点的操作步骤如下所示：

3.5.1 修改 exclude 文件

在NameNode和ResourceManager节点(hadoop1)上，修改exclude文件，并将需要移除节点的hostname信息添加到exclude文件中，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/exclude

输入想要移除的节点，比如我想要把 hadoop4 移除，新增如下内容：

hadoop4

然后将修改后的exclude文件同步集群其他节点(包括新增节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/exclude /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.2 刷新 NameNode

在NameNode(hadoop1)节点上，使用一组新的审核过的DataNode来更新NameNode设置，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

3.5.3 刷新 resourceManager

在ResourceManager(hadoop1)节点上，使用一组新的审核过的NodeManager来更新ResourceManager设置，具体操作如下所示。

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.4 开始解除节点

通过Web界面(地址:http://hadoop1:50070/)查看待解除DataNode的管理状态是否已经变为正在解除(Decommission In Progress)，因为此时相关的DataNode正在被解除过程中，这些DataNode会把它们的数据块复制到其他DataNode中。当所有DataNode的状态变为解除完毕(Decommissioned)时，表明所有数据块已经复制完毕，此时会关闭已经解除的节点。

在这里插入图片描述

3.5.4 停止退役节点进程

等待退役节点hadoop4的状态为decommissioned时，说明所有块已经复制成功，然后使用如下命令关闭DataNode和NodeManager进程。

[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@hadoop4 hadoop]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
no nodemanager to stop

3.5.5 修改include文件

在NameNode和ResourceManager节点(hadoop1)中，从include文件中删除退役节点hadoop4的hostname信息，具体操作如下所示。

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/include

删除 hadoop4，结果如下：

hadoop1
hadoop2
hadoop3

然后将修改后的include文件同步集群其他节点(包括退役节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/include /usr/local/hadoop/etc/hadoop/ slave

在这里插入图片描述

3.5.6 刷新NameNode和ResourceManager

[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/yarn rmadmin -refreshNodes

3.5.7 修改slaves文件

[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/slaves

删除 hadoop4，结果如下：

hadoop1
hadoop2
hadoop3

然后将修改后的slaves文件同步集群其他节点(包括退役节点)，这里以hadoop2节点为例，具体操作如下所示。

[root@hadoop1 hadoop]# deploy.sh /usr/local/hadoop/etc/hadoop/slaves /usr/local/hadoop/etc/hadoop/ slave

3.5.8 启动负载均衡

[root@hadoop1 hadoop]# /usr/local/hadoop/sbin/start-balancer.sh