大数据技术-Hadoop（一）Hadoop集群的安装与配置

大数据技术-Hadoop（一）Hadoop集群的安装与配置

news/2025/1/2 23:50:29/文章来源:https://blog.csdn.net/weixin_39555954/article/details/144680951

目录

一、准备工作

1、安装jdk（每个节点都执行）

2、修改主机配置（每个节点都执行）

3、配置ssh无密登录（每个节点都执行）

二、安装Hadoop（每个节点都执行）

三、集群启动配置（每个节点都执行）

1、core-site.xml

2、hdfs-site.xml

3、yarn-site.xml

4、mapred-site.xml

5、workers

四、启动集群和测试（每个节点都执行）

1、配置java环境

2、指定root启动用户

3、启动

3.1、如果集群是第一次启动

3.2、启动HDFS 在hadoop1节点

3.3、启动YARN在配置ResourceManager的hadoop2节点

3.4、查看 HDFS的NameNode

3.5、查看YARN的ResourceManager

4、测试

4.1、测试

4.2、文件存储路径

4.3、统计文本个数

五、配置Hadoop脚本

1、启动脚本hadoop.sh

2、查看进程脚本jpsall.sh

3、拷贝到其他服务器

一、准备工作

	hadoop1	hadoop2	hadoop3
IP	192.168.139.176	192.168.139.214	192.168.139.215
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

1、安装jdk（每个节点都执行）

tar -zxf jdk-8u431-linux-x64.tar.gz
mv jdk1.8.0_431 /usr/local/java#进入/etc/profile.d目录
vim java_env.sh#编辑环境变量
#java
JAVA_HOME=/usr/local/java
JRE_HOME=/usr/local/java/jre
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$JAVA_HOME/bin:$PATH
export PATH JAVA_HOME CLASSPATH#刷新
source /etc/profile

2、修改主机配置（每个节点都执行）

vim /etc/hosts192.168.139.176 hadoop1
192.168.139.214 hadoop2
192.168.139.215 hadoop3#修改主机名(每个节点对应修改）
vim /etc/hostname 
hadoop1

注意：这里本地的host文件也要修改一下，后面访问配置的是主机名，如果不配置，需修改为ip

3、配置ssh无密登录（每个节点都执行）

#生成密钥
ssh-keygen -t rsa#复制到其他节点
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3

二、安装Hadoop（每个节点都执行）

tar -zxf hadoop-3.4.0.tar.gz
mv hadoop-3.4.0 /usr/local/#配置环境变量进入/etc/profile.d目录vim hadoop_env.sh#添加如下内容
#hadoop
export HADOOP_HOME=/usr/local/hadoop-3.4.0
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin#查看版本
hadoop version

三、集群启动配置（每个节点都执行）

修改/usr/local/hadoop-3.4.0/etc/hadoop目录下

1、core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. --><configuration><!-- 指定NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop1:8020</value></property><!-- 指定hadoop数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-3.4.0/data</value></property><!-- 配置HDFS网页登录使用的静态用户为root ,实际生产请创建新用户--><property><name>hadoop.http.staticuser.user</name><value>root</value></property></configuration>

2、hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. --><configuration>
<!-- nn web端访问地址--><property><name>dfs.namenode.http-address</name><value>hadoop1:9870</value></property><!-- 2nn web端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop3:9868</value></property></configuration>

3、yarn-site.xml

<?xml version="1.0"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<configuration><!-- Site specific YARN configuration properties --><!-- 指定MR走shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop2</value></property><!-- 环境变量的继承 --><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value></property><!-- 开启日志聚集功能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址 --><property><name>yarn.log.server.url</name><value>http://hadoop102:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为7天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
</configuration>

4、mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. -->
<configuration><!-- 指定MapReduce程序运行在Yarn上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><!-- 历史服务器web端地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property>
</configuration>

5、workers

hadoop1
hadoop2
hadoop3注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行

四、启动集群和测试（每个节点都执行）

1、配置java环境

#修改这个文件/usr/local/hadoop/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/local/java

2、指定root启动用户

#在start-dfs.sh，stop-dfs.sh 添加如下内容 方法上面HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root在 start-yarn.sh stop-yarn.sh 添加如下内容 方法上面
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root

注：hadoop默认情况下的是不支持root账户启动的，在实际生产请创建用户组和用户，并且授予该用户root的权限

3、启动

3.1、如果集群是第一次启动

需要在hadoop1节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

hdfs namenode -format

3.2、启动HDFS 在hadoop1节点

/usr/local/hadoop-3.4.0/sbin/start-dfs.sh

3.3、启动YARN在配置ResourceManager的hadoop2节点

/usr/local/hadoop-3.4.0/sbin/start-yarn.sh

3.4、查看 HDFS的NameNode

http://192.168.139.176:9870/

3.5、查看YARN的ResourceManager

http://192.168.139.214:8088

4、测试

4.1、测试

#创建文件
hadoop fs -mkdir /input#创建文件
touch text.txt#上传文件
hadoop fs -put  text.txt /input#删除
hadoop fs -rm -r /output

4.2、文件存储路径

/usr/local/hadoop-3.4.0/data/dfs/data/current/BP-511066843-192.168.139.176-1734965488199/current/finalized/subdir0/subdir0

4.3、统计文本个数

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /input  /output

五、配置Hadoop脚本

1、启动脚本hadoop.sh

#!/bin/bashif [ $# -lt 1 ]
thenecho "No Args Input..."exit ;
ficase $1 in
"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop2 "/usr/local/hadoop-3.4.0/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/bin/mapred --daemon start historyserver"
;;
"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop2 "/usr/local/hadoop-3.4.0/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/sbin/stop-dfs.sh"
;;
*)echo "Input Args Error..."
;;
esac

#授权
chmod +x hadoop.sh

2、查看进程脚本jpsall.sh

#!/bin/bashfor host in hadoop1 hadoop2 hadoop3
doecho =============== $host ===============ssh $host jps 
done

3、拷贝到其他服务器

scp root@hadoop1:/usr/local/hadoop-3.4.0 hadoop.sh jpsall.sh root@hadoop2:/usr/local/hadoop-3.4.0/scp root@hadoop1:/usr/local/hadoop-3.4.0 hadoop.sh jpsall.sh root@hadoop3:/usr/local/hadoop-3.4.0/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/497608.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ipad如何直连主机（Moonlight Sunshine）

ipad如何直连主机（Moonlight Sunshine）

Windows 被连接主机（Windows） 要使用的话需要固定ip，不然ip会换来换去，固定ip方法本人博客有记载Github下载Sunshine Sunshine下载地址除了安装路径需要改一下，其他一路点安装完成后会打开Sunshine的Web UI&#xff…

阅读更多...

【我的 PWN 学习手札】IO_FILE 之 stdout任意地址读

【我的 PWN 学习手札】IO_FILE 之 stdout任意地址读

上一篇文章学会了stdin任意地址写【我的 PWN 学习手札】IO_FILE 之 stdin任意地址写-CSDN博客本篇关注stdout利用手法，和上篇提及的手法有着异曲同工之妙文章目录前言一、_IO_2_1_stdout_输出链，及利用思路 （一）_IO_2_1_std…

阅读更多...

部署SenseVoice

部署SenseVoice

依赖 Conda cuda pythor 查看GPU版本-CSDN博客创建虚拟conda环境 conda create --name deeplearn python3.10 conda activate deeplearn git clone https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice pip install -r requirements.txt pip install gradio pyth…

阅读更多...

【Compose multiplatform教程06】用IDEA编译Compose Multiplatform常见问题

【Compose multiplatform教程06】用IDEA编译Compose Multiplatform常见问题

当我们从Kotlin Multiplatform Wizard | JetBrains 下载ComposeMultiplatform项目时会遇到无法正常编译/运行的情况，一般网页和桌面是可以正常编译的， 我这里着重解决如下问题 1:Gradle版本不兼容或者Gradle连接超时 2:JDK版本不兼容 3:Gradle依赖库连…

阅读更多...

yolov4算法及其改进

yolov4算法及其改进

yolov4算法及其改进 1、yolov4介绍2、mosaic与mish激活函数2.1、mosaic数据增强2.2、Mish激活函数 3、backbone网络框架的改进4、PAN-FPN的介绍5、样本匹配和损失函数5.1、样本匹配5.2、YOLOV4损失函数5.2.1、GIOU loss5.2.2、DIOU loss5.2.3、CIOU Loss 1、yolov4介绍改进点&…

阅读更多...

Edge如何获得纯净的启动界面

Edge如何获得纯净的启动界面

启动Edge会出现快速链接，推广链接，网站导航，显示小组件，显示信息提要，背景 ●复杂页面 ●精简页面点击页面设置按钮关闭快速链接关闭网站导航关闭小组件关闭信息提要关闭背景关闭天气提示精简页面看起来十分舒…

阅读更多...

埃斯顿机器人程序案例多个点位使用变量

埃斯顿机器人程序案例多个点位使用变量

多个点位使用变量取放

阅读更多...

目标检测文献阅读-YOLO：统一的实时目标检测(12.23-12.29)

目标检测文献阅读-YOLO：统一的实时目标检测(12.23-12.29)

目录摘要 Abstract 1 引言 2 统一的检测 3 网络设计 4 训练 5 YOLOv5训练猫狗识别模型 5.1 项目代码整体结构介绍 5.2 数据集和预训练权重的准备 5.3 训练猫狗识别模型 5.3.1 修改数据配置文件 5.3.2 修改模型配置文件 5.3.3 训练模型 5.3.4 启用tensorbord查看…

阅读更多...

要查询 `user` 表中 `we_chat_subscribe` 和 `we_chat_union_id` 列不为空的用户数量

要查询 `user` 表中 `we_chat_subscribe` 和 `we_chat_union_id` 列不为空的用户数量

文章目录 1、we_chat_subscribe2、we_chat_union_id 1、we_chat_subscribe 要查询 user 表中 we_chat_subscribe 列不为空的用户数量，你可以使用以下 SQL 查询语句： SELECT COUNT(*) FROM user WHERE we_chat_subscribe IS NOT NULL;解释： …

阅读更多...

【模块系列】STM321.69TFT屏幕

【模块系列】STM321.69TFT屏幕

前言在翻翻自己的器件盒的时候，发现这块好久之前买的TFT屏了，想起还没有用STM32点亮过，手头上正好有立创的梁山派STM32F4，就试着按照网上的文章教程顺便移植个LVGL看看，然后就有了就本文。代码工程命名的是LvglDemo&…

阅读更多...

Unity中列表List使用出类似字典Dictionary的感觉

Unity中列表List使用出类似字典Dictionary的感觉

首先为什么会有这个标题？ 因为字典很好用，只需要键就能拿到值，这种感觉是真的爽，新手最喜欢用了，遇事不决就字典，但是也有不好的地方，字典的内存开销比列表List要大，遍历也是List占…

阅读更多...

Android中使用AIDL实现进程通信

Android中使用AIDL实现进程通信

前言关于使用AIDL实现两个APP（跨进程）通信，我们通常把两个APP分别叫做服务端和客户端。本文不讲原理，只给最简易的案例。一、服务端APP实现 1. 在src/main/aidl目录下新建一个.aidl文件，然后在.aidl文件中定义需要…

阅读更多...

Mac安装多个版本node、java、python 等开发软件环境,安装、卸载、升级多个数据库

Mac安装多个版本node、java、python 等开发软件环境,安装、卸载、升级多个数据库

安装多个版本node、java、python 等开发软件环境使用nvm（Node.js Version Manager）来管理多个Node.js版本。使用jenv来管理多个Java版本。使用pyenv来管理多个Python版本。以下是安装和使用这些版本管理器的基本步骤： 1. 安装多个版本…

阅读更多...

Ftrace: 深入探究Linux内核的追踪利器

Ftrace: 深入探究Linux内核的追踪利器

文章目录一、前言二、Ftrace介绍2.1 Ftrace框架2.2 Ftrace的使用场景三、Ftrace配置和控制接口四、Ftrace使用步骤1：配置内核2. 挂载debugfs3. 查看和配置Ftrace4. 开始追踪[可选]5. 查看追踪结果6. 保存追踪数据7. 清除追踪配置五、实战演示5.1 function跟踪器…

阅读更多...

人工智能基础软件-Jupyter Notebook

人工智能基础软件-Jupyter Notebook

简介： Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。 Jupyter Notebook是以网页的形式打开，可以在网页页面中直接编写代码和运行代码，代码的运行结果也会直…

阅读更多...

tesla openday数据驱动串讲

tesla openday数据驱动串讲

一、我写的目的 tesla的数据驱动全流程代表着现在（曾经）的sota，总结和沉淀他的方法总结后与自己现在的理念做一次对标，查漏补缺找到自己现在的主要问题，聚焦下一阶段的投入二、主要方法本文不讲解tesla的视觉技术…

阅读更多...

基于神经网络的车牌识别算法matlab仿真人工智能方法车牌识别

基于神经网络的车牌识别算法matlab仿真人工智能方法车牌识别

一设计方法设定matlab的车牌识别系统，用神经网络进行预测，将数据集划分为训练集和测试集，设计神经网络结构。根据输入特征的维度和输出标签的维度，确定网络层数和节点数。使用训练集对神经网络进行训练。通过迭代优化网络权重和…

阅读更多...

梳理你的思路(从OOP到架构设计)_介绍Android的Java层应用框架05

梳理你的思路(从OOP到架构设计)_介绍Android的Java层应用框架05

1、认识ContentProvider

阅读更多...

计算机体系结构期末复习4：多处理器缓存一致性（cache一致性）

计算机体系结构期末复习4：多处理器缓存一致性（cache一致性）

目录一、cache一致性问题 1.一致性定义 2.问题定义 3.解决问题的基本策略二、写返回(write-back)cache的一致性处理 1.MSI协议 2.MESI协议 3.MOESI协议三、补充知识点：提升cache性能的因素 1.cache miss的三种情况： 2.影响cache性能的因素…

阅读更多...

信息化时代的步伐

信息化时代的步伐

信息化时代的步伐下载压缩包的，解压压缩包得到这里给了一串数字我们不知道要用什么解码就用随波逐流解码一键解码得到说明这是用中文电报解码： flag{计算机要从娃娃抓起}

阅读更多...

最新文章

推荐文章