大数据基础设施搭建

大数据基础设施搭建 - Spark

文章目录

一、解压压缩包
二、修改配置文件conf/spark-env.sh
三、测试提交Spark任务
四、Spark on Hive配置
- 4.1 创建hive-site.xml（spark/conf目录）
- 4.2 查看hive的hive-site.xml配置与3.1配置的是否一致
- 4.3 测试SparkSQL
- - 4.3.1 启动SparkSQL客户端（Yarn方式）
  - 4.3.2 启动Hive客户端
五、通过Spark Web-UI分析SQL执行过程（TODO）
六、集群化（TODO）

一、解压压缩包

[hadoop@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

二、修改配置文件conf/spark-env.sh

cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf
[hadoop@hadoop102 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop102 conf]$ vim spark-env.sh

内容：

export JAVA_HOME=/opt/module/jdk1.8.0_291
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

三、测试提交Spark任务

[hadoop@hadoop102 ~]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/
[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.0.0.jar \
> 10

到YARN WEB页面查看任务提交情况

四、Spark on Hive配置

4.1 创建hive-site.xml（spark/conf目录）

[hadoop@hadoop102 conf]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf/
[hadoop@hadoop102 conf]$ vim hive-site.xml

内容：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><!--告知Spark创建表存到哪里--><property><name>hive.metastore.warehouse.dir</name><value>/warehouse</value></property><!-- 不使用spark内置hive存储元数据 --><property><name>hive.metastore.local</name><value>false</value></property><!--告知Spark Hive的MetaStore在哪--><property><name>hive.metastore.uris</name><value>thrift://hadoop102:9083</value></property></configuration>

4.2 查看hive的hive-site.xml配置与3.1配置的是否一致

cd /opt/module/apache-hive-3.1.2-bin/conf
vim hive-site.xml

4.3 测试SparkSQL

4.3.1 启动SparkSQL客户端（Yarn方式）

[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-sql --master yarn

spark-sql> show databases;
spark-sql> select count(1)> from dw_ods.ods_activity_info_full > where dt='2023-12-07';

4.3.2 启动Hive客户端

[hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive

hive> show databases;
hive> select count(1)> from dw_ods.ods_activity_info_full > where dt='2023-12-07';

五、通过Spark Web-UI分析SQL执行过程（TODO）

在这里插入图片描述

六、集群化（TODO）

优势在哪里？？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/298334.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

大数据基础设施搭建 - Spark

文章目录

一、解压压缩包

二、修改配置文件conf/spark-env.sh

三、测试提交Spark任务

四、Spark on Hive配置

4.1 创建hive-site.xml（spark/conf目录）

4.2 查看hive的hive-site.xml配置与3.1配置的是否一致

4.3 测试SparkSQL

4.3.1 启动SparkSQL客户端（Yarn方式）

4.3.2 启动Hive客户端

五、通过Spark Web-UI分析SQL执行过程（TODO）

六、集群化（TODO）

相关文章

android APP monkey 测试

MATLAB绘制堆叠填充图--巧用句柄

Mac反编译APK

Phpstorm配置Xdebug

微软detours代码借鉴点备注

【吊打面试官系列】Redis篇 - 使用过 Redis 分布式锁么，它是什么回事？

物联网实战--入门篇之(八)嵌入式-空气净化器

【软件测试】测试常见知识点汇总

SWM341系列应用（上位机应用）

ids工业相机与电控位移台同步控制及数据采集

Collection与数据结构链表与LinkedList(三):链表精选OJ例题(下)

计算机网络-HTTP相关知识-RSA和ECDHE及优化

Python可视化之Matplotlib

探索设计模式的魅力：简单工厂模式

Prometheus+grafana环境搭建MongoDB(docker+二进制两种方式安装)(五)

Redis面试题28道

软考--软件设计师（软件工程总结2）

GraphSage

Hyper-v平台搭建pve系统之网络配置（双网卡、内外网分离）

用html写一个爱心