Apache Hive是一个基于Hadoop分布式文件系统、使用MapReduce算法执行大规模离线数据分析的数据仓库,本文主要描述Hive的安装部署。
如上所示,Hive总体应用架构图,其中,Hive基于HBase或者使用Hadoop分布式文件系统执行MapReduce的分布式计算
如上所示,Hive执行离线数据分析的总体流程图,其中,主要流程包括Hive解析SQL、Hive生成SQL的执行计划、Hadoop生成执行任务、Hadoop使用MapReduce分布式计算执行数据分析任务、Hive数据仓库的元数据信息存储在METASTORE中
MySQL Server Master | 192.168.0.130 |
MySQL Server Slave | 192.168.0.131 |
MySQL Server Slave | 192.168.0.132 |
NameNode1 Master ZooKeeper1 HBase Master | 192.168.0.136 |
DataNode1 NameNode2 Slave ZooKeeper2 HBase Master Backup RegionServer1 | 192.168.0.137 |
DataNode2 ZooKeeper3 ReginServer2 | 192.168.0.138 |
DataNode3 RegionServer3 | 192.168.0.139 |
如上所示,Hive应用架构涉及到服务器节点信息,其中,MySQL Server存储Hive数据仓库的元数据信息,HBase是NoSQL数据库,Hadoop分布式文件系统用于分布式存储以及分布式计算
如上所示,在Hadoop分布式文件系统的主索引节点中,设置Hive运行时环境变量
如上所示,在Hadoop分布式文件系统的主索引节点中,设置命名空间的主机映射信息
如上所示,在Hadoop分布式文件系统的主索引节点中,创建Hive数据仓库文件目录
如上所示,在Hadoop分布式文件系统的主索引节点中,使用Hive客户端命令行工具
如上所示,在Hadoop分布式文件系统的主索引节点中,设置Hive数据仓库的元数据存储数据库信息
如上所示,在Hadoop分布式文件系统的主索引节点中,从MySQL官方下载数据库连接驱动文件到Hive
如上所示,在Hadoop分布式文件系统的主索引节点中,初始化Hive数据仓库的元数据存储数据库完成