HIVE 数据仓库工具之第一部分(讲解部署)

HIVE 数据仓库工具

  • 一、Hive 概述
    • 1.1 Hive 是什么
    • 1.2 Hive 产生的背景
    • 1.3 Hive 优缺点
      • 1.3.1 Hive的优点
      • 1.3.2 Hive 的缺点
    • 1.4 Hive在Hadoop生态系统中的位置
    • 1.5 Hive 和 Hadoop的关心
  • 二、Hive 原理及架构
    • 2.1 Hive 的设计原理
    • 2.2 Hive 特点
    • 2.3 Hive的体现结构
    • 2.4 Hive的运行机制
    • 2.5 Hive 的转换过程
    • 2.6 Hive 的数据类型
      • 2.6.1 Hive 的基本数据类型
      • 2.6.2 Hive 的复杂数据类型
    • 2.7 Hive 的数据存储
  • 三、Hive 安装部署
    • 3.1 安装 MySQL
    • 3.2 安装 Hive
      • 3.2.1 下载解压
      • 3.2.2 修改 Hive 配置文件
      • 3.2.3 配置 Hive 环境变量
      • 3.2.4 添加 MySQL 驱动
      • 3.2.5 修改 Hive 相关数据目录
      • 3.2.6 启动 Hive 服务

一、Hive 概述

1.1 Hive 是什么

  • Hive是由faceBook开源,最初用于解决海量结构化的日志数据统计问题,它可以作为ETL
    工具。
  • Hive最初是构建在Hadoop之上的数据仓库
    • 数据计算是MapReduce
    • 数据存储是HDFS
  • Hive 定义了一种类SQL的查询语言——HQL
  • Hive 适合离线数据处理
  • Hive 是将HQL转换为MR的语言翻译器

1.2 Hive 产生的背景

Hive 的诞生源于 Facebook 的日志分析需求,面对海量的结构化数据, Hive 能够以较低的成本完成以往需要大规模数据库才能完成的任务,并且学习门槛相对较低,应用开发灵活且高效。
后来Facebook将 Hive 开源给了 Apache,成为 Apache的一个顶级项目,至此Hive在大数据应用方面得到了快速的发展和普及。

1.3 Hive 优缺点

1.3.1 Hive的优点

  • Hive适合数据的批处理,解决了传统关系型数据库在海量数据处理上的瓶颈。
  • Hive构建在Hadoop之上,充分利用了集群的存储资源、计算资源。
  • Hive学习使用成本低,支持标准的SQL语法,这样就免去了编写MapReduce程序的过程减少了开发成本。
  • 具有良好的扩展性,且能够实现与其他组件的集成开发

1.3.2 Hive 的缺点

  • HQL的表达能力依然有限,不支持迭代计算,有些复杂的运算用 HQL不易表达,还需要单独编写MapReduce来实现。
  • Hive的运行效率低、延迟高,这是因为Hive底层计算引擎默认为MapReduce,而MapReduce是离线计算框架。
  • Hive的调优比较困难,由于HQL语句最终会转换为MapReduce任务,所以Hive的调优还需要考虑MapReduce层面的优化。

1.4 Hive在Hadoop生态系统中的位置

在这里插入图片描述

1.5 Hive 和 Hadoop的关心

Hive利用HDFS来存储数据,利用MapReduce来查询分析数据,那么Hive与Hadoop之间的关系总结如下。

  • Hive需要构建在Hadoop集群之上。
  • Hive中的所有数据都存储在Hadoop分布式文件系统中。
  • 对HQL查询语句的解释、优化、生成查询计划等过程均是由 Hive 完成的,而查询计划被转化为 MapReduce 任务之后需要运行在 Hadoop 集群之上。

二、Hive 原理及架构

2.1 Hive 的设计原理

Hive 是一种构建在Hadoop之上的数据仓库工具,可以使用HQL 语句对数据进行分析和查询而Hive的底层数据都存储在HDFS中。Hive在加载数据过程中不会对数据进行任何的修改,只是将数据移动到指定的HDFS目录下,因此,Hive不支持对数据的修改。

2.2 Hive 特点

  • 支持索引,加快数据查询。
  • 不同的存储类型,例如,纯文本文件、HBase 中的文件。
  • 将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。
  • 可以直接使用存储在Hadoop 文件系统中的数据。
  • 内置大量用户自定义函数(user define function,简称UDF)来对时间、字符串进行操作,支持用户扩展UDF 函数来完成内置函数无法实现的操作。
  • HQL语句最终会被转换为MapReduce任务运行在Hadoop集群之上。

2.3 Hive的体现结构

在这里插入图片描述

2.4 Hive的运行机制

在这里插入图片描述

2.5 Hive 的转换过程

在这里插入图片描述

2.6 Hive 的数据类型

2.6.1 Hive 的基本数据类型

在这里插入图片描述

2.6.2 Hive 的复杂数据类型

在这里插入图片描述

2.7 Hive 的数据存储

  • 表(table)
    Hive的表在逻辑上由存储的数据和描述表中数据形式的相关元数据组成。数据一般存放在HDFS中,但它也可以放在其他任何Hadoop文件系统中,包括本地文件系统或S3。Hive把元数据存放在关系型数据库中,而不是放在HDFS中。在Hive中创建表时,默认情况下Hive负责管理数据。这意味着Hive把数据移入它的“仓库目录”另外一种选择是创建一个外部表(external table),这会让Hive到仓库目录以外的位置访问数据。

  • 分区(Partition)
    Hive把表组织成分区。这是一种根据分区列(如日期)的值对表进行粗略划分的机制。使用分区可以加快数据分片的查询速度。以分区的常用情况为例,如日志文件的每条记录包含一个时间戳。如果我们根据日期来对它进行分区,那么同一天的记录就会被存放在同一个分区中。这样做的优点是对于限制到某个或者某些特定日期的查询,它们的处理可以变得非常高效。因为它们只需要扫描查询范围内分区中的文件。注意,使用分区并不会影响大范围查询的执行,我们仍然可以查询跨多个分区的整个数据集。

  • 桶(Bucket)
    表或者分区可以进一步分为桶。它会为数据提供额外的结构以获得更高效的查询处理。例如,通过用户ID来划分桶,我们可以在所有用户集合的随机样本上快速计算基于用户的查询

三、Hive 安装部署

3.1 安装 MySQL

  • 在线安装 MySQL
[root@hadoop1 ~]# yum install mysql-server

如果安装提示:no package mysql-server available,可以先下载mysql的repo源,再安装repo源,然后再执行上面的脚本

[root@hadoop1 ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm
[root@hadoop1 ~]# rpm -ivh mysql-community-release-el7-5.noarch.rpm
  • 启动 MySQL 服务,查看状态
[root@hadoop1 ~]# service mysqld start
[root@hadoop1 ~]# service mysqld status

在这里插入图片描述

  • 设置用户密码
    • 登录 MySQL (无密码,直接按回车)
    [root@hadoop1 ~]# mysql -uroot -p
    
    • 设置 root 用户密码
    mysql> set password for root@localhost=password('root');	
    
    • 登录 MySQL (需要输入秘密)
    [root@hadoop1 ~]# mysql -uroot -p
  • 创建 Hive 账号
    • 创建 hive 账号
    mysql> create user 'hive' identified by 'hive';
    
    • 给 hive 用户授权
    mysql> grant all on *.* to 'hive'@'hadoop1' identified by 'hive';
    
    • 使授权生效
    mysql> flush privileges;
    
    • Hive 用户登录 MySQL
    [root@hadoop1 ~]# mysql -h hadoop1 -u hive -p
    

3.2 安装 Hive

3.2.1 下载解压

下载地址:https://archive.apache.org/dist/hive/hive-2.3.9/
在这里插入图片描述
下载 Hive 安装包apache-hive-2.3.9-bin.tar.gz,然后上传至hadoop1节点的/usr/local/目录下。

然后开始解压并创建软连接,命令如下:

[root@hadoop1 local]# tar -zxvf apache-hive-2.3.9-bin.tar.gz 
[root@hadoop1 local]# ln -s apache-hive-2.3.9-bin hive

在这里插入图片描述

3.2.2 修改 Hive 配置文件

进入hive的conf目录下发现hive-site.xml文件不存在,需要从默认配置文件复制一份,具体操作如下所示。

[root@hadoop1 hive]# cp /usr/local/hive/conf/hive-default.xml.template /usr/local/hive/conf/hive-site.xml

然后在hive-site.xml配置文件中,修改元数据库相关配置,修改内容如下所示。

[root@hadoop1 hive]# vim /usr/local/hive/conf/hive-site.xml

配置文件对应位置修改如下(此处本人使用mysql数据库,默认是derby数据库):

<property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property>
#修改连接MySQL的URL
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hadoop1:3306/hive?creatDatabaseIfNotExist=true</value></property>
#修改连接数据库的用户名和密码
<property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property>
<property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value></property>

3.2.3 配置 Hive 环境变量

打开 /etc/profile 文件,配置Hive环境变量,具体操作如下所示。

[root@hadoop1 hive]# vim /etc/profile

添加如下内容

# 添加 Hive 环境变量
HIVE_HOME=/usr/local/hive
PATH=$HIVE_HOME/bin:$PATH
export HIVE_HOME PATH

在这里插入图片描述
保存并退出,并用命令source /etc/profile 使配置文件生效。

3.2.4 添加 MySQL 驱动

下载 MySQL 驱动地址:https://dev.mysql.com/downloads/
在这里插入图片描述
然后上传至Hive的lib目录下即可。
在这里插入图片描述

3.2.5 修改 Hive 相关数据目录

修改hive-site.xml配置文件,更改相关数据目录,具体配置如下所示。

[root@hadoop1 hive]# vim /usr/local/hive/conf/hive-site.xml

配置文件对应位置修改如下:

<property><name>hive.querylog.location</name><value>/usr/local/hive/iotmp</value>
</property>
<property><name>hive.exec.local.scratchdir</name><value>/usr/local/hive/iotmp</value>
</property>
<property><name>hive.downloaded.resources.dir</name><value>/usr/local/hive/iotmp</value>
</property>

3.2.6 启动 Hive 服务

第一次启动Hive服务需要先进行初始化,具体操作如下所示。(初始化之前需要启动 Hadoop 集群)

[root@hadoop1 hive]# /usr/local/hive/bin/schematool -dbType mysql -initSchma

在这里插入图片描述
启动 hive
在这里插入图片描述

备注:第二部分进行 Hive 的使用进行详细说明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/410613.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 配置wireshark 分析thread 使用nRF-Sniffer dongle

Linux 配置wireshark nRF-Sniffer-for-802.15.4 1.下载固件和配置文件 https://github.com/NordicSemiconductor/nRF-Sniffer-for-802.15.4 2.烧写固件 使用nRF Connect for Desktop 中的 programmer 4.3烧写 https://www.nordicsemi.com/Products/Development-tools/nrf-conne…

【layUI】点击导出按钮,导出excel文件

要实现的功能如下&#xff1a;根据执行状态判断是否可以导出。如果可以导出&#xff0c;点击导出&#xff0c;在浏览器里下载对应的文件。 代码实现 html里&#xff1a; <table class"layui-hide" id"studentTable" lay-filter"studentTable&…

Dubbo3框架概述

1 什么是分布式系统? 《分布式系统原理与范型》定义: “分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统” 分布式系统(distributed system)是建立在网络之上的软件系统。 简单来说:多个(不同职责)人共同来完成一件事! 任何一台服务器都无法…

open62541 使用账号密码认证示例

一、官方源码示例 源码参考 服务端官方示例&#xff1a; /* This work is licensed under a Creative Commons CCZero 1.0 Universal License.* See http://creativecommons.org/publicdomain/zero/1.0/ for more information. */#include <open62541/plugin/accesscont…

QtWebEngineView加载本地网页

直接加载放在exe同级目录下的资源是不行的&#xff0c;需要把资源通过qrc放到exe里面&#xff0c;然后通过类似qrc:/robotHtml/index.html这样的路径加载才行。 mWebView new QWebEngineView(parent);// mWebView->load(QUrl::fromLocalFile("./robotHtml/index.html&…

【网络安全】XML-RPC PHP WordPress漏洞

未经许可,不得转载。 文章目录 前言WordPressWordPress中的Xmlrpc.php利用前提:Xmlrpc可访问深度利用1、用户名枚举2、跨站点端口攻击(XSPA)或端口扫描3、使用xmlrpc.php进行暴力攻击前言 本文将解释xmlrpc.php WordPress 漏洞及利用方式,并以三种攻击方法进行阐发: 1、…

代码随想录算法训练营第四十一天 | 121. 买卖股票的最佳时机 , 122.买卖股票的最佳时机II , 123.买卖股票的最佳时机III

目录 121. 买卖股票的最佳时机 思路 暴力 贪心 动态规划 1.确定dp数组&#xff08;dp table&#xff09;以及下标的含义 2.确定递推公式 3.dp数组如何初始化 4.确定遍历顺序 5.举例推导dp数组 方法一&#xff1a; 贪心 方法二&#xff1a;动态规划1 方法三&#xf…

国内外大模型汇总:Open AI大模型、Google大模型、Microsoft大模型、文心一言大模型、通义千问大模型、字节豆包大模型、智普清言大模型

Open AI大模型 特点&#xff1a; 多模态能力&#xff1a;如GPT-4o&#xff0c;能接受文本、音频、图像作为组合输入&#xff0c;并生成任意形式的输出。 情感识别与回应&#xff1a;具备情感识别能力&#xff0c;能根据对话者的情绪做出有感情的回应。 几乎无延迟&#xff…

XSS LABS - Level 14 过关思路

关注这个靶场的其他相关笔记&#xff1a;XSS - LABS —— 靶场笔记合集-CSDN博客 0x01&#xff1a;关卡配置 这一关有些特殊&#xff0c;需要链接到外部站点&#xff0c;但是这个站点已经挂了&#xff0c;无法访问&#xff1a; 所以笔者就根据网上的资料&#xff0c;对这一关进…

k8s的安装

概念 全写&#xff1a;Kubernets k8s作用&#xff1a;用于自动部署、拓展、管理容器化部署的应用程序。它是半开源的&#xff0c;核心是在谷歌里面&#xff0c;它的底层是由go语言开发的。可以理解成负责自动化运维管理多个容器化的应用的集群。也可以理解为容器编排框架的工…

2k1000LA 调试4G

问题&#xff1a; 其实算不上 调试&#xff0c; 之前本来4G是好的&#xff0c;但是 我调试了触摸之后&#xff0c;发现4G用不了了。 其实主要是 pppd 这个命令找不到。 首先来看 为什么 找不到 pppd 这个命令。 再跟目录使用 find 命令&#xff0c;能够找到这个命令&#…

PyCharm中python语法要求——消去提示波浪线

PyCharm中python语法要求——消去提示波浪线 关闭代码规范检查 在Setting里边搜索pep&#xff0c;取消勾选pep8 coding style violation 问题产生 解决问题 按照下图操作&#xff0c;也可直接CtrlAlts弹出设置页面 在 Settings 中 &#xff1a; Editor > Color Sheame >…

百度搜索的RLHF性能优化实践

作者 | 搜索架构部 导读 本文大语言模型在未经标注的大量文本上进行预训练后&#xff0c;可能产生包含偏见、泄露隐私甚至对人类构成威胁的内容。OpenAI 最先提出了基于人类反馈的强化学习算法(Reinforcement Learning fromHuman Feedback, RLHF)&#xff0c;将人类偏好引入到…

关于ssrf的实现

目录 ssrf漏洞形成 ssrf实现 ssrf(curl) ssrf漏洞形成 SSRF(Server-Side Request Forgery:服务器端请求伪造)漏洞形成的原因主要是服务器端所提供的接口中包含了所要请求的内容的URL参数&#xff0c;并且未对客户端所传输过来的URL参数进行过滤 ssrf实现 本次ssrf于Pikac…

golang gin template模板渲染

1、根据值控制html元素显示隐藏 main.go package main import ("html/template""net/http""github.com/gin-gonic/gin" ) func main() {r : gin.Default()r.SetFuncMap(template.FuncMap{"greaterThan": func(a, b int) bool {retur…

使用RMBG-1.4进行抠图(背景移除)

使用RMBG-1.4进行抠图&#xff08;背景移除&#xff09; 说明&#xff1a; 首次发表日期&#xff1a;2024-08-28RMBG-1.4 Hugging Face 地址&#xff1a; https://huggingface.co/briaai/RMBG-1.4 准备工作 创建环境并安装依赖&#xff1a;&#xff1a; # 如果~/.local/li…

云计算实训37——Dockerfile的应用+私有仓库的创建与管理

一、文件联合系统 文件联合系统&#xff08;Overlay Filesystem&#xff09;&#xff1a; 是一种允许多个文件系统层叠在一起的文件系统。它通常用于将只读文件系统&#xff08;如基础镜像&#xff09;与可写文件系统&#xff08;如用户的修改&#xff09;结合&#xff0c;形…

IBM退出中国,LabVIEW未来走向何方?

IBM作为全球科技行业的领军企业之一&#xff0c;近日宣布退出中国市场的决定引起了广泛关注。IBM的退出不仅仅是企业战略的调整&#xff0c;还反映了全球经济和政治环境的变化。深入分析IBM退出中国的原因&#xff0c;并预测NI&#xff08;National Instruments&#xff09;未来…

Linux开发环境搭建,虚拟机安装

开发环境搭建 一、VMware Workstation Pro软件简介 VMware Workstation Pro 是 VMware &#xff08;威睿公司&#xff09;发布的一代虚拟机软件&#xff0c;中文名称一般称 为 "VMware 工作站 ". 它的主要功能是可以给用户在单一的桌面上同时运行不同的操作系统…

软件设计师全套备考系列文章15 -- 数据库:规范化、控制功能、大数据

软考-- 软件设计师&#xff08;15&#xff09;-- 数据库&#xff1a;规范化、控制功能、大数据 文章目录 软考-- 软件设计师&#xff08;15&#xff09;-- 数据库&#xff1a;规范化、控制功能、大数据前言一、章节考点二、规范化三、数据库的控制功能四、大数据、数据仓库 前言…