数据仓库Hive(林子雨课程慕课)

文章目录

      • 9.数据仓库Hive
        • 9.1 数据仓库的概念
        • 9.2 Hive简介
        • 9.3 SQL语句转换为MapReduce作业的基本原理
        • 9.4 Impla
          • 9.4.1 Impala简介
          • 9.4.2 Impala系统架构
          • 9.4.3 Impala查询执行过程
          • 9.4.4 Impala与Hive的比较
        • 9.5 Hive的安装和基本操作
          • 9.5.1 Hive安装
          • 9.5.2 Hive基本操作

9.数据仓库Hive

9.1 数据仓库的概念
  • 数据仓库的概念

    • 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用户支持管理决策
  • 根本目的:基于数据仓库的分析结果->以支持企业内部的商业分析和决策->作出相关的经营决策

  • 数据仓库的体系结构:

    image-20231010211025379

  • 数据仓库和传统数据库区别

    • 仓库中的数据是相对稳定的,不会频繁发生变化,存储大量的历史数据

    • 数据仓库基本上保留了历史上所有数据,保留历史而传统观数据库只能保留某一时刻状态的信息

      image-20231010211239917

  • 传统数据仓库(基于关系型数据库)面临挑战

    • 无法满足快速增长的海量数据存储需求
    • 无法有效处理不同类型的数据:基于结构化存储,无法存储非结构化的数据
    • 计算和处理能力不足:纵向扩展能力有限,水平扩展能力不足
9.2 Hive简介
  • Hive特点

    • 传统的数据仓库既是数据存储产品也是数据分析产品
    • 传统的数据仓库能同时支持数据的存储和处理分析
    • Hive本身并不支持数据存储和处理
    • 其实只是提供了一种编程语言
  • 其架构于Hadoop之上,Hadoop有支持大规模数据存储的组件HDFS,以及支持大规模数据处理的组件MapReduce

    Hive借助于这两个组件,完成数据的存储和处理

    • 其依赖分布式文件系统HDFS存储睡
    • 依赖分布式并行计算系统MapReduce处理数据
    • 借鉴SQL语言设计了新的查询语言HiveQL
  • Hive总结

    • 它定义了简单的类似SQL的查询语言HiveQL
    • 并提供了HiveQL这种语句,来运行具体的MapReduce任务
    • 支持了类似SQL的接口,很容易进行移植
    • Hive是一个可以提供有效合理直观组织和使用数据的分析工具
  • Hive两个方面的特性

    • 采用批处理的方式处理海量数据

      image-20231011143923125

    • Hive提供了一系列对数据仓库进行提取、转换、加载(ETL)的工具

      image-20231011144027990

  • Hive与Hadoop生态的其他组件的关系

    image-20231011144116568

  • Pig和Hive的区别

    • Pig更适合做数据的实时分析,而不是海量数据的批处理,主要是做数据的抽取、转换、加载环节

      image-20231011144315446

  • Hive和传统数据库的区别

    • 其在很多方面与传统关系型数据库类似,但是其底层以来的是HDFS和MapReduce,所以在很多方面又有别于传统数据库

      image-20231011144603034

  • Hive在企业大数据分析平台中的应用

    • Mahout:Hadoop平台上的开源组件,很多机器学习的算法,在Mahout上都已经实现了

      image-20231011145023668

  • Hive在Fackbook公司的应用

    • Fackbook是Hive数据仓库的开发者

      image-20231011145218597

    • FaceBook部署了大量的Web服务器

      • Web服务器日志流通过订阅服务器(Scribe Servers)将日志流收集整理,存入Filers(网络日志服务器)

      • Filers将其保存在分布式文件系统之上

        image-20231011145443385

  • Hive系统架构

    image-20231011145534611

    • Hive对外访问接口

      image-20231011145641094

    • 驱动模块(Driver)

      image-20231011145714233

    • 元数据存储模块(Metastore)

      image-20231011145807251

    • Qubbole、Karmasphere、Hue也可以直接访问Hive

      image-20231011145849230

  • Hive HA(High Availability)基本原理

    • Hive很多时候会表现出不稳定

    • Hive HA:在集群中设置多个Hive实例,并统一放入资源池,外部所有访问通过HAProxy进行访问

      • 首先用户访问HA Proxy

      • 然后对Hive实例进行逻辑可用性测试,若不可用,则将其加入黑名单,继续测试下一个Hive实例是否可用

      • 每隔一定的周期,HA Proxy会重新对列入黑名单的实例进行统一处理

        image-20231011150426604

9.3 SQL语句转换为MapReduce作业的基本原理
  • SQL中的连接操作转换为MapReduce作业

    • Join的实现原理

      image-20231011150646054

    • 连接操作

      • 编写一个Map处理逻辑

      • Map处理逻辑输入关系数据库的表

      • 通过Map对它进行转换,生成一系列键值对

        image-20231011151031828

    • group by的实现原理

      image-20231011151258887

  • Hive如何将SQL语句转为MapReduce操作:当用户向Hive输入一段命令或者查询时,Hive需要和Hadoop交互工作来完成该操作

    • 驱动模块接受该命令或者查询编译器

    • 对该命令或查询进行解析编译

    • 由优化器对该命令或查询进行优化计算

    • 该命令或查询通过执行器进行执行

  • 具体分为七步骤

    • 由Hive驱动模块中的编译器对用户输入的SQL语句进行语法和词法解析,将SQL语句转化为抽象语法数的形式
    • 抽象语法数的结构仍很复杂,不方便直接翻译为MapReduce算法程序,因此,需要把抽象语法数转为查询块
    • 将查询块转化为逻辑查询计划,里面包含了许多逻辑操作符
    • 重写逻辑查询计划,进行优化合并多余操作,减少MapReduce任务数量
    • 将逻辑操作符转换成需要执行的具体MapReduce任务
    • 对生成的MapReduce任务进行优化生成最终的MapReduce任务执行计划(物理计划)
    • 由Hive驱动模块中的执行器对最终的MapReduce任务进行执行输出

    image-20231011152300285

    • 简单说明

      image-20231011152932323

9.4 Impla
9.4.1 Impala简介
  • Hive是建立在Hadoop平台之上,且其依赖底层的MapReduce和HDFS,所以它的延迟比较高

    image-20231011153813444

  • Impala底层也是构建在HDFS和HBase之上

    image-20231011153741875

9.4.2 Impala系统架构
  • Impala系统架构

    • Impala和Hive、HDFS、HBase都是统一部署在一个Hadoop平台上面

    image-20231011153933608

  • Impala的典型组件

    • Impalad:负责具体相关的查询任务

      其包含三个模块:

      image-20231011154424084

      • Impalad作用

        image-20231011154619457

    • State Store:负责元数据数据管理和状态管理

      • 每个查询提交,系统会为其创建一个StateStored进程

      • 作用

        image-20231011154832510

    • CLI:用户访问接口

      • 作用

        image-20231011154902725

      • Impala的元数据是直接存储在Hive中的,它是借助Hive来存储Impala的元数据
      • mpala采用与Hive相同的元数据、相同的SQL语法、相同的ODBC驱动程序和用户接口
      • 在—个Hadoop平台上可以统一部署Hive和Impala等分析工 实现在一个平台上面可以同时满足批处理和实时查询
9.4.3 Impala查询执行过程
  • 查询执行过程框图

    image-20231011155150238

    • 0.注册和订阅

      image-20231011155320940

    • 1.提交查询

      image-20231011155349613

    • 2.获取元数据和数据地址

      image-20231011155449416

    • 3.分发查询任务

      image-20231011155519229

    • 汇聚结果

      image-20231011155542533

    • 返回结果

      image-20231011155638255

9.4.4 Impala与Hive的比较
  • Hive和Impala的不同点

    image-20231011155750184

    • Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

    • Hive依赖于MapReduce计算框架,Impala把执行计划表现为一棵完整的执行计划树,直接分发执行计划到各个Impalad执行查询

    • Hive在执行过程中,如果内存放不下所有数据则会使用外存,以保证查询能顺序执行完成;
      Impala在遇到内存放不下数据时,不会利用外存所以Impala目前处理查询时会受到一定的限制

  • Hive和Impala的相同点

    • Hive和Impala使用相同的存储数据池,都支持把数据存储于HDFS和HBase中
    • Hive与Impala使用相同的元数据
    • Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
  • 总结

    • Impala的目的不在于替换现有的MapReduce工具
    • 把Hive与Impala配合使用效果最佳
    • 可以先使用Hive进行数据转换处理,之后再使用Impala在Hive处理后的结果数据集上进行快速的数据分析
9.5 Hive的安装和基本操作
9.5.1 Hive安装
  • Hive安装

    见:Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn)

9.5.2 Hive基本操作
  • Hive数据类型

    image-20231011162806188

    • Hive还提供了一些集合数据类型,包括Array、map、struct等
  • Create:创建数据库、表、视图

    • 创建数据库

      image-20231011162946275

    • 创建表

      image-20231011163046763

    • 创建视图

      image-20231011163117197

  • 查看数据库

    image-20231011163146748

  • 查看表和视图

    image-20231011163224853

  • load:向表中装载数据

    image-20231011163307456

    image-20231011163337546

  • Insert:向表中插入数据或从表中导出数据

    image-20231011163445685

  • WordCount算法在MapReduce中的编程实现和在Hive中编程实现的主要不同点

    image-20231011164107767

    image-20231011164125112

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/157399.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

黑马点评-05缓存穿透问题及其解决方案,缓存空字符串或使用布隆过滤器

缓存穿透问题(缓存空) 缓存穿透的解决方案 缓存穿透(数据穿透缓存直击数据库): 缓存穿透是指客户端请求访问缓存中和数据库中都不存在的数据,此时缓存永远不会生效并且用户的请求都会打到数据库 数据库能够承载的并发不如Redis这么高,如果大量的请求同时访问这种…

十大排序算法Java实现及时间复杂度

文章目录 十大排序算法选择排序冒泡排序插入排序希尔排序快速排序归并排序堆排序计数排序基数排序桶排序时间复杂度 参考资料 十大排序算法 选择排序 原理 从待排序的数据元素中找出最小或最大的一个元素,存放在序列的起始位置, 然后再从剩余的未排序元…

C++类和对象(下)

目录 一、初始化列表 二、单参构造参数和explicit关键字 三、匿名对象 四、static成员 五、友元 六、内部类 一、初始化列表 之前我们在构造函数中写得还不错,也没发现什么问题,为什么C还有搞一个初始化列表呢? 如下这段代码&#x…

mars3d的api文档关于addDynamicPosition查找使用说明

示例链接:功能示例(Vue版) | Mars3D三维可视化平台 | 火星科技 api地址:Mars3D三维可视化平台 | 火星科技 说明: 1.用户反馈不知道如何搜索这个属性的用法 说明: 1. 示例代码中的graphic.addDynamicPosition()说明这个addDynam…

基本微信小程序的二手车交易平台

项目介绍 首先,论文一开始便是清楚的论述了小程序的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了小程序的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数…

@MultipartConfig注解

前言: 在学习Javaweb的Servlet文件上传和下载的过程中,我们会遇到一个特殊的注解---MultipartConfig。 MultipartConfig的适用情况: 1.文件上传: 当您的应用程序需要接收用户上传的文件时,可以在相应的 Servlet 上使用 Multipart…

Jmeter连接mysql数据库详细步骤

一、一般平常工作中使用jmeter 连接数据库的作用 主要包括: 1、本身对数据库进行测试(功能、性能测试)时会需要使用jmeter连接数据库 2、功能测试时,测试出来的结果需要和数据库中的数据进行对比是否正确一致。这时候可以通过j…

C++ 位图与布隆过滤器

目录 前言位图场景演示应用场景模拟实现问题例题 布隆过滤器例子理解应用 例题 前言 位图与布隆过滤器是用来在海量数据中判断一个数据在不在的问题的数据结构,这种数据结构在存储空间上大大的优于红黑树、哈希等数据结构 位图 我们为了处理一个数据在海量数据中…

SQL开发笔记之专栏介绍

Sql是用于访问和处理数据库的标准计算机语言,使用SQL访问和处理数据系统中的数据,这类数据库包括:Mysql、PostgresSql、Oracle、Sybase、DB2等等,数据库无非围绕着“增删改查”的核心业务进行开发。并且目前绝大多数的后端程序开发…

很烦的Node报错积累

目录 1. 卡在sill idealTree buildDeps2、Node Sass老是安装不上的问题3、unable to resolve dependency tree4、nvm相关命令5、设置淘宝镜像等基操5.1 镜像 5.2 npm清理缓存6、Browserslist: caniuse-lite is outdated loader 1. 卡在sill idealTree buildDeps 参考&#xf…

国际通用的Bug管理工具推荐:多款工具助力项目开发与管理

国际通用的bug管理工具有:1、Zoho Projects;2、Tracup;3、Bugtags;4、QC(QualityCenter);5、Bugzilla;6、EasyBUG;7、Mantis;8、WebIssues。Zoho Projects拥有专业的缺陷管理模块&am…

复数的三角形式与指数形式

See https://blog.csdn.net/u011089570/article/details/102685877

深入了解基数排序:原理、性能分析与 Java 实现

基数排序(Radix Sort)是一种非比较性排序算法,它根据元素的每个位上的值来进行排序。基数排序适用于整数或字符串等数据类型的排序。本文将详细介绍基数排序的原理、性能分析及java实现。 基数排序原理 基数排序的基本原理是按照低位先排序&…

android 固定进度环形刷新效果

android 固定进度无限旋转的环形效果 效果图 Activity 中使用 val rotation: ObjectAnimator ObjectAnimator.ofFloat(progressBar, "rotation", 0f, 360f) rotation.duration 000 // 旋转持续时间为2秒 rotation.repeatCount ObjectAnimator.INFINITE // 设置为…

保姆式教程:MAC安装Android studio(包括安装JDK,Android SDK),解决gradle下载慢的问题

文章目录 参考文章安装JDK并配置环境变量安装JDK配置JDK相关的环境变量 Android studio 安装下载Android studiogradle下载慢解决方法 安装Android SDK选择jdk版本安装SDK并配置环境变量 参考文章 原文链接 原文链接 安装JDK并配置环境变量 安装JDK 下载地址 下载后双击安装…

优化|优化处理可再生希尔伯特核空间的非参数回归中的协变量偏移

原文:Optimally tackling covariate shift in RKHS-based nonparametric regression. The Annals of Statistics, 51(2), pp.738-761, 2023.​ 原文作者:Cong Ma, Reese Pathak, Martin J. Wainwright​ 论文解读者:赵进 编者按: …

mac上安装mysql

下载地址:https://downloads.mysql.com/archives/community/ 可以选择dmg安装包,也可以选择tar包。 1、dmg安装包: 1.1)安装: 类似windows的exe,直接next即可。 注意:安装完成之后会弹出一个…

redis 哨兵 sentinel(一)配置

sentinel巡查监控后台master主机是否故障,如果故障根据投票数自动将某一个从库转换为新主库,继续对外服务 sentinel 哨兵的功能 监控 监控主从redis库运行是否正常消息通知 哨兵可以将故障转移的结果发送给客户端故障转移 如果master异常,则…

解锁远程联机模式:使用MCSM面板搭建我的世界服务器,并实现内网穿透公网访问

文章目录 前言1.Mcsmanager安装2.创建Minecraft服务器3.本地测试联机4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射内网端口 5.远程联机测试6. 配置固定远程联机端口地址6.1 保留一个固定TCP地址6.2 配置固定TCP地址 7. 使用固定公网地址远程联机 前言 MCSManager是一个…

Flask框架配置celery-[1]:flask工厂模式集成使用celery,可在异步任务中使用flask应用上下文,即拿即用,无需更多配置

一、概述 1、celery框架和flask框架在运行时,是在不同的进程中,资源是独占的。 2、celery异步任务如果想使用flask中的功能,如orm,是需要在flask应用上下文管理器中执行orm操作的 3、使用celery是需要使用到中间件的&#xff0…