Hive理论讲解

Hive理论讲解

news/2024/12/26 21:08:07/文章来源:https://blog.csdn.net/qq_73339471/article/details/140475018

Hive介绍

1、Hive本质

Hive本质是【数仓设计方案】，hive本身并不存储数据【数据包含：元数据 + (表)数据】。

2、hql和sql对比

sql = 结构化查询语言【structured query language】
hql = hive/hadoop类sql查询语言【hive/hadoop query language like sql】
说明：对于hql而言，表面是sql。实际上，数据存储于HDFS，执行引擎是Spark，MapReduce，Pig，Tez等。

3、数据存储

元数据存储于RDB[关系型数据库]中。其默认存储于DERBY中，但一般在生产环境下存储于mysql中。
(表)数据存储于HDFS中。

补充：元数据的讲解

元数据（Metadata）是指描述数据的数据，它提供关于数据集、资源、文件、系统或者业务流程的额外信息，其中就包含库名，表名，字段，数据类型等。
在Hive中，元数据则是由HiveMetaStore来统一管理，进行存储、管理、保护和查询等操作。

4、计算引擎

一：MapReduce

Map：清洗，列变形，列裁剪
Map+Reduce：聚合

二：Spark ✔

1、Job中间输出结果可以保存在内存，不再需要读写HDFS
2、速度快，比MapReduce平均快10倍以上

5、Hive层次结构【元数据映射】

逻辑结构	物理结构
库	文件夹(与库同名.db)
表	文件夹(与表同名)
分区	文件夹 (格式：分区字段名=分区字段值)
数据	文件
分桶	小文件（目的：抽样和数据修改）

6、Hive执行过程

1.UI客户端发出请求 executeQuery[执行查询语句]
2.Driver[驱动] 通过 Compiler 进行编译
3.Compiler 需要向 MetaStore 请求元数据。
编译过程：Compiler[驱动] 得到 元数据 后先 生成 逻辑执行计划 再 通过优化形成 物理执行计划
4.将 物理执行计划 通过 Driver[驱动] 交给 ExecutionEngine[执行引擎]
5.ExecutionEngine[执行引擎] 将 物理执行计划 交给 hadoop的MapReduce进行job任务。
6.最终结果落盘到datanode上。
7.UI客户端 向 Driver[驱动] 发起请求 fetchResults
8.Driver 通过 ExecutionEngine[执行引擎] 从 datanode 上将数据拉过来，交给 UI客户端。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/379930.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

零基础入门：创建一个简单的Python爬虫管理系统

零基础入门：创建一个简单的Python爬虫管理系统

摘要： 本文将手把手教你，从零开始构建一个简易的Python爬虫管理系统，无需编程基础，轻松掌握数据抓取技巧。通过实战演练，你将学会设置项目、编写基本爬虫代码、管理爬取任务与数据，为个人研究或企业需求奠…

阅读更多...

Langchain-Chatchat3.1版本docker部署流程——知识库问答

Langchain-Chatchat3.1版本docker部署流程——知识库问答

Langchain——chatchat3.1版本docker部署流程Langchain-Chatchat 1. 项目地址 #项目地址 https://github.com/chatchat-space/Langchain-Chatchat #dockerhub地址 https://hub.docker.com/r/chatimage/chatchat/tags2. docker部署参考官方文档 #官方文档 https://github.c…

阅读更多...

百日筑基第二十四天-23种设计模式-结构型总汇

百日筑基第二十四天-23种设计模式-结构型总汇

百日筑基第二十四天-23种设计模式-结构型总汇前言设计模式可以说是对于七大设计原则的实现。总体来说设计模式分为三大类： 创建型模式，共五种：单例模式、简单工厂模式、抽象工厂模式、建造者模式、原型模式。结构型模式，共…

阅读更多...

像 MvvmLight 一样使用 CommunityToolkit.Mvvm 工具包

像 MvvmLight 一样使用 CommunityToolkit.Mvvm 工具包

文章目录简介一、安装工具包二、实现步骤1.按照MvvmLight 的结构创建对应文件夹和文件2.编辑 ViewModelLocator3.引用全局资源二、使用详情1.属性2.命令3. 消息通知4. 完整程序代码展示运行结果简介 CommunityToolkit.Mvvm 包（又名 MVVM 工具包，以前称为 Microsoft.Toolkit…

阅读更多...

pycharm2024破解

pycharm2024破解

pycharm下载： Download PyCharm: The Python IDE for data science and web development by JetBrainshttps://www.jetbrains.com/pycharm/download/?sectionwindowspython3.12.4下载： https://www.python.org/ftp/python/3.12.4/python-3.12.4-amd64…

阅读更多...

AWS Certified Developer Associate备考笔记

AWS Certified Developer Associate备考笔记

AWS Certified Developer Associate备考笔记缓慢更新中，如果你也正在关注该考试，请点赞后评论感兴趣的章节，可加快我的更新速度 😃 文章目录 AWS Certified Developer Associate备考笔记一、IAM二、EC2三、EC2 Instance Storage…

阅读更多...

速看！德罐和国产罐一较高下！交响乐金罐、希喂、迈格仕全方位测评

速看！德罐和国产罐一较高下！交响乐金罐、希喂、迈格仕全方位测评

过去几年，德国进口罐头凭借其卓越的加工技术与严谨的品控标准，赢得了众多宠物主人的青睐与好评。然而，随着国内宠物食品行业的飞速发展，本土品牌深入研究本地化配方、不断提升产品质量，正逐步在国内市场占据一席之地&a…

阅读更多...

Docker：基础概念、架构与网络模式详解

Docker：基础概念、架构与网络模式详解

1.Docker的基本概念 1.1.什么是docker Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你…

阅读更多...

SAP BP 不存在内部标准分组

SAP BP 不存在内部标准分组

解决方案：不存在内部标准分组： - EasySAP SPRO-> IMG->跨应用程序组件-> SAP业务伙伴->业务伙伴->基本设置->数字范围和分组->定义分组并分配数字范围

阅读更多...

【深度学习驱动智能超材料设计与应用】

【深度学习驱动智能超材料设计与应用】

在深度学习与超材料融合的背景下，不仅提高了设计的效率和质量，还为实现定制化和精准化的治疗提供了可能，展现了在材料科学领域的巨大潜力。深度学习可以帮助实现超材料结构参数的优化、电磁响应的预测、拓扑结构的自动设计、相位的预测及结构…

阅读更多...

数据结构-java中链表的存储原理及使用方式

数据结构-java中链表的存储原理及使用方式

目录链表（线性表的链式存储） 代码实例：（链表构建，头插尾插） LinkedList LinkedList的使用： 1、构造方法 2、操作方法 LinkedList 和 ArrayList 的区别链表（线性表的链式存储…

阅读更多...

MFC程序创建word，创建表格，写入数据

MFC程序创建word，创建表格，写入数据

文章目录 1、MFC程序功能：2、MFC程序实现2.1 创建项目2.2 添加word操作类2.3 添加word资源2.4 编写代码，实现将数据写入到word2.5 运行程序、验证功能3、工程代码下载 1、MFC程序功能： 创建word文档；向文档中写入字符串&#xff…

阅读更多...

FastAPI 学习之路（五十二）WebSockets(八)接受/发送json格式消息

FastAPI 学习之路（五十二）WebSockets(八)接受/发送json格式消息

前面我们发送的大多数都是text类型的消息，对于text消息来说，后端处理出来要麻烦的多，那么我们可以不可以传递json格式的数据，对于前后端来说都比较友好，答案是肯定的，我们需要做下处理。首先，…

阅读更多...

1.8.Kaggle房价预测

1.8.Kaggle房价预测

House Prices - Advanced Regression Techniques | Kaggle 在这里下载数据，然后使用pandas读。课本：4.10. 实战Kaggle比赛：预测房价 — 动手学深度学习 2.0.0 documentation (d2l.ai) 一层线性层 def get_net():net nn.Sequential(nn.Li…

阅读更多...

DHCP中继实验

DHCP中继实验

一、什么是DHCP中继？ 1、使得一个DHCP服务器同时为多个网段服务称为DHCP中继技术。 2、配置DHCP中继的网络设备可以在不同网段上从DHCP总服务器获取IP地址分配给下面的各个主机。 3、路由器和交换机都可充当中继。DHCP中继在两个网段间代理客户端和服务器请求，中继服务器需要…

阅读更多...

实现异步天气数据获取与Spring缓存集成

实现异步天气数据获取与Spring缓存集成

你好呀，我是小邹。在Web应用中，实时天气数据的获取是一个常见的需求，特别是在需要频繁更新天气信息的场景下，如旅游网站、天气应用或任何需要展示地理位置相关天气的应用。然而，频繁的外部API调用不仅会增加服务器的…

阅读更多...

Go网络编程-RPC程序设计

Go网络编程-RPC程序设计

gRPC 通信 RPC 介绍 RPC, Remote Procedure Call，远程过程调用。与 HTTP 一致，也是应用层协议。该协议的目标是实现：调用远程过程（方法、函数）就如调用本地方法一致。如图所示： 说明： Servi…

阅读更多...

生活中生智慧

生活中生智慧

【圣人多过小人无过】觉得自己做得不够才能做得更好，互相成全；反求诸己是致良知的第一步；有苦难才能超越自己，开胸怀和智慧；不浪费任何一次困苦，危机中寻找智慧，成长自己。把困苦当作当下…

阅读更多...

WINUI或WPF灵活使用样式、控件模板、自定义控件、用户控件

WINUI或WPF灵活使用样式、控件模板、自定义控件、用户控件

在WINUI与WPF 中，控件模板（ControlTemplate）、样式（Style）、自定义控件（CustomControl）和用户控件（UserControl）都是构建复杂和灵活用户界面的重要工具，但它们…

阅读更多...

SpringCloudAlibaba-Seata2.0.0与Nacos2.2.1

SpringCloudAlibaba-Seata2.0.0与Nacos2.2.1

一、下载 ## 下载seata wget https://github.com/apache/incubator-seata/releases/download/v2.0.0/seata-server-2.0.0.tar.gz## 解压 tar zxvf seata-server-2.0.0.tar.gz二、执行sql文件 ## 取出sql文件执行 cd /seata/script/server/db/mysql ## 找个mysql数据库执行三、…

阅读更多...

最新文章

推荐文章