Hive数仓操作(七)

一、 Hive动态分区表

1. 动态分区与静态分区的区别

  1. 分区定义

    • 静态分区:在插入数据时,需要手动指定分区字段的值。
    • 动态分区:分区字段的值是根据数据中的某个字段自动生成的,用户只需指定分区字段的类型。
  2. 数据加载方式

    • 静态分区:可以通过 LOAD DATAINSERT ... SELECT 加载数据。
    • 动态分区:只能通过 INSERT ... SELECT 加载数据。
  3. 查询要求

    • 静态分区:在 INSERT ... SELECT 中,SELECTWHERE 子句中不需要包含分区字段。
    • 动态分区:在 INSERT ... SELECT 中,必须查询出分区字段的值,并且这些字段需要放在 SELECTWHERE 子句之间的最后。

2. 动态分区设置

  1. 开启动态分区

    SET hive.exec.dynamic.partition = true;
    
  2. 设置动态分区模式

    动态分区有两种模式:

    • strict: 需要与静态分区一起使用,不设置nonstrict的情况下创建动态分区表的同时必需要指定一个静态分区。

      -- 示例: 
      INSERT INTO TABLE students_pt PARTITION(dt='anhui', pt) SELECT ..., pt FROM students;
      
    • nonstrict: 允许单独使用动态分区。

      SET hive.exec.dynamic.partition.mode = nonstrict;
      
  3. 设置最大分区数量

    可以根据业务需求调整支持的最大分区数量。例如,设置为1000:

    SET hive.exec.max.dynamic.partitions.pernode = 1000;
    

示例

1. 动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_dynamic (id INT,name STRING,sex STRING,age INT
)
PARTITIONED BY (year STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_dynamic
PARTITION (year)
SELECT id, name, sex, age, year FROM source_table;
2. 静态加动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_static_dynamic (id INT,name STRING,sex STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_static_dynamic
PARTITION (year = '2023', month)
SELECT id, name, sex, month FROM source_table;
3. 多个动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_multi_dynamic (id INT,name STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_multi_dynamic
PARTITION (year, month)
SELECT id, name, year, month FROM source_table;

二、 Hive外部分区表

假设在 HDFS 上已经存在日志目录,其结构如下:

hadoop fs -put log1.txt /logs/20210510
hadoop fs -put log2.txt /logs/20210511
hadoop fs -put log3.txt /logs/20210512

1. 创建外部分区表

CREATE EXTERNAL TABLE ext_logs_p (id INT,name STRING,operate STRING
)
PARTITIONED BY (date_time STRING)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LOCATION '/logs';

2. 挂载已有分区数据

创建分区并与已有目录绑定:

ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210510')
LOCATION '/logs/20210510';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210511')
LOCATION '/logs/20210511';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210512')
LOCATION '/logs/20210512';

3. 自动修复分区

如果目录已经存在,可以使用以下命令自动修复分区:

MSCK REPAIR TABLE ext_logs_p;

为了让 Hive 自动识别分区,目录应该按以下格式命名:

  • /logs/date_time=20210510/ 包含 log1.txt
  • /logs/date_time=20210511/ 包含 log2.txt
  • /logs/date_time=20210512/ 包含 log3.txt

这种方式会扫描目录结构并自动更新 Hive 元数据,使其与 HDFS 上的现有目录匹配,运行MSCK REPAIR TABLE命令后,Hive 会扫描 /logs/ 目录,自动识别并添加符合格式的分区:

  • date_time='20210510'
  • date_time='20210511'
  • date_time='20210512

外部分区表关联数据的方式

  • 创建分区后使用 LOAD DATA:适用于将新数据加载到指定分区中。
  • 通过 ALTER TABLE ADD PARTITION:用于将已有目录绑定到分区。
  • 使用 MSCK REPAIR TABLE:自动修复分区,适用于已有目录符合分区格式的情况。

感谢您访问本博文,另外,在今天这个举国欢庆的日子里,愿大家享受美好的时光,放下工作的繁忙,陪伴家人和朋友,共度温馨的国庆假期。愿祖国繁荣昌盛,国泰民安!祝大家国庆快乐,幸福安康!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/438342.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Stable Diffusion WebUI中安装SadTalker插件时几种错误提示的处理方法

SD中的插件一般安装比较简单,但也有一些插件安装会比较难。比如我在安装SadTalker时,就遇到很多问题,一度放弃了,后来查了一些网上攻略,自己也反复查看日志,终于解决,不吐不快。 一、在Stable …

15分钟学 Python :编程工具 Idea 和 vscode 中配置 Python ( 补充 )

编程工具配置 Python 在 IDE 和 VSCode 中 在编程学习的过程中,选择合适的开发工具至关重要。本文将详细介绍在两种流行的IDE(IntelliJ IDEA 和 Visual Studio Code)中如何配置Python环境,帮助你更高效地进行Python开发。 一、编…

基于SSM的出租车租赁管理系统的设计与实现

文未可获取一份本项目的java源码和数据库参考。 1 选题的背景 现代社会,许多个人、家庭,因为生活、工作方式的改变,对汽车不再希望长期拥有,取而代之的是希望汽车能“召之即…

开源且实用的C#/.NET编程技巧练习宝库(学习,工作,实践指南)

DotNet Exercises介绍 DotNetGuide专栏C#/.NET/.NET Core编程常用语法、算法、技巧、中间件、类库、工作业务实操练习集,配套详细的文章教程讲解,助你快速掌握C#/.NET/.NET Core中各种编程常用语法、算法、技巧、中间件、类库、工作业务实操等等。 GitH…

【Spring Boot 入门二】Spring Boot中的配置文件 - 掌控你的应用设置

一、引言 在上一篇文章中,我们开启了Spring Boot的入门之旅,成功构建了第一个Spring Boot应用。我们从环境搭建开始,详细介绍了JDK的安装以及IDE的选择与配置,然后利用Spring Initializr创建了项目,分析了项目结构&am…

黑马linux笔记(转载)

学习链接 视频链接:黑马程序员新版Linux零基础快速入门到精通 原文链接:黑马程序员新版Linux零基础快速入门到精通——学习笔记 黑马Linux笔记 文章目录 学习链接01初识Linux1.1、操作系统概述1.1.1、硬件和软件1.1.2、操作系统1.1.3、常见操作系统 1.…

SSM人才信息招聘系统-计算机毕业设计源码28084

摘要 本研究旨在基于Java和SSM框架设计并实现一个人才信息招聘系统,旨在提升招聘流程的效率和精准度。通过深入研究Java和SSM框架在Web应用开发中的应用,结合人才招聘领域的需求,构建了一个功能完善、稳定高效的招聘系统。利用SSM框架的优势&…

数据订阅与消费中间件Canal 服务搭建(docker)

MySQL Bin-log开启 进入mysql容器 docker exec -it mysql5.7 bash开启mysql的binlog cd /etc/mysql/mysql.conf.dvi mysqld.cnf #在文件末尾处添加如下配置(如果没有这个文件就创建一个) [mysqld] # 开启 binlog log-binmysql-bin #log-bin/var/lib/mys…

CSP-J模拟赛三补题报告

前言 挂了110pts( ⇑ \Uparrow ⇑ \hspace{14em} 有史以来最大傻逼 T1: 100 p t s \color{green}100pts 100pts T2: 100 p t s → 80 p t s \color{green}100pts\color{yellow}\rightarrow\color{red}80pts 100pts→80pts T3: 100 p t s → 10 p t s \color{gre…

k8s架构,从clusterIP到光电半导体,再从clusterIP到企业管理

clusterIP作为k8s中的服务, 也是其他三个服务的基础 ~]$ kubectl create service clusterip externalname loadbalancer nodeport 客户端的流量到service service分发给pod,pod由控制器自动部署,自动维护 那么问题是service的可用…

【C++前缀和】1895. 最大的幻方|1781

本文涉及的基础知识点 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode1895. 最大的幻方 难度分:1781 一个 k x k 的 幻方 指的是一个 k x k 填满整数的方格阵,且每一行、每一列以及两条对角线的和 全部相…

ubuntu 设置静态IP

一、 ip addresssudo nano /etc/netplan/50-cloud-init.yaml 修改前: 修改后: # This file is generated from information provided by the datasource. Changes # to it will not persist across an instance reboot. To disable cloud-inits # ne…

360浏览器时不时打不开csdn

从百度或者csdn的搜索中打开,会发现打不开网页,以前也出现过,只是以为这篇文章被删了,昨天接连多个文章打不开,怀疑的浏览器的问题,复制网址到edge浏览器就打开了 刚刚又出现了,怀疑360会拦截某…

Elasticsearch——数据聚合、数据同步与集群搭建

目录 1.数据聚合1.1.聚合的种类1.2.DSL实现聚合1.2.1.Bucket 聚合语法1.2.2.聚合结果排序1.2.3.限定聚合范围1.2.4.Metric 聚合语法1.2.5.小结 1.3.RestAPI 实现聚合1.3.1.API 语法1.3.2.业务需求1.3.3.业务实现 2.自动补全2.1.拼音分词器2.2.自定义分词器2.3.自动补全查询2.4.…

使用百度文心智能体创建多风格表情包设计助手

文章目录 一、智能定制,个性飞扬二、多元风格,创意无限 百度文心智能体平台为你开启。百度文心智能体平台,创建属于自己的智能体应用。百度文心智能体平台是百度旗下的智能AI平台,集成了先进的自然语言处理技术和人工智能技术&…

C++ STL 初探:打开标准模板库的大门

文章目录 C STL 初探:打开标准模板库的大门前言第一章: 什么是STL?1.1 标准模板库简介1.2 STL的历史背景1.3 STL的组成 第二章: STL的版本与演进2.1 不同的STL版本2.2 STL的影响与重要性 第三章: 为什么学习 STL?3.1 从手动编写到标准化解决方…

C++网络编程之TCP协议

概述 TCP,即传输控制协议,英文全称为Transmission Control Protocol,是互联网协议套件中的核心协议之一。它工作在OSI七层模型的传输层,也工作在TCP/IP四层模型的传输层。TCP协议的主要目的是:在不可靠的网络环境中提供…

腾讯一面-LRU缓存

为了设计一个满足LRU(最近最少使用)缓存约束的数据结构,我们可以使用哈希表(HashMap)来存储键值对,以便在O(1)时间复杂度内访问任意键。同时,我们还需要一个双向链表(Doubly Linked …

飞创龙门双驱XYZ直线模组高精度应用实例

飞创龙门双驱XYZ直线模组集超精密定位、高动态响应和灵活配置于一体,适用于电子制造行业(点胶、组装、检测)、半导体圆晶加工、芯片封装、激光切割、激光焊接、数控机床、精密检测及科研实验等,满足高精度、高动态的三维定位需求&…