hive:分区＞＞静态分区,动态分区,混合分区

hive:分区＞＞静态分区,动态分区,混合分区

news/2025/3/26 7:31:32/文章来源:https://blog.csdn.net/weixin_40121264/article/details/145661210

分区表

使用场景：数据量庞大且经常用来做查询的表

特点：将数据分别存储到不同的目录里

优点：避免全盘扫描，提高查询效率

分区的类型

它们的默认值分别是:

false,

strict, 要求至少有一个静态分区列，而 nonstrict 模式允许所有分区列都是动态的。

1000

100, 在每个 mapper 或 reducer 节点上允许创建的动态分区的最大数量。

注意: set 属性的修改只作用于当前会话

查看Hive中的属性设置

打开Hive命令行界面/Hue

示例>> 静态分区/动态分区

插入文件数据到静态分区(load data)

插入单条数据到静态分区(insert into )

从其他表插入数据到静态分区( insert into )

在 Hive 中，无论是静态分区还是动态分区，创建表时使用的 SQL 语句是相同的。这是因为分区的定义方式在表创建时是统一的，而分区的具体行为（静态或动态）是在数据插入时通过不同的操作来区分的。

静态分区：在插入数据时，分区值是明确指定的

LOAD DATA 命令:

将数据从文件直接加载到 Hive 表中，适用于批量导入数据文件, 文件中的数据必须与表的非分区列匹配

INSERT INTO 命令:

将数据从其他表或直接通过 VALUES 插入到目标表中，适合小规模数据插入或从其他表导入数据。

动态分区：在插入数据时，分区值是根据数据自动生成的

示例>>混合分区

在这个示例中：

year 是静态分区列，其值固定为 '2023'。
date 是动态分区列，其值从 source_table 中动态生成

Hive 分区和 Oracle 分区的区别

oracle 分区字段用的是表内字段；而 hive 分区字段采用表外字段。

临时表

是为数据提供一个临时的存储和转换空间，以便在将数据加载到目标表之前进行必要的处理或验证

完整分区过程

动态分区示例

第一步： 先创建临时表

临时表包含目标表的所有字段及分区字段

第二步： 导入数据到临时表

load data local inpath './data/student2.txt' into table temp_part1;

静态分区示例

创建分区表

创建临时表

临时表需要包含目标表的所有字段（ sid, name, gender, age, academy）以及分区字段（ dt

把数据加载到临时表

把临时表数据加载到目标表

混合分区示例

创建临时表

临时表需要包含目标表的所有字段（ sid, name, gender, age, academy）以及分区字段（ year, dt）：

将数据加载到临时表

插入数据到目标表

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/19358.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

React进阶之React核心源码解析（一）

React进阶之React核心源码解析（一）

React核心源码解析 react 特点CPU卡顿IO 卡顿新老 react 架构对比v15v16.8Scheduler 调度器Reconciler 协调器 React fiber原理更新dommount 构建过程 render阶段 — scheduler reconcilerreact源码解析react-domreact-dom/src/client/ReactDOMRoot.js react-reconcilerreact-…

阅读更多...

ubuntu20.04连接airpods pro2

ubuntu20.04连接airpods pro2

youtub视频解决方法：Setup your AirPods Pro with Linux (Ubuntu w/Mic fix) 重要步骤1， sudo apt-get update sudo apt-get install pulseaudio sudo apt-get upgrade pluseaudio重要步骤2， sudo vim /etc/bluetooth/main.confsudo /ect/…

阅读更多...

sqli_labs_master Less-8 时间盲注，boolen盲注获取数据库中的表、列

sqli_labs_master Less-8 时间盲注，boolen盲注获取数据库中的表、列

获取当前数据库名 import requestsdef inject_database(url):namemax_length20 # 假设数据库名称最大长度为20# ASCII范围：数字、字母、下划线（_）low{a: 97, z: 122, A: 65, Z: 90, 0: 48, 9: 57, _: 95}high{97: a, 122: z, 65: A, 90: Z,…

阅读更多...

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_ssl_init 函数

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_ssl_init 函数

#if (NGX_OPENSSL)ngx_ssl_init(log); #endif objs/ngx_auto_config.h 中 #ifndef NGX_OPENSSL #define NGX_OPENSSL 1 #endif 所以这个条件编译成立 NGX_OPENSSL 是一个宏定义，用于控制与 OpenSSL 相关的功能是否被启用若用户通过./configure参数（如-…

阅读更多...

常用架构图：业务架构、产品架构、系统架构、数据架构、技术架构、应用架构、功能架构及信息架构

常用架构图：业务架构、产品架构、系统架构、数据架构、技术架构、应用架构、功能架构及信息架构

文章目录引言常见的架构图I 业务架构图-案例模块功能说明1. 用户界面层 (UI)2. 应用服务层3. 数据管理层4. 基础设施层业务流程图示例技术实现II 功能架构图 -案例功能模块说明1. 船舶监控模块2. 报警管理模块3. 应急响应模块4. 通信管理模块5. 数据分析模块数据管理层基础设施…

阅读更多...

Redis 09章——哨兵（sentinel）

Redis 09章——哨兵（sentinel）

一、是什么吹哨人巡查监控后台master主机是否故障，如果故障了根据$\textcolor{red}{投票数}$自动将某一个从库转换为新主库，继续对外服务作用：俗称无人值守运维官网理论：High availability with Redis Sentinel | Docs 二、能干…

阅读更多...

WEB入门

WEB入门

1.了解什么是WEB 2.了解什么是WEB前端 3.学习和掌握开发环境的搭建 4.网页开发基础 1.什么是WEB 1946年，有一个发明了人类史上第一台完整体系的计算机时间进展到1989年，实验室有一个研发人员 TimBernersLee（提姆博纳斯李）开…

阅读更多...

【若依免登录】登录状态已过期，您可以继续留在该页面，或者重新登录

【若依免登录】登录状态已过期，您可以继续留在该页面，或者重新登录

【问题】【问题背景】在实现若依的免登录出现的问题。前面已经做的操作前端第一步：views目录下面存在需要免登录的页面第二步：在ruoyi-ui\src\router 的 index.js 的 constantRoutes （公共路由方）中配置需要免登录的页面位…

阅读更多...

JUC并发-4.wait和notify以及Atomic原理

JUC并发-4.wait和notify以及Atomic原理

大纲 1.wait()与notify()实现一个简易的内存队列 2.wait()与notify()的底层原理 3.分布式存储系统NameNode机制介绍 4.分布式存储系统的edits log机制介绍 5.分布式存储系统的NameNode实现 6.分布式存储系统的创建目录功能的实现 7.edits log的全局txid机制和双缓冲机制…

阅读更多...

$Jasper AI技术浅析（二）：语言模型$

Jasper AI技术浅析（二）：语言模型

Jasper AI 的核心语言模型是基于 OpenAI 的 GPT-4（Generative Pre-trained Transformer 4）构建的。GPT-4 是一种生成式预训练语言模型，利用深度学习技术，特别是 Transformer 架构，来理解和生成自然语言。 1. GPT-4 的基本原理 1.1 Transformer 架构 GPT-4 基于 Transfo…

阅读更多...

(arxiv2411) CARE Transformer

(arxiv2411) CARE Transformer

作者提出了两个问题，问题 1：堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗？ 问题 2：是否有可能同时提高线性视觉 Transformer 的效率和准确性？ 为了解决这两个问题，作者提出了一种 deCoupled du…

阅读更多...

RISC-V平台编译 state-thread x264 ffmpeg zlog

RISC-V平台编译 state-thread x264 ffmpeg zlog

1.state-threads 源码下来之后直接 make linux-debug 目录下生成了对应的.a 和 .h文件 gcc test.c -o test -l st -L . #include <stdio.h> #include <stdlib.h> #include <string.h> #include <errno.h> #include <sys/socket.h&g…

阅读更多...

DeepSeek笔记（二）：DeepSeek局域网访问

DeepSeek笔记（二）：DeepSeek局域网访问

如果有多台电脑，可以通过远程访问，实现在局域网环境下多台电脑共享使用DeepSeek模型。在本笔记中，首先介绍设置局域网多台电脑访问DeepSeek-R1模型。一、启动Ollama局域网访问 1.配置环境变量此处本人的操作系统是Windows11，…

阅读更多...

2025年二级建造师报名流程图解

2025年二级建造师报名流程图解

2025年二级建造师报名时间！附报名流程！ ⏰️已公布25年二建考试时间的省份如下： ️4月19日、20日考试的城市有：贵州 ️5月10日、11日考试的城市有：湖北、陕西、宁夏、甘肃、福建、浙江、江西、黑龙江、河南、湖南、…

阅读更多...

Android的Activity生命周期知识点总结，详情

Android的Activity生命周期知识点总结，详情

一. Activity生命周期 1.1 返回栈知识点二. Activity状态 2.1 启动状态 2.2 运行状态 2.3 暂停状态 2.4 停止状态 2.5 销毁状态三. Activity生存期 3.1 回调方法 3.2 生存期四. 体验Activity的生命周期五. Activity被回收办法引言： 掌握Acti…

阅读更多...

frp-tool，客户端frp命令行工具

frp-tool，客户端frp命令行工具

在日常开发和运维过程中，端口转发和配置管理是常见的需求。如果有自己一台服务器，并且已经开放好端口，配置好token后，这个工具一定能帮到你。今天给大家推荐一款非常好用的frpc命令行工具，它是一个用Python编写的命令…

阅读更多...

netcore https配置

netcore https配置

一、生成证书 1. 安装 OpenSSL 如果尚未安装 OpenSSL，可以通过以下命令安装：Ubuntu/Debian:sudo apt update sudo apt install openssl CentOS/RHEL:sudo yum install openssl 2. 生成私钥使用以下命令生成私钥文件（private.key&#xff09…

阅读更多...

解锁ApplicationContext vs BeanFactory: 谁更具选择性？

解锁ApplicationContext vs BeanFactory: 谁更具选择性？

目录一、聚焦源码回顾 （一）源码分析和理解 （二）简短的回顾对比建议二、ApplicationContext vs BeanFactory特性对比 （一）主要特性总结 （二）直接建议三、案例简单说明 &am…

阅读更多...

【大模型】DeepSeek 高级提示词技巧使用详解

【大模型】DeepSeek 高级提示词技巧使用详解

目录一、前言二、DeepSeek 通用提示词技巧 2.1 DeepSeek 通用提示词技巧总结三、DeepSeek 进阶使用技巧 3.1 DeepSeek一个特定角色的人设 3.1.1 为DeepSeek设置角色操作案例一 3.1.2 为DeepSeek设置角色操作案例二 3.2 DeepSeek开放人设升级 3.2.1 特殊的人设&#…

阅读更多...

1-2 gitee创建远程仓库

1-2 gitee创建远程仓库

如何创建远程仓库？ 第一步点击加号，创建仓库点击创建仓库给新创建的仓库命名即可仓库创建成功即可

阅读更多...

最新文章

推荐文章