Apache Hive--排序函数解析

在大数据处理与分析中,Apache Hive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利,排序函数便是其中一类非常实用的工具。通过排序函数,我们能够在查询结果集中为每一行数据分配一个排名值,这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨Apache Hive中的排序函数,通过具体的HQL代码和数据实例进行说明,并阐述它们之间的区别。

0. 排序函数:ORDER、SORT、CLUSTER

ORDER BY

  1. 功能ORDER BY 会对整个数据集按照指定的列进行全局排序,确保最终输出的结果是完全有序的。
  2. 代码示例
    假设我们有之前创建的 student_scores 表,包含 student_name(学生姓名)和 score(成绩)字段。
SELECT student_name, score
FROM student_scores
ORDER BY score DESC;
  1. 结果展示
student_namescore
David95
Bob90
Cathy90
Alice85
Charlie85

整个结果集按照成绩从高到低进行了全局排序。

SORT BY

  1. 功能SORT BY 用于在每个Reducer内对数据进行排序。它不会对整个数据集进行全局排序,而是在每个Reducer的分区内进行排序,在处理大规模数据时可提高处理效率。
  2. 代码示例
SET mapreduce.job.reduces = 3; -- 设置Reducer数量为3
SELECT student_name, score
FROM student_scores
SORT BY score DESC;
  1. 结果展示
    由于 SORT BY 是在每个Reducer内排序,结果会根据Reducer的处理情况而有所不同。假设每个Reducer处理的数据如下(实际情况可能因数据分配方式不同而不同):
  • Reducer 1
student_namescore
David95
  • Reducer 2
student_namescore
Bob90
Cathy90
  • Reducer 3
student_namescore
Alice85
Charlie85

每个Reducer内的数据按成绩降序排列,但整体结果集并非全局有序。

CLUSTER BY

  1. 功能CLUSTER BY 用于对数据进行分桶操作,它会根据指定的列对数据进行哈希运算,将数据均匀分布到不同的桶(bucket)中,同时在每个桶内对数据按指定列进行排序。这在数据量较大时,有助于提升查询性能,特别是在进行连接(join)操作以及与排序相关的操作时。
  2. 代码示例
-- 创建按score分桶的学生成绩表
CREATE TABLE student_scores_clustered (student_name STRING,score INT
)
CLUSTERED BY (score) INTO 2 BUCKETS;-- 将数据插入到分桶表
INSERT INTO TABLE student_scores_clustered
SELECT student_name, score
FROM student_scores;-- 查询分桶表
SELECT student_name, score
FROM student_scores_clustered;
  1. 结果展示
    数据会根据 score 列的哈希值分配到不同的桶中,并且在每个桶内按 score 排序。假设分桶结果如下(实际情况可能因哈希算法和数据分布不同而不同):
  • Bucket 1
student_namescore
David95
Bob90
Cathy90
  • Bucket 2
student_namescore
Alice85
Charlie85

每个桶内的数据按 score 排序。

小结

ORDER BY 用于全局排序,适用于需要最终结果完全有序的场景,但处理大数据时性能可能较低。
SORT BY 在每个 Reducer 内排序,适用于大规模数据处理,提高处理效率,但不保证全局有序。
CLUSTER BY 进行分桶并在桶内排序,主要用于优化特定查询(如 join)的性能,同时结合了分桶和局部排序的功能。

1. ROW_NUMBER窗口函数

1.1 功能概述

ROW_NUMBER窗口函数为结果集中的每一行分配一个唯一的连续排名值,从1开始,按照ORDER BY子句指定的顺序递增。无论数据值是否相同,其排名都不会出现重复,且是连续的。

1.2 代码示例

假设有一个学生成绩表student_scores,包含student_name(学生姓名)和score(成绩)字段:

CREATE TABLE student_scores (student_name STRING,score INT
);INSERT INTO student_scores VALUES
('Alice', 85),
('Bob', 90),
('Cathy', 90),
('Charlie', 85),
('David', 95);

使用ROW_NUMBER函数对学生成绩进行排名的查询如下:

SELECTstudent_name,score,ROW_NUMBER() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;

上述代码中,ROW_NUMBER() OVER (ORDER BY score DESC)表示按照score降序排列,为每一行数据分配一个唯一的排名。

1.3 结果展示

执行上述查询后,结果如下:

student_namescorerank
David951
Bob902
Cathy903
Alice854
Charlie855

2. RANK窗口函数

2.1 功能概述

RANK窗口函数同样用于为结果集的行分配排名。但当遇到相同值时,会分配相同的排名,并且下一个排名会跳过相应的数量。例如,如果有两个并列第2名,那么下一个排名将是第4名。

2.2 代码示例

仍以上述student_scores表为例,使用RANK函数进行排名的查询为:

SELECTstudent_name,score,RANK() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;

2.3 结果展示

执行该查询后,结果如下【相同分数的排名是随机的】:

student_namescorerank
David951
Bob902
Cathy902
Alice854
Charlie854

可以看到,Bob和Cathy成绩相同,排名都是2,下一个排名直接跳到了4。

3. DENSE_RANK窗口函数

3.1 功能概述

DENSE_RANK窗口函数也用于排名,与RANK函数不同之处在于,当遇到相同值时,虽然也会分配相同的排名,但下一个排名不会跳过。即即使有并列情况,排名依然是连续的。

3.2 代码示例

还是针对student_scores表,使用DENSE_RANK函数排名的查询为:

SELECTstudent_name,score,DENSE_RANK() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;

3.3 结果展示

执行查询后,结果如下【相同分数的排名是随机的】:

student_namescorerank
David951
Bob902
Cathy902
Alice853
Charlie853

这里Bob和Cathy并列第2名,下一个排名是第3名,没有跳过。

结合partition by 进行使用实现组内排序

在 Apache Hive 中,PARTITION BY 子句与排序窗口函数结合使用时,会先将数据按照指定的列进行分区,然后在每个分区内分别应用排序函数。这在处理需要分区统计排名的场景中非常有用。
ROW_NUMBER 窗口函数结合 PARTITION BY
功能说明:在每个分区内,ROW_NUMBER 函数为每一行分配一个唯一的连续排名值,从 1 开始,按照 ORDER BY 子句指定的顺序递增。不同分区之间的排名相互独立。
代码示例:假设 student_scores 表新增 class(班级)字段,现在要查询每个班级内学生成绩的排名。

-- 创建包含班级字段的学生成绩表
CREATE TABLE student_scores (student_name STRING,score INT,class STRING
);-- 插入数据
INSERT INTO student_scores VALUES
('Alice', 85, 'Class1'),
('Bob', 90, 'Class1'),
('Charlie', 85, 'Class2'),
('David', 95, 'Class2');-- 使用ROW_NUMBER函数结合PARTITION BY查询
SELECTstudent_name,score,class,ROW_NUMBER() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;

结果展示:

student_namescoreclassrank
Bob90Class11
Alice85Class12
David95Class21
Charlie85Class22

在这个结果中,PARTITION BY class 将数据按班级分为 Class1 和 Class2 两个分区,ROW_NUMBER 函数在每个分区内分别对学生成绩进行排名。
RANK 窗口函数结合 PARTITION BY
功能说明:与 ROW_NUMBER 类似,不过在每个分区内,当遇到相同值时,RANK 函数会分配相同的排名,并且下一个排名会跳过相应的数量。
代码示例:

SELECTstudent_name,score,class,RANK() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;

结果展示:

student_namescoreclassrank
Bob90Class11
Alice85Class12
David95Class21
Charlie85Class22

同样,在每个班级分区内,按照成绩排名,相同成绩的学生排名相同,下一个排名会跳过相应数量。
DENSE_RANK 窗口函数结合 PARTITION BY
功能说明:在每个分区内,DENSE_RANK 函数遇到相同值时也会分配相同的排名,但下一个排名不会跳过,保持排名的连续性。
代码示例:

SELECTstudent_name,score,class,DENSE_RANK() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;

结果展示:

student_namescoreclassrank
Bob90Class11
Alice85Class12
David95Class21
Charlie85Class22

在每个班级分区内,排名是连续的,即使有相同成绩的学生,下一个排名也不会跳过。

小结

  • ROW_NUMBER:分配唯一且连续的排名,无论数据值是否重复,排名都不会间断。
  • RANK:相同数据值分配相同排名,下一个排名会跳过相应数量,导致排名可能不连续。
  • DENSE_RANK:相同数据值分配相同排名,但下一个排名不会跳过,排名始终连续。

排序函数的优化

在Apache Hive中优化排序函数的性能,可从以下几个关键方面着手:

1. 数据预处理

  • 数据过滤:在使用排序函数前,尽量通过WHERE子句对数据进行过滤,减少参与排序的数据量。例如,在上述student_scores表中,如果我们只关心成绩大于80分的学生排名,可在查询中添加WHERE条件:
SELECTstudent_name,score,ROW_NUMBER() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores
WHEREscore > 80;
  • 数据抽样:对于大规模数据集,可先进行抽样处理,对抽样数据进行排序分析,获取大致结果。这在对数据整体趋势有初步了解时很有用。比如,从海量销售数据中抽取1%的数据来分析销售排名趋势。

2. 合理使用分区

  • 分区表设计:将数据按合适的列进行分区,可显著提高排序性能。比如,在销售数据中,按日期分区,查询某段时间内的销售排名时,Hive可直接在相关分区内操作,减少扫描的数据量。
-- 创建按日期分区的销售表
CREATE TABLE sales (product STRING,quantity INT
)
PARTITIONED BY (sale_date STRING);
  • 分区裁剪:查询时,Hive会自动进行分区裁剪,只读取相关分区的数据。例如:
SELECTproduct,quantity,RANK() OVER (ORDER BY quantity DESC) AS rank
FROMsales
WHEREsale_date BETWEEN '2023-01-01' AND '2023-01-31';

3. 选择合适的排序函数

  • 根据业务需求:明确业务场景对排名的具体要求,合理选择ROW_NUMBERRANKDENSE_RANK。如果需要唯一且连续的排名,ROW_NUMBER是最佳选择;若允许并列排名且排名可间断,RANK更合适;若要并列排名且排名连续,DENSE_RANK是正确之选。避免因错误选择函数导致不必要的计算。
  • 函数性能差异:虽然这三个排序函数在功能上有差异,但性能差异相对较小。不过,ROW_NUMBER由于不需要处理并列排名情况,在数据量极大且无并列值的情况下,理论上可能会稍快一些。

4. 配置参数调整

  • 内存分配:适当增加Hive任务的内存分配,可使排序操作更高效。通过修改hive-site.xml文件中的相关参数,如mapreduce.map.memory.mbmapreduce.reduce.memory.mb,为排序操作提供足够内存。
  • 并行度调整:合理调整MapReduce任务的并行度,可充分利用集群资源。例如,根据集群节点数量和数据量,设置mapreduce.job.mapsmapreduce.job.reduces参数,提高排序任务的执行效率。

5. 索引使用【高版本hive】

  • 创建索引:对排序依据的列创建索引,能加快排序速度。例如,在student_scores表中,对score列创建索引:
CREATE INDEX score_index ON TABLE student_scores(score);
  • 索引维护:定期维护索引,确保其有效性。当数据发生大量插入、更新或删除操作后,重建或优化索引,以保证排序性能。

总结

Apache Hive的排序函数在多种场景下都有广泛应用。在数据分析中,当我们需要明确数据的先后顺序,如找出成绩排名前几的学生、销售额排名靠前的产品等,ROW_NUMBER函数可提供精确且唯一的排名,适用于严格区分先后顺序的场景。而在一些竞赛排名、成绩评级等场景中,如果允许并列排名且需要体现排名的间断性,RANK函数更为合适。对于希望在并列排名时保持排名连续性的场景,比如分析员工绩效等级,DENSE_RANK函数则能满足需求。这些排序函数为数据处理和分析提供了灵活多样的方式,帮助数据分析师和工程师更高效地从海量数据中提取有价值的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4201.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端】CSS学习笔记

目录 CSS的简介CSS的概念语法 CSS的引入方式内联样式(行内样式)内部样式外部样式(推荐) 选择器全局选择器元素选择器类选择器ID选择器合并选择器后代选择器子选择器相邻兄弟选择器通用兄弟选择器伪类选择器:link:visited:hover:ac…

深度学习 DAY1:RNN 神经网络及其变体网络(LSTM、GRU)

实验介绍 RNN 网络是一种基础的多层反馈神经网络,该神经网络的节点定向连接成环,其内部状态可以展示动态时序行为。相比于前馈神经网络,该网络内部具有很强的记忆性,它可以利用它内部的记忆来处理任意时序的输入序列,…

[STM32 HAL库]串口空闲中断+DMA接收不定长数据

一、空闲中断 STM32的串口具有空闲中断,什么叫做空闲呢?如何触发空闲中断呢? 空闲:串口发送的两个字符之间间隔非常短,所以在两个字符之间不叫空闲。空闲的定义是总线上在一个字节的时间内没有再接收到数据。触发条件…

计算机网络 (49)网络安全问题概述

前言 计算机网络安全问题是一个复杂且多维的领域,它涉及到网络系统的硬件、软件以及数据的安全保护,确保这些元素不因偶然的或恶意的原因而遭到破坏、更改或泄露。 一、计算机网络安全的定义 计算机网络安全是指利用网络管理控制和技术措施,保…

机器学习中的方差与偏差

文章目录 方差与偏差1.1 数据1.1.1 数据的分布1.1.2 拟合 1.2 方差与偏差1.2.1 泛化误差的拆分1.2.2 理解方差偏差 1.3 方差-偏差trade-off1.3.1 方差-偏差trade-off1.3.2 方差与偏差诊断 1.4 降低策略1.4.1 噪声1.4.2 高偏差1.4.3 高方差 方差与偏差 1.1 数据 1.1.1 数据的分…

力扣 有效的括号

括号匹配问题,找到符合的进行抵消。 题目 从题可以看出是嵌套的括号先匹配先做抵消,类似就近原则,这也是栈的典型例题。可以通过枚举多种不同的情况慢慢用if与else做返回。 时间复杂度:O(n),其中 n 是字符串的长度。…

js: 区分后端返回数字是否为null、‘-’ 或正常number类型数字。

问&#xff1a; 这是我的代码<CountTo v-if!isNaN(Number(item.num))> <span v-else>{{item.num}}</span> 我希望不是null的时候走countTo&#xff0c;是null的时候直接<span>{{item.num}}</span>显示 回答&#xff1a; 最终结果&#xff1a; …

Chapter5.4 Loading and saving model weights in PyTorch

5 Pretraining on Unlabeled Data 5.4 Loading and saving model weights in PyTorch 训练LLM的计算成本很高&#xff0c;因此能够保存和加载LLM的权重至关重要。 ​ 在PyTorch中&#xff0c;推荐的方式是通过将torch.save函数应用于.state_dict()方法来保存模型权重&#x…

运动相机拍视频过程中摔了,导致录视频打不开怎么办

3-11 在使用运动相机拍摄激烈运动的时候&#xff0c;极大的震动会有一定概率使得保存在存储卡中的视频出现打不开的情况&#xff0c;原因是存储卡和相机在极端情况下&#xff0c;可能会出现接触不良的问题&#xff0c;如果遇到这种问题&#xff0c;就不得不进行视频修复了。 本…

Python制作简易PDF查看工具PDFViewerV1.0

PDFViewer PDF浏览工具&#xff0c;Python自制PDF查看工具&#xff0c;可实现基本翻页浏览功能&#xff0c;其它功能在进一步开发完善当中&#xff0c;如果有想一起开发的朋友&#xff0c;可以留言。本软件完全免费&#xff0c;自由使用。 软件界面简洁&#xff0c;有菜单栏、…

SpringBoot实现定时任务,使用自带的定时任务以及调度框架quartz的配置使用

SpringBoot实现定时任务&#xff0c;使用自带的定时任务以及调度框架quartz的配置使用 文章目录 SpringBoot实现定时任务&#xff0c;使用自带的定时任务以及调度框架quartz的配置使用一. 使用SpringBoot自带的定时任务&#xff08;适用于小型应用&#xff09;二. 使用调度框架…

Output

AUTOSAR OS模块详解(三) Alarm 本文主要介绍AUTOSAR OS的Alarm&#xff0c;并对基于英飞凌Aurix TC3XX系列芯片的Vector Microsar代码和配置进行部分讲解。 文章目录 AUTOSAR OS模块详解(三) Alarm1 简介2 功能介绍2.1 触发原理2.2 工作类型2.3 Alarm启动方式2.4 Alarm配置2.5…

openharmony应用开发快速入门

开发准备 本文档适用于OpenHarmony应用开发的初学者。通过构建一个简单的具有页面跳转/返回功能的应用&#xff08;如下图所示&#xff09;&#xff0c;快速了解工程目录的主要文件&#xff0c;熟悉OpenHarmony应用开发流程。 在开始之前&#xff0c;您需要了解有关OpenHarmon…

使用傅里叶变换进行图像边缘检测

使用傅里叶变换进行图像边缘检测 今天我们介绍通过傅里叶变换求得图像的边缘 什么是傅立叶变换&#xff1f; 简单来说&#xff0c;傅里叶变换是将输入的信号分解成指定样式的构造块。例如&#xff0c;首先通过叠加具有不同频率的两个或更多个正弦函数而生成信号f&#xff08;x…

用户中心项目教程(四)---Vue脚手架完成前端初始化

目录 1.项目的创建 2.使用开发工具打开 3.项目运行方法 4.使用按钮组件 5.全局注册 6.如何进行组件的测试 7.使用组件的效果展示 8.关于这个vue项目内容的说明 1.项目的创建 这个前提你是你完成了我的教程&#xff08;三&#xff09;里面的相关配置&#xff0c;不然你可…

《自动驾驶与机器人中的SLAM技术》ch4:基于预积分和图优化的 GINS

前言&#xff1a;预积分图优化的结构 1 预积分的图优化顶点 这里使用 《自动驾驶与机器人中的SLAM技术》ch4&#xff1a;预积分学 中提到的散装的形式来实现预积分的顶点部分&#xff0c;所以每个状态被分为位姿&#xff08;&#xff09;、速度、陀螺零偏、加计零偏四种顶点&am…

二叉搜索树(TreeMapTreeSet)

文章目录 1.概念2.二叉搜索树的底层代码实现(1)首先构建二叉树(2)实现插入功能&#xff1b;(3)实现查找(4)删除&#xff08;重点&#xff09; 3.TreeMap 1.概念 TreeMap&TreeSet都是有序的集合都是基于二叉搜索树来实现的 二叉搜索树&#xff1a;是一种特殊的二叉树 若左子…

【QT用户登录与界面跳转】

【QT用户登录与界面跳转】 1.前言2. 项目设置3.设计登录界面3.1 login.pro参数3.2 界面设置3.2.1 登录界面3.2.2 串口主界面 4. 实现登录逻辑5.串口界面6.测试功能7.总结 1.前言 在Qt应用程序开发中&#xff0c;实现用户登录及界面跳转功能是构建交互式应用的重要步骤之一。下…

基于springboot的口腔管理平台

作者&#xff1a;学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等 文末获取“源码数据库万字文档PPT”&#xff0c;支持远程部署调试、运行安装。 项目包含&#xff1a; 完整源码数据库功能演示视频万字文档PPT 项目编码&#xff1…

4 AXI USER IP

前言 使用AXI Interface封装IP&#xff0c;并使用AXI Interface实现对IP内部寄存器进行读写实现控制LED的demo&#xff0c;这个demo是非常必要的&#xff0c;因为在前面的笔记中基本都需哟PS端与PL端就行通信互相交互&#xff0c;在PL端可以通过中断的形式来告知PS端一些事情&…