Hive学习(13)lag和lead函数取偏移量

hive里面lag函数

在数据处理和分析中,窗口函数是一种重要的技术,用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架,也提供了窗口函数的支持。在Hive中,Lag函数是一种常用的窗口函数,可以用于计算前一行或前N行的值。

窗口函数简介

窗口函数是一种用于根据特定条件对数据进行分组和排序的函数,它可以在查询中使用。窗口函数配合分析函数一起使用,能够对数据进行更加灵活和高效的处理。

Hive中的窗口函数可以用于以下几种情况:

  1. 计算移动平均值或累积总和
  2. 计算每一行与前一行的差值
  3. 获取某一行相对于整个数据集的排序位置
  4. 对数据进行分组后,获取每个分组的排名

语法:

LAG(input[, offset[, default]]) OVER([PARTITION BY partition_expression, ...] ORDER BY sort_expression [, ...])

参数说明:

input:要获取的值所在的列或者表达式
offset:要获取的行之前的偏移量,默认为1
default:当没有前一行时,返回的默认值

场景1:
原数据如下,目标是客户取上次购买时间

cust_nopurc_date
3000312022-01-01
3000312022-01-02
3000312022-01-03
3000312022-01-04
3000312022-01-05
3000312022-01-06

代码如下:
lag(字段,向上取几行,取不到给默认值),lag函数是可以直接取指定行数,取不到默认为null;
可设置默认值,语法中【default】位置赋值默认值;
lead 同理,向下取行;
(lag设置默认值 ‘1970-01-01’ ,lead未设置;看下效果)

select cust_no,purc_date,lag(purc_date,1,'1970-01-01') over (partition by cust_no order by purc_date) as time1,-- 上次购买时间(设置默认值)lead(purc_date,1) over (partition by cust_no order by purc_date) as time2 -- 下次购买时间
from table_name a;

结果:
lag结果的首条记录的上次购买时间(已经是首条记录故没有上次购买时间),返回设置的默认值 ‘1970-01-01’;
lead结果的末条购买时间的下次购买时间为null

客户编号购买时间上次购买时间下次购买时间
3000312022-01-011970-01-012022-01-02
3000312022-01-022022-01-012022-01-03
3000312022-01-032022-01-022022-01-04
3000312022-01-042022-01-032022-01-05
3000312022-01-052022-01-042022-01-06
3000312022-01-062022-01-05NULL

补充:

--如有此业务场景,可计算本次距离上次间隔天数
datediff(purc_date,lag(purc_date,1,'1970-01-01') over (partition by cust_no order by purc_date))

场景2
简单看一下场景2,有问题可评论或私信讨论。
现在,我们希望计算每个产品的月度增长率,即当前月份的销售额与前一个月份的销售额之比。可以使用Lag函数来实现这个目标:

select mth			--月份,product	--产品代码,revenue	--收入金额,(revenue / lag(revenue) over(partition by product order by mth)) as growth_rate	--月度增长率
fromtable_name
order by product,mth

结果:
产品A因未设置默认值,所以返回NULL;产品B同理
在这里插入图片描述

参考:
https://blog.csdn.net/szdxltt/article/details/128615440
https://blog.51cto.com/u_16213418/7061149

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/229273.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目记录:利用Redis实现缓存以提升查询效率

一、概述 当我们查询所有数据时,如果缓存中没有,则去数据库查询,如果有,直接查缓存的数据就行。注意定期更新缓存数据。 二、主体代码 private static final String ROOM_SCHEDULES_HASH "RoomSchedules";Overridepu…

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK设置相机的图像剪切(ROI)功能(C++)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK设置相机的图像剪切(ROI)功能(C) Baumer工业相机Baumer工业相机的图像剪切(ROI)功能的技术背景CameraExplorer如何使用图像剪切(ROI)功…

计算机网络——传输层(五)

前言: 最重要的网络层我们已经学习完了,下面让我们再往上一层,对网络层的上一层传输层进行一个学习与了解,学习网络层的基本概念和网络层中的TCP协议和UDP协议 目录 ​编辑一、传输层的概述: 1.传输层: …

【Elasticsearch源码】 分片恢复分析

带着疑问学源码,第七篇:Elasticsearch 分片恢复分析 代码分析基于:https://github.com/jiankunking/elasticsearch Elasticsearch 8.0.0-SNAPSHOT 目的 在看源码之前先梳理一下,自己对于分片恢复的疑问点: 网上对于E…

Docker之网络配置

目录 1.网络概念 网络相关的有ip,子网掩码,网关,DNS,端口号 1.1 ip是什么? ip是唯一定位一台网上计算机 Ip地址的分类: IPV4: 4字节32位整数,并分成4段8位的二进制数,每8位之间用圆点隔开,每8位整数可以转换为一个0~255的十进制整数 【例…

ios苹果app应用程序录屏开发有哪些难点和注意点?

首先,让我们简单了解一下iOS录屏的基本原理。iOS录屏是指将设备屏幕上的内容实时捕捉并保存为视频文件的过程。这在教学、演示和用户支持等场景中非常有用。iOS录屏可以通过使用ReplayKit框架来实现,该框架提供了一套API,用于捕捉屏幕上的内容…

【数据结构-单链表】(C语言版本)

今天分享的是数据结构有关单链表的操作和实践(图解法,图变化更利于理解) 记录宗旨📝: 眼(脑)过千遍,不如手过一遍。 我们都知道单链表是一种常见的链表数据结构,由一系列…

SpringMVC-HelloWorld

一、SpringMVC简介 1.1 SpringMVC和三层架构 MVC是一种软件架构思想,将软件按照模型、视图和控制器三个部分划分。 M:model,模型层,指工程中的JavaBean,用于处理数据。JavaBean分为两类: 实体类Bean&…

KG+LLM(一)KnowGPT: Black-Box Knowledge Injection for Large Language Models

论文链接:2023.12-https://arxiv.org/pdf/2312.06185.pdf 1.Background & Motivation 目前生成式的语言模型,如ChatGPT等在通用领域获得了巨大的成功,但在专业领域,由于缺乏相关事实性知识,LLM往往会产生不准确的…

瑞吉外卖项目详细总结

文章目录 瑞吉外卖1.技术栈2.项目文件架构3.业务功能模块(例子)3.1管理员登录接口层(Controller)3.2管理员登录实现层(ServiceImpl)3.3管理员登录服务层(Service)3.4管理员登录Mapper层 4.公共模块4.1 BaseContext(保存…

王力机器人安全门|用细节开拓高端精致家居生活

细微之处见风范,毫厘之优定乾坤。在追求高端品质的道路上,细节往往是最有力的诠释。如在入户门的选择方面,考虑到老人、孩子、宠物等每一位家庭成员不同需求的设计、科技运用才称得上是充满人性化、品质化的高端细节,幸福感直抵心灵。在该方面,王力机器人安全门做出了表率,每一…

【连接池】-从源码到适配(下),使用dynamic-datasource导致连接池没生效(升级版本)

写在前面 书接上文,连接池没生效,启用了一个什么默认的连接池。具体是什么,一起来看看源码吧。 目录 写在前面一、问题描述二、本地调试三、升级dynamic-datasource四、新的问题(一)数据源初始化问题(二&am…

公司创建百度百科需要哪些内容?

一个公司或是一个品牌想要让自己更有身份,更有知名度,更有含金量,百度百科词条是必不可少的。通过百度百科展示公司的详细信息,有助于增强用户对公司的信任感,提高企业形象。通过百度百科展示公司的发展历程、领导团队…

ASP.Net实现汽车添加查询(三层架构,含照片)

演示功能: 点击启动生成页面 点击搜索模糊查询 点击添加跳转新界面 此处设置文本框多行 点击Button添加 步骤: 1、建文件 下图是三层架构列表,Models里面有模拟数据库中列的类,DAL中有DBHelper和service,BLL中有BllManager文件…

TiDB 7.5 LTS 发版丨提升规模化场景下关键应用的稳定性和成本的灵活性

互联网时代,数据的迅猛增长给数据库带来了可扩展性的挑战,Gen AI 带来的数据暴增更加剧了这种挑战。传统的数据分片已经不能承载新时代数据暴增的需求,更简单且具有前瞻性的方法则是采用原生分布式数据库来解决扩展性问题。在这种规模化场景的…

SpringValidation自定义注解以及分组校验

SpringValidation的参数校验使用可参考:【SpringMVC应用篇】Spring Validation 参数校验-CSDN博客 目录 1. 引入依赖 2. 自定义注解校验 2.1 创建Validation类 2.2 创建注解对象 2.3 使用注解 3. 分组校验 3.1 实体类内部定义接口 3.2 在参数上指定分组 1. …

CISSP 第1章:实现安全治理的原则和策略

作者:nothinghappend 链接:https://zhuanlan.zhihu.com/p/669881930 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 CIA CIA 三性: 机密性:和数据泄露有关。完整性…

存算分离降本增效,StarRocks 助力聚水潭 SaaS 业务服务化升级

作者:聚水潭数据研发负责人 溪竹 聚水潭是中国领先的 SaaS 软件服务商,核心产品是电商 ERP,协同350余家电商平台,为商家提供综合的信息化、数字化解决方案。公司是偏线下商家侧的 toB 服务商,员工人数超过3500&#xf…

C++初阶------------------入门C++

作者前言 🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂 ​🎂 作者介绍: 🎂🎂 🎂 🎉🎉&#x1f389…

带大家做一个,易上手的家常糖醋白菜

准备 如果是大白菜就一个 小白菜就要两个 因为白菜炒完之后会变少 将白菜叶剥开每叶分成三个小块 整个剥完之后 放入盆中清洗干净 调一个糖醋汁 一勺料酒 两勺生抽 三勺白砂糖 四勺香醋 起锅烧油 放两个干辣椒 辣椒炒一下 然后倒入白菜 翻炒直到油全部融入白菜 然后倒入…