Hive数仓操作(十二)

一、Hive 中的行列转换

1. 行转列: collect_list()

collect_list() 函数用于将一个列中的数据收集成一个数组。

示例数据文件

假设有一个名为 orders.txt 的文件,内容如下:

1,101
1,101
1,103
2,104
2,105
导入数据到 Hive 表

首先,我们创建一个表 orders 并将数据导入到该表中:

-- 创建表
CREATE TABLE orders (user_id INT,order_id INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/orders.txt' INTO TABLE orders;

然后,我们可以使用 collect_list() 函数收集每个用户的订单 ID:

SELECTuser_id,collect_list(order_id) as order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idorder_ids
1[101, 101, 103]
2[104, 105]

2. 行转列:collect_set()

collect_set() 函数类似于 collect_list(),但它会移除数组中的重复值。

示例数据文件

使用同一个 orders.txt 文件。

导入数据到 Hive 表

数据已经导入过,因此我们直接使用 collect_set() 函数:

SELECTuser_id,collect_set(order_id) as unique_order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idunique_order_ids
1[101, 103]
2[104, 105]

3. 列转行:explode()

explode() 函数用于将数组里的元素拆分开来,并用行展示。通常与 lateral view 函数搭配使用。

示例数据文件

假设有一个名为 user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

使用 explode() 函数炸裂拆分:

SELECTuser_id,interest
FROMuser_interests
LATERAL VIEWexplode(split(interests, ',')) exploded_table AS interest;
-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_interests.txt' INTO TABLE user_interests;
示例结果
user_idinterest
1sports
1music
1art
2reading
2travel

二、Hive 收集切割

1. split()

split() 函数用于将一个字符串按照指定的分隔符切割成一个数组。

示例数据文件

user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

user_interests 已创建,然后,使用 split() 将兴趣字符串分割成数组:

SELECTuser_id,split(interests, ',') as interest_array
FROMuser_interests;
示例结果
user_idinterest_array
1[“sports”, “music”, “art”]
2[“reading”, “travel”]

2. split()常和concat_ws() 一起使用

concat_ws() 是一个字符串函数,用于将多列的值合并成一个字符串,使用指定的分隔符。split() 函数则用于将字符串按照指定的分隔符切割成一个数组。

示例数据文件

假设有一个名为 user_info.txt 的文件,内容如下:

1,John,Doe,john.doe@example.com
2,Jane,Smith,jane.smith@example.com
导入数据到 Hive 表

首先,我们创建一个表 user_info 并将数据导入到该表中:

-- 创建表
CREATE TABLE user_info (user_id INT,first_name STRING,last_name STRING,email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_info.txt' INTO TABLE user_info;

然后,使用 concat_ws() 将多列的值合并成一个字符串,并使用 split() 将这个字符串拆分成数组:

SELECTuser_id,split(concat_ws(',', first_name, last_name, email), ',') as info_array
FROMuser_info;
示例结果
user_idinfo_array
1[“John”, “Doe”, “john.doe@example.com”]
2[“Jane”, “Smith”, “jane.smith@example.com”]

更多细节可参考我的sql题专栏中的炸裂函数与恢复

经典sql题(十三)炸裂对应学生的姓名和成绩
经典sql题(十四)炸裂函数的恢复

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/438491.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【WRF工具】cmip6-to-wrfinterm工具概述:生成WRF中间文件

cmip6-to-wrfinterm工具概述 cmip6-to-wrfinterm工具安装cmip6-to-wrfinterm工具使用快速启动(Quick start)情景1:MPI-ESM-1-2-HR(默认):情景2:BCMM情景3:EC-Earth3 更改使用&#x…

爬虫——爬取小音乐网站

爬虫有几部分功能??? 1.发请求,获得网页源码 #1.和2是在一步的 发请求成功了之后就能直接获得网页源码 2.解析我们想要的数据 3.按照需求保存 注意:开始爬虫前,需要给其封装 headers {User-…

Redis:初识Redis

Redis:初识Redis Redis 介绍分布式架构Redis特性安装Redis Redis 介绍 在官网中,是如下介绍Redis的: in-memory data store used by millions of developers as a cache, vector database, document database, streaming engine, and messag…

使用Electron将vue项目改桌面程序

1,一个简单的实现案例 # 切换镜像,其他镜像:https://registry.npm.taobao.org/ npm config set registry https://registry.npmmirror.com/ # 推荐使用yarn来管理依赖包,相对于Node.js自带的npm包管理工具来说,它具有…

【Linux】进程周边之优先级

目录 一、优先级 1.为什么要有进程优先级? 2.什么是进程优先级? 3.优先级的初始设定 3.1 PRI 和 NI 3.2如何修改优先级?(sudo/root) 3.2.1 概念: 3.2.2 如何查看进程的优先级? 3.3.3 或…

第十七章:c语言内存函数

1. memcpy使⽤和模拟实现 2. memmove使⽤ 3. memset函数的使⽤ 4. memcmp函数的使⽤ 天行健 君子以自强不息一、memcpy的使用和模拟实现 作用: 1. 函数memcpy从source的位置向后复制num个字节的数据到destination指向的内存位置。 2. 这个函数在遇到‘\0’的时…

进程状态及优先级

目录 一、进程状态 二、进程优先级 三、Linux内核进程调度队列 一、进程状态 在一般的教科书中,都会对进程有以下的分类: 至于落实到Linux,进程的状态是什么样子的呢? //这是Linux中对进程状态的描述 /* * The task state arra…

【二十七】【QT开发应用】VS如何复制项目,QT无边窗窗口Pro版本,信号与信号槽的应用,背景图片自适应控件大小

VS复制项目 在使用VS的过程中,有的时候我们需要复制我们已经存在的项目. 我们可以先创建一个新的项目. 接着把需要复制的项目的文件复制粘贴到新的项目文件夹中. 不要忘记添加现有项目. CFrameLessWidgetBase.h #pragma once #include <QWidget> class CFrameLessWi…

系统架构设计师④:计算机网络

系统架构设计师④&#xff1a;计算机网络 TCP/IP协议族 模型如下&#xff1a; 常用的协议及端口号&#xff1a; 各个协议能力介绍&#xff1a; TCP与UDP的对比&#xff1a; DNS协议 DSN&#xff1a;域名系统( Domain Name System) 支持两种查询方式 &#xff1a; ①递…

elasticsearch设置账号和密码

1、es安装&#xff0c;挂载路径根据实际情况修改 docker run -d --restart always \ --name es \ -e "ES_JAVA_OPTS-Xms512m -Xmx512m" \ -e "discovery.typesingle-node" \ -e "TZAsia/Shanghai" \ -v /mnt/data/efk/es/data:/usr/share/elast…

uniapp使用字体图标 ttf svg作为选项图标,还支持变色变图按

在staic目录下有一些ttf文件&#xff0c;如uni.ttf&#xff0c;iconfont.ttf 这些文件中保存这字体svg的源码们&#xff0c;我们也可以在网上找其他的。这些就是我们要显示的突图标的 显示来源。这样不用使用png图标&#xff0c;选中不选中还得用两个图片 我的具体使用如下 &q…

新手教学系列——用 VSCode 实现高效远程开发

随着软件开发环境日益复杂,远程开发已成为许多开发者的日常工作方式。尤其当项目需要直接在服务器上运行或本地计算资源有限时,能够使用一款便捷、强大的工具至关重要。在众多 IDE 中,VSCode 因其轻量、灵活且支持丰富插件,成为远程开发的理想选择。本文将详细介绍如何通过…

PasteForm最佳CRUD实践,实际案例PasteTemplate详解之3000问(三)

作为“贴代码”力推的一个CRUD实践项目PasteTemplate,在对现有的3个项目进行实战后效果非常舒服&#xff01;下面就针对PasteForm为啥我愿称为最佳CRUD做一些回答: 哪里可以下载这个PasteForm的项目案例 目前“贴代码”对外使用PasteForm的项目有"贴Builder(PasteSpide…

[云服务器18] 搭建AIGC APP?AI绘图不神秘!

好的这是我的第18篇blog了&#xff01;开心max&#xff01; 那么&#xff0c;这次我们来做些什么呢……&#xff08;思考中&#xff09; 此时的我拿起了手机&#xff0c;打开了某APP&#xff0c;然后赫然出现的广告&#xff1a; 现在是AI的时代&#xff0c;为什么不来学习AIGC…

《开题报告》基于SSM框架的电影评论网站的设计与实现源码++学习文档+答辩讲解视频

开题报告 研究背景 随着互联网技术的飞速发展&#xff0c;网络已成为人们获取信息、交流思想、分享体验的重要平台。在电影产业蓬勃发展的今天&#xff0c;观众对于电影的选择不再仅仅依赖于传统的宣传渠道&#xff0c;而是更加倾向于通过在线平台了解影片内容、观看预告片、…

Mybatis的基本使用

什么是Mybatis&#xff1f; Mybatis是一个简化JDBC的持久层框架&#xff0c;MyBatis是一个半自动化框架&#xff0c;是因为它在SQL执行过程中只提供了基本的SQL执行功能&#xff0c;而没有像Hibernate那样将所有的ORM操作都自动化了。在MyBatis中&#xff0c;需要手动编写SQL语…

第十三章 集合

一、集合的概念 集合&#xff1a;将若干用途、性质相同或相近的“数据”组合而成的一个整体 Java集合中只能保存引用类型的数据&#xff0c;不能保存基本类型数据 数组的缺点&#xff1a;长度不可变 Java中常用集合&#xff1a; 1.Set(集):集合中的对象不按特定方式排序&a…

工具模块及项目整体模块框架

文章目录 工具模块logger.hpphelper.hppthreadpool.hpp 核心概念核心API交换机类型持久化⽹络通信消息应答持久化数据管理中心模块虚拟机管理模块交换路由模块消费者管理模块信道管理模块连接管理模块Broker服务器模块消费者管理信道请求模块通信连接模块项⽬模块关系图 工具模…

ScrapeGraphAI 大模型增强的网络爬虫

在数据驱动的动态领域&#xff0c;从在线资源中提取有价值的见解至关重要。从市场分析到学术研究&#xff0c;对特定数据的需求推动了对强大的网络抓取工具的需求。 NSDT工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线…

电脑出现msvcp140.dll丢失的解决方法,总结6种解决方法

在计算机使用过程中&#xff0c;我们常常会遇到一些错误提示&#xff0c;其中最常见的就是“msvcp140.dll丢失”的错误。这个错误提示通常出现在运行某个程序时&#xff0c;它意味着计算机无法找到所需的msvcp140.dll文件。那么&#xff0c;msvcp140.dll丢失是怎么回事呢&#…