【hive】HiveSQL中两个json解析函数的使用json路径定位小工具

文章目录

  • 1.HiveSQL中两个json解析函数
    • 1)get_json_object
    • 2)json_tuple
  • 2.json中key所在层级路径定位小工具

关于json: https://blog.csdn.net/atwdy/article/details/124668815

1.HiveSQL中两个json解析函数

1)get_json_object

文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-get_json_object,该函数可以按照层级关系解析出任意层级的key,指定的key不存在时返回null,开发中注意对null值的处理。既可以处理json对象也可以解析json数组。 参数中相关符号的含义如下:
$:代表json的根对象,即传入的json本身。(对象{ },或对象数组[{ }, { }, …])
.:父子层级关系
[]:用于指定对象数组中要解析对象的下标,起始0
*:通配符,用在[]中,表示取[]中所有对象。(通配符个人认为适用的场景为取同一层级所有对象的某个属性时,如果是取所有对象本身,那么直接不加[]也是一样的效果)

demo

-- 测试json
create temporary view test as
select 
'[{"name": "张三","age": 20,"sport": ["篮球", "乒乓球"]},{"name": "李四","age": 20,"sport": ["足球", "羽毛球"]}
]' as json_str;-- 取根对象,也就是传入的json本身
-- [{"name":"张三","age":20,"sport":["篮球","乒乓球"]},{"name":"李四","age":20,"sport":["足球","羽毛球"]}]
select get_json_object(json_str, '$') from test;-- 取根对象数组中的第一个对象:张三
-- {"name":"张三","age":20,"sport":["篮球","乒乓球"]}
select get_json_object(json_str, '$[0]') from test;-- 取根数组中所有对象的年龄,返回值为数组形式的字符串,不去重,忽略null值
-- [20,20]
select get_json_object(json_str, '$[*].age') from test;

2)json_tuple

文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-json_tuple,该函数适用于对传入的json对象一次性解析多个key的场景,如果用get_json_object需要解析多次,该函数只需要解析一次。传入的key不存在时同样返回null。只能提取json根对象的属性key,不能用于提取嵌套json对象的属性或跨多个层级的属性。且只能解析json对象不能解析json数组。

和get_json_object不同的是,get_json_object是一个普通的UDF函数,返回的是一个值。而json_tuple是一个UDTF函数,返回的是一个表,所以开发中为了关联原表相关信息该函数一般需要和lateral view侧视图
https://blog.csdn.net/atwdy/article/details/137614216连用。

demo

-- 测试json
create temporary view test as
select '1' as id, '{"name": "张三", "age": 20, "sport": ["篮球", "乒乓球"]}' as info
union all
select '2' as id, '{"name": "李四", "age": 20, "sport": ["足球", "羽毛球"]}' as info;select * from test;

在这里插入图片描述

select json_tuple(info, 'name', 'age', 'sport') from test;

在这里插入图片描述

lateral view 关联原表信息:

select t1.id,t2.*
from test t1 
lateral view json_tuple(info, 'name', 'age', 'sport') t2 as name, age, sport;

在这里插入图片描述

官网中只说了需要通过lateral view关联原表信息,但实际测试中发现select id, json_tuple(info, 'name', 'age', 'sport') as (name, age, sport) from test;这种语法格式也能输出上图结果。虽然逻辑上理解并不矛盾,尽管该UDTF返回的是个表,但一行输入只会对应一行输出,只是输出的字段可能是多个,并不像explode那样返回的是多行。所以不会出现一行输入对应多行输出的情况。但官方文档中没有提到这种语法,为了准确还是按照侧视图实现比较稳妥。

2.json中key所在层级路径定位小工具

对于一个复杂的json串,解析某个key时人工查找该key所在路径效率低也容易出错,下面代码可以快速找到指定key第一次出现时所在的层级路径:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-
"""
@desc: 查找json中key第一次出现时的所在层级路径,key不存在返回None
@time: 2024/8/4 01:52
"""import jsondef find_path(json_obj, key, path=None):if path is None:path = []if isinstance(json_obj, dict):if key in json_obj:return path + [key]for k, v in json_obj.items():p = find_path(v, key, path + [k])if p is not None:return pelif isinstance(json_obj, list):for i, v in enumerate(json_obj):p = find_path(v, key, path + [str(i)])if p is not None:return preturn Noneif __name__ == '__main__':json_file = r'./data.json'with open(json_file, 'r', encoding='utf8') as fin:json_obj = json.load(fin)path = find_path(json_obj, key='broadcast_desc')print(path)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391626.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言程序设计-[3] 运算符和表达式

C语言的运算符也存在优先级和结合性的概念,在同一表达式中,优先级高的先结合,优先级相同时,就需要考虑结合性(分为左结合性和右结合性——对于单目、三目和赋值运算符表达式,从右至左运算;其他运算符表达式…

【Mind+】掌控板入门教程04 迷你动画片

还记得小时候每天放学必看的动画片吗?还记得那些年陪伴我一起长大的卡通人物吗?勇救爷爷的葫芦娃,我们的朋友小哪吒,相信这些经典的动画形象已经成为了一代人童年的美好回忆。今天就让我们用掌控板来制作一部迷你动画片吧。 项目示…

什么是云原生?

1. 前言 停下手头的工作,让你的同事定义“云原生”一词。你很可能会得到几个不同的答案。 1.1 让我们从一个简单的定义开始: 云原生架构和技术是一种设计、构建和操作在云中构建并充分利用云计算模型的工作负载的方法。 1.2 云原生计算基金会给出了官方…

Godot的节点与场景

要深入的理解节点与场景,我们需要跳出这两个概念来看他。说的再直白一些godot本质就是一个场景编辑器! 场景的概念应该在我们平时看电影看电视时会经常提到,比如某一个打斗的场景,这个场景可能会被设在某一个街道,那么…

数据湖之Hudi

Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个用于管理大规模数据湖的开源框架,旨在高效地进行数据的插入、更新和删除操作,并支持流式数据的处理。Hudi 的设计目标是解决传统数据湖在数据管理和查询性能上的不足&…

如何将本地代码上传到github

将本地文件上传到GitHub仓库的过程通常包括以下几个步骤: 一 创建GitHub仓库: 如果你还没有一个GitHub仓库,首先需要在GitHub上创建一个新的仓库。登录到你的GitHub账户,然后点击“New repository”按钮,填写仓库的相关…

oracle(19c)用户管理

简介 本文介绍 Oracle 中的用户管理,包含以下内容: 概念介绍 系统用户 解锁 hr 用户 创建用户 用户相关案例 使用 Profile 管理用户口令 Oracle 的认证方式 重置管理员(sys)密码 1. 概念介绍 Oracle 中可以创建多个 Database 实例,…

(STM32笔记)九、RCC时钟树与时钟 第一部分

我用的是正点的STM32F103来进行学习,板子和教程是野火的指南者。 之后的这个系列笔记开头未标明的话,用的也是这个板子和教程。 九、RCC时钟树与时钟 九、RCC时钟树与时钟1、时钟树HSE时钟HSI时钟锁相环时钟系统时钟HCLK时钟PCLK1时钟PCLK2时钟RTC时钟独…

后端学习笔记(3)--Maven

1.Maven ​ *专门用于管理和构建Java项目的工具,主要功能有: ​ 1.提供了一套标准化的项目结构 ​ 2.提供了一套标准化的构建流程(编译,测试,打包,发布) ​ 3.提供了一套依赖管理机制 1.简介 ​ *Apache Maven是一…

服务器自动部署网络安装环境

实验环境 rhel7:IP地址为172.25.254.200、主机名为node1.rhel7.org 实验配置 一.kickstart自动安装脚本制作 1.安装图形化生成kickstart自动安装脚本的工具 [rootnode1 ~]# yum install system-config-kickstart 2. 启动图形制作工具 [rootnode1 ~]# system-…

【网络编程】网络原理(一)

系列文章目录 1、 初识网络 2、网络编程的基础使用(一) 文章目录 系列文章目录前言一、端口号的使用二、UDP报文学习1.报文格式2.MD5算法 总结 前言 在前文中,主要对UDP和TCP协议有了简单的了解,而这两种协议是负责传输层的内容…

部署k8s+conatinerd环境

1、准备系统环境 禁用默认休眠(可选) 禁用:systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target启用:sudo systemctl unmask sleep.target suspend.target hibernate.target hybrid-sleep.target …

美林数据Tempo Talents | 两大资源中心,打造开放、成长型数智人才能力平台

在数字化时代的大潮中,高校作为知识与人才培养的重要阵地,独立分散的课程资源管理方式已无法满足现代教育的需求,而数据资源的分散和碎片化也阻碍了科研和教学工作的深入进行。那么,高校如何打造一个集中、高效的课程与数据资源中…

【redis 第五篇章】持久化之AOF和RDB

一、概述 Redis 是内存数据库,如果不能将内存中的数据保存到磁盘中,那么一旦服务器进程退出,数据库中数据会消失,所以 Redis 提供了持久化的功能, Redis 分为两种持久化方式:RDB 和 AOF,有以下几个特点&am…

【Gold菜鸟】Linux知识回忆(8)——进程和计划任务

前言 这部分让我们来继续了解Linux中进程和计划任务的相关知识吧~ 相关技术交流欢迎添加VX: wenjinworkon 目录 进程和内存管理 什么是进程 进程结构 进程相关概念 物理地址空间和虚拟地址空间 用户和内核空间 进程使用内存问题 进程状态 内存淘汰数据机制:…

Meta Reality Labs:巨额亏损背后的挑战与展望

一、财务概况 自2020年以来,Meta的Reality Labs部门累计亏损已超过450亿美元,其中2023年的亏损达到160亿美元,2024年第一季度亏损38亿美元,分析师预计第二季度亏损可能接近50亿美元。尽管投入巨大,Reality Labs的收入却呈现下降趋势,与不断增加的支出形成鲜明对比。 二…

基于人工智能的口试模拟、LLM将彻底改变 STEM 教育

概述 STEM教育是一种整合科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)的教育方法。这种教育模式旨在通过跨学科的方式培养学生的创新能力、问题解决能力…

vue2怎么上传文件夹,并展示文件夹内的图片?

我使用的是element-ui组件库,发现el-upload组件并不能满足需求,于是用原生实现一下,这里贴一下关键代码,如果大家有更好的实现方法,欢迎分享!! 实现效果:

鸿蒙HarmonyOS开发:常用布局及实用技巧

文章目录 一、概述二、盒子模型三、线性布局(Column/Row)1、space属性2、justifyContent属性3、alignItems属性 四、实用技巧1、Blank组件的使用2、layoutWeight属性的使用 一、概述 布局是指对页面组件进行排列和定位的过程,其目的是有效地…

【分隔链表】python刷题记录

R3-双指针&#xff08;快慢指针&#xff09; 新建两个链表 一个链表记录<x的值 一个链表记录>x的值 拼接即可 # Definition for singly-linked list. # class ListNode: # def __init__(self, val0, nextNone): # self.val val # self.next ne…