Hive工作所遇问题之Hive -e命令中使用正则表达式问题

前言

今天工作因为之前建表时,看不到数据,导致建表的字段格式有问题,然后使用split函数拆分时,发现是正则表达式使用的问题。

下面来说明问题

一、数据准备

--创建码表:
create table hive_sql.d_type(
type_id string,
type string
)
stored as orc--插入数据:
insert into table hive_sql.d_type
select '1','居民身份证' union  all
select '10','居民户口簿' union  all
select '11','驾驶证' union  all--创建建表有问题的表:types 应该是字符串,但因为以前系统的人使用的浮点型
create table hive_sql.agent_type(
name string,
types decimal(22,3)
)
stored as orc--插入数据
insert into table hive_sql.agent_type
select '张三',1
union all
select '李四',1

二、问题复现及解决方案

2.1、问题复现

2.1.1、源库(历史库)查询及问题说明

注:因为时间有限,就使用Hive中的表模拟

 

因为这个涉及到自动类型转换的问题,所以历史库或者Hive中都没有出现问题。但是实际工作过程中数据库的查询引擎是Impala,因为a表的types字段和b表的type_id类型不一致,必须使用cast转换,所以处理下面的问题:

types是1.000和1不匹配,导致张三和李四的证件类型都取不到,只能拆分:

这个能取到,没有任何问题,但是生产上用的是Hive -e的方式执行:

bin/hive -e "select a.name,b.typefrom (select a.*,split(cast(a.types as string),'\\.')[0] types_newfrom hive_sql.agent_type a) aleft join hive_sql.d_type bon a.types_new = b.type_id"

结果如下:证件类型又取不到了

 

2.2、问题原因说明

Hive 是基于 Java 的,而 Java 字符串中反斜杠 \ 本身需要转义。因此在 Hive 中,要表示正则表达式的 \\.,需要写成 \\\\.

当通过 hive -e 在命令行中执行时,Shell 会先解析参数中的引号和反斜杠。如果直接在 Shell 中写 \\.,Shell 会将其解析为 \.(实际传递到 Hive 的参数会丢失一个反斜杠)。因此需要额外增加一层转义:

  • 在 Shell 中,\\\\. → 实际传递给 Hive 的字符串是 \\. → 在 Hive 中解析为 \. → 正则引擎最终视为 . 的转义。

修正后的逻辑:

bin/hive -e "select a.name,b.typefrom (select a.*,split(cast(a.types as string),'\\\\.')[0] types_newfrom hive_sql.agent_type a) aleft join hive_sql.d_type bon a.types_new = b.type_id"

结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41190.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动化框架的设计与实现

一、自动化测试框架 在大部分测试人员眼中只要沾上“框架”,就感觉非常神秘,非常遥远。大家之所以觉得复杂,是因为落地运用起来很复杂;每个公司,每个业务及产品线的业务流程都不一样,所以就导致了“自动化…

如何防止用户大量使用同一用户名恶意攻击

如何防止用户大量使用同一用户名恶意攻击? 在数据库层兜底 使用redisson分布式锁 当用户第一次在毫秒级别使用大量的请求去注册 由于布隆过滤器中还没没有缓存这些数据 大量请求打在数据库上可能会造成数据库宕机 因此可以使用reddison分布式锁来保证只有一个…

超详细docker部署搭建私有仓库harbor

一、安装docker 确保你的服务器上已经安装了 Docker 如果没有安装,按以下方法安装 yum install -y yum-utils yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo yum install docker-ce docker-ce-cli containerd.io 启动d…

541. 反转字符串 II

541. 反转字符串 IIhttps://leetcode.cn/problems/reverse-string-ii/ 给定一个字符串 s 和一个整数 k,从字符串开头算起,每计数至 2k 个字符,就反转这 2k 字符中的前 k 个字符。 如果剩余字符少于 k 个,则将剩余字符全部反转。…

力扣HOT100之普通数组:53. 最大子数组和

这道题目我用贪心做的,感觉用贪心的思路比较简单,以后要是面试碰到这道题就直接用贪心好了,这道题用贪心的核心思想就是不断将数组元素i加入总和sum,如果sum比当前维护的最大值result更大,说明当前遍历到的i是正数&…

muduo库的思路梳理

前言 对于muduo库源码的剖析我发现还是有些混乱的,所以这里再次梳理一下muduo网络库争取可以简单明了 首先对于muduo库来说,不能想的得太过于复杂,它无非就是一个线程池加上epoll组成的网络库 这里我们从用的角度出发理解muoduo网络库 #inc…

【C语言系列】数据在内存中存储

数据在内存中存储 一、整数在内存中的存储二、大小端字节序和字节序判断2.1什么是大小端?2.2练习2.2.1练习12.2.2练习22.2.3练习32.2.4练习42.2.5练习52.2.6练习6 三、浮点数在内存中的存储3.1练习3.2浮点数的存储3.2.1 浮点数存的过程3.2.2 浮点数取的过程 3.3题目…

C++学习之网盘项目单例模式

目录 1.知识点概述 2.单例介绍 3.单例饿汉模式 4.饿汉模式四个版本 5.单例类的使用 6.关于token的作用和存储 7.样式表使用方法 8.qss文件中选择器介绍 9.qss文件样式讲解和测试 10.qss美化登录界面补充 11.QHTTPMULTIPART类的使用 12.文件上传协议 13.文件上传协议…

多模态自动驾驶混合渲染HRMAD:将NeRF和3DGS进行感知验证和端到端AD测试

基于3DGS和NeRF的三维重建技术在过去的一年中取得了快速的进步,动态模型也变得越来越普遍,然而这些模型仅限于处理原始轨迹域内的对象。 HRMAD作为一种混合方案,将传统的基于网格的动态三维神经重建和物理渲染优势结合,支持在任意…

质检LIMS系统在食品生产加工企业的应用 如何保证食品生产企业的安全

在食品生产加工领域,质量安全是贯穿全产业链的生命线。随着《食品安全法》对全过程追溯要求的深化,传统实验室管理模式已难以满足高效、精准的质量管控需求。质检实验室信息管理系统(LIMS)作为数字化升级的核心工具,正…

树莓派超全系列文档--(8)RaspberryOS实用程序

RaspberryOS实用程序 实用程序kmsprintvclogvcgencmdvcosversionget_throttledmeasure_tempmeasure_clock [clock]measure_volts [block]otp_dumpget_config [configuration item|int|str]get_mem typecodec_enabled [type]mem_oommem_reloc_statsread_ring_osc 文章来源&#…

解锁DeepSeek潜能:Docker+Ollama打造本地大模型部署新范式

🐇明明跟你说过:个人主页 🏅个人专栏:《深度探秘:AI界的007》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是Docker 2、什么是Ollama 二、准备工作 1、操…

文件上传绕过的小点总结(6)

14.文件上传(文件包含漏洞)二次渲染 很多服务器为了防止代码嵌入图片,通常会将上传的图片进行重新生成处理,包括文件格式转换等等,嵌入的恶意代码很容易被改掉。于是产生了二次渲染,二次渲染的原理就是找到…

x-cmd install | Wuzz - Web 开发与安全测试利器,交互式 HTTP 工具

目录 安装配置快捷键上下文相关搜索待办事项 在 Web 开发和安全测试中,我们经常需要检查和修改 HTTP 请求。浏览器自带的开发者工具虽然好用,但复制出来的 cURL 命令冗长且难以编辑。今天要介绍的是 Wuzz,一款交互式命令行 HTTP 工具&#xf…

python --face_recognition(人脸识别,检测,特征提取,绘制鼻子,眼睛,嘴巴,眉毛)/活体检测

dlib 安装方法 之前博文 https://blog.csdn.net/weixin_44634704/article/details/141332644 环境: python3.8 opencv-python4.11.0.86 face_recognition1.3.0 dlib19.24.6人脸检测 import cv2 import face_recognition# 读取人脸图片 img cv2.imread(r"C:\Users\123\…

搭建k8s集群的可观测体系(log和metric)(已踩完坑)

Loki是日志聚合系统,属于云原生技术,由Grafana Labs开发。它专注于轻量级和高效的日志管理,特别是适合Kubernetes环境。而Prometheus-operator则是用来管理Prometheus监控系统的,简化部署和配置,处理监控数据,尤其是指标(metrics)的收集和告警。 本片文档踩坑结束,使用…

Mybatis配置文件解析(详细)

引言 在了解Mybatis如何帮助客户进行数据的存取后,便对Mybatis的配置文件起了兴趣,在查阅官方文档后,总结了平时能用到的配置,希望能对大家有帮助 1.核心配置文件 主要是指Mybatis-config.xml中 其包含了会深深影响Mybatis行为…

技术迭代、流量困境与营销突破:基于开源AI大模型与S2B2C模式的创新路径研究

摘要:在技术指数级迭代与流量红利消退的双重背景下,营销领域面临边际效应递减与竞争升级的双重挑战。本文基于"开源AI大模型""AI智能名片""S2B2C商城""小程序源码"等创新工具,探讨营销范式转型的路径…

针对stm32F103C8t6芯片调节USB串口的经验

1、首先这是自己手搓的板子,对于之前一直没有了解过USB这方面,则这个针对USB部分没有设计上拉电阻,造成不管怎么调节PC端都没有反应。 图一 这个没有添加1.5K电阻 这个D+位置应该再接一个1.5KR的电阻如图2所示 图2 这样调节的话PC端就可以识别到USB串口,但是这是串口还是会…

数据库和安装配置MySQL笔记(2)

1. 什么是数据库? 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。它通过系统化的方法,帮助用户高效地存储、检索和管理数据。 2. 常见数据库类型 关系型数据库(如 MySQL、PostgreSQL、Oracle&#…