【踩坑】hive脚本笛卡尔积严重降低查询效率问题

【踩坑】hive脚本笛卡尔积严重降低查询效率问题

news/2025/1/3 5:28:32/文章来源:https://blog.csdn.net/zzzgd_666/article/details/133741381

前一阵子查看我们公司的大数据平台的离线脚本运行情况, 结果发现有一个任务居然跑了一天多, 要知道这还只是几千万量级的表, 且这个任务是每天需要执行的

于是我把hive脚本捞出来看了下, 发现无非多join了几个复杂的子查询, 应该不至于这么久, 包括我又检查了是不是没有加上每日分区的筛选条件

在反反复复测试调整以后, 我发现问题出在这里:

隐式join的时候顺序问题会导致错误的笛卡尔积(不确定什么版本hive)
假如t1和t2关联,t2和t3关联, 但是如果写成了from t1,t3,t2比如下面这样, 就会造成t1和t3直接笛卡尔积, 再和t2笛卡尔积, 再where筛选

-- 
select x
from t1,t3,t2
where t1.id = t2.t1_id 
and t2.id = t3.t2_id

比如t1,t2,t3表都是1000, 彼此关联的是10条, 则按常理应该是t1和t2筛选和关联后得到临时表10条, 然后这10条再和t3进行10*1000筛选和关联.

但是根据explain解释执行, 貌似hive会将上面的直接1000* 1000*1000 可想而知这个效率会是怎么样
在这里插入图片描述

最后改为正确的顺序, 从1天多变成了二几分钟.搞定
在这里插入图片描述

结论

hive这个不知道是不是bug, 也可能后续会修复, 但是保险起见最好按表的关联顺序来写
建议用显式join查询
写完hive脚本测试跑一次看看效率,不确定就explain

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/157861.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

微信小程序在bindscroll事件中监听scroll-view滚动到底

微信小程序在bindscroll事件中监听scroll-view滚动到底

scroll-view其实提供了一个 bindscrolltolower 事件这个事件的作用是直接监听scroll-view滚动到底部但是总有不太一样的情况公司的项目 scroll-view 内部最下面有一个类名叫 bottombj 的元素我希望滚动到这个 bottombj 上面的时候就开始加载滚动分页简单说 bottombj这…

阅读更多...

dockerfile 搭建lnmp+wordpress，docker-compose搭建lnmp+wordpress

dockerfile 搭建lnmp+wordpress，docker-compose搭建lnmp+wordpress

目录 dockerfile 搭建lnmpwordpress 部署nginx（容器IP 为 172.18.0.10） 部署mysql（容器IP 为 172.18.0.20） 部署php（容器IP 为 172.18.0.30） docker-compose搭建lnmpwordpress dockerfile 搭建lnmpword…

阅读更多...

TCP/IP(十一)TCP的连接管理(八)socket网络编程

TCP/IP(十一)TCP的连接管理(八)socket网络编程

一 socket网络编程 socket 基本操作函数 bind、listen、connect、accept、recv、send、select、close 说明: 本文需要C语言、syscall系统调用、OS 操作系统基础理论,如果不了解可以暂时跳过目标： 知道对应库函数的更底层机制思考： socket函数与FIN、A…

阅读更多...

VSCode怎么创建Java项目

VSCode怎么创建Java项目

首先安装好Java的开发环境：JDK在VSCode中安装适用于Java开发的插件。打开VSCode，点击左侧的扩展图标，搜索并安装Java Extension Pack插件。等待安装完成后，重启VSCode生效。创建一个新的Java项目，按下Ctrl Shift P&a…

阅读更多...

微软和OpenAI正在开发AI芯片，并计划下个月发布

微软和OpenAI正在开发AI芯片，并计划下个月发布

今年初，Chat**引起了无数网友关注，一度成为了热门话题。这是由人工智能研究实验室OpenAI开发的一款聊天机器人模型，也称为一种人工智能（AI）技术驱动的自然语言处理工具。能够通过学习和理解人类的语言来进行对话&#…

阅读更多...

[华为杯研究生创新赛 2023] 初赛 REV WP

[华为杯研究生创新赛 2023] 初赛 REV WP

前言一年没打比赛了, 差一题进决赛, REV当时lin的第三个challenge没看出来是凯撒, 想得复杂了, 结果错失一次线下机会 >_< T4ee 动态调试, nop掉反调试代码发现处理过程为置换sub_412F20处理(这里看其他师傅的wp知道应该是rc4, 我是直接en逆的buf字符串中每一位和…

阅读更多...

text-stroke描边

text-stroke描边

text-stroke 描边 css 代码设置基础的样式 -webkit-text-stroke使用webkit内核设置文字描边效果，当文字为透明或者是其它颜色都可以由相同的效果 body {background: linear-gradient(to right, #f3f344, #fd8b18, #f13d39, #90108f); }.out {position: relative;…

阅读更多...

专业音视频领域中，Pro AV的崛起之路

专业音视频领域中，Pro AV的崛起之路

编者按：在技术进步的加持下，AV行业发展得如何了？本文采访了两位深耕于广播电视行业的技术人，为我们介绍了专业音视频的进展：一位冉冉升起的新星：Pro AV以及FPGA在其中发挥的作用。美国，拉斯维加…

阅读更多...

【Java学习之道】GUI开发的基本概念

【Java学习之道】GUI开发的基本概念

引言在这一章，我们将一起走进Java的图形用户界面（GUI）开发的世界。在你阅读完这篇文章后，你将能够了解什么是GUI，以及如何使用Java进行GUI的开发。一、什么是GUI 首先，让我们来解答一个许多初学者都会…

阅读更多...

001flutter基础学习

001flutter基础学习

flutter基础学习参考:https://book.flutterchina.club/chapter1/flutter_intro.html Flutter是谷歌的移动UI框架跨平台: Linux,Android, IOS,Fuchsia原生用户界面:它是原生的,让我们体验更好,性能更好开源免费：完全开源,可以进行商用Flutter与主流框架的对比 Cor…

阅读更多...

BI工具：让数据分析井然有序一望而知

BI工具：让数据分析井然有序一望而知

BI（Business Intelligence）工具是一类专门用于数据分析和决策支持的软件工具。它们能够将企业内部和外部的数据进行整合、处理和可视化，帮助用户从海量数据中获取有价值的见解和洞察，并以直观、易懂的方式展示给决策者和相关人员…

阅读更多...

centos离线安装telnet、traceroute工具

centos离线安装telnet、traceroute工具

安装包下载地址安装包下载地址在这里直接输入包名，筛选系统，根据自己系统版本确定该下哪个包 centos离线安装telnet 准备三个安装包 xinetd-2.3.15-14.el7.x86_64.rpmtelnet-server-0.17-65.el7_8.x86_64.rpmtelnet-0.17-65.el7_8.x86_64.rpm 三个…

阅读更多...

开源数据库MySQL 8.0 OCP认证精讲视频、环境和题库之三选项、变量

开源数据库MySQL 8.0 OCP认证精讲视频、环境和题库之三选项、变量

选项文件：默认/etc/my.cnf 可以通过以下选项，指定选项文件： -defaults-file：指定选项文件例如:mysql--defaults-file/etc/my.cnf -no-defaults：不读任何选项文件，所有选项需要在命令行中指定 -defaults-ex…

阅读更多...

CVE-2020-9483 apache skywalking SQL注入漏洞

CVE-2020-9483 apache skywalking SQL注入漏洞

漏洞概述当使用H2 / MySQL / TiDB作为Apache SkyWalking存储时，通过GraphQL协议查询元数据时，存在SQL注入漏洞，该漏洞允许访问未指定的数据。 Apache SkyWalking 6.0.0到6.6.0、7.0.0 H2 / MySQL / TiDB存储实现不使用适当的方法来设置SQL参…

阅读更多...

appium---如何判断原生页面和H5页面

appium---如何判断原生页面和H5页面

目前app中存在越来越多的H5页面了，对于一些做app自动化的测试来说，要求也越来越高，自动化不仅仅要支持原生页面，也要可以H5中进行操作自动化， webview是什么 webview是属于android中的一个控件，也相当于一…

阅读更多...

Leetcode101.对称二叉树

Leetcode101.对称二叉树

本专栏内容为：leetcode刷题专栏，记录了leetcode热门题目以及重难点题目的详细记录 💓博主csdn个人主页：小小unicorn ⏩专栏分类：Leetcode 🚚代码仓库：小小unicorn的代码仓库🚚 &…

阅读更多...

GraphQL 查询：一个全面指南

GraphQL 查询：一个全面指南

GraphQL GraphQL 是一种 API 查询语言和运行时，用于使用现有数据完成这些查询。它为您的 API 中的数据提供了完整且易于理解的描述，让客户能够准确地询问他们需要什么，更容易随着时间的推移发展 API，并启用强大的开发人员工具。 …

阅读更多...

Linux系统编程_文件编程第1天：打开、写入、读取、关闭文件等编程

Linux系统编程_文件编程第1天：打开、写入、读取、关闭文件等编程

1. 文件编程概述（399.1） 内容超多： 文件系统原理及访问机制文件在内核中的管理机制什么是文件信息节点inode文件的共享文件权限，各种用户对其权限。。。。。。应用为王，如： 账单游戏进度配置文件等关心如…

阅读更多...

Apache Doris 在小鹅通的应用实践

Apache Doris 在小鹅通的应用实践

峰会官网已上线，最新议程请关注：doris-summit.org.cn 点击报名先到先得本文导读： 随着网络直播规模的不断扩大，在线知识服务在直播行业中迎来了广阔的发展机遇。小鹅通作为一家以用户服务为核心的技术服务商，通过多平…

阅读更多...

简单实现一个todoList（上移、下移、置顶、置底）

简单实现一个todoList（上移、下移、置顶、置底）

演示 html部分 <!DOCTYPE html> <html> <head><title>表格示例</title> </head> <body><table border"1"><thead><tr><th>更新时间</th><th>操作</th></tr></thead…

阅读更多...

最新文章

推荐文章