Spark SQL优化：NOT IN子查询优化解决

news/2024/12/24 7:12:56/文章来源:https://blog.csdn.net/zy345293721/article/details/132323557

背景

有如下的数据查询场景。

SELECT  a,b,c,d,e,f
FROM xxx.BBBB
WHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
AND predict_type  
not IN 
( SELECT distinct a FROM xxx.AAAAAWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
)

分析

通过查看SQL语句的执行计划基本就可以判断性能瓶颈所在。

| == Physical Plan ==

BroadcastNestedLoopJoin BuildRight,

Spark SQL的优化器最终将SQL优化为了一个BroadcastNestedLoopJoin。

实际上就是在对JOIN两侧的数据做笛卡尔积运算。时间复杂度为O( $n^{2}$ )，过滤前的结果集行数达到了万亿级别。

优化方法

尝试将NOT IN子查询改写成了LEFT JOIN形式

SELECT  a.*
FROM
(SELECT  a,b,c,d,e,fFROM xxx.BBBBWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}'
) a
LEFT JOIN
(SELECT  cFROM xxx.AAAAWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
) b
ON a.c = b.c 
WHERE b.c is null

执行计划如下:

Filter is null(#391L)

+- SortMergeJoin

可以看到，JOIN方式变成了SortMergeJoin。

SortMergeJoin的原理是对JOIN两侧的数据排序后在做归并。

不妨假设：

排序的时间复杂度为O(nlogn)。
则SortMergeJoin整体的时间复杂度为O(n + nlogn)，依然是百万级数据量的过滤计算。

在数据库查询优化中，"Broadcast Nested Loop Join" 和 "Sort Merge Join" 是两种不同的关联操作算法。

Broadcast Nested Loop Join:
在这种连接算法中，一张表被广播到其他所有的节点上，然后与每个节点上的本地数据进行嵌套循环连接。这通常适用于一个小表和一个大表的连接，其中小表的数据可以很容易地广播到所有节点上。

优势:
1. 适用于小表连接：当一个表很小而另一个表很大时，广播小表可以减少网络传输和数据传输开销。
2. 简单性： 实现相对简单，不需要进行大规模数据排序。
3. 内存友好： 不需要大量的内存，因为每次只处理小表的一行。

Sort Merge Join:
这是一种更加通用的连接算法，它不涉及表的广播，而是将连接的列进行排序，然后按照排序结果进行逐对比较，从而执行连接操作。

优势:
1. 适用于大表连接：当两个表的大小都比较大时，Sort Merge Join 可以更好地处理连接操作，因为不需要将整个表广播到各个节点。
2. 高效的顺序访问：由于涉及数据的排序，Sort Merge Join 可以更好地利用磁盘预读，提高磁盘数据访问效率。
3. 稳定性：对于不同数据分布的情况，Sort Merge Join 的性能通常比 Broadcast Nested Loop Join 更稳定。

所以，Broadcast Nested Loop Join 适用于小表和大表之间的连接，而 Sort Merge Join 则更适合连接两个较大的表。但请注意，具体的性能取决于数据分布、硬件配置和数据库管理系统的优化能力。在实际情况中，优化器可能会根据统计信息和其他因素来选择最适合的连接算法。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/93470.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

$rocketMq启动broker报错找不到或无法加载主类 Files\Java\jdk1.8.0_171\lib\dt.jar；C:\Program]$

rocketMq启动broker报错找不到或无法加载主类 Files\Java\jdk1.8.0_171\lib\dt.jar；C:\Program]

假如弹出提示框提示‘错误: 找不到或无法加载主类 xxxxxx’。 1.打开runbroker.cmd 将"%CLASSPATH%"加上英文双引号，切勿别加中文双引号 2.打开runserver.cmd 同理将"%CLASSPATH%"加上英文双引号，切勿别加中文双引号 3.正常执行即…

阅读更多...

图数据库_Neo4j学习cypher语言_使用CQL命令002_删除节点_删除属性_结果排序Order By---Neo4j图数据库工作笔记0006

图数据库_Neo4j学习cypher语言_使用CQL命令002_删除节点_删除属性_结果排序Order By---Neo4j图数据库工作笔记0006

然后我们再来看如何删除节点可以看到首先我们这里比如我要删除张三可以看到 match (n:student) where n.name = "张三" delete n 这样就是删除了student集合中,name是张三的节点然后我们再来看如何来删除关系 match (n:student)-[r]->(m:student) where…

阅读更多...

Android 组件

Android 组件

TextView 文本框用于显示文本的一个控件。文本的字体尺寸单位为 sp 。sp: scaled pixels(放大像素). 主要用于字体显示。文本常用属性属性名说明id为TextView设置一个组件id，根据id，我们可以在Java代码中通过 findViewById()的方法获取到该对象&…

阅读更多...

Python文件操作教程,Python文件操作笔记

Python文件操作教程,Python文件操作笔记

文件的打开与关闭想一想： 如果想用word编写一份简历，应该有哪些流程呢？ 打开word软件，新建一个word文件写入个人简历信息保存文件关闭word软件同样，在操作文件的整体过程与使用word编写一份简历的过程是很相似的…

阅读更多...

基于STM32的ADC采样及各式滤波实现（HAL库，含VOFA+教程）

基于STM32的ADC采样及各式滤波实现（HAL库，含VOFA+教程）

前言：本文为手把手教学ADC采样及各式滤波算法的教程，本教程的MCU采用STM32F103ZET6。以HAL库的ADC采样函数为基础进行教学，通过各式常见滤波的实验结果进行分析对比，搭配VOFA工具直观的展示滤波效果。ADC与滤波算法都是嵌入式较为…

阅读更多...

Camunda 7.x 系列【18】服务任务

Camunda 7.x 系列【18】服务任务

有道无术，术尚可求，有术无道，止于术。本系列Spring Boot 版本 2.7.9 本系列Camunda 版本 7.19.0 源码地址：https://gitee.com/pearl-organization/camunda-study-demo 文章目录 1. 概述2. 代码委托2.1 Java 委托3. 流程建模3.1 基础3.2 实现3.3 结束4. 测试1. 概述用户…

阅读更多...

机器学习终极指南：特征工程（01/2） — 第 -2 部分

机器学习终极指南：特征工程（01/2） — 第 -2 部分

西姆兰吉特辛格一、介绍欢迎来到“机器学习终极指南”的第二部分。在第一部分中，我们讨论了探索性数据分析 （EDA），这是机器学习管道中的关键步骤。在这一部分中，我们将深入研究特征工程，这是机器学习过程…

阅读更多...

自动驾驶——驶向未来的革命性技术

自动驾驶——驶向未来的革命性技术

自动驾驶——驶向未来的革命性技术自动驾驶的组件自动驾驶的优势自动驾驶的应用自动驾驶的未来中国的自动驾驶自动驾驶是一种技术，它允许车辆在没有人类驾驶员的情况下自主地进行行驶。它利用各种传感器、计算机视觉、人工智能和机器学习算法来感知和理解周围环境…

阅读更多...

Java 8：Stream API 流式操作

Java 8：Stream API 流式操作

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ！ Java 8：Stream API Java 8 中的 Stream API 是一组用于对集合数据进行处理的新特性；提供一种以声明式风格对集合进行操作的方式，简…

阅读更多...

Arcgis连续数据的分类（求不同值域的面积）

Arcgis连续数据的分类（求不同值域的面积）

问题描述：如果得到的一个连续的影响数值数据，但是我们想求取某一段值域的面积占比，需要进行以下操作： 1.按照数值重分类，将某段数值变成一个类别 2.栅格转矢量，再求取面积

阅读更多...

GPU Dissolve(GPU 消散)学习GPU Instancing

GPU Dissolve(GPU 消散)学习GPU Instancing

一：摘要通过制作一个模型GPU消散效果来学习GPU Instancing 也就是实例化。目标效果是杨超大佬文章《GPU shatter》里面的消散效果如图： Tags：模型顶点分裂(Mesh Vertex Splitting)， 实例化绘制(GPU Instancing Drawing)&#x…

阅读更多...

在思科（Cisco）路由器中使用 SNMP

在思科（Cisco）路由器中使用 SNMP

什么是SNMP SNMP，称为简单网络管理协议，被发现可以解决具有复杂网络设备的复杂网络环境，SNMP 使用标准化协议来查询网络上的设备，为网络管理员提供保持网络环境稳定和远离停机所需的重要信息。为什么要在思科设备中启用SNMP S…

阅读更多...

网络通信原理IP头部格式（第四十二课）

网络通信原理IP头部格式（第四十二课）

字段作用解析：1）版本: 指的IP地址的版本（IPv4 或 IPV6）2）首部长度: 次数据包的首部长度一共是多少，没有加可选项3）优先级与服务类型:表示****数据包是否需要优选传递4）总长度: 表示的是整个数据包的大小，也就****是首部+数据5）标识符、标志、段偏移量:的作用将拆开的…

阅读更多...

SDK是什么，SDK和API有什么区别

SDK是什么，SDK和API有什么区别

SDK（Software Development Kit）是一种开发工具包，通常由软件开发公司或平台提供，用于帮助开发人员构建、测试和集成特定平台或软件的应用程序。SDK 包含一系列的库、工具、示例代码和文档，旨在简化开发过程并提供所需的…

阅读更多...

RocketMQ 5.1.0 源码详解 | Producer 发送流程

RocketMQ 5.1.0 源码详解 | Producer 发送流程

文章目录初始化DefaultMQProducer实例发送流程DefaultMQProducer#sendDefaultMQProducerImpl#sendMQClientInstance#updateTopicRouteInfoFromNameServer使用特定 topic 获取路由信息使用默认 topic 获取路由信息 DefaultMQProducerImpl#sendDefaultImpl发送流程总结初始化De…

阅读更多...

爬虫逆向实战（十七）--某某丁简历登录

爬虫逆向实战（十七）--某某丁简历登录

一、数据接口分析主页地址：某某丁简历 1、抓包通过抓包可以发现数据接口是submit 2、判断是否有加密参数请求参数是否加密？ 通过查看“载荷”模块可以发现有一个enPassword加密参数请求头是否加密？ 通过查看请求头可以发现有一个To…

阅读更多...

晨光初中生入学必备最全文具清单盘点，这些你入了吗？

晨光初中生入学必备最全文具清单盘点，这些你入了吗？

又是一年开学季，对于即将迈入初中的学生们来说，购买文具是必不可少的，但是市面上的文具太多了，怎么才能选到合适的也是难题。为了帮助大家在新的学期中更好地学习和成长，这份初中生入学必备最全文具清单送给大家。晨…

阅读更多...

无涯教程-Perl - syswrite函数

无涯教程-Perl - syswrite函数

描述此函数尝试将SCALAR中的LENGTH个字节写入与FILEHANDLE相关的文件。如果指定了OFFSET,则从提供的SCALAR中的OFFSET字节中读取信息。该函数使用C /操作系统的write()函数,该函数绕过普通缓冲。语法以下是此函数的简单语法- syswrite FILEHANDLE, SCALAR, LENGTH, OFFS…

阅读更多...

【数据结构】二叉树篇| 纲领思路02+刷题

【数据结构】二叉树篇| 纲领思路02+刷题

博主简介：努力学习的22级计算机科学与技术本科生一枚🌸博主主页： 是瑶瑶子啦每日一言🌼: 所谓自由，不是随心所欲，而是自我主宰。——康德目录一、前言二、刷题1、翻转二叉树 2、二叉树的层序遍历✨3、二…

阅读更多...

django实现文件上传

django实现文件上传

在django中实现文件上传有三种方法可以实现： 自己手动写使用Form组件使用ModelForm组件其中使用ModelForm组件实现是最简单的。 1、自己手写先写一个上传的页面 upload_file.html enctype"multipart/form-data 一定要加这个，不然只会上传文件名…

阅读更多...

最新文章

推荐文章