数据库内核那些事|细说PolarDB优化器查询变换:IN-List变换

导读

数据库的查询优化器是整个系统的"大脑",一条SQL语句执行是否高效在不同的优化决策下可能会产生几个数量级的性能差异,因此优化器也是数据库系统中最为核心的组件和竞争力之一。阿里云瑶池旗下的云原生数据库PolarDB MySQL版作为领先的云原生数据库,希望能够应对广泛用户场景、承接各类用户负载,助力企业数据业务持续在线、数据价值不断放大,因此对优化器能力的打磨是必须要做的工作之一。

本系列将从PolarDB for MySQL的查询变换能力开始,介绍我们在这个优化器方向上逐步积累的一些工作。

*本篇为「PolarDB优化器查询变换」系列第四篇,前三篇内容分别解读了:

1. Join消除

2. 窗口函数

3. Join条件下推

引言

PolarDB MySQL作为一款HTAP数据库,在复杂SQL查询优化能力上做了很多深入工作。早期用户SQL都非常简单,MySQL单机能力也有限。随着业务数据越来越多,业务场景越来越复杂,迫切需要越来越强大的数据库来满足统计、报表需求。

PolarDB在并行能力、查询变换能力、优化器等方面都做了非常深入的工作,这些工作有一个总目标:让用户的复杂查询执行得越来越快。本篇文章将对PolarDB的IN-List变换进行深入阐述,从而让我们对PolarDB的查询改写能力有更感性的认知。下面是一个常见的慢SQL:in函数运算,里面的常量比较多。

select        sum(l_extendedprice) / 7.0 as avg_yearly
fromlineitemwherel_partkey in (
9628136,19958441,10528766,.......); #in list里面有上千个常量值。

SQL语句是常见的单表过滤查询,然后进行agg汇总,实际执行耗时比较长,执行比较慢的原因是IN-List里面有上千个常量值。

原生MySQL

原生的MySQL执行计划如下:

+---------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                           |
+---------------------------------------------------------------------------------------------------+
| -> Aggregate: sum(lineitem.L_EXTENDEDPRICE)-> Filter: (lineitem.L_PARTKEY in (9628136,19958441,10528766,....) (cost=60858714.81 rows=297355930)-> Table scan on lineitem  (cost=60858714.81 rows=594711859)
|
+---------------------------------------------------------------------------------------------------+

执行过程是线性scan lineitem 5.9亿条数据,逐条去判断是不是在IN-List里面,这个算子是Item_func_in,in集合元素个数比较多,我们使用10W常量值进行测试,这个算子做求值运算耗时较长,整体完成需要 375s。

具体看下Item_func_in代码执行逻辑:

  • 判断是否可以二分查找,如可以二分查找,将IN-List转成有序数组;
  • 如果产生了有序数组,则执行时优先尝试二分查找;
  • 否则,线性scan,逐一判断左表达式是否等于IN-List里面的item。

可以看到求值逻辑已经是教优的了,这个算子基本没有优化空间了。主要是外层循环次数太多,如果能减少外层的大loop,那么就能降低延时。

PolarDB

PolarDB解决问题的思路是对该SQL做查询变换, 把IN-List转变成一张物化表,加入join list,具体变换过程如下:

Step 1:转成in子查询,上述SQL改写为

select ... from lineitem where l_partkey in (...)
====>
select ... from lineitem where l_partkey in (select dt._col_1 from (values (9628136),(19958441),...) dt)

Step 2:SubQuery Unnest-消除子查询

子查询已经是非相关的,通过SU技术,可以消除子查询,转化为semi-join。物化表经过去重,并且Join列非空,进而可以转化为inner-join。

SQL将继续改写为:

====>
select ... from lineitem, (values (9628136),(19958441),...) dt) where l_partkey = dt._col_1

通过这种变换能到得如下好处:

不用逐条去做filter,因为MySQL执行器是火山模型,增加了一个filter算子就增加了一层虚函数调用;

Join有join buffer,可以一个batch一个batch参与Join,这是转成join list的一个好处;

转成join list,join的优化非常多,如join order&access path,总能选到更优plan。

最后执行的plan如下:

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| EXPLAIN                                                                                                                                                                                                                                                                                                                                                                 |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| -> Aggregate: sum(lineitem.L_EXTENDEDPRICE)-> Nested loop inner join-> Table scan on dt-> Materialize with deduplication-> scan on in-list: 100000 rows-> Index lookup on lineitem using LINEITEM_FK2 (L_PARTKEY=dt._col_1), with index condition: (lineitem.L_PARTKEY = dt._col_1)  (cost=7.34 rows=29)

物化表数据量少,作为外表,inner-join成功使用lineitem索引,只要扫10万条物化表记录,然后再使用LINEITEM_FK2索引进行连接,整条SQL执行下来只需要32s。

测试效果

PolarDB IN-List优化后在 TPCH 100G 数据集上比原生方式提升11.5倍,又因为PolarDB支持并行查询,32并行度模式下提升上百倍。

image.png

总结

原理上,PolarDB做完IN-List转换为Join-List后,能得到如下两方面的提升:

  • IN-List里面的常量都经过物化去重,基数可能会有不小的下降,这取决于重复值;
  • IN-List消去,变成了一张物化表,参与Join-List后,有更多access path选择,比如选择更好的index,更多的Join方式:hash join还是nest loop join。

细微之处见真功夫,做IN-List转换还要完成其他工作,如需要适配prepare statement协议、适配并行查询协议等,PolarDB在云数据库市场能做到特性遥遥领先,离不开背后工程师们坚持客户价值第一的初心,后续我们将介绍更多查询改写相关内容,敬请期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233300.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

golang生成12个月

// GetMonthTimeCycle 获取月份周期 // 参数 year 年份 func GetMonthTimeCycle(year int) (*[]TimeCycle, error) {var yearstart time.Timevar start time.Timevar end time.Timevar no intvar name stringvar loc, err time.LoadLocation("Local")if err ! nil {…

CentOs搭建Kafka集群

Centos7搭建Kafka集群 一、集群规划二、环境准备三、安装kafka集群1、下载kafka安装包2、解压3、配置环境变量4、编辑配置文件①修改broker.id②配置kafka运行日志路径③配置Zookeeper集群地址 5、启动集群6、测试kafka①、创建topic②、查看当前服务器中的所有topic③、生产者…

MySQL复习汇总(图书管理系统)

MySQL图书管理系统(49-94)源码_71.备份book数据库到e盘的mybook.sql文件(备份文件中要求包含建库命令)-CSDN博客 CROSS JOIN:交叉连接(笛卡尔积) -- 1、 创建一个名称为book的数据库。 -- 2、 打开book数据库…

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展,人类越来越依赖计算机和电子设备进行文件管理。在这个过程中,经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式,也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

建筑模板每平方价格怎么算?

在建筑行业中,建筑模板是一种常用的辅助材料,主要用于浇筑混凝土时形成所需的结构形状。了解建筑模板的定价方式对于预算控制和成本估算至关重要。本文将详细介绍建筑模板每平方米价格的计算方法。 1. 建筑模板的类型和特点建筑模板的种类繁多&#xff0…

YogaPro 16s 安装Ubuntu23.04 教程

一、 制作启动盘 官网下载Ubuntu23.04镜像,安装rufus软件,按照下图设置相应格式,然后点击开始即可 二、 磁盘空间分配 流程: 此电脑右键管理 -> 选择磁盘管理 -> 选中D盘 -> 压缩卷 -> 选择需压缩的内存即可 三、…

“火火的”动态(myBlink of csdn)

集结我的人气Blink索引列表,Python脚本自动生成于2024年01月06日。 生成本篇笔记Html超文本的Python脚本源码地址:https://blog.csdn.net/m0_57158496/article/details/135415239#codes (本笔记适合初通Python,熟悉六大基本数据类型(str字符串…

原子操作类原理剖析

UC包提供了一系列的原子性操作类,这些类都是使用非阻塞算法CAS实现的,相比使用锁实现原子性操作这在性能上有很大提高。 由于原子性操作类的原理都大致相同,所以只讲解最简单的AtomicLong类的实现原理以及JDK8中新增的LongAdder和LongAccumu…

Django 10 表单

表单的使用流程 1. 定义 1. terminal 输入 django-admin startapp the_14回车 2. tutorial子文件夹 settings.py INSTALLED_APPS 中括号添加 "the_14", INSTALLED_APPS [django.contrib.admin,django.contrib.auth,django.contrib.contenttypes,django.contrib…

服务器故障与管理口与raid

一,服务器常见故障 1,系统不停重启进入不了系统 排查是否是硬件故障,系统盘是否损坏(硬盘灯红色,黄色,绿色) 查看系统第一启动项是那种方式(硬盘 网络网卡 光驱 U盘) bios 是否双系统&#x…

鉴源论坛 · 观模丨浅谈Web渗透之信息收集(下)

作者 | 林海文 上海控安可信软件创新研究院汽车网络安全组 版块 | 鉴源论坛 观模 社群 | 添加微信号“TICPShanghai”加入“上海控安51fusa安全社区” 信息收集在渗透测试过程中是最重要的一环,“浅谈web渗透之信息收集”将通过上下两篇,对信息收集、…

ChatGPT学习笔记——大模型基础理论体系

1、ChatGPT的背景与意义 近期,ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力, 它可以极好的理解用户意图,真正做到多轮沟通,并且回答内容完整、重点清晰、有概括、有条理。 ChatGPT 是继数据库和搜索引擎之后的全新一代的 “知识表示和调用方式”如下表所示。 …

Pytest自动化测试框架

1、pytest简介 pytest是Python的一种单元测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,效率更高。 执行测试过程中可以将某些测试跳过,或者对某些预期失败的case标记成失败能够支持简单的单元…

技术学习周刊第 1 期

2018 年参与过 1 年的 ARTS 打卡,也因为打卡有幸加入了 MegaEase 能与皓哥(左耳朵耗子)共事。时过境迁,皓哥已经不在了,自己的学习梳理习惯也荒废了一段时间。 2024 年没给自己定具体的目标,只要求自己好好…

vueRouter 配合 keep-alive 不生效的问题

文章目录 问题说明案例复现demo 结构问题复现和解决 其实这个不生效的问题根本也不算一个问题,犯的错和写错单词差不多,但是也是一时上头没发现,所以记录一下,如果遇到同样的问题,也希望可以帮助你早点看到这个哭笑不得…

【AI视野·今日NLP 自然语言处理论文速览 第七十期】Thu, 4 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 4 Jan 2024 Totally 29 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Multilingual Instruction Tuning With Just a Pinch of Multilinguality Authors Uri Shaham, Jonathan Herzi…

分类预测 | Matlab实现RP-CNN-LSTM-Attention递归图优化卷积长短期记忆神经网络注意力机制的数据分类预测【24年新算法】

分类预测 | Matlab实现RP-CNN-LSTM-Attention递归图优化卷积长短期记忆神经网络注意力机制的数据分类预测【24年新算法】 目录 分类预测 | Matlab实现RP-CNN-LSTM-Attention递归图优化卷积长短期记忆神经网络注意力机制的数据分类预测【24年新算法】分类效果基本描述模型描述程…

uniapp微信小程序投票系统实战 (SpringBoot2+vue3.2+element plus ) -小程序端TabBar搭建

锋哥原创的uniapp微信小程序投票系统实战: uniapp微信小程序投票系统实战课程 (SpringBoot2vue3.2element plus ) ( 火爆连载更新中... )_哔哩哔哩_bilibiliuniapp微信小程序投票系统实战课程 (SpringBoot2vue3.2element plus ) ( 火爆连载更新中... )共计21条视频…

SpringBoot 中 @Transactional 注解的使用

一、基本介绍 事务管理是应用系统开发中必不可少的一部分。Spring 为事务管理提供了丰富的功能支持。Spring 事务管理分为编程式和声明式的两种方式。本篇只说明声明式注解。 1、在 spring 项目中, Transactional 注解默认会回滚运行时异常及其子类,其它范…

【Leetcode】移除后集合的最多元素数

目录 💡题目描述 💡思路 💡总结 100150. 移除后集合的最多元素数 💡题目描述 给你两个下标从 0 开始的整数数组 nums1 和 nums2 ,它们的长度都是偶数 n 。 你必须从 nums1 中移除 n / 2 个元素,同时从 …