MySQL连接的原理⭐️4种优化连接的手段性能提升240%

MySQL连接的原理⭐️4种优化连接的手段性能提升240%🚀

前言

上两篇文章我们说到MySQL优化回表的三种方式:索引条件下推ICP、多范围读取MRR与覆盖索引

MySQL的优化利器⭐️索引条件下推,千万数据下性能提升273%🚀

MySQL的优化利器⭐️Multi Range Read与Covering Index是如何优化回表的?

这篇文章我们来聊聊MySQL中连接的原理以及连接的四种优化手段

为了更好的讲述文章内容,我们准备的两张表

一张是ICP文章中用到的学生表,学生表中有联合索引(age,studnet_name)

CREATE TABLE `student` (`id` bigint(20) NOT NULL AUTO_INCREMENT,`student_name` varchar(20) DEFAULT NULL COMMENT '名称',`age` smallint(6) DEFAULT NULL COMMENT '年龄',`info` varchar(30) DEFAULT NULL COMMENT '信息',PRIMARY KEY (`id`),KEY `idx_age_name` (`age`,`student_name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

另一张座位表用于关联学生表,标识某个座位是某个学生的,座位与学生的关系是多对一(比如学生菜菜有多个座位)

CREATE TABLE `seat` (`seat_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '座位ID',`seat_code` char(10) DEFAULT NULL COMMENT '座位码',`student_id` bigint(20) DEFAULT NULL COMMENT '座位关联的学生ID',PRIMARY KEY (`seat_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

连接原理

关联多张表的查询叫做联表查询(联表又叫连接),常见的连接有:左连接、右连接、内连接

在左连接中,left join左边的表为驱动表,右边的表为被驱动表

当发生连接查询时,先在驱动表中开始寻找记录,当找到满足条件的记录,再去被驱动表中寻找满足关联条件on的记录

SELECTs1.*,s2.seat_code 
FROMstudent s1LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%' 
;

比如这个例子中执行流程(1-3是循环的步骤,直到不满足条件):

  1. 先去学生表student的(age,studnet_name)联合索引中寻找满足条件的记录
  2. 拿到这条记录的id去被驱动表seat中找到满足关联条件的记录(ON s1.id = s2.student_id
  3. 将找到的记录放入结果集中,再去循环步骤1

image.png

直到图中第四条记录(18,ddseat,25)不满足查询条件s1.age = 18 AND s1.student_name LIKE 'c%'时则退出循环

连接寻找的过程是不是就像双层for循环一样?驱动表为外层循环,被驱动表为内存循环,伪代码如下:

//驱动表student
for(long studentIndex = initStudentIndex; studentIndex < student.size(); studentIndex++){//如果不满足条件就退出 if(){break;   }    //满足条件就去访问被驱动表seatfor(long seatIndex = initSeatIndex; seatIndex < seat.size(); seatIndex++){//如果不满足条件就退出(继续循环驱动表)if(){break;}//在被驱动表中找到满足关联的条件就加入结果集result.add(XX);}}

通过流程与代码我们可以分析:访问驱动表时,会访问多次被驱动表(驱动表每有一条满足条件的记录就要去访问被驱动表)

因此在设计上应该尽量选择驱动表为小表,用小表驱动大表

当使用内连接时,由优化器决定哪个表是驱动表,哪个表是被驱动表

当两个表时相当于双层循环,三个表时相当于三层循环,联表越多时间复杂度呈指数级别增长,联表的性能开销会非常大

优化连接

如果想要优化联表的开销有什么手段呢?

通过刚刚的分析,我们可以通过减少访问被驱动表的次数、加快查询被驱动表等方面来进行优化连接

索引

说到加快查询速度, 第一个想到的就是建立索引

为被驱动表关联字段加上索引,优化查询被驱动表的速度

以这条SQL为例,就是在seat表中加上(student_id)索引

SELECTs1.*,s2.seat_code 
FROMstudent s1LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%' 
;

当在驱动表中找到记录后,去被驱动表的(student_id)索引寻找满足条件的记录

image.png

被驱动表(student_id)索引会对student_id排序,当student_id相同时对主键seat_id排序

索引student_id有序,等值比较查找会很快,从而优化查询被驱动表的速度

SELECTs1.*,s2.seat_code 
FROMstudent s1left JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%'
> OK
> 时间: 2.063s

执行计划中显示,被驱动表用到student_id索引

image.png

但是还会出现回表的问题,由于(student_id)索引中不存在要查询的seat_code字段,还要回表查询聚簇索引

也可以通过在索引中增加seat_code列使用覆盖索引解决,回表相关知识前两篇文章说过,这里就不过多叙述

Block Nested Loop (BNL)

创建索引是有代价的,不仅查询时需要分析使用哪个索引的成本低,在进行写操作时还要去维护索引

因此并不是每连接一张表就要为被驱动表建立索引,在用不上索引的情况下,该如何优化连接的开销呢?

MySQL提供Block Nested Loop算法对被驱动表无法使用索引的场景,减少访问被驱动表的次数来进行优化

Block Nested Loop 算法是使用一块缓冲池(join buffer)记录满足驱动表的记录,将缓冲池装满后再去被驱动表中寻找

在被驱动表中寻找时,每遍历一条记录就用join buffer中存储的驱动表记录来进行匹配,满足关联条件就放入结果集中

image.png

SET optimizer_switch='block_nested_loop=on'用于开启BNL算法(默认开启)

开启BNL算法耗时5.215s (测试前记得把被驱动表的student_id索引删除)

SET optimizer_switch='block_nested_loop=on'
> OK
> 时间: 0.053sSELECTs1.*,s2.seat_code 
FROMstudent s1left JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%'
> OK
> 时间: 5.215s

执行计划的附加信息说明使用join buffer,算法为BNL

image.png

将BNL算法关闭测试原理中描述的双层循环,耗时12.804s

SET optimizer_switch='block_nested_loop=off'
> OK
> 时间: 0.048sSELECTs1.*,s2.seat_code 
FROMstudent s1left JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%'
> OK
> 时间: 12.804s

执行计划的附加信息中说明没用join buffer

image.png

从原来的满足一条记录就去寻找一遍被驱动表变成收集多条记录后再去访问被驱动表

如果使用的缓存池够大,还可以将驱动表中满足条件的记录装完再去访问被驱动表,相当于只访问一次

join buffer存储需要查询的列和查询条件的列,因此不要使用select *避免浪费join buffer的空间

默认情况下join buffer 占用262144 B(256KB),如果不能使用索引优化连接的情况下,可以把join buffer 设置大一些 set global join_buffer_size = 262144

Batched Key Access (BKA)

在Block Nested Loop 算法是用于优化被驱动表中不能使用索引的场景

而Batched Key Access BKA算法用于优化被驱动表上能使用索引的场景

在驱动表(age,student_name)索引中满足条件的记录,id不一定是有序的,使用乱序的id去被驱动表中查找就可能发生随机IO

BKA算法是基于MRR的,对驱动表结果的id进行排序后,再去被驱动表中查找

image.png

不懂MRR的同学可以查看上篇文章(在文章前言有链接)

由于MySQL对使用MRR的成本太高,如果想使用BKA算法,还需要关闭基于成本判断是否使用MRR

SET optimizer_switch='mrr=on,mrr_cost_based=off,batched_key_access=on';

mrr=on 开启mrr (默认开启)

mrr_cost_based=off 关闭基于成本判断是否使用MRR (默认开启)

batched_key_access 开启BKA (默认关闭)

测试使用BKA算法耗时1.533s

SET optimizer_switch = 'mrr=on,mrr_cost_based=off,batched_key_access=on'
> OK
> 时间: 0.049sSELECTs1.*,s2.seat_code 
FROMstudent s1LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%'
> OK
> 时间: 1.533s

执行计划中显示,驱动表使用MRR,被驱动表使用student_id索引和BKA算法

image.png

hash join

关联条件往往是等值比较的

散列表(哈希表)是一种非常适合寻找等值比较的数据结构

在MySQL高版本中8.0默认使用 hash 的 join buffer,通过空间换时间的方式来加速查找被驱动表

image.png

测试总结

本篇文章使用该SQL对多种优化连接的方式进行测试并将结果进行汇总分析其特点(暂时还没测试hash join)

SELECTs1.*,s2.seat_code 
FROMstudent s1LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHEREs1.age = 18 AND s1.student_name LIKE 'c%' 
;
方式耗时(单位:秒)优点缺点
无优化的嵌套循环查询12.804好像没有优点...逻辑清晰算吗时间复杂度指数级别,特别慢
使用BNL算法的join buffer优化5.215使用join buffer减少访问被驱动表次数增加join buffer缓冲池的开销
被驱动表增加索引2.063往被驱动表关联条件的列建立索引,将查询关联条件从无序查询优化为有序查询由于ID无序查询被驱动表会出现随机IO
使用BKA算法优化1.533s使用BKA算法将访问被驱动表索引的随机IO转换成顺序IO需要被驱动表建立索引和使用MRR,默认情况下使用MRR成本估算很大

默认情况下就算不用索引也不会使用无优化的嵌套查询,最少也是使用Join Buffer 5.215s

为被驱动表关联列增加索引后,相比于Join Buffer查询性能提升近150%

使用BKA算法优化后查询速度达到1.533s,相比于Join Buffer查询性能提升近240%

总结

连接的原理就是循环嵌套查询,根据驱动表满足查询条件的记录数量去多次访问被驱动表,因此连接时需要小表驱动大表;内连接Inner Join由优化器来选择驱动表

多表连接的时间复杂度呈指数级别,开销非常大,通过减少访问被驱动表数量、加速访问被驱动表等方面进行优化

在被驱动表使用不到索引的场景下,会使用缓冲池Join Buffer的BNL算法来存储驱动表满足条件记录,相当于多条记录一起访问被驱动表,以此来减少访问被驱动表次数

Join Buffer中存储查询需要的列和查询条件的列,因此不要使用select *避免浪费Join Buffer,在不能使用索引的场景下可以增大Join Buffer的空间

为被驱动表关联条件的列建立索引可以加快访问被驱动表,将访问被驱动表聚簇索引的无序查询优化为二级索引的有序查询,但满足条件的驱动表记录中关联条件的列并不一定有序,来查被驱动表时可能是随机IO

BKA算法基于被驱动表的关联条件列建立索引和使用MRR,以此对驱动表中满足条件的列排序,将访问被驱动表时的随机IO优化为顺序IO

默认下BKA算法不开启并且MRR预估成本较大,如果确认访问被驱动表时的随机IO开销太大,可以关闭基于成本使用MRR和开启BKA算法

在MySQL 8.0高版本中Join Buffer默认使用hash join,由于关联条件常是等值比较,数据结构哈希表非常适合这种场景下的查询

最后(不要白嫖,一键三连求求拉~)

本篇文章被收入专栏 由点到线,由线到面,构建MySQL知识体系,感兴趣的同学可以持续关注喔

本篇文章笔记以及案例被收入 gitee-StudyJava、 github-StudyJava 感兴趣的同学可以stat下持续关注喔~

有什么问题可以在评论区交流,如果觉得菜菜写的不错,可以点赞、关注、收藏支持一下~

关注菜菜,分享更多干货,公众号:菜菜的后端私房菜

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/177019.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

黄金矿工小游戏

欢迎来到程序小院 黄金矿工 玩法&#xff1a;点击开始游戏&#xff0c;黄金和钩子&#xff0c;钩子会左右摆动&#xff0c;对准黄金位置点击鼠标左键钓起黄金加对应时间&#xff0c;钓起黑色四块减去响应时间&#xff0c;快去挖矿吧^^。开始游戏https://www.ormcc.com/play/ga…

主播直播美颜SDK:提升颜值的秘诀

当下&#xff0c;主播们往往依赖于主播直播美颜SDK&#xff0c;这个技术工具为他们提供了一个让自己看起来更好看的机会。本文将深入探讨主播直播美颜SDK的工作原理、应用和影响&#xff0c;揭示提升颜值的秘诀。 一、主播直播美颜SDK是什么&#xff1f; 主播直播美颜SDK是一…

Latex排版SIGGRAPH总结(持续总结中...)

本文学习总结自&#xff1a;How to use the ACM SIGGRAPH / TOG LaTeX template 相关文件&#xff1a;百度网盘 首先解压 “my paper” 中的文件&#xff0c;并用Latex打开mypaper.tex. 多行连等公式 \begin{equation}表示编号公式&#xff0c;\[ \]表示无编号公式 无编号\b…

JMeter:断言之响应断言

一、断言的定义 断言用于验证取样器请求或对应的响应数据是否返回了期望的结果。可以是看成验证测试是否预期的方法。 对于接口测试来说&#xff0c;就是测试Request/Response&#xff0c;断言即可以针对Request进行&#xff0c;也可以针对Response进行。但大部分是对Respons…

精益制造的工具与方法有什么区别?ECRS工时分析软件的功能和价值

精益制造是一套价值创造系统&#xff0c;它强调在生产过程中减少浪费、提高效率和质量&#xff0c;从而实现持续改进和优化。在精益制造的理念下&#xff0c;企业需要运用一系列的工具和方法来提升生产管理水平。这些工具和方法不仅包括传统的精益工具&#xff0c;如5S、持续改…

三.RocketMQ单机安装及集群搭建

RocketMQ单机安装及集群搭建 一&#xff1a;安装环境1.软硬件要求2.下载RocketMQ 二.安装单机MQ1.上传并解压2.目录介绍3.修改MQ启动时初始JVM内存4.启动NameServer与Broker5.测试RocketMQ 三.RocketMQ集群搭建1.集群概念特点2.集群模式分类3.集群工作流程4.双主双从集群搭建4.…

X64(64位)汇编指令与机器码转换原理

X64&#xff08;64位&#xff09;汇编指令与机器码转换原理 1 64位寻址形式下的ModR/M字节1.1 寻址方式1.2 寄存器编号 2 汇编指令转机器码2.1 mov rcx, 1122334455667788h2.2 mov rcx,[r8]与mov [r8],rcx2.3 mov rcx,[r8r9*2] 本文属于《 X86指令基础系列教程》之一&#xff…

Uniapp开发的开源盲盒系统源码

最近比较火的盲盒系统&#xff0c;该项目是基于uniapp开发的盲盒项目&#xff0c;有需要的朋友可以联系我&#xff0c;运营级的项目&#xff0c;本次开源的是uniapp前端模板&#xff0c;选用技术为JAVA&#xff0c;采用框架&#xff1a;spring bootmybatisvue开发。 通过node安…

Javassist讲解1(介绍,读写字节码)

Javassist讲解1&#xff08;介绍&#xff0c;读写字节码&#xff09; 介绍一、读写字节码1.如何创建新的类2.类冻结 介绍 javassist 使Java字节码操作变得简单&#xff0c;它是一个用于在Java中编辑字节码的类库&#xff1b; 它使Java程序能够在运行时定义一个新类&#xff0c;…

6-3 求二叉树的高度 分数 10

int Depth(BiTree Tree) {if (!Tree)return 0;return Depth(Tree->lchild) > Depth(Tree->rchild) ? Depth(Tree->lchild) 1 : Depth(Tree->rchild) 1; }

呼吸灯【FPGA】

晶振50Mhz 1us 等于 计0~49 1ms等于 0~999us 1s等于 0~999ms //led_outalways(posedge FPGA_CLK_50M_b5 or negedge reset_e8) //【死循环】敏感【触发条件&#xff1a;上升沿 clk】【运行副本】if(reset_e81b0)begin //50Mhz晶振&#xff0c; 49_999_999 是 1秒…

apk反编译修改教程系列---简单去除apk联网权限 其他权限 无法自动更新等【四】

往期教程&#xff1a; apk反编译修改教程系列-----修改apk应用名称 任意修改名称 签名【一】 apk反编译修改教程系列-----任意修改apk版本号 版本名 防止自动更新【二】 apk反编译修改教程系列-----修改apk中的图片 任意更换apk桌面图片【三】 目前基本所有的apk都有联网设…

Zynq UltraScale+ XCZU5EV 纯VHDL解码 IMX214 MIPI 视频,2路视频拼接输出,提供vivado工程源码和技术支持

目录 1、前言免责声明 2、我这里已有的 MIPI 编解码方案3、本 MIPI CSI2 模块性能及其优越性4、详细设计方案设计原理框图IMX214 摄像头及其配置D-PHY 模块CSI-2-RX 模块Bayer转RGB模块伽马矫正模块VDMA图像缓存Video Scaler 图像缓存DP 输出 5、vivado工程详解PL端FPGA硬件设计…

分布式消息队列:Rabbitmq(2)

目录 一:交换机 1:Direct交换机 1.1生产者端代码: 1.2:消费者端代码: 2:Topic主题交换机 2.1:生产者代码: 2.2:消费者代码: 二:核心特性 2.1:消息过期机制 2.1.1:给队列中的全部消息指定过期时间 2.1.2:给某条消息指定过期时间 2.2:死信队列 一:交换机 1:Direct交…

macOS 创建Flutter项目

参考在 macOS 上安装和配置 Flutter 开发环境 - Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 这个文档&#xff0c;配置好flutter的环境 编辑器可以选择vscode或者IDEA。 我这里以IDEA为例 打开 IDE 并选中 New Flutter Project。 选择 Flutter&#xff0c;验证 F…

云游长江大桥,3DCAT实时云渲染助力打造沉浸化数字文旅平台

南京长江大桥是中国第一座自主设计建造的双层公路铁路桥&#xff0c;也是世界上最早的双层公路铁路桥之一。它不仅是一座桥梁&#xff0c;更是一座历史文化的见证者和传承者。它见证了中国人民的智慧和奋斗&#xff0c;承载了中国社会的变迁和发展。 如何让这座不可移动的文物…

FreeRTOS_信号量之互斥信号量

目录 1. 互斥信号量 1.1 互斥信号量简介 1.2 创建互斥信号量 1.2.1 函数 xSemaphoreCreateMutex() 1.2.2 函数 xSemaphoreCreateMutexStatic() 1.2.3 互斥信号量创建过程分析 1.2.4 释放互斥信号量 1.2.5 获取互斥信号量 2. 互斥信号量操作实验 2.1 实验程序 2.1.1 …

Linux:文件操作

目录 一、关于文件 1、文件类的系统接口 2、文件的含义 二、文件操作 1、C语言文件相关接口 2、系统接口 open close write read 三、文件描述符 关于fd fd的分配规则 输出重定向示例 输入重定向示例 追加重定向示例 dup2函数 缓冲区 stdout与stderr perror…

Webpack常见的插件和模式

文章目录 一、认识插件Plugin1.认识Plugin 二、CleanWebpackPlugin三、HtmlWebpackPlugin1.生成index.html分析2.自定义HTML模板3.自定义模板数据填充 四、DefinePlugin1.DefinePlugin的介绍2.DefinePlugin的使用 五、Mode配置 一、认识插件Plugin 1.认识Plugin Webpack的另一…

数据结构:算法(特性,时间复杂度,空间复杂度)

目录 1.算法的概念2.算法的特性1.有穷性2.确定性3.可行性4.输入5.输出 3.好算法的特质1.正确性2.可读性3.健壮性4.高效率与低存储需求 4.算法的时间复杂度1.事后统计的问题2.复杂度表示的计算1.加法规则2.乘法规则3.常见函数数量级比较 5.算法的空间复杂度1.程序的内存需求2.例…