一、mysql的逻辑架构
1. 逻辑架构剖析
1.1 服务器处理客户端请求
mysql是典型的c/s架构,即 client/server 架构,不论是客户端进程和服务器进程是采用哪种方式进行通信,最后实现的效果都是:客户端进程向服务器进程发送一段文本(sql语句),服务器进程处理后再向客户端进程发送一段文本(处理结果)
下面具体展开看一下:
系统(客户端)访问 MySQL 服务器前,做的第一件事就是建立 TCP 连接。
经过三次握手建立连接成功后, MySQL 服务器对 TCP 传输过来的账号密码做身份认证、权限获取。
- 用户名或密码不对,会收到一个Access denied for user错误,客户端程序结束执行
赖于此时读到的权限 - 用户名密码认证通过,会从权限表查出账号拥有的权限与连接关联,之后的权限判断逻辑,都将依
思考一个问题:一个系统只会和mysql服务器建立一个连接么?只能有一个系统和mysql服务器建立连接么?
当然不是,多个系统哦都可以和mysql服务器建立连接,每个系统建立的连接肯定不止一个,所以,为了解决tcp无限创建与tcp频繁连创建销毁带来的资源耗尽,性能下降问题,mysql服务器里有专门的tcp连接池限制连接数,采用长连接模式服务tcp连接,来解决上述问题
TCP 连接收到请求后,必须要分配给一个线程专门与这个客户端的交互。所以还会有个线程池,去走后面的流程。每一个连接从线程池中获取线程,省去了创建和销毁线程的开销。
第2层:服务层
- SQL Interface: SQL接口
- 接收用户的SQL命令,并且返回用户需要查询的结果。比如SELECT ... FROM就是调用SQL Interface
- MySQL支持DML(数据操作语言)、DDL(数据定义语言)、存储过程、视图、触发器、自定义函数等多种SQL语言接口
- Parser: 解析器
- 在解析器中对 SQL 语句进行语法分析、语义分析。将SQL语句分解成数据结构,并将这个结构传递到后续步骤,以后SQL语句的传递和处理就是基于这个结构的。如果在分解构成中遇到错误,那么就说明这个SQL语句是不合理的。
- 在SQL命令传递到解析器的时候会被解析器验证和解析,并为其创建 语法树 ,并根据数据字典丰富查询语法树,会 验证该客户端是否具有执行该查询的权限 。创建好语法树后,MySQL还会对SQl查询进行语法上的优化,进行查询重写。
- Optimizer: 查询优化器
- SQL语句在语法解析之后、查询之前会使用查询优化器确定 SQL 语句的执行路径,生成一个执行计划 。
- 这个执行计划表明应该 使用哪些索引 进行查询(全表检索还是使用索引检索),表之间的连接顺序如何,最后会按照执行计划中的步骤调用存储引擎提供的方法来真正的执行查询,并将查询结果返回给用户。
- 它使用“ 选取-投影-连接 ”策略进行查询。例如:
SELECT id,name FROM student WHERE gender = ' 女 ' ;
- Caches & Buffers: 查询缓存组件
- MySQL内部维持着一些Cache和Buffer,比如Query Cache用来缓存一条SELECT语句的执行结果,如果能够在其中找到对应的查询结果,那么就不必再进行查询解析、优化和执行的整个过程了,直接将结果反馈给客户端。
- 这个缓存机制是由一系列小缓存组成的。比如表缓存,记录缓存,key缓存,权限缓存等
- 这个查询缓存可以在 不同客户端之间共享 。
- 从MySQL 5.7.20开始,不推荐使用查询缓存,并在 MySQL 8.0中删除 。
举例:
比如现在有一个查询过来 ,我们的执行顺序是:
1、首先从客户端发起对服务端的连接,建立连接。
2、建立连接之后,需要专门分配一个线程来处理sql语句
3、对接sql Interface,相当于出入口
4、5.7的mysql中会先去 查询缓存中是都之前这个sql已经查过了,如果查过了就不会往下执行了,会直接把结果返回给客户端。(但是8.0中已废除)
5、然后会经过解析器来判断sql有没有问题,然后创建语法树
6、解析器是分析出来你要做什么,优化器可以对sql进行逻辑上的优化, 例如能不能使用索引或者使用哪个索引,就是我们优化器来做的事情。
7、需要调用对应存储api,体现的就是具体的存储引擎,然后去文件系统中做具体数据的查找,将数据加载到那内存中操作。
8、将结果缓存起来。
9、查询结果经过sql Interface,将数据返回。
10、线程用完了放回线程池当中,结果返回给客户端
简化为三层结构:
1. 连接层:客户端和服务器端建立连接,客户端发送 SQL 至服务器端;
2. SQL 层(服务层):对 SQL 语句进行查询处理;与数据库文件的存储方式无关;
3. 存储引擎层:与数据库文件打交道,负责数据的存储和读取。
二、sql执行流程
2.1 MySQL 中的 SQL执行流程:
SELECT employee_id,last_name FROM employees WHERE employee_id = 101;
查询缓存是提前把查询结果缓存起来,这样下次不需要执行就可以直接拿到结果。需要说明的是,在MySQL 中的查询缓存,不是缓存查询计划,而是查询对应的结果。这就意味着查询匹配的 鲁棒性大大降低 ,只有 相同的查询操作才会命中查询缓存 。两个查询请求在任何字符上的不同(例如:空格、注释、大小写),都会导致缓存不会命中。因此 MySQL 的 查询缓存命中率不高 。
同时,如果查询请求中包含某些系统函数、用户自定义变量和函数、一些系统表,如 mysql 、information_schema、 performance_schema 数据库中的表,那这个请求就不会被缓存。以某些系统函数 举例,可能同样的函数的两次调用会产生不一样的结果,比如函数 NOW ,每次调用都会产生最新的当前时间,如果在一个查询请求中调用了这个函数,那即使查询请求的文本信息都一样,那不同时间的两次查询也应该得到不同的结果,如果在第一次查询时就缓存了,那第二次查询的时候直接使用第一次查询的结果就是错误的!
此外,既然是缓存,那就有它 缓存失效的时候 。MySQL的缓存系统会监测涉及到的每张表,只要该表的结构或者数据被修改,如对该表使用了 INSERT 、 UPDATE 、 DELETE 、 TRUNCATE TABLE 、 ALTER TABLE 、 DROP TABLE 或 DROP DATABASE 语句,那使用该表的所有高速缓存查询都将变为无效并从高速缓存中删除!对于 更新压力大的数据库 来说,查询缓存的命中率会非常低。
总之,因为查询缓存往往弊大于利,查询缓存的失效非常频繁,所以一般建议在静态表中使用查询缓存,而且只有8以下的版本才有这个功能,所以自行了解即可。
select department_id,job_id,avg(salary) from employees group by department_id;
select * from test1 join test2 using (ID)where test1 .name = 'zhangwei' and test2 .name = 'mysql 高级课程 ' ;
方案 1 :可以先从表 test1 里面取出 name='zhangwei' 的记录的 ID 值,再根据 ID 值关联到表 test2 ,再判 断 test2 里面 name 的值是否等于 'mysql 高级课程 ' 。方案 2 :可以先从表 test2 里面取出 name='mysql 高级课程 ' 的记录的 ID 值,再根据 ID 值关联到 test1 , 再判断 test1 里面 name 的值是否等于 zhangwei 。这两种执行方法的逻辑结果是一样的,但是执行的效率会有不同,而优化器的作用就是决定选择使用哪一个方案。优化 器阶段完成后,这个语句的执行方案就确定下来了,然后进入执行器阶段。如果你还有一些疑问,比如优化器是怎么选择索引的,有没有可能选择错等。后面讲到索引我们再谈。
select * from test where id= 1 ;
调用 InnoDB 引擎接口取这个表的第一行,判断 ID 值是不是 1 ,如果不是则跳过,如果是则将这行存在结果集中; 调用引擎接口取“ 下一行 ” ,重复相同的判断逻辑,直到取到这个表的最后一行。执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。
2.2 MySQL8中SQL执行原理
1. 确认profiling 是否开启
了解查询语句底层执行的过程:select @@profiling; 或者 show variables like 'profiling'; 查看是否开启计划。开启它可以让mysql ,收集在sql执行是所使用的资源情况,命令如下:
mysql> select @@profiling ;mysql> show variables like 'profiling' ;
mysql> set profiling= 1 ;
mysql> select * from employees;
mysql> show profiles ; # 显示最近的几次查询
mysql> show profile ;
当然你也可以查询指定的 Query ID,比如:
mysql> show profile for query 7;
query_cache_type = 1
systemctl restart mysqld
mysql> set profiling= 1 ;
mysql> select * from locations;mysql> select * from locations;
6. 查看profile
mysql> show profile for query 1 ;
mysql> show profile for query 2;
结论不言而喻。执行编号2时,比执行编号1时少了很多信息,从截图中可以看出查询语句直接从缓存中获取数据。
2.4 查询其他的性能
mysql> show profile cpu,block io for query 6 ;
查询cpu的相关开销和io的相关开销。
继续:
mysql> show profile cpu,block io for query 7 ;
2.6 Oracle中的SQL执行流程(了解)
Oracle 中采用了 共享池 来判断 SQL 语句是否存在缓存和执行计划,通过这一步骤我们可以知道应该采用硬解析还是软解析。共享池类似于mysql中的查询缓存。硬解析软解析就类似于我们查询缓存中命中与未命中的区别。
我们先来看下 SQL 在 Oracle 中的执行过程:
从上面这张图中可以看出,SQL 语句在 Oracle 中经历了以下的几个步骤。
1.语法检查:检查 SQL 拼写是否正确,如果不正确,Oracle 会报语法错误。
2.语义检查:检查 SQL 中的访问对象是否存在。比如我们在写 SELECT 语句的时候,列名写错了,系统就会提示错误。语法检查和语义检查的作用是保证 SQL 语句没有错误。
3.权限检查:看用户是否具备访问该数据的权限。
4.共享池检查:共享池(Shared Pool)是一块内存池,最主要的作用是缓存 SQL 语句和该语句的执行计划。Oracle 通过检查共享池是否存在 SQL 语句的执行计划,来判断进行软解析,还是硬解析。那软解析和硬解析又该怎么理解呢?
在共享池中,Oracle 首先对 SQL 语句进行 Hash 运算 ,然后根据 Hash 值在库缓存(Library Cache)中查找,如果 存在 SQL 语句的执行计划 ,就直接拿来执行,直接进入“执行器”的环节,这就是 软解析 。
如果没有找到 SQL 语句和执行计划,Oracle 就需要创建解析树进行解析,生成执行计划,进入“优化器”这个步骤,这就是 硬解析 。
5. 优化器:优化器中就是要进行硬解析,也就是决定怎么做,比如创建解析树,生成执行计划。
6. 执行器:当有了解析树和执行计划之后,就知道了 SQL 该怎么被执行,这样就可以在执行器中执行语句了。
共享池是 Oracle 中的术语,包括了库缓存,数据字典缓冲区等。我们上面已经讲到了库缓存区,它主要 缓存 SQL 语句和执行计划。而 数据字典缓冲区 存储的是 Oracle 中的对象定义,比如表、视图、索引等对 象。当对 SQL 语句进行解析的时候,如果需要相关的数据,会从数据字典缓冲区中提取。
库缓存 这一个步骤,决定了 SQL 语句是否需要进行硬解析。为了提升 SQL 的执行效率,我们应该尽量 避免硬解析,因为在 SQL 的执行过程中,创建解析树,生成执行计划是很消耗资源的。
你可能会问,如何避免硬解析,尽量使用软解析呢?在 Oracle 中, 绑定变量 是它的一大特色。绑定变量 就是在 SQL 语句中使用变量,通过不同的变量取值来改变 SQL 的执行结果。这样做的好处是能 提升软解析的可能性 ,不足之处在于可能会导致生成的执行计划不够优化,因此是否需要绑定变量还需要视情况而定。
举个例子,我们可以使用下面的查询语句:
SQL> select * from player where player_id = 10001;
你也可以使用绑定变量,如:
SQL> select * from player where player_id = :player_id;
这两个查询语句的效率在 Oracle 中是完全不同的。如果你在查询 player_id = 10001 之后,还会查询 10002、10003 之类的数据,那么每一次查询都会创建一个新的查询解析。而第二种方式使用了绑定变量,那么在第一次查询之后,在共享池中就会存在这类查询的执行计划,也就是软解析。
因此,我们可以通过使用绑定变量来减少硬解析,减少 Oracle 的解析工作量。但是这种方式也有缺点,使用动态 SQL 的方式,因为参数不同,会导致 SQL 的执行效率不同,同时 SQL 优化也会比较困难。
简图:
三、数据库缓冲池(buffer pool)
InnoDB 存储引擎是以页为单位来管理存储空间的,我们进行的增删改查操作其实本质上都是在访问页 面(包括读页面、写页面、创建新页面等操作)。而磁盘 I/O 需要消耗的时间很多,而在内存中进行操 作,效率则会高很多,为了能让数据表或者索引中的数据随时被我们所用,DBMS 会申请 占用内存来作为 数据缓冲池 ,在真正访问页面之前,需要把在磁盘上的页缓存到内存中的 Buffer Pool 之后才可以访问。
这样做的好处是可以让磁盘活动最小化,从而 减少与磁盘直接进行 I/O 的时间 。要知道,这种策略对提升 SQL 语句的查询性能来说至关重要。如果索引的数据在缓冲池里,那么访问的成本就会降低很多。
3.1 缓冲池 vs 查询缓存
1. 缓冲池(Buffer Pool )
缓存池的重要性
对于使用InnoDB作为存储引擎的表来说,不管是用于存储用户数据的索引(包括聚簇索引和二级索引),还是各种系统数据,都是以 页 的形式放在表空间中的,而所谓的表空间只不过是InnoDB对文件系统上一个或几个实际文件的抽象,也就是说我们的数据说到底还是存储在磁盘上的,但是各位也都知道,磁盘的速度很慢,所以这里缓冲池可以帮助我们消除cpu和磁盘之间的鸿沟,所以InnoDB存储引擎在处理客户端的请求时,当需要访问某个页的数据时,就会把 完整的也数据全部加载到内存中,也就是说即使我们只需要访问一个页的一条记录,那也需要先把整个页的数据加载到内存中,将这个页加载到内存中后就可以进行读写访问了,在进行读写访问之后并不着急把该页面的内存空间释放掉,而是将其缓存起来,这样将来有请求再次访问该页面时,就可以省去磁盘IO的开销了。
缓存原则:
“ 位置 * 频次 ”这个原则,可以帮我们对 I/O 访问效率进行优化。
首先,位置决定效率,提供缓冲池就是为了在内存中可以直接访问数据。
其次,频次决定优先级顺序。因为缓冲池的大小是有限的,比如磁盘有 200G,但是内存只有 16G,缓冲 池大小只有 1G,就无法将所有数据都加载到缓冲池里,这时就涉及到优先级顺序,会 优先对使用频次高的热数据进行加载 。
缓冲池的预读特性:
了解了缓冲池的作用之后,我们还需要了解缓冲池的另一个特性:预读。
缓冲池的作用就是提升IO效率,而对我们进行读取数据的时候存在一个‘局部性原理’ ,也就是说我们使用了一些数据,大概率还会使用它周围的一些数据,因此采用于都的机制提前加载,可以减少未来可能的磁盘IO操作。
查询缓存是提前把 查询结果缓存 起来,这样下次不需要执行就可以直接拿到结果。需要说明的是,在 MySQL 中的查询缓存,不是缓存查询计划,而是查询对应的结果。因为命中条件苛刻,而且只要数据表 发生变化,查询缓存就会失效,因此命中率低。
如果我们执行 SQL 语句的时候更新了缓存池中的数据,那么这些数据会马上同步到磁盘上吗?
实际上,当我们对数据库中的记录进行修改的时候,首先会修改缓冲池中页里面的记录信息,然后数据库会 以一定的频率刷新到磁盘上,注意并不是每次发生更新操作,都会立即进行磁盘回写,缓冲池会采用一种叫做 checkpoint 的机制将数据回写到磁盘上,这样做的好处就是提升了数据库的整体性能。
比如,当 缓冲池不够用 时,需要释放掉一些不常用的页,此时就可以强行采用 checkpoint 的方式,将不常用的脏数据回写到磁盘上,然后再从缓冲池中将这些页释放掉,这里脏页 指的是缓冲池中被修改过的页,与磁盘上的数据页不一致。
3.3 查看/设置缓冲池的大小
如果你使用的是 InnoDB 存储引擎,可以通过查看 innodb_buffer_pool_size 变量来查看缓冲池的大小。命令如下:
show variables like 'innodb_buffer_pool_size';
你能看到此时 InnoDB 的缓冲池大小只有 134217728/1024/1024=128MB。我们可以修改缓冲池大小,比如改为256MB,方法如下:
set global innodb_buffer_pool_size = 268435456;
[server]innodb_buffer_pool_size = 268435456
然后再来看下修改后的缓冲池大小,此时已成功修改成了 256 MB:
3.4 多个Buffer Pool实例
Buffer Pool 本质是InnoDB向操作系统申请的一块 连续的内存空间,在多线程环境下,访问Buffer Pool中的数据都需要加锁处理,在Buffer Pool 特别大而且多线程并发访问特别高的情况下,单一的Buffer Pool可能会影响到请求的处理速度,所以在Buffer Pool特别大的时候,我们可以把他们拆分成若干个小的Buffer Pool,每个Buffer Pool 都称为一个实例,他们都是独立的,独立的去申请内存空间,独立的管理各种链表,所以在多线程并发访问时并不会相互影响,从而提高并发处理能力。
我们可以在服务器启动的时候通过设置 innodb_buffer_pool_instances 的值来修改Buffer Pool实例的个数,比如说:
[server]innodb_buffer_pool_instances = 2
这样就表明我们要创建2个 Buffer Pool 实例。
我们看下如何查看缓冲池的个数,使用命令:
show variables like 'innodb_buffer_pool_instances';
那每个 Buffer Pool 实例实际占多少内存空间呢?其实使用这个公式算出来的:
innodb_buffer_pool_size/innodb_buffer_pool_instances
不过也不是所Buffer Pool实例创建的越多越好,分别管理各个Buffer Pool也是需要性能开销的,InnoDB规定:当innob_buffer_pool_size的值小于1G 的时候设置多个实例是无效的,Innob会默认把innob_buffer_pool_instantces的值修改为1,而我们鼓励在Buffer Pool大于或等于1G的时候设置多个Buffer Pool实例。
黑盒下的更新数据流程:
当我们查询数据的时候,会先去Buffer Pool中查询,如果Buffer Pool中不存在,存储引擎会先将数据从磁盘加载到Buffer Pool中,然后将数据返回给客户端,同理,当我们更新某个数据的时候,如果这个数据不存在于Buffer Pool,同样会先将数据加载进来,然后修改内存的数据,被修改过的数据会在之后同意刷入磁盘。