【MySQL】好好学习一下InnoDB中的页

文章目录

  • 一. 前言
  • 二. 从宏观层面看页
  • 三. 页的基本内容
    • 3.1 页的数据结构
    • 3.2 用户空间内的数据行结构
    • 3.3 页目录
  • 四. 问题集
    • 4.1 索引 和 数据页 有什么区别
    • 4.2 页的大小是什么决定的
    • 4.3 页的大小对哪些情况有影响
    • 4.4 一般情况下说的链表有哪几个
    • 4.5 如果页的空间满了怎么办
    • 4.6 如果页的空间空了怎么办
    • 4.7 删除的数据何时被清理
    • 4.8 数据页和B+树及索引的关系
  • 总结
  • 附录
  • 参考文档

一. 前言

周末没啥计划,把大佬的<MySQL是怎样运行的>又翻了出来,重新学习一下页的概念。
页这个东西,看起来不怎么显眼,但是深层的东西都会碰到他,又爱又恨,逼着人必须弄懂。

二. 从宏观层面看页

高并发里面有一种提高性能的思路是 :通过批处理一次性处理大量数据,避免频繁的网络流量和IO。

MySQL 的页就是基于这种概念,磁盘是存放数据的载体,而数据处理会发生了内存中,所以流程大致分为:

  • S1 : 首先对数据进行切分,划分成若干页
  • S2 : 每次读取的时候,都直接把一整页读取到内存中
  • S3 : 外部读取的时候,直接对内存中的数据进行读取和操作
  • S4 : 如果发生了修改操作,需要把内存的内容刷新到磁盘上

页的好处

这里比较模糊的是为什么要衍生出一个页,而不是通过行级别进行处理。

  • 首先解决的就是 IO 问题,当然如果说每个页只读一条,那么这种就不算优势,但是我们大批量读取的时候,往往是查询连续的数据 , 相对而言取舍后,效率就更高了。
  • 避免碎片化,行的级别太低了,大小也不同,使用行的时候,存储空间不便于分配
  • 提高并发和锁,可以通过控制事务到一个页里面,减少事务的粒度
  • 提高维护性和通用性 ,当发生重整时,页的处理会更简单

三. 页的基本内容

页的概念与索引关联的概中主要包括 :

  • 页 (Page): 页是数据存储的基本单位,是一个固定大小的数据块,通常是16K
  • 行 (Row): 行是数据库中的基本数据单位 ,代表表中的一个记录
  • 分组(Group):将一个页里面除了删除的记录进行逻辑划分,取每组最后一条记录作为偏移量标志位
  • 槽(Slot):每个分组的最后一条数据会在页目录里面作为一个指针存在,这个指针就是一个槽
    页目录 (Page Directory):用来管理数据页的一种数据结构,目录内记录了指针,索引等位置信息

3.1 页的数据结构

在这里插入图片描述

  • File Header 和 Page Header 包含了该页的基础属性和状态信息等
  • Infimum / Supremum 是虚拟的行记录,用于限定记录的边界,他们都是虚拟的,不表示任何存在
  • Infimum 标识比该页任何值都要小的值
  • Supremum 标识比该页任何值都要大的值
  • 用户记录和空闲记录是实际的存储空间,随着插入数据空闲空间会越来越小
  • 页面目录用来存储记录的相对位置,通过稀疏目录的方式加快了查询的数据
  • File Trailer 目的是为了保证数据的完整性,其中会存放一个校验和保证数据是正确的

插入数据带来的结构变化

3.2 用户空间内的数据行结构

在这里插入图片描述

其中主要的参数是 :

  • n_owned:当前记录拥有的记录数 ,通过该数据来确定每组数据的大小
  • heap_no:当前记录在堆的位置,最小和最大的heap_no 分别是 0,1 ,标识在最上面
  • next_record:下一记录的相对位置 , 用于保证数据成一个链表结构

3.3 页目录

我们或多或少都接触过数组或者集合,对于数组的查询方式有很多,正序或者逆序,或者效率更高的二分法
前提 : MySQL 的数据按照行记录进行存储,在一个表中,行的数据是有序的
目录 :但是不论多么优良的算法,在大数据量的场景下,还是会有很高的性能损耗,而 MySQL 为了解决这种场景,采取的是目录的方式。 目录中通过槽和分组,得到了一个数据的精简模型,通过精简的数据快速查询对应的分组,再在分组里面进行循环查找

槽和分组

有个资料里面说的是一个数据行就对应一个槽,也有说多个记录一个槽,我这里倾向于后一种说法,即稀疏目录。
页目录存放了记录的相对位置,每个相对位置即为一个槽,在InnoDB 里面是使用稀疏目录 (sparse directory), 即一个槽会属于多个记录 (4-8条)

在这里插入图片描述

  • 最小记录的条数是1

  • 最大记录所在分组的记录数是1-8

  • 其他分组在 4-8之间

  • 指向原理

    • 查询数据时,首先通过二分法在页目录中进行查询
    • 当查询到分组范围后,再通过分组里面的 next_record 查询具体的数据

四. 问题集

4.1 索引 和 数据页 有什么区别

  • 两者不是同一个东西,存储的数据和结构都不同
  • 在索引中,每一个 B+树节点对应一个索引页,一个索引页中存储索引键值和指向指针
  • 数据查询时,通过根索引页开始,遍历索引树,从而拿到指向数据行的指针
  • InnoDB 会通过索引中的数据行指针定位到数据页 (直接通过物理地址指向槽号)

除了这些页,InnoDB 中还有存放表空间头部信息的页,Buffer 页等。

4.2 页的大小是什么决定的

  • 页的大小是由创建数据库表时指定的存储参数 innodb_page_size 决定的
  • 参数一旦设置就不能更改,不然就得刷页里面大量的数据

CREATE TABLE my_table (...) ENGINE = InnoDB ROW_FORMAT=COMPRESSED KEY_BLOCK_SIZE=8 PAGE_COMPRESSED=1 PAGE_SIZE=64K;

4.3 页的大小对哪些情况有影响

  • 索引效率 :前面说了,索引过程中会通过每页的最大最小进行快速匹配,而较大的页一定程度上会使相同数据量情况下拥有更少的页,从而降低索引节点的数量,索引树高度也因此降低。查询效率会有所提高
  • 内存占用 :较大的页会在内存中占用更多的空间。因为读取时,每次都是读取一整页,所以内存每次读取得更多。
  • 其他硬件影响 :更大的页会影响磁盘IO和CPU,IOPS 方面都会带来更多的压力

总结 :提高效率,但是增加了系统负载。

4.4 一般情况下说的链表有哪几个

一个列里面的数据行之间通过 next_record 形成的单向链表

上文说到了每个数据行上面会有个 next_record 参数,该参数记录了真实数据达到下一条记录的真实数据的偏移量,这里有几点值得注意 :

  • 这里的顺序不是插入数据,而是主键值由小到大的顺序
  • 上一条指向的是下一条的value的位置,而不是 Header 头的位置
    在这里插入图片描述

不同数据页之间组成的双向链表

上面的结构图看过了,每个页里面都会包含 File Header 和 Page Header 两个对象。

  • Page Header : 记录当前页的状态信息和规则,例如槽数,记录数,剩余空间数等等
  • File Header : 记录当前页的标准信息,包括页的编号,页所在的表空间,上一页页号和下一页页号

而**双向成方式不言而喻,都知道上页 (FIL_PAGE_PREV) 和 下页(FIL_PAGE_NEXT)的页号了,那访问完全没问题了 , 由于都只存了上一个和下一个,也就形成了标准的链表结构。
补充 : 上面看到的这种通常是指 LRU 链表,还有一个双向链表是 Flush List (刷新链表),这个链表是在数据页发生修改后,使用刷新链表可以让数据按照一定的顺序刷新到磁盘上

4.5 如果页的空间满了怎么办

  • 首先,页的的大小是在存储引擎创建的时候就确定了,所以空间固定。
  • 其次页内数据是按照主键进行排序,所以这个时候插入铁定空间超了

在这种场景下,会触发页分裂 ,此时 InnoDB 会执行下列操作 :

  • S1 : 创建新的数据页
  • S2 : 按照排序方式将部分数据迁移到新页
  • S3 : 更新上下页关系和对应的索引关系

这里由于页是双向链表进行的关联,所以插入并不会对数据结构进行大的破坏,只需要对应的上下页进行更新就行了。

4.6 如果页的空间空了怎么办

既然会有页分裂,那就有可能会出现分裂的页不均衡的情况,长时间下去,就会形成很多空闲块,这样的结构也是不合理的,不仅会占用不必要的空间,还会导致查询性能降低。

为了避免这些问题,InnoDB 会有页合并的功能 , 原理和上面的类型。相邻页尝试合并,然后重新更新引用和索引。

4.7 删除的数据何时被清理

之前看到了数据被删除后,其目录数据里面的 delete_mask 会被置为已删除。

此时的数据处在逻辑删除的状态,通过上面说的 next_record (下一记录的相对位置)指向后续存在的正常数据。

这样做的目的主要是避免碎片,提高删除的性能(只需要修改标识和引用),同时保证了删除的事务。

但是长此以往就会有大量的删除数据占用空间,为了避免这种情况,InnoDB 会定期的进行清理,同时重新整理数据页。

4.8 数据页和B+树及索引的关系

  • 数据页是为了存储数据行的,存放的是二进制数据,通常数据行按照主键的顺序存放

  • B+树是一种数据结构,也是索引的结构,B+树结构让索引更加有效和便于管理

  • 索引中的B+树叶子节点存储了索引条目,每个条目对应一个数据行的物理指针(通常是数据行的槽号)

    • 当获得槽号后,就直接通过槽号读取想要的数据,并且返回

页和索引是相辅相成的,如果没有索引,页就需要在单向链表里面向下寻找,直到找到对应的数据

总结

页是存储的基础,也是索引的基础,了解了页后面就可以深入的了解索引了。

这一块没了解太深,毕竟这东西其实我应用的场景几乎没有,主要是不弄清楚后面读起来很难受。

尽量做到了自己去输出东西,整理了一些问题,但是毕竟站在别人修好的路上面,有些东西不能保证一定是对的,也有可能是我理解有误,如果有问题建议去看原文或者官方文档。

附录

头部信息对于我们日常业务中几乎是没太大用的,这里只记录几个我认为和上文有一定关联的参数 :

  • 页头部信息

    • PAGE_N_DIR_SLOTS : 页目录中的槽数量
    • PAGE_N_HEAP : 本页中的记录数量
    • PAGE_GARBAGE : 已删除记录中的字节数
    • PAGE_LAST_INSERT :最后插入记录的位置
    • PAGE_DIRECTION :记录插入的方向
    • PAGE_N_RECS : 该页中记录的数量
    • PAGE_LEVEL : 当前页在 B+树中所处的层级
    • PAGE_INDEX_ID : 索引ID
  • 文件头部信息

    • FIL_PAGE_OFFSET : 页号
    • FIL_PAGE_PREV : 上一个页的页号
    • FIL_PAGE_NEXT : 下一个页的页号
    • FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID : 页属于哪个表空间

参考文档

  • 小册 : MySQL是怎样运行的

  • MySQL 技术内幕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/100595.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SecureBridge安全文件下载的组件Crack

SecureBridge安全文件下载的组件Crack SecureBridge包括SSH、SSL和SFTP客户端和服务器组件。它使用SSH或SSL安全传输层协议和加密消息语法来保护任何TCP流量&#xff0c;这些协议为客户端和服务器提供身份验证、强数据加密和数据完整性验证。SecureBridge组件可以与数据访问组件…

一文学会lua脚本

文章目录 0.前言背景应用 1. 学习大纲1. 学习基本语法&#xff1a;2. 理解函数和模块&#xff1a;3. 深入数据结构&#xff1a;4. 高级特性和技巧&#xff1a;5. 实践项目&#xff1a; 2. Lua脚本2.1 学习基本语法2.2 理解函数和模块2.3 深入数据结构2.4 高级特性和技巧 3. 高级…

分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测

分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测 目录 分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入…

Eclipse如何设置快捷键

在eclopse设置注释行和取消注释行 // 打开eclipse&#xff0c;依次打开&#xff1a;Window -> Preferences -> General -> Key&#xff0c;

深入理解CAS和Atomic工具类

CAS CAS&#xff08;Compare And Swap&#xff0c;比较交换&#xff09;指的是对于一个变量&#xff0c;比较它的内存的值与期望值是否相同&#xff0c;如果相同则将内存值修改为新的指定的值。即CAS包括两个步骤&#xff1a;1.比较内存值与期望值是否相同&#xff1b;2.相同则…

kafka安装说明以及在项目中使用

一、window 安装 1.1、下载安装包 下载kafka 地址&#xff0c;其中官方版内置zk&#xff0c; kafka_2.12-3.4.0.tgz其中这个名称的意思是 kafka3.4.0 版本 &#xff0c;所用语言 scala 版本为 2.12 1.2、安装配置 1、解压刚刚下载的配置文件&#xff0c;解压后如下&#x…

Pika Labs - 用AI工具生成短视频大片

今天我要跟大家分享如何用AI工具1分钟内生成一个短视频大片&#xff0c;效果完全不输影视大V。 只需要用一句话就可以生成视频&#xff0c;或者用一张图就能生成视频&#xff0c;这就是最新推出的AI工具Pika Labs&#xff01;被网友誉为“全球最优秀的文本生成视频AI”。 目前…

如何使用CSS实现一个全屏滚动效果(Fullpage Scroll)?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 实现全屏滚动效果的CSS和JavaScript示例⭐ HTML 结构⭐ CSS 样式 (styles.css)⭐ JavaScript 代码 (script.js)⭐ 实现说明⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦…

Oracle的学习心得和知识总结(二十七)|Oracle数据库数据库回放功能之论文一翻译及学习

目录结构 注&#xff1a;提前言明 本文借鉴了以下博主、书籍或网站的内容&#xff0c;其列表如下&#xff1a; 1、参考书籍&#xff1a;《Oracle Database SQL Language Reference》 2、参考书籍&#xff1a;《PostgreSQL中文手册》 3、EDB Postgres Advanced Server User Gui…

Java“牵手”拼多多产品详情接口API-产品SKU,价格,优惠券,图文介绍,拼多多API接口实现海量商品采集

拼多多是中国的一家电子商务平台&#xff0c;以团购模式为主&#xff0c;成立于2015年。拼多多的宝贝详情页是指在商品页面上展示商品信息和图片的区域&#xff0c;是用户了解和购买商品的重要窗口。下面就让我们来全面解析拼多多宝贝详情页&#xff0c;帮助你更好地了解商品信…

static的使用

static的使用 在C语言中&#xff0c;static是一个关键字&#xff0c;用于指定变量、函数和代码块的作用域和生命周期。 用法&#xff1a; 静态变量 1.修饰变量&#xff1a;使用static关键字声明的变量是静态变量&#xff0c;它们的作用域被限制在定义它们的源文件中&#x…

NSF拨款3800万美元让更多机构参与量子科学与工程

近日&#xff0c;美国国家科学基金会&#xff08;National Science Foundation&#xff0c;NSF&#xff09;宣布对“量子信息科学与工程扩展能力”&#xff08;Expanding Capacity in Quantum Information Science and Engineering&#xff0c;ExpandQISE&#xff09;计划拨款3…

卷积神经网络实现天气图像分类 - P3

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f366; 参考文章&#xff1a;Pytorch实战 | 第P3周&#xff1a;彩色图片识别&#xff1a;天气识别&#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制&#x1f680; 文章来源&#xff…

SpringBoot + MyBatisPlus中乐观锁的实现 (精简demo)

乐观锁加注解Version后不需要手动进行加1操作。乐观锁是一种用于解决并发冲突的机制&#xff0c;在数据库中用于保护数据的一致性。Version注解是MyBatisPlus框架中的乐观锁注解&#xff0c;它会在更新数据时自动检查版本号是否一致&#xff0c;如果一致则进行更新操作&#xf…

如何选择 DCDC 降压型开关电源的电感

选择合适的电感是开关电源电路设计的关键之一。本文将帮助您理解电感值和电路性能之间的关系。 降压转换器&#xff08;buck converter&#xff09;&#xff0c;也称为降压转换器(step-down converter)&#xff0c;是一种开关模式稳压器&#xff08;voltage regulator&#xf…

220V转5V芯片三脚芯片-AH8652

220V转5V芯片三脚芯片是一种非常常见的电源管理芯片&#xff0c;它通常被用于将高压交流输入转为稳定的直流5V输出。芯片型号AH8652是一款支持交流40V-265V输入范围的芯片&#xff0c;采用了SOT23-3三脚封装。该芯片内部集成了650V高压MOS管&#xff0c;能够稳定地将输入电压转…

R语言APSIM模型进阶应用与参数优化、批量模拟实践技术

随着数字农业和智慧农业的发展&#xff0c;基于过程的农业生产系统模型在模拟作物对气候变化的响应与适应、农田管理优化、作物品种和株型筛选、农田固碳和温室气体排放等领域扮演着越来越重要的作用。APSIM (Agricultural Production Systems sIMulator)模型是世界知名的作物生…

vite 项目搭建

1. 创建 vite 项目 npm create vite@latest 2. 安装sass/less ( 一般我使用sass ) cnpm add -D sasscnpm add -D less 3. 自动导入 两个插件 使用之后,不用导入vue中hook reactive ref cnpm install -D unplugin-vue-components unplugin-auto-import 在 vite.config.…

记录一个用C#实现的windows计时执行任务的服务

记录一个用C#实现的windows计时执行任务的服务 这个服务实现的功能是每天下午六点统计一次指定路径的文件夹大小 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Diagnostics; using System.IO; using Syst…

【实战】十一、看板页面及任务组页面开发(三) —— React17+React Hook+TS4 最佳实践,仿 Jira 企业级项目(二十五)

文章目录 一、项目起航&#xff1a;项目初始化与配置二、React 与 Hook 应用&#xff1a;实现项目列表三、TS 应用&#xff1a;JS神助攻 - 强类型四、JWT、用户认证与异步请求五、CSS 其实很简单 - 用 CSS-in-JS 添加样式六、用户体验优化 - 加载中和错误状态处理七、Hook&…