(八) 初入MySQL 【主从复制】

案例概况

在企业应用中，成熟的业务通常数据量都比较大单台MySQL在安全性、高可用性和高并发方面都无法满足实际的需求，所以需要配置多台主从数据库服务器以实现读写分离来满足需求

一、主从复制原理

1.1、 MySQL的复制类型

基于语句的复制(STATEMENT, MySQL默认类型)
基于行的复制(ROW)
混合类型的复制(MIXED)

1.2、MySQL主从复制的工作过程

其中最重要的是：两个日志三个线程

1.2.1、过程

Master端的操作

记录变更到二进制日志（Binary Log）：
- 在每个事务更新数据完成之前，Master会在其二进制日志中记录这些改变。这些改变包括数据修改、结构变更等所有会影响数据库状态的操作。
- 写入二进制日志的操作完成后，Master会通知存储引擎提交事务。这一步确保了事务的完整性和数据的一致性。

Slave端的操作

复制二进制日志到中继日志（Relay Log）：
- Slave会启动一个I/O线程，该线程在Master上打开一个普通的连接，并启动Binlog dump process。
- Binlog dump process负责从Master的二进制日志中读取事件。如果Slave已经跟上Master的进度，它会进入睡眠状态等待Master产生新的事件。
- I/O线程将这些从Master读取到的事件写入到Slave的中继日志中。中继日志是Slave端用于暂存从Master接收到的变更事件的日志。
应用变更到Slave数据库：
- 接下来，SQL从线程（SQL slave thread）会处理中继日志中的事件。它从中继日志中读取事件，并重新执行这些事件，以此来更新Slave数据库中的数据，使其与Master数据库中的数据保持一致。
- 只要SQL线程与I/O线程保持一致，中继日志通常会位于操作系统的缓存中，这大大减少了磁盘I/O的开销。

复制的限制

串行化操作：复制过程在Slave上是串行化的，这意味着在Master上并行执行的更新操作在Slave上必须串行执行。这可能导致Slave上的复制延迟，特别是当Master上的更新操作非常频繁时。

性能优化和问题解决

优化硬件和网络：确保Master和Slave服务器的硬件资源充足，并优化网络延迟以减少数据传输的时间。
使用并行复制：在MySQL 5.7及以上版本中，可以使用并行复制来加速Slave的复制速度。并行复制允许多个SQL线程同时处理中继日志中的不同事件，但需要注意事务的依赖性和冲突。
分析和优化SQL查询：定期分析并优化查询，确保没有慢查询影响复制性能。
处理复制延迟：监控复制状态，如果发现延迟，需要分析原因并采取相应措施，如增加Slave服务器的数量、优化查询等。

二、MySQL主从复制延迟

1、网络延迟

2、master服务器高并发，形成大量事务

3、主从硬件设备导致 cpu主频、内存io、硬盘io

4、本来就不是同步复制、而是异步复制从库优化Mysql参数。

比如增大innodb_buffer_pool_size，让更多操作在Mysql内存中完成，减少磁盘操作。从库使用高性能主机。包括cpu强悍、内存加大。避免使用虚拟云主机，使用物理主机，这样提升了i/o 方面性。从库使用SSD磁盘网络优化，避免跨机房实现同步问题解决方法半同步复制- 解决数据丢失的问题并行复制---解决从库复制延迟的问题

三、MySQL 有几种同步方式

三种（加扩展一种）

1、异步复制（Async Replication）

2、同步复制（sync Replication）

3、半同步复制（Async Replication）

4、增强半同步复制（lossless Semi-Sync Replication）、无损复制

3.1、异步复制（Async Replication）

主完成之后就返回客户端，不关系从是否同步，主挂之后，从可能会只有原来数据。

都不等

主库将更新写入Binlog日志文件后，不需要等待数据更新是否已经复制到从库中，就可以继续处理更多的请求。Master将事件写入binlog，但并不知道Slave是否或何时已经接收且已处理。在异步复制的机制的情况下，如果Master宕机，事务在Master上已提交，但很可能这些事务没有传到任何的Slave上。假设有Master->Salve故障转移的机制，此时Slave也可能会丢失事务。MySQL复制默认是异步复制，异步复制提供了最佳性能。

2.2、同步复制（Sync Replication）

主等待所有slasve（从）完成同步数据，主返回给客户端

都等

主库将更新写入Binlog日志文件后，需要等待数据更新已经复制到从库中，并且已经在从库执行成功，然后才能返回继续处理其它的请求。同步复制提供了最佳安全性，保证数据安全，数据不会丢失，但对性能有一定的影响。

2.3、半同步复制（Semi-Sync Replication）

只要有一个从库和主同步就结束

等一个

主库提交更新写入二进制日志文件后，等待数据更新写入了从服务器中继日志中，然后才能再继续处理其它请求。该功能确保至少有1个从库接收完主库传递过来的binlog内容已经写入到自己的relay log里面了，才会通知主库上面的等待线程，该操作完毕。半同步复制，是最佳安全性与最佳性能之间的一个折中。 MySQL 5.5版本之后引入了半同步复制功能，主从服务器必须安装半同步复制插件，才能开启该复制功能。如果等待超时，超过rpl_semi_sync_master_timeout参数设置时间（默认值为10000，表示10 秒），则关闭半同步复制，并自动转换为异步复制模式。当master dump线程发送完一个事务的所有事件之后，如果在rpl_semi_sync_master_timeout内，收到了从库的响应，则主从又重新恢复为增强半同步复制。 ACK (Acknowledge character）即是确认字符

2.4、增强半同步复制（lossless Semi-Sync Replication、无损复制）

默认的配置就是增强半同步

增强半同步是在MySQL 5.7引入，其实半同步可以看成是一个过渡功能，因为默认的配置就是增强半同步，所以，大家一般说的半同步复制其实就是增强的半同步复制，也就是无损复制。增强半同步和半同步不同的是，等待ACK时间不同rpl_semi_sync_master_wait_point = AFTER_SYNC（默认）半同步的问题是因为等待ACK的点是Commit之后，此时Master已经完成数据变更，用户已经可以看到最新数据，当Binlog还未同步到Slave时，发生主从切换，那么此时从库是没有这个最新数据的，用户看到的是老数据。 增强半同步将等待ACK的点放在提交Commit之前，此时数据还未被提交，外界看不到数据变更，此时如果发送主从切换，新库依然还是老数据，不存在数据不一致的问题。

四、Mysql应用场景

mysql 数据库主要的性能是读和写，一般场景来说读请求更多。

根据主从复制可以演变成读写分离，因为读写分离基于主从复制，使用读写分离从而解决高并发的问题。

4.1、mysql架构演变的方向

1、单台mysql有单点故障

2、集群--->主从复制

3、主从复制读和写的压力不均衡---->读写分离 [读写分离的基础是主从复制]

4、mysql的高可用架构MHA（master HA高可用） MGR MMM

五、主从复制实验

前置：mysql用编译安装，使用前之前内容或脚本，并且关闭防火墙和增强

master服务器配置

192.168.88.77

两台SLAVE服务器配置

192.168.88.78 192.168.88.79

1、master服务器配置

① 安装ntp、修改配置文件

②开启NTP服务

③配置主从同步

④ 重启mysql服务器

⑤在mysql中配置规则权限规则，刷新

⑥在mysql查看master数据库状态

⑦

yum install ntp -y

yum -y install ntpdate ntp

有网的情况下同步阿里云时间作为标准

ntpdate ntp.aliyun.com

vim /etc/ntp.conf

fudge 127.127.1.0 stratum 10
server 127.127.1.0 
#设置本机的时间层级为10级，0级表示时间层级为0级，是向其他服务器提供时间同步源的意思，不要设置为0级，并且设置本机为时间同步源

systemctl start ntpd

vi /etc/my.cnf

#在mysqld模块下修改一下内容
#开启二进制日志文件（之后生成的日志名为master-bin）
log_bin=master-bin
#开启从服务器日志同步
log_slave-updates=true
#主服务器id为1（不可重复）
server_id = 1

systemctl restart mysqld

mysql -u root -p

mysql>

grant replication slave on *.* to 'myslave'@'192.168.88.%' identified by '123456';
flush privileges;

show master status;

grant replication slave on *.* to 'myslave'@'192.168.88.%' identified BY '123456’是什么意思？

给从服务器提权，允许使用slave的身份复制master的所有数据库的所有表，并指定密码为123456

2、两台SLAVE服务器配置

① 安装ntp、ntpdate服务

② 开启ntp服务

③ 时间同步master服务器

④ 两台slave服务器配置相同

⑤配置主从同步

yum install ntp ntpdate -y

systemctl start ntpd

ntpdate 192.168.88.77（主服务器ip）

如果提示`the NTP socket is in use, exiting`说明当前子节点的ntp服务启动了，你要关掉它 systemctl stop ntpd.service

#master服务器同步阿里云时钟服务器，其他周期同步

crontab -e

*/10 * * * * /usr/sbin/ntpdate 192.168.88.77（主服务器ip）

vim /etc/my.cnf

log-bin=master-bin
server_id=22
relay-log=relay-log-bin
relay-log-index=slave-relay-bin.index
relay_log_recovery=1               #开启二进制日志文件
#设置server id为22，slave2 为23
#从主服务器上同步日志文件记录到本地
#定义relay-log的位置和名称（index索引）
#    #选配项当 slave 从库宕机后，假如 relay-log 损坏了，导致一部分中继日志没有处理，则自动放弃所有未执行的 relay-log，并且重新从 master 上获取日志，这样就保证了relay-log 的完整性。默认情况下该功能是关闭的，将 relay_log_recovery 的值设置为 1 时， 可在 slave 从库上开启该功能，建议开启。

开启从服务器功能

mysql>

change master to master_host='192.168.88.77',master_user='myslave',master_password='123456',master_log_file='master-bin.00000001',master_log_pos=603;

附加：在主mysql服务器查看

刷新

start slave;

查看从服务器状态

show slave status\G;

3、测试数据同步

在主服务器上创建一个数据库

create database work;

show databases;

在两台从服务器上直接查看数据库列表

show databases;

关键点是IO和SQL的YES需要对

一些报错处理

如果I/O不是yes呢，你如何排查？
首先排查网络问题，使用ping 命令查看从服务器是否能与主服务器通信
再查看防火墙和核心防护是否关闭（增强功能）
接着查看从服务slave是否开启
两个从服务器的server-id 是否相同导致只能连接一台
master_log_file master_log_pos的值跟master值是否一致

#一般 Slave_IO_Running: No 的可能性：
1、网络不通
2、my.cnf配置有问题
3、密码、file文件名、pos偏移量不对
4、防火墙没有关闭

六、读写分离实验

七、总结+面试题

1、主从同步复制原理

如上的工作内容翻译
2、读写分离你们使用什么方式？ amoeba 代理 mycat 代码 sql_proxy
通过amoeba代理服务器，实现只在主服务器上写，只在从服务器上读；
主数据库处理事务性查询，从数据库处理select 查询；
数据库复制被用来把事务查询导致的变更同步的集群中的从数据库

3、如何查看主从同步状态是否成功
在从服务器上内输入 show slave status\G 查看主从信息查看里面有IO线程的状态信息，还有master服务器的IP地址、端口事务开始号。
当 Slave_IO_Running和Slave_SQL_Running都是YES时，表示主从同步状态成功

4、如果I/O不是yes呢，你如何排查？
首先排查网络问题，使用ping 命令查看从服务器是否能与主服务器通信
再查看防火墙和核心防护是否关闭（增强功能）
接着查看从服务slave是否开启
两个从服务器的server-id 是否相同导致只能连接一台
master_log_file master_log_pos的值跟master值是否一致

5、show slave status能看到哪些信息（比较重要）
IO线程的状态信息
master服务器的IP地址、端口、事务开始的位置
最近一次的错误信息和错误位置
最近一次的I/O报错信息和ID
最近一次的SQL报错信息和id
6、主从复制慢（延迟）会有哪些可能？怎么解决？
a、主服务器的负载过大，被多个睡眠或僵尸线程占用导致系统负载过大

b、从库硬件比主库差，导致复制延迟
c、主从复制单线程，如果主库写作并发太大，来不及传送到从库，就会到导致延迟
d、慢sql语句过多
e、网络延迟

f、逻辑日志简单易懂，方便数据之间的同步，但它的缺点是：事务不能太大，否则会导致二进制日志非常大，一个大事务的提交会非常慢。

假设有个 DELETE 删除操作，删除当月数据，由于数据量可能有 1 亿条记录，可能会产生 100G 的二进制日志，则这条 SQL 在提交时需要等待 100G 的二进制日志写入磁盘，如果二进制日志磁盘每秒写入速度为 100M/秒，至少要等待 1000 秒才能完成这个事务的提交。

所以在 MySQL 中，一定要对大事务特别对待，总结起来就是：

设计时，把 DELETE 删除操作转化为 DROP TABLE/PARTITION 操作；
业务设计时，把大事务拆成小事务。

对于第一点（把 DELETE 删除操作转化为 DROP TABLE/PARTITION 操作），主要是在设计时把流水或日志类的表按时间分表或者分区，这样在删除时，二进制日志内容就是一条 DROP TABLE/PARITION 的 SQL，写入速度就非常快了。

而第二点（把大事务拆分成小事务）也能控制二进制日志的大小。

MySQL 5.6版本以后，推荐使用“ROW”格式的二进制日志格式，因为它可以记录每一行数据的变化情况，从而避免了数据不一致的问题。

7、主从复制延迟优化

要彻底避免 MySQL 主从复制延迟，数据库版本至少要升级到 5.7，因为之前的MySQL 版本从机回放二进制都是单线程的（5.6 是基于库级别的单线程）。

使用并行复制，但是MySQL 的从机并行复制有两种模式。

COMMIT ORDER：主机怎么并行，从机就怎么并行。
WRITESET：基于每个事务，只要事务更新的记录不冲突，就可以并行。

在 WRITESET 模式下，主从复制几乎没有延迟，用它。

GTID是一种全局事务标识符，可以在主从库之间进行数据同步。使用GTID可以避免由于网络延迟等原因导致的数据不一致。

注意一个问题：mysql主从复制

8、mysql主从复制不同步的原因及如何处理？

方法一：适用于数据相差不大或不严格要求完全同步的情况

步骤说明：

检查Master和Slave状态：
- 登录到Master数据库，检查是否有大量的Sleep进程，以及复制状态是否正常。
- 登录到Slave数据库，使用SHOW SLAVE STATUS\G查看IO线程和SQL线程的状态，确认是否有错误或延迟。
跳过错误事件：
- 如果发现SQL线程停滞不前，可能是因为某个事件（如一个查询）在从库上执行失败。此时，可以尝试跳过这个错误事件。
- 执行STOP SLAVE;停止从库复制。
- 执行SET GLOBAL sql_slave_skip_counter = 1;跳过一个事件（注意，这可能会导致数据不一致，因此仅在不严格要求数据一致性的情况下使用）。
- 执行START SLAVE;重启复制。
再次检查Slave状态：
- 使用SHOW SLAVE STATUS\G检查IO线程和SQL线程是否都正常运行（Slave_IO_Running和Slave_SQL_Running都应为Yes）。

注意事项：

跳过事件可能会导致数据不一致，因此仅在不严格要求数据一致性的场景下使用。
跳过事件后，应尽快检查导致错误的原因，并考虑是否需要对数据进行手动修复。

方法二：适用于数据相差较大或要求数据完全统一的情况

步骤说明：

锁表并备份Master数据：
- 在Master上执行FLUSH TABLES WITH READ LOCK;来锁定所有表，防止在备份过程中有新数据写入。
- 使用mysqldump或其他工具备份数据库到文件（如mysql.bak.sql）。
记录Master的binlog位置和文件名：
- 执行SHOW MASTER STATUS;记录当前的binlog文件名和位置，这将用于在从库上设置复制起始点。
传输备份文件到Slave：
- 使用scp或其他文件传输工具将备份文件传输到Slave服务器。
停止Slave复制并导入数据：
- 在Slave上执行STOP SLAVE;停止复制。
- 导入备份文件到Slave数据库。
配置Slave的复制起始点：
- 使用CHANGE MASTER TO命令设置Slave的复制起始点，这里的文件名和位置应与Master上的SHOW MASTER STATUS;输出相匹配。
启动Slave复制：
- 执行START SLAVE;启动从库的复制。
检查Slave状态：
- 使用SHOW SLAVE STATUS\G检查复制状态，确认IO线程和SQL线程都正常运行。