【分布式理论12】事务协调者高可用:分布式选举算法

文章目录

    • 一、分布式系统中事务协调的问题
    • 二、分布式选举算法
      • 1. Bully算法
      • 2. Raft算法
      • 3. ZAB算法
    • 三、小结与比较

一、分布式系统中事务协调的问题

在分布式系统中,常常有多个节点(应用)共同处理不同的事务和资源。前文

【分布式理论9】分布式协同:分布式系统进程互斥与互斥算法
【分布式理论10】分布式协同:分布式互斥算法最佳实现:分布式锁的原理与实现
【分布式理论11】分布式协同之分布式事务

中介绍了分布式互斥与分布式事务两类常见问题。分布式互斥问题解决了多个应用访问同一资源的问题,而分布式事务问题则解决了多个应用访问不同资源时的一致性问题。解决这些问题的过程中,事务协调者的角色非常重要。事务协调者作为资源访问的中介,能协调不同节点之间的操作。然而,事务协调者本身的可用性成为了一个不可忽视的问题。

为了增强事务协调者的可用性,通常会使用集群模式,通过主从互备机制来保障事务协调者的持续在线。主节点负责信息的更新,所有从节点负责信息的读取。若主节点出现故障,系统会通过选举机制从从节点中选举出新的主节点,保证系统的正常运行。

 

二、分布式选举算法

分布式选举问题的核心在于从一组节点中选举出一个领导者节点(主节点)。这个过程通常称为“领导者选举”。在分布式系统中,确保系统中只有一个领导者是至关重要的,因为只有领导者能够进行协调和决策。下面将介绍几种常见的分布式选举算法。

1. Bully算法

Bully算法的核心思想是从存活的节点中选举出ID最大(或最小)的节点作为主节点。Bully算法适用于含主从节点的分布式系统,主要通过三种消息类型进行节点间的通信:

  • Election消息:发起选举请求。
  • Alive消息:对Election消息的响应。
  • Victory消息:竞选成功的主节点发送给其他节点,声明自己为主节点。

在Bully算法中,选举过程分为以下几个步骤:
5. 每个节点检查自己的ID是否为存活节点中最大的,如果是,发送Victory消息宣布自己为主节点。
6. 否则,向比自己ID大的节点发送Election消息,并等待响应。
7. 如果在超时内没有收到Alive消息,节点认为自己是主节点(会导致脑裂???),发送Victory消息。
8. 如果收到比自己ID大的节点的Alive消息,则放弃竞选,等待Victory消息。

这个算法之所以叫"Bully"(欺负人),是因为ID最大的节点通过“欺负”其他节点、强行让其接受自己为主节点,最终赢得选举。

举个例子:假设有4个节点,ID分别为1、2、3、4。如果节点4突然掉线,节点1发现自己没有收到其他节点的心跳包,就会发起选举。节点2和节点3的ID都比节点1大,所以节点1会向它们发送选举消息。节点2和节点3会发出“活跃消息”,让节点1知道它们不可能成为主节点。最终,节点3会成为新的主节点。

 

2. Raft算法

Raft算法是一种投票选举算法,遵循“少数服从多数”的原则,规定在一个选举周期内获得票数最多的节点为主节点。Raft算法将节点分为三种角色:

  • Leader:领导者节点,负责管理和协调其他节点。
  • Candidate:候选者节点,具有被选举为领导者的资格。
  • Follower:跟随者节点,接受领导者的指令,不发起选举。

Raft算法的选举过程包括以下步骤:

  1. 节点角色转换:在Raft中,所有节点在没有领导者的情况下,都会是“跟随者”(Follower)。如果在一定时间内(超时)没有收到领导者的心跳包,跟随者会自愿变为“候选者”(Candidate),开始发起选举。
  2. 选举过程:当一个节点变为候选者时,它会向其他所有节点发起选举请求。如果一个节点的选举请求得到了大多数节点的投票支持,它就会成为领导者(Leader)。此时,其他节点会变回“跟随者”角色,开始接受领导者的指挥。
  3. 选举的胜者:如果有多个候选者同时发起选举,系统会出现“选举超时”,导致选举周期重复进行,直到某一个候选者最终获得超过半数节点的投票支持,成为领导者。
  4. 选举超时与心跳机制:选举是基于超时控制的。在Raft中,选举超时是随机的,防止多个节点同时发起选举。选举超时到达后,节点会开始投票,直到某个候选者得到过半数支持。
  5. 领导者的责任:当一个节点成为领导者时,它需要定期向所有跟随者发送“心跳包”(Heartbeat)。如果在选举超时内,跟随者没有收到领导者的心跳包,它们会再次发起选举。这是为了确保领导者一直在系统中活动,保证整个系统的稳定性。
  6. 领导者失败后的恢复:如果领导者失败,系统会重新启动选举过程,选举新的领导者,确保系统始终能继续工作。

如果领导者发生故障,或者网络出现分区,选举过程会重新启动,确保集群内总是有一个领导者。Raft算法中的“日志复制”机制可以保证数据的一致性,通过将客户端的操作记录到日志中,领导者向跟随者同步日志,并等待确认,直到达到多数节点的确认,领导者才会提交该操作。

在这里插入图片描述

 

举个例子:假设有5个节点(ID分别为A、B、C、D、E),初始时A是领导者。如果A节点由于故障未能发送心跳包,B、C、D、E会感知到没有收到心跳包,开始选举过程。B、C和D可能会同时成为候选者,最终一个候选者(比如B)会获得超过半数的选票,成为新的领导者。

 

3. ZAB算法

ZAB(ZooKeeper Atomic Broadcast)算法是专为ZooKeeper设计的一种协议,目的是保证集群中数据的一致性。ZAB算法通过将集群中的事务请求转化为提议,并通过广播方式同步到集群中的所有节点,来保证数据一致性。ZAB算法的选举过程类似于Raft算法,但有其独特的实现方式。ZAB算法的选举过程包括四种状态:

原理:

  1. 角色划分:ZAB将节点分为四种角色:
    • 领导者(Leader):负责处理所有客户端请求并将请求转换成提议(Proposal),然后广播给集群中的所有跟随者。
    • 跟随者(Follower):接受领导者的提议,进行确认,并按照领导者的日志进行操作。
    • 观察者(Observer):类似于跟随者,但不参与选举和日志同步,它只是观测集群的状态。
    • Looking状态:当集群中没有领导者时,所有节点都进入该状态,开始选举新领导者。
  2. 选举过程:ZAB的选举是通过一个三元组(ServerID, ZXID, epoch)来确定领导者。每个节点都维护自己的事务ID(ZXID)和选举轮次(epoch)。ZAB算法的选举规则是:节点通过比较ZXID来决定谁是领导者。如果ZXID相同,则比较节点的ServerID,选择ID最大的节点作为领导者。
  3. 数据一致性:ZAB通过广播机制来确保数据的一致性。每个事务请求被转化为提议,并由领导者广播给所有跟随者。只有当超过半数的跟随者确认提议时,领导者才会提交提议,确保所有节点的数据一致。

在选举过程中,ZAB算法使用三元组信息(ServerID, ZXID, epoch)来确定领导者。选举规则是:首先比较ZXID,选择ZXID最大的节点作为领导者;如果ZXID相同,则选择ServerID较大的节点。

 

三、小结与比较

Bully、Raft与ZAB算法各自具有不同的特点和适用场景:

  • Bully算法:通过简单的ID比较选举出主节点,最大ID的节点最终成为主节点。适用于节点间连接良好的场景,但可能在节点数量多时效率较低。
  • Raft算法:通过投票选举方式确保选举的公平性,候选者必须获得超过半数节点的支持才能成为领导者,适合高可用性和一致性要求高的系统。
  • ZAB算法:针对ZooKeeper等高可用分布式系统设计,通过广播机制和事务提议确保数据一致性,适用于需要强一致性保证的系统。

这三种算法在解决分布式系统中选举问题的同时,也对提高系统的可用性与一致性起到了关键作用。通过选举机制,能够确保在事务协调者不可用时,系统能够迅速选举出新的协调者,保证系统的持续运行。

 

参考:《分布式架构原理与实践-崔皓》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21386.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Zabbix 7.2实操指南:基于OpenEuler系统安装Zabbix 7.2

原文出处:乐维社区 部署环境 openEuler 22.03 LTS PHP 8.0 Apache Mysql 8.0 MySQL数据库 6.0 以上版本需要安装mysql8.0以上版本的数据库(以mysql为例子)。 欧拉系统自带 mysql8.0 的源,无需要安装额外的源。 安装mysql …

什么是DeFi (去中心化金融)

DeFi (去中心化金融) 概述 💰 1. DeFi 基础概念 1.1 什么是 DeFi? DeFi 是建立在区块链上的金融服务生态系统,它: 无需中心化中介开放且透明无需许可即可参与代码即法律 1.2 DeFi 的优势 开放性:任何人都可以参与…

python-leetcode 39.二叉树的直径

题目: 给定一棵二叉树的根节点,返回该树的直径。 二叉树的直径是指中间任意两个节点之间最长路径的长度。这条路径可能经过也可能不经过根节点root 两节点之间路径的长度由他们之间的边数表示 方法一:深度优先搜索 一条路径的长度为该路…

python爬虫系列课程2:如何下载Xpath Helper

python爬虫系列课程2:如何下载Xpath Helper 一、访问极简插件官网二、点击搜索按钮三、输入xpath并点击搜索四、点击推荐下载五、将下载下来的文件解压缩六、打开扩展程序界面七、将xpath.crx文件拖入扩展程序界面一、访问极简插件官网 极简插件官网地址:https://chrome.zzz…

C++17 中的 std::to_chars 和 std::from_chars:高效且安全的字符串转换工具

文章目录 1. 传统转换方法的局限性2. std::to_chars:数值到字符串的高效转换函数原型:返回值:示例代码:输出: 3. std::from_chars:字符串到数值的高效解析函数原型:返回值:示例代码&…

初尝git自结命令大全与需要理解的地方记录

常用命令 git init–初始化工作区touch 文件全称–在工作区创建文档rm 文件全称 --删除文档notepad 文件全称–在工作区打开文档cat 文件全称–在显示框显示文档的东西git status --显示工作区的文件冲突的文件 (git add 文件全称或者.) —将工作区文件…

Python——生成AIGC图像

文章目录 一、背景介绍 二、效果图展示 三、完整代码 四、分步解释 五、实用建议 1)提示词技巧 2)性能优化 3)常见问题处理 4)扩展功能建议 六、注意事项 1. 硬件要求 2. 法律合规 3. 模型安全 一、背景介绍 AIGC&a…

MyBatis框架七:缓存

精心整理了最新的面试资料,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 MyBatis缓存介绍 正如大多数持久层框架一样,MyBatis 同样提供了一级缓存和二级缓存的支持 1、一级缓存: 基于PerpetualCache 的 HashMap本地缓存&#xf…

【Unity动画】导入动画资源到项目中,Animator播放角色动画片段,角色会跟随着动画播放移动。

导入动画资源到项目中,Animator播放角色动画片段,角色会跟随着动画播放移动,但我只想要角色在原地播放动画。比如:播放一个角色Run动画,希望角色在原地奔跑,而不是产生了移动距离。 问题排查: 1.是否勾选…

WLAN无线2.4G/5G频段划分和可用信道

互联网各领域资料分享专区(不定期更新): Sheet

2025年archlinux tigervnc分辨率设置不生效的问题

在此之前我知道的修改分辨率的方法,有两种: 1. 参数geometry实现 在ubuntu中配置vnc,可以参考: 《ubuntu server 20.04安装vnc远程桌面xfce4》 https://blog.csdn.net/lxyoucan/article/details/121672487 设置vnc的分辨率非常简单 vncse…

MySQL数据库(6)—— 表的增删查改

目录 一,表的CRUD 二,Create新增 2.1 SQL介绍 2.2 按行和列插入 2.3 插入否则更新 2.4 插入替换 三,Retrieve查找 3.1 SQL介绍 3.2 按列查询 3.3 查询字段为表达式 3.4 结果去重 3.5 where关键字 3.6 对结果排序 3.7 分页显示 …

【实战】用飞书多维表格+AI DeepSeeker做股票量价分析

用2万元起步资金,进行A股实战模拟。(量化分析无法知晓 消息面的事宜,是一个不足,但是可以代替 哪些一般水平的 股票分析师) https://zk4wn8rhv2.feishu.cn/base/OABmbEBa4a4zgOsw5JlcrfIPnzh?tabletblMK2bDhPW5Am9b&a…

深度学习之迁移学习resnet18模型及调用模型预测

迁移学习resnet18模型及调用模型预测 目录 迁移学习resnet18模型及调用模型预测1 迁移学习1.1 概念1.2 主要思想1.3 优点1.4 迁移学习的步骤 2 模型迁移和调整2.1 ResNet18模型2.2 新数据2.3 冻结参数2.4 微调层2.5 新增层2.6 数据预处理 3 代码测试3.1 微调模型代码测试及保存…

DeepSeek掀起推理服务器新风暴,AI应用迎来变革转折点?

AI 浪潮下,推理服务器崭露头角 在科技飞速发展的当下,AI 是耀眼明星,席卷各行业,深刻改变生活与工作模式,从语音助手到医疗诊断、金融风险预测,AI 无处不在。其发展分数据收集整理、模型训练、推理应用三个…

用openresty和lua实现壁纸投票功能

背景 之前做了一个随机壁纸接口,但是不知道大家喜欢对壁纸的喜好,所以干脆在实现一个投票功能,让用户给自己喜欢的壁纸进行投票。 原理说明 1.当访问http://demo.com/vote/时,会从/home/jobs/webs/imgs及子目录下获取图片列表&…

【保姆级教程】DeepSeek R1+RAG,基于开源三件套10分钟构建本地AI知识库

一、总体方案 目前在使用 DeepSeek 在线环境时,页面经常显示“服务器繁忙,请稍后再试”,以 DeepSeek R1 现在的火爆程度,这个状况可能还会持续一段时间,所以这里给大家提供了 DeepSeek R1 RAG 的本地部署方案。最后实现…

Java 常用类 10. Java System类

简介: 主要用于获取系统的属性数据和其他操作,构造方法(私有的)实际上 System 类是一些与系统相关属性和方法的集合,而且在System 类中所有的属性,都是静态的,要想引用这些属性和方法&#xff0…

从零开始构建一个语言模型中vocab_size(词汇表大小)的设定规则

从零开始构建一个语言模型就要设计一个模型框架,其中要配置很多参数。在自然语言处理任务中,vocab_size(词汇表大小) 的设定是模型设计的关键参数之一,它直接影响模型的输入输出结构、计算效率和内存消耗。 本文是在我前文的基础上讲解的:从零开始构建一个小型字符级语言…

python小项目编程-初级(5、词频统计,6、简单得闹钟)

1、词频统计 统计文本文件中每个单词出现的频率。 实现 import tkinter as tk from tkinter import filedialog, messagebox from collections import Counter import reclass WordFrequencyCounter:def __init__(self, master):self.master masterself.master.title("…