Facebook Delos 中的虚拟共识协议

背景
Facebook 的软件系统栈一般包括两层:上层是数据平面, 下层是控制平面。

facebook software stack

数据平面包括大量的服务,他们需要存储和处理海量数据。控制平面用来支撑数据平面,起到一些控制作用:调度、配置、命名、切片等等。控制平面通常是有状态的,比如控制的元信息,为了存储这些元信息,控制平面需要有自己的存储。控制平面对存储有以下要求:

容错:零依赖、可持久化、高可用。
丰富的 API:事务,范围查询,二级索引。
在 17 年的时候,  Facebook 使用几种组件来充当控制平面的存储,包括:

MySQL:API 丰富,表达能力强,但是不支持容错。
ZooKeeper:容错,零依赖,但是 API 表达能力弱。
可以看出,他们都不能很好的同时满足控制平面对存储的需求。此外,作为单体架构,上述组件都比较难改造成同时支持容错和丰富 API 的系统。此外,还有一大问题,团队当时所面临的工期非常紧。最终,他们交出的答卷是 —— Delos。

架构
Delos 是一个基于共享日志(shared log)的控制面存储系统。db 层的实例通过 append 和 read 与共享日志进行交互,从而保持对外状态的一致性。根据近几十年的研究,使用共享日志作为 API,可以很好的向 db 层隐藏共识协议的大量细节。

design based sharedlog

读写流程

 

read write procedure via shared log

存储服务可以分为两层,db API 层和共享日志 runtime 层。如上图,以表格存储为例,在上层,DelosTable 负责提供表格存储的 API;在下层,DelosRuntime 负责共享日志的读写。则,一个典型的写流程如下:

客户端发起一个写请求
DelosTable 层将其转发给 DelosRuntime
DelosRuntime 将该请求序列化后追加到共享日志
各个服务器侦听到该追加后,读取其内容,以同一种顺序将其应用到本地状态机
在该架构中,有两个关键的设计点:

共享日志层提供了具有线性一致性保证的极简 API
基于该简明 API,上层可以方便的提供不同存储接口的实现
虚拟共识
到此为止,该架构设计看起来相当简单,但我们知道,复杂性只能被转移,但不可能凭空消失。可以看到,最复杂的共识协议被隐藏在了共享日志后面,于是问题随之而来:

我们需要如何快速实现一个满足共识协议的的共享日志组件?
随着技术的发展,如果我们之后想用更好的共识协议,该如何进行替换?
为了解决这些问题,Delos 提出了虚拟共识(Virtual Consensus)。通过抽象出一层虚拟共识协议,Delos 的共享日志组件可以快速复用现有实现,比如 Zookeeper;之后为了提高性能,也可以借助此该层对下层进行不停机迁移。

在 Delos 中,虚拟共识协议的承载层被称为 VirtualLog。对上,db 层基于 VirtualLog 层进行实现;对下,VirtualLog 被映射成一组物理共享日志,称为 Loglets。每个 loget 提供和共享日志同样的 API,外加一个 seal 命令。一旦被 seal,Loglet 便不再接受追加。为了存储 VirtualLog 逻辑空间到 Loglets 物理空间的映射,Delos 引入了新的组件:MetaStore。

MetaStore 是一个带版本的简单 KV 存储。通过存储的不同版本的 Loglet 的切换,VirtualLog 就自然的将流量打到新的 Loglet 上。如下图展示了 VirtualLog 向 MetaStore put 一个新版本(ver0 -> ver1)的映射信息,将流量无宕机的从 Zookeeper 切换到了 LogDevice 的过程 。

virtualizing consensus via the VirtualLog

定制 Loglet
在满足基本需求后,为了进一步提升性能,Delos 想自己定制 Loglet,以满足以下特点:

简单:simple
快速:fast
容错:fault tolerant
NativeLoglet
只实现其中两点,比较容易;若要三者皆得,有点困难。Delos 通过分治策略,将其分解为两个组件:

MetaStore:进行容错
Loglet:专注性能
此时,所有一致性的来源便都移到了 MetaStore 之上。而 MetaStore 功能相对简单,只需保存空间映射,并提供容错的 reconfiguration 源语(即对映射进行操作,比如 loglet 切换),且 reconfiguration 是个低频操作。因此 MetaStore 的实现无需关注性能优化,只需要按照 Lamport 最初的 Paxos 进行实现即可,可以保证 MetaStore 实现的简洁性。

同时,将 Loglet 职能弱化,不再需要提供完全的容错机制,只需提供一个高可用的 seal 命令即可。如此一来,当一个 Loget 不可用时,VirtualLog 只需将其 seal,然后将流量切向其他 Loglet 即可。

据此,Delos 实现了新的 Loglet 实例——NativeLoglet 。

 

the NativeLoglet

直观感觉来说,NativeLoglet 类似一个弱化版的 LogDevice。其交互流程如下:

正常运行时,集群中某个 LogServer 充当 Sequencer
所有 DelosRuntime 发出的 Append 请求都要通过 Sequencer 定序后,追加到各个 LogServer
当 Sequencer 所在 LogServer 宕机后,DelosRuntime 直接向所有 LogServer 发送 CheckTail 请求,以 quorum 协议确定 tail
所有 DelosRuntime 都可以发起 seal 请求,对 NativeLoglet 进行 seal
注意,NativeLoget 中所有 LogServer 可以和 DelosRuntime 部署在一块(称作 Converged 模式),也可以单独部署(称作 Disaggregated 模式)。前者能够获取更好的本地读性能,并且让数据库实例和日志实例生命周期绑定。后者将数据库层和日志层分离,可以避免不同层的资源争夺,并允许各自按需伸缩。

converged vs disaggregated

下图是一个替换 NativeLoglet 后的性能提升对比:

 

NativeLoglet compare

StripedLoglet
为了进一步提升性能,在 VirtualLog 的抽象下,Delos 利用分片思想又造出了一种叫做 StripedLoglet 的实现。该实现在底层组合了多个 Loglets 实例,当 Append 请求到来时,将其 round robin 的打到各个底层 Loglet 系统中,从而极大提升性能。

此外,StripedLoglet 允许多个 DelosRuntime 使用不同策略进行并行 Append,并且允许暂时的空洞存在,之后使用类似滑动窗口的机制,进行捎带 ACK,从而进一步提升性能。

底层多个 Loglet 系统可以视情况共享一个集群或分散到多个集群.

striped loglet

The Last Thing:VirtualLog Triming
此外值得一说的细节是,VirtualLog 提供的 Trim 操作。得益于虚拟化的抽象,Delos 可以通过删除映射,将老的日志进行移除。当然,一种更好的做法是,将老的日志移动到 BackupLoget 的冷集群中,然后改变映射,对外提供一种无限日志的抽象,进而允许按年龄对不同日志段进行细粒度的存储控制。

另一方面,通过修改 MetaStore 中的映射,Delos 允许修改单个日志记录,对某些有问题的日志进行删除,以避免系统 hang 住或者反复重启宕机。这是之前的一致性协议无法做到的。

 

trimming the VirtualLog

结语
Delos 位于 Facebook 系统的底层(用于控制面的存储),它采用分层的设计,使得:

在项目之初,可以在某些层复用现有系统,进行快速上线,投入使用。
在上线之后,允许不停机的替换更高性能的组件、实验更新的一致性协议。

summary

虚拟共识之于分布式系统,有点像虚拟内存之于单机系统,通过分层解耦,使得设计者在系统构建时有更多腾挪空间。至于该思想是否能够实至名归,还得等待时间和实践的检验。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/148510.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

便捷方式定制真人3D手办,易模小程序即将上线

这个十月一,您是否在商场或者一些门店门前“偶遇”了惟妙惟肖的等比例缩小的真人手办?是否心动想要制作一个却因犹豫不决而就此错过?现在,更便捷的真人手办定制方法就在你的微信里~【易模真人手办定制】小程序即将上线&#xff01…

苹果ios应用ipa文件签名为什么需要签名才能上架?有没有别的方式替代苹果签名?

近年来,苹果设备的普及程度逐渐加深,随之而来的是越来越多的应用程序涌入了苹果的应用商店。为了保障用户设备和数据的安全,以及减少恶意程序和恶意软件的传播,苹果公司实行了一套严格的应用安全机制,其中就包括应用程…

mysql面试题18:MySQL中为什么要用 B+树,为什么不用二叉树?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL中为什么要用 B+树,为什么不用二叉树? MySQL数据库索引是一种数据结构,用于提高数据查询的效率。在MySQL中,常用的索引类型包括B+树索引…

Integrity Plus for Mac,保障网站链接无忧之选

在如今数字化的时代,网站链接的完整性对于用户体验和搜索引擎排名至关重要。如果您是一位网站管理员或者经常需要检查网站链接的人,那么Integrity Plus for Mac(Integrity Plus)将成为您最好的伙伴。 Integrity Plus是一款专业的…

[软件工具]opencv-svm快速训练助手教程解决opencv C++ SVM模型训练与分类实现任务支持C# python调用

opencv中已经提供了svm算法可以对图像实现多分类,使用svm算法对图像分类的任务多用于场景简单且对时间有要求的场景,因为opencv的svm训练一般只需要很短时间就可以完成训练任务。但是目前网上没有一个工具很好解决训练问题,大部分需要自己编程…

Java数据结构————队列

一 、队列 在Java中,Queue是个接口,底层是通过链表实现的。 只允许在一端进行插入数据操作, 在另一端进行删除数据操作的特殊线性表, 队列具有先进先出FIFO(First In First Out) 。 入队列: 进行插入操作的一端称为…

游戏素材网站

OpenGameArt.org:这是一个提供免费游戏素材的社区平台,包括角色、背景、音效、音乐等各种类型的素材。你可以在 https://opengameart.org/ 上找到大量的免费资源。 Kenney.nl:Kenney 是一个知名的游戏开发者,他提供了大量的免费 …

十天学完基础数据结构-第六天(树(Tree))

树的基本概念 树是一种层次性的数据结构,它由节点组成,这些节点按照层次关系相互连接。树具有以下基本概念: 根节点:树的顶部节点,没有父节点。 子节点:树中每个节点可以有零个或多个子节点。 叶节点&am…

Linux查看防火墙状态

1.CentOS查看防火墙 firewall-cmd --state 显示状态 2.Ubuntu查看防火墙 sudo ufw status

js判断数据类型、toString和valueOf区别,类型转换、不同类型间的运算、判断相等

目录 判断数据类型 运算符 typeof:判断 基本数据类型 typeof nullObject 类型标签均为000 实例 instanceof 构造函数:判断原型链,和isPrototypeOf 方法 构造函数.prototype.isPrototypeOf(实例) :判断原型链 (数据).const…

zookeeper选举机制

全新集群选举 zookeeper 全新集群选举机制网上资料很多说法很模糊,仔细思考了一下,应该是这样 得到票数最多的机器>机器总数半数 具体启动过程中的哪个节点成为 leader 与 zoo.cfg 中配置的节点数有关,下面以3个举例 选举过程如下 server…

基于SpringBoot的高考志愿填报系统

功能需求: 1.用户可以根据自己的院校类型、办学类型、层次类型、地域等因素筛选高校。 2.用户可以查询到所选高校的基本信息,包括学校的概况、历史沿革、办学特色、学院设置、师资力量、科研实力等。 3.用户可以查询到所选高校的高校开设专业&#xff0c…

模块化编程+LCD1602调试工具——“51单片机”

各位CSDN的uu们你们好呀,小雅兰又来啦,刚刚学完静态数码管显示和动态数码管显示,感觉真不错呢,下面,小雅兰就要开始学习模块化编程以及LCD1602调试工具的知识了,让我们进入51单片机的世界吧!&am…

AMD GPU 内核驱动分析(三)-dma-fence 同步工作模型

在Linux Kernel 的AMDGPU驱动实现中,dma-fence扮演着重要角色,AMDGPU的Render/解码操作可能涉及到多个方面同时引用buffer的情况,以渲染/视频解码场景为例,应用将渲染/解码命令写入和GPU共享的BUFFER之后,需要将任务提…

<C++> 智能指针

智能指针的使用 内存泄露问题 内存泄露是指因为疏忽或错误&#xff0c;造成程序未能释放已经不再使用的内存的情况。比如&#xff1a; #include <iostream> #include <stdexcept> using namespace std; int div() {int a, b;cin >> a >> b;if (b 0…

关于PointHeadBox类的理解

forward函数 def forward(self, batch_dict):"""Args:batch_dict:batch_size:point_features: (N1 N2 N3 ..., C) or (B, N, C)point_features_before_fusion: (N1 N2 N3 ..., C)point_coords: (N1 N2 N3 ..., 4) [bs_idx, x, y, z]point_labels (opti…

【算法】排序——归并排序和计数排序

主页点击直达&#xff1a;个人主页 我的小仓库&#xff1a;代码仓库 C语言偷着笑&#xff1a;C语言专栏 数据结构挨打小记&#xff1a;初阶数据结构专栏 Linux被操作记&#xff1a;Linux专栏 LeetCode刷题掉发记&#xff1a;LeetCode刷题 算法头疼记&#xff1a;算法专栏…

在Ubuntu 20.04搭建最小实验环境

sudo apt-get -y install --no-install-recommends wget gnupg ca-certificates安装导入GPG公钥所需的依赖包。 sudo wget -O - https://openresty.org/package/pubkey.gpg | sudo apt-key add -导入GPG密钥。 sudo apt-get -y install --no-install-recommends software-p…

【AI视野·今日NLP 自然语言处理论文速览 第四十七期】Wed, 4 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 4 Oct 2023 Totally 73 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Contrastive Post-training Large Language Models on Data Curriculum Authors Canwen Xu, Corby Rosset, Luc…

【VUE·疑难问题】定义 table 中每行的高度(使用 element-UI)

一、如何定义 table 中每一行的 height &#xff1f; 1.table例子 <!-- 二、table --><div style"overflow: hidden;display: block;height: 68vh;width: 100%;"><el-table stripe show-header style"width: 100%" :data"tableData&q…