【开源存储】glusterfs分布式文件系统部署实践

文章目录

    • 一、前言
      • 1、介绍说明
      • 2、术语说明
      • 3、冗余模式
        • 3.1、复制卷(Replication)
        • 3.2、纠删卷(Erasure Code)
    • 二、部署说明
      • 1、软件安装
      • 2、集群部署
        • 2.1、前置准备
        • 2.2、部署过程
          • a、添加节点
          • b、配置存储
          • c、创建glusterfs卷
          • d、客户端挂载
      • 3、常用操作
        • 3.1、扩展卷(add-brick)
        • 3.2、收缩卷(remove-brick)
    • 三、Q&A
      • 1、volume create: rep-vol: failed: /brick1/data is already part of a volume

一、前言

1、介绍说明

Architecture

GlusterFS(Gluster File System)是一款高性能、可扩展的分布式文件系统,它将多个物理服务器上的存储资源整合为一个统一的命名空间,实现了对分布式存储资源的集中管理和访问。
它通过横向扩展、数据冗余、高性能和易于管理等特点,为用户提供了高效、安全的分布式存储解决方案。

在这里插入图片描述

2、术语说明

  • Brick(存储块)
    glusterfs中的基本存储单元(存储块),通常是一个授信存储池中服务器的一个导出目录,可以通过主机名和目录名标识(如server:export)

  • Volume(逻辑卷)
    逻辑卷,一个逻辑卷是一组bricks的集合,卷是数据存储的逻辑设备

  • Redundancy
    冗余度,Dispersed卷可以有任意大小的存储块bricks(B),且可配置冗余度Redundancy(R)。
    R最小值为1,R最小值不能为0的原因在于,当R的值为0时,卷就不提供容错机制,其性能还不如直接用条带卷,所以限定R的最小值为1。
    R最大值为(B-1)/2,R最大值为(B-1)/2的原因在于,当R的值为B/2,其存储利用率和2副本复制卷相同,但其性能远远不如2副本复制卷,所以限定R的最大值为(B-1)/2。
    R最小值和最大值的确定使得B的最小值被确定为3,即创建纠删卷至少需要3个brick才能创建成功。

  • Dispersed
    Dispersed卷提高了存储空间的利用率,其存储利用率计算公式为(B-R)/B,有效存储空间为(B-R)*Brick_size,在理论上存储空间利用率可以达到99.9%。也就是说,能够保证在提供一定容错机制的情况下,最大限度的提高存储利用率。
    Dispersed卷提高了存储的可靠性,只要任意大于等于B-R个brick能够正常则数据可正常读写,就能够保证数据是可用的、可恢复的;同时还优化了带宽的使用,且部分文件数据的分片失效引起的降级读写不影响其他文件数据的读写。

  • Distributed Dispersed
    Distributed Dispersed 卷可以通过扩展Dispersed 卷生成,即扩展一倍或n倍的bricks(B)。对比于Dispersed卷,其原理相同,但在相同的erasure codeing配置下,具有更好的I/O性能。

3、冗余模式

3.1、复制卷(Replication)
  • 模式说明

在高可用和高可靠性环境中使用复制卷,副本数越多,数据可用性越好,可靠性越高,但也意味着更低的空间利用率和更高的成本。复制卷最少配置副本数为2,2副本容易出现脑裂问题,可考虑配置多一个仲裁盘(arbiter 1)或者配置为3副本来避免脑裂问题。

  • 读写机制

副本是将每个原始数据分块都镜像复制到另一个存储介质上,从而保证在原始数据失效后,数据仍可用并能通过副本数据恢复。

3.2、纠删卷(Erasure Code)
  • 模式说明

纠删码机制具有更高的存储效率,在提供相同存储可靠性的条件下,可以最小化冗余存储开销,但是相对于复制卷而言,其IOPS性能下降较多。
纠删卷创建与节点个数无关(节点个数大于等于1),只与存储块bricks(B)、冗余度redunancy(R)相关,其中存储块bricks(B)必须大于等于3。

  • 读写机制

Fragment的大小在GlusterFS源码中有一个宏定义,其大小等于EC_METHOD_WORD_SIZE x EC_GF_BITS=64x8=512 bytes

纠删卷会把每个读写请求切分为大小相同的Chunk块,而每个Chunk块又被分隔为(B - R)个大小为512bytes的Fragment数据分片,然后使用Rabin IDA计算生成R个大小为512bytes的Fragment校验分片,最后将(B - R)个数据分片和R个校验分片以条带的方式存储在一起,即分别存储于每个brick上,从而降低访问热点。其中R个校验分片会以轮询方式存储于卷的每个brick上,用以提高卷的可靠性。

纠删卷中,Chunk的大小可配置,其大小与具体的Redundancy配置有关,其大小等于512 x(B - R)bytes。可通过调整Redundancy的配置来修改Chunk的大小。按照官方4:2(B=6,R=2)纠删卷为例,得出Chunk的大小为(6 - 2)x 512=2048 byte。
注:Redundancy的配置在纠删卷创建之后就确定,不可修改

在这里插入图片描述

二、部署说明

1、软件安装

  • 安装EPEL源

源码编译安装需要安装相关依赖包,由于CentOS默认源部分依赖包没有,故需要配置epel源以下载依赖包

wget https://mirrors.ustc.edu.cn/epel//7/x86_64/Packages/e/epel-release-7-12.noarch.rpm
rpm -ivh epel-release-7-12.noarch.rpm 
yum clean all
yum makecache
  • 安装依赖包
    注:安装启动rpcbind服务,若此步骤缺失,则启动glusterd服务可能出现Failed to restart glusterd.service: Unit not found错误
yum install autoconf automake bison cmockery2-devel dos2unix flex fuse-devel glib2-devel libacl-devel libaio-devel libattr-devel libcurl-devel libibverbs-devel librdmacm-devel libtirpc-devel libtool libxml2-devel lvm2-devel make openssl-devel pkgconfig pyliblzma python-devel python-eventlet python-netifaces python-paste-deploy python-simplejson python-sphinx python-webob pyxattr readline-devel rpm-build sqlite-devel systemtap-sdt-devel tar userspace-rcu-devel
yum install rpcbind -y
systemctl start rpcbind
  • 源码编译安装

下载9.6源码包,进行源码编译安装

wget https://download.gluster.org/pub/gluster/glusterfs/9/9.6/glusterfs-9.6.tar.gz
tar -zxvf glusterfs-9.6.tar.gz
cd glusterfs-9.6
./autogen.sh 
./configure --without-libtirpc
make && make install
  • 启动glusterd服务,设置开启自启动
    注:若启动glusterd服务出现“Failed to start GlusterFS, a clustered file-system server.”错误,则尝试杀死gluster相关进程后再次重启glusterd服务即可
systemctl start glusterd
systemctl enable glusterd

2、集群部署

2.1、前置准备

环境说明
OS:CentOS 7.6.1810
Kernel:3.10.0-957
Glusterfs:9.6

示例集群环境信息如下

序号节点主机名节点IP地址
1node224172.16.21.224
2node225172.16.21.225
3node226172.16.21.226
  • 配置集群节点主机名和IP映射关系,同步到所有集群节点上
[root@node224 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
172.16.21.224    node224
172.16.21.225    node225
172.16.21.226    node226
[root@node224 ~]# scp /etc/hosts node225:/etc/
[root@node224 ~]# scp /etc/hosts node226:/etc/
  • 此处以node224作为主节点,配置到从节点node225、node226 ssh免秘钥登录
[root@node224 ~]# ssh-keygen 
[root@node224 ~]# ssh-copy-id node225
[root@node224 ~]# ssh-copy-id node226
  • 关闭集群节点防火墙及selinux
systemctl stop firewalld
systemctl disable firewalld
setenforce 0
sed -i  "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config
2.2、部署过程
a、添加节点

在集群节点node224上分别添加集群节点node225、node226

[root@node224 ~]# gluster peer probe node225
peer probe: success. 
[root@node224 ~]# gluster peer probe node226
peer probe: success. 
[root@node224 ~]# gluster peer status
Number of Peers: 2Hostname: node225
Uuid: d9ea85bc-e8f1-4bf5-85df-a954dc89890f
State: Peer in Cluster (Connected)Hostname: node226
Uuid: 63613c2a-3d54-40dd-93a4-c002977d68f5
State: Peer in Cluster (Connected)
b、配置存储

所有节点格式化本地磁盘挂载到本地目录,用以提供brick使用

  • 格式化本地磁盘,创建对应本地挂载目录
[root@node224 ~]# mkfs.xfs -f /dev/sdb
[root@node224 ~]# mkdir  /brick1
[root@node224 ~]# blkid | grep sdb
/dev/sdb: UUID="94967c2b-69f6-4e83-8e90-6c2f530a8f76" TYPE="xfs" 
  • 将磁盘挂载写入到开机自启动,挂载磁盘到本地
[root@node224 ~]# echo "UUID=94967c2b-69f6-4e83-8e90-6c2f530a8f76 /brick1 xfs defaults 0 0" >> /etc/fstab 
[root@node224 ~]# mount -a
  • gluster不能直接使用挂载目录作为gluster的卷参数,挂载磁盘到本地后,需要创建多一个子目录作为gluster数据存储
[root@node224 ~]# mkdir  /brick1/data
c、创建glusterfs卷
  • 创建纠删比为2:1的纠删卷ec-vol,并启用ec-vol卷
[root@node224 ~]# gluster volume create ec-vol  disperse-data 2 redundancy 1 node224:/brick1/data/ node225:/brick1/data/ node226:/brick1/data/
volume create: ec-vol: success: please start the volume to access data
[root@node224 ~]# gluster volume info ec-vol Volume Name: ec-vol
Type: Disperse
Volume ID: 6629b977-41e1-454c-a4f3-c66a3836e997
Status: Created
Snapshot Count: 0
Number of Bricks: 1 x (2 + 1) = 3
Transport-type: tcp
Bricks:
Brick1: node224:/brick1/data
Brick2: node225:/brick1/data
Brick3: node226:/brick1/data
Options Reconfigured:
transport.address-family: inet
nfs.disable: on
[root@node224 ~]# gluster volume start ec-vol 
volume start: ec-vol: success
d、客户端挂载
  • 将ec-vol卷挂载到本地
[root@node227 ~]# mkdir /glusterfs
[root@node227 ~]# mount -t glusterfs node224:ec-vol /glusterfs
[root@node227 ~]# mount -l | grep gluster
node224:ec-vol on /glusterfs type fuse.glusterfs (rw,relatime,user_id=0,group_id=0,default_permissions,allow_other,max_read=131072)
  • 设置开启自启动
    注:glusterfs文件系统需要网络连接,故需要在defaults后面加上",_netdev"参数
[root@node227 ~]# echo "node224:/ec-vol /glusterfs glusterfs defaults,_netdev 0 0" >> /etc/fstab 

3、常用操作

3.1、扩展卷(add-brick)

当需要容量扩展时,对于复制卷和纠删卷都需要添加其倍数,复制卷和纠删卷扩展操作命令一致。添加之后需进行卷平衡操作(rebalance)进行数据均衡

  • 当对复制卷进行扩展之后,复制卷的brick个数和变为副本数的整数倍,卷类型由复制卷(Replicate)变为分布式复制卷(Distribute-Replicate)
  • 当对纠删卷进行扩展之后,纠删卷的brick个数和变为纠删比之和的整数倍,卷类型由纠删卷(Disperse)变为分布式纠删卷(Distribute-Disperse)
3.2、收缩卷(remove-brick)

当因为磁盘原因需要收缩容量时,对于副本和纠删都需要删除其倍数个brick,副本和纠删卷收缩命令操作一致,并且是同一组的需要全部删除,可以一次删除多组;收缩卷需要先进行数据迁移,等待完成之后再确认删除,收缩后需要卷平衡(rebalance)进行数据均衡
注:如2副本分布式复制卷disrepvol存在4个brick(server1:exp1、server2:exp2、server3:exp3、server4:exp4),server1:exp1和server2:exp2为同一组brick,server3:exp3和server4:exp4为同一组brick,其中server1:exp1、server3:exp3互为副本,server2:exp2、server4:exp4互为副本,进行收缩卷操作时,只能同时删除brick1和brick2,或同时删除brick3和brick4

三、Q&A

1、volume create: rep-vol: failed: /brick1/data is already part of a volume

  • 问题现象
    删除glusterfs卷之后,重新在原有卷的数据目录上创建新的gluster卷失败,提示数据目录是一个卷的一部分
[root@node224 ~]# gluster volume create str-vol stripe 3 node224:/brick1/data/ node225:/brick1/data/ node226:/brick1/data/
volume create: str-vol: failed: /brick1/data is already part of a volume
  • 解决措施
    安装attr安装包,删除原有卷数据目录的文件,重新设置数据目录属性
[root@node224 ~]# yum install attr -y
[root@node224 ~]# rm -rf /brick/data/.glusterfs/
[root@node224 ~]# setfattr -x trusted.glusterfs.volume-id /brick1/data
[root@node224 ~]# setfattr -x trusted.gfid  /brick1/data

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/208357.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外包搞了6年,技术退步明显......

先说情况,大专毕业,18年通过校招进入湖南某软件公司,干了接近6年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

k8s中pod的hostport端口突然无法访问故障处理

故障背景: 租户告知生产环境的sftp突然无法访问了,登录环境查看sftp服务运行都是正常的,访问sftp的hostport端口确实不通。 故障处理过程 既然访问不通那就先给服务做个全面检查,看看哪里出了问题,看下sftp日志&#…

进程间通信 管道

在Linux中,管道是一种通信机制,用于将一个程序的输出直接连接到另一个程序的输入。从本质上说,管道也是一种文件,但它又和一般的文件有所不同,它可以克服使用文件进行通信的两个问题,具体表现为限制管道的大…

自动驾驶学习笔记(十一)——高精地图

#Apollo开发者# 学习课程的传送门如下,当您也准备学习自动驾驶时,可以和我一同前往: 《自动驾驶新人之旅》免费课程—> 传送门 《Apollo Beta宣讲和线下沙龙》免费报名—>传送门 文章目录 前言 高精地图 地图采集 底图制作 地图…

SpringCloudSleuth+Zipkin 整合及关键包汇总

背景 整合了一下 SpringCloudSleuth Zipkin,本来是很简单的东西,但是最终导出依赖包时没注意,导致目标服务始终没有被纳入 Zipkin 的链路追踪中,本文记录这个过程及关键依赖包。 部署zipkin 官网下载最新的 zipkin 可执行包&a…

使用trigger-forward跨流水线传递参数

参考文档:https://docs.gitlab.com/ee/ci/yaml/#triggerforward 今天给大家介绍一个gitlab CI/CD的关键字 - forward,该关键字是一个比较偏的功能,但同时也是一个很实用的功能,我们通过在gitlab的ci文件中使用forward关键字&#…

软件测试人员掌握哪些技术可以立马跳槽涨薪?

1、文档能力:各种文档的编写能力 因为不管是功能测试工程师还是自动化测试工程师都必须要跟各种文档打交道,所以最基本的需要掌握一些常用的文档编辑的使用,比如说 常用编写测试用例的工具:excel表格或者wps等 编写需求分析需要…

2分图匹配算法

定义 节点u直接无边,v之间无边,边只存在uv之间。判断方法:BFS染色法,全部染色后,相邻边不同色 无权二部图中的最大匹配 最大匹配即每一个都匹配上min(u, v)。贪心算法可能导致&…

redis运维(二十二)redis 的扩展应用 lua(四)

一 最佳实践 ① 铺垫 最佳实践:1、把redis操作所需的key通过KEYS进行参数传递2、其它的lua脚本所需的参数通过ARGV进行传递. redis lua脚本原理 Redis Lua脚本的执行原理 ② 删除指定的脚本缓存 ③ redis集群模式下使用lua脚本注意事项 1、常见报错现象 C…

【开源】基于JAVA语言的考研专业课程管理系统

项目编号: S 035 ,文末获取源码。 \color{red}{项目编号:S035,文末获取源码。} 项目编号:S035,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 考研高校模块2.3 高…

接口性能测试 —— Jmeter并发与持续性压测

接口压测的方式: 1、同时并发:设置线程组、执行时间、循环次数,这种方式可以控制接口请求的次数 2、持续压测:设置线程组、循环次数,勾选“永远”,调度器(持续时间),这种…

【安装指南】MySQL和Navicat下载、安装及使用详细教程

目录 ⛳️1.【MySQL】安装教程 1.1 获取下载包 1.2 MySQL安装 1.2.1 MySQL工具安装 1.2.2 MySQL环境变量 1.2.3 验证MySQL安装成功 ⛳️2.【Navicat-v15】的安装和无限使用 ⛳️3.【测试Navicat连接MySQL】 ⛳️1.【MySQL】安装教程 1.1 获取下载包 前往官网获取压缩包…

C++入门篇(零) C++入门篇概述

目录 一、C概述 1. 什么是C 2. C的发展史 3. C的工作领域 4. C关键字(C98) 二、C入门篇导论 一、C概述 1. 什么是C C是基于C语言而产生的计算机程序设计语言,支持多重编程模式,包括过程化程序设计、数据抽象、面向对象程序设计、泛型程序设计和设计模式…

UIkit-UIAlertContent

简单Demo //注意!!!必须放在viewController的viewDidAppear里面,viewDidLoad里面不行 - (void)viewDidAppear:(BOOL)animated {// 创建 UIAlertControllerUIAlertController *alertController [UIAlertController alertControll…

MySQL系列 - 数据类型

MySQL是一种常用的关系型数据库管理系统,它支持多种数据类型,包括整数、浮点数、字符串、日期和时间等。在本文中,我们将介绍MySQL中常用的数据类型及其用法。 MySQL数据类型介绍: 1、整数类型: MySQL提供了多种整数…

Ubuntu 22.04安装Go 1.21.4编译器

lsb_release -r看到操作系统版本是22.04,uname -r看到内核版本是uname -r。 sudo wget https://studygolang.com/dl/golang/go1.21.4.linux-amd64.tar.gz下载编译器。 sudo tar -zxf go1.21.4.linux-amd64.tar.gz -C /goroot将文件解压到/goroot目录下,这个命令…

【虚拟机】在VM中安装 CentOS 7

1.2.创建虚拟机 Centos7是比较常用的一个Linux发行版本,在国内的使用比例还是比较高的。 大家首先要下载一个Centos7的iso文件,我在资料中给大家准备了一个mini的版本,体积不到1G,推荐大家使用: 我们在VMware《主页》…

【EasyExcel实践】导出多个sheet到多个excel文件,并压缩到一个zip文件

文章目录 前言正文一、项目依赖二、封装表格实体和Sheet实体2.1 表格实体2.2 Sheet实体 三、核心实现3.1 核心实现之导出为输出流3.2 web导出3.3 导出为字节数组 四、调试4.1 构建调试用的实体类4.2 控制器调用4.3 测试结果 五、注册大数转换器,长度大于15时&#x…

rtmp 协议详解

1. handshake 1.1 概述 rtmp 连接从握手开始。它包含三个固定大小的块。客户端发送的三个块命名为 C0,C1,C2;服务端发送的三个块命名为 S0,S1,S2。 握手序列: 客户端通过发送 C0 和 C1 消息来启动握手过程。客户端必须接收到 S1 消息,然后…

阵列信号处理---频率-波数响应和波束方向图

波束延迟求和器 阵列是由一组全向阵元组成,阵元的位置为 p n p_n pn​,如下图所示: 阵元分别在对应的位置对信号进行空域采样,这样就产生了一组信号信号为 f ( t , p ) f(t,p) f(t,p),具体表示如下: f ( t , p ) [ f…