1 项目背景
keepalived除了能够管理LVS软件外,还可以作为其他服务的高可用解决方案软件。采用nginx+keepalived,它是一个高性能的服务器高可用或者热备解决方案,Keepalived主要来防止服务器单点故障的发生问题,可以通过其与Nginx的配合实现Web服务器端的高可用。使用keepalived可以保证nginx的高可用,他能监控nginx的健康状态,当nginx出现宕机时自动主备切换。
项目架构
Nginx+Keepalived实现高可用
2 项目环境
服务器角色(主机名) | IP | 用途 |
---|---|---|
Nginx_Master(open-Euler1) | 192.168.121.150 | 提供负载均衡 |
Nginx_Backup(open-Euler2) | 192.168.121.151 | 提供负载均衡 |
Client(Rocky8) | 192.168.121.160 | 测试客户端 |
Web1服务器(open-Euler3) | 192.168.121.152 | 提供Web服务 |
Web2服务器(open-Euler4) | 192.168.121.153 | 提供Web服务 |
3 项目部署
节点服务器 生产环境中对于节点服务器需要利用共享存储(比如NFS存储)服务器提供的空间来提供服务,此处测试后端存储服务器略。
3.1 web01和web02配置:
提供web服务
#yum install nginx -y //安装nginx服务
[root@open-Euler3 ~]# echo `hostname -I` > /usr/share/nginx/html/index.html #html测试界面
[root@web1 ~]# systemctl start nginx
3.2 nginx负载均衡配置
两台nginx做同样配置
1、安装nginx
yum install nginx
2、配置nginx反向代理
[root@open-Euler1 keepalived]# cd /etc/nginx/conf.d/
[root@open-Euler1 conf.d]# cat lb.conf
upstream webs {server 192.168.121.152:80;server 192.168.121.153:80;
}server {location / {proxy_pass http://webs;
}
}
3.3 调度服务器
3.3.1 主调度服务器
1、安装keepalived
[root@open-Euler1 conf.d]# yum install keepalived -y
2、开发检测nginx存活的shell脚本
[root@open-Euler1 conf.d]# vim /etc/keepalived/check_nginx.sh
#!/bin/bash
#代码一定注意空格,逻辑就是:如果nginx进程不存在则启动nginx,如果nginx无法启动则kill掉keepalived所有进程
A=`ps -C nginx --no-header | wc -l`
if [ $A -eq 0 ];thensystemctl start nginxsleep 2if [ `ps -C nginx --no-header | wc -l` -eq 0 ] thensystemctl stop keepalivedfi
fi
3、配置keepalived
[root@open-Euler1 conf.d]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalivedglobal_defs {router_id LVS_1
}vrrp_script check_nginx {script "/etc/keepalived/check_nginx.sh" #你的监控脚本位置,路径不能出错
}vrrp_instance VI_1 {state MASTERinterface ens160lvs_sync_daemon_interface ens192virtual_router_id 51priority 100advert_int 1authentication {auth_type PASSauth_pass 1111}virtual_ipaddress {192.168.121.180}track_script {check_nginx
}
}
VRRP script(补充)
通过vrrp_script实现对集群资源的监控
1)在keepalived学习总结中已经说过,keepalived只是提供一个VIP,但高可用的是服务,因此keepalived一般会与lvs、nginx、haproxy、mysql…等服务器联合使用,以实现服务的高可用,但是若keepalived与之联合使用的服务异常时,此处keepalived提供的VIP也就没有任何意义了,因此此时的VIP我们希望它可以自动检测与keepalived连用的服务是否正常,若服务不正常,VIP实现自动飘移至backup节点,此时可以使用VRRP scripts实现。
2)keepalived调用外部的辅助脚本进行资源监控,并根据监控的结果状态能实现优先动态调整。
3)vrrp_script:自定义资源监控脚本,vrrp实例根据脚本返回值进行下一步操作,脚本可被多个实例调用。track_script:调用vrrp_script定义的脚本去监控资源,定义在实例之内,调用事先定义的vrrp_script。
4)VRRP scripts的实现:
1>通过killall命令探测服务运行状态:
这种监控集群服务的方式主要是通过killall命令实现的。killall会发送一个信号到正在运行的指定命令的进程。如果没指定信号名,则发送SIGTERM。SIGTERM也是信号名的一种,代号为15,它表示以正常的方式结束程序的运行。其实killall可用的信号名有很多,可通过“killall -l ”命令显示所有信号名列表,其中每个信号名代表对进程的不同执行方式,例如,代号为9的信号表示将强制中断一个程序的运行。这里要用到的信号为0,代号为0的信号并不表示要关闭某个程序,而表示对程序(进程)的运行状态进行监控,如果发现进程关闭或其他异常,将返回状态码1,反之,如果发现进程运行正常,将返回状态码0.vrrp_script模块正是利用了killall命令的这个特性,变相实现了对服务运行状态的监控。
例:
vrrp_script check_mysqld {
script "killall -0 mysqld"
interval 2
}track_script {
check_mysqld
}
这个例子定义了一个服务监控模块check_mysqld,其采用的监控的方式是通过“killall -0 mysqld”的方式,其中“interval”选项检查的时间间隔,即2s执行一次检测。
2>通过脚本进行服务状态监控:
vrrp_script <SCRIPT_NAME> { #定义一个检测脚本,在global_defs 之外配置script <STRING>|<QUOTED-STRING> # shell命令或脚本路径interval <INTEGER> # 间隔时间,单位为秒,默认1秒timeout <INTEGER> # 超时时间weight <INTEGER:-254..254> # 权重,当脚本成功或失败对当前节点的优先级是增加还是减少,这个值会与定义的优先级做加法例:-80时则为priority+(-80)。weight为正数:1、当 Master 节点的“ vrrp_script” 脚本检测失败时, 如果 Master 节点的 “priority ” 值小于 Backup 节点的 “ weight” 值与 “ priority ” 值之和, 将发生主、 备切换。2、当 Master 节点的“ vrrp_script” 脚本检测成功时, 如果 Master 节点的 “ weight ” 值与 “ priority ” 值之和大于 Backup 节点的 “ weight” 值与 “ priority” 值之和, 主节点依然为主节点, 不发生切换。weight为负数:1、当 Master 节点的 “ vrrp script” 脚本检测失败时, 如果 Master 传点的 “ priority” 值与 “weight” 值之差小于 Backup 竹点的 “ priority ” 值, 将发生主、 备切换。2、当 Master 节点的“ vrrp_script” 脚本检测成功时, 如果 Master 诗点的 “ priority ” 值大于 Backup 节点的 “priority ” 值, 主节点依然为主节点, 不发生切换。fall <INTEGER> #脚本几次失败转换为失败rise <INTEGER> # 脚本连续监测成果后,把服务器从失败标记为成功的次数user USERNAME [GROUPNAME] # 执行监测的用户或组init_fail # 设置默认标记为失败状态,监测成功之后再转换为成功状态
}
这是最常见的监控方式,其监控过程类似于nagios的执行方式,不同的是,这里只有0、1两种返回状态,例如:
vrrp_script chk_mysqld {
script "/etc/keepalived/check_mysqld.sh"
interval 2
}track_script {
chk_mysqld
}
其中,check_mysqld.sh的内容为:
#!/bin/bash
/usr/bin/mysql -e "show status;" > /dev/null 2>&1
if [ $? -eq 0 ];then
MYSQL_STATUS=0
else
MYSQL_STATUS=1
fiexit $MYSQL_STATUS
这是一个最简单的实现MySQL服务状态检测的shell脚本,它通过登录MySQL数据库后执行查询操作来检测MySQL运行是否正常,如果检测正常,将返回状态码0,否则返回状态码1。
3.3.2 从调度服务器
1、安装keepalived
[root@open-Euler2 conf.d]# yum install keepalived -y
2、开发检测nginx存活的shell脚本
[root@open-Euler2 conf.d]# vim /etc/keepalived/check_nginx.sh
#!/bin/bash
#代码一定注意空格,逻辑就是:如果nginx进程不存在则启动nginx,如果nginx无法启动则kill掉keepalived所有进程
A=`ps -C nginx --no-header | wc -l`
if [ $A -eq 0 ];thensystemctl start nginxsleep 2if [ `ps -C nginx --no-header | wc -l` -eq 0 ] thensystemctl stop keepalivedfi
fi
3、配置keepalived
[root@open-Euler2 keepalived]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalivedglobal_defs {router_id LVS_2 #改
}vrrp_script check_nginx {script "/etc/keepalived/check_nginx.sh"
}vrrp_instance VI_1 {state BACKUP #改interface ens160lvs_sync_daemon_interface ens192virtual_router_id 51priority 80 #改advert_int 1authentication {auth_type PASSauth_pass 1111}virtual_ipaddress {192.168.121.180}track_script {check_nginx
}
}
注意:keepalived配置文件里面注意空格问题。
比如:script "/etc/keepalived/check_nginx.sh"后面不能空格。
4 项目测试
启动主从调度的nginx和keepalived
[root@open-Euler1 ~]# systemctl restart nginx keepalived
[root@open-Euler2 ~]# systemctl restart nginx keepalived
Master,Backup都正常,只有Master对外提供服务
[root@open-Euler1 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160
Master宕机,Backup接替Master对外提供服务
模拟Master的keepalived服务器停止
[root@open-Euler1 ~]# systemctl stop keepalived.service
此时VIP在open-Euler2上
[root@open-Euler2 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160
Master恢复正常,Master继续提供服务,Backup停止服务
模拟Master的keepalived服务恢复正常
[root@open-Euler1 ~]# systemctl start keepalived.service
此时VIP在Master上
[root@open-Euler1 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160
Master上的nginx服务停止,监控脚本尝试重新启动nginx
[root@open-Euler1 conf.d]# systemctl stop nginx
[root@open-Euler1 conf.d]# systemctl status nginx
● nginx.service - The nginx HTTP and reverse proxy serverLoaded: loaded (/usr/lib/systemd/system/nginx.service; disabled; vendor preset: disabled)Active: active (running) since Fri 2025-02-28 20:05:22 CST; 4s agoProcess: 14207 ExecStartPre=/usr/bin/rm -f /run/nginx.pid (code=exited, status=0/SUCCESS)Process: 14211 ExecStartPre=/usr/sbin/nginx -t (code=exited, status=0/SUCCESS)Process: 14214 ExecStart=/usr/sbin/nginx (code=exited, status=0/SUCCESS)Main PID: 14215 (nginx)Tasks: 3 (limit: 8932)Memory: 4.0MCGroup: /system.slice/nginx.service├─ 14215 "nginx: master process /usr/sbin/nginx"├─ 14216 "nginx: worker process"└─ 14217 "nginx: worker process"Feb 28 20:05:22 open-Euler1 systemd[1]: Starting The nginx HTTP and reverse proxy server...
Feb 28 20:05:22 open-Euler1 nginx[14211]: nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
Feb 28 20:05:22 open-Euler1 nginx[14211]: nginx: configuration file /etc/nginx/nginx.conf test is successful
Feb 28 20:05:22 open-Euler1 systemd[1]: Started The nginx HTTP and reverse proxy server.
可以看到即使我关闭了nginx服务监控脚本也帮我重新开启了服务
模拟修改错误nginx配置文件的话导致无法启动
[root@open-Euler1 conf.d]# vim /etc/nginx/nginx.conf
[root@open-Euler1 conf.d]# systemctl stop nginx
查看日志
[root@open-Euler1 nginx]# tail -f /var/log/messages
可以看到日志中监控脚本检测失败
这时VIP就飘移到了open-Euler2服务器上