nginx+keepalived负载均衡及高可用

1 项目背景

keepalived除了能够管理LVS软件外，还可以作为其他服务的高可用解决方案软件。采用nginx+keepalived，它是一个高性能的服务器高可用或者热备解决方案，Keepalived主要来防止服务器单点故障的发生问题，可以通过其与Nginx的配合实现Web服务器端的高可用。使用keepalived可以保证nginx的高可用，他能监控nginx的健康状态，当nginx出现宕机时自动主备切换。

项目架构

Nginx+Keepalived实现高可用

2 项目环境

服务器角色（主机名）	IP	用途
Nginx_Master(open-Euler1)	192.168.121.150	提供负载均衡
Nginx_Backup(open-Euler2)	192.168.121.151	提供负载均衡
Client(Rocky8)	192.168.121.160	测试客户端
Web1服务器(open-Euler3)	192.168.121.152	提供Web服务
Web2服务器(open-Euler4)	192.168.121.153	提供Web服务

3 项目部署

节点服务器生产环境中对于节点服务器需要利用共享存储（比如NFS存储）服务器提供的空间来提供服务，此处测试后端存储服务器略。

3.1 web01和web02配置：

提供web服务
#yum install nginx -y   //安装nginx服务
[root@open-Euler3 ~]# echo `hostname -I` > /usr/share/nginx/html/index.html  #html测试界面
[root@web1 ~]# systemctl start nginx

3.2 nginx负载均衡配置

两台nginx做同样配置

1、安装nginx

yum install nginx

2、配置nginx反向代理

[root@open-Euler1 keepalived]# cd /etc/nginx/conf.d/
[root@open-Euler1 conf.d]# cat lb.conf 
upstream webs {server 192.168.121.152:80;server 192.168.121.153:80;
}server {location / {proxy_pass http://webs;
}
}

3.3 调度服务器

3.3.1 主调度服务器

1、安装keepalived

[root@open-Euler1 conf.d]# yum install keepalived -y

2、开发检测nginx存活的shell脚本

[root@open-Euler1 conf.d]# vim /etc/keepalived/check_nginx.sh 
#!/bin/bash
#代码一定注意空格，逻辑就是：如果nginx进程不存在则启动nginx,如果nginx无法启动则kill掉keepalived所有进程
A=`ps -C nginx --no-header | wc -l`
if [ $A -eq 0 ];thensystemctl start nginxsleep 2if [ `ps -C nginx --no-header | wc -l` -eq 0 ] thensystemctl stop keepalivedfi
fi

3、配置keepalived

[root@open-Euler1 conf.d]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalivedglobal_defs {router_id LVS_1
}vrrp_script check_nginx {script "/etc/keepalived/check_nginx.sh"  #你的监控脚本位置，路径不能出错
}vrrp_instance VI_1 {state MASTERinterface ens160lvs_sync_daemon_interface ens192virtual_router_id 51priority 100advert_int 1authentication {auth_type PASSauth_pass 1111}virtual_ipaddress {192.168.121.180}track_script {check_nginx
}
}

VRRP script（补充）

通过vrrp_script实现对集群资源的监控

1）在keepalived学习总结中已经说过，keepalived只是提供一个VIP，但高可用的是服务，因此keepalived一般会与lvs、nginx、haproxy、mysql…等服务器联合使用，以实现服务的高可用，但是若keepalived与之联合使用的服务异常时，此处keepalived提供的VIP也就没有任何意义了，因此此时的VIP我们希望它可以自动检测与keepalived连用的服务是否正常，若服务不正常，VIP实现自动飘移至backup节点，此时可以使用VRRP scripts实现。

2）keepalived调用外部的辅助脚本进行资源监控，并根据监控的结果状态能实现优先动态调整。

3）vrrp_script：自定义资源监控脚本，vrrp实例根据脚本返回值进行下一步操作，脚本可被多个实例调用。track_script:调用vrrp_script定义的脚本去监控资源，定义在实例之内，调用事先定义的vrrp_script。

4）VRRP scripts的实现：

1>通过killall命令探测服务运行状态：

这种监控集群服务的方式主要是通过killall命令实现的。killall会发送一个信号到正在运行的指定命令的进程。如果没指定信号名，则发送SIGTERM。SIGTERM也是信号名的一种，代号为15，它表示以正常的方式结束程序的运行。其实killall可用的信号名有很多，可通过“killall -l ”命令显示所有信号名列表，其中每个信号名代表对进程的不同执行方式，例如，代号为9的信号表示将强制中断一个程序的运行。这里要用到的信号为0，代号为0的信号并不表示要关闭某个程序，而表示对程序（进程）的运行状态进行监控，如果发现进程关闭或其他异常，将返回状态码1，反之，如果发现进程运行正常，将返回状态码0.vrrp_script模块正是利用了killall命令的这个特性，变相实现了对服务运行状态的监控。

例：

vrrp_script check_mysqld {
script "killall -0 mysqld"
interval 2
}track_script {
check_mysqld
}

这个例子定义了一个服务监控模块check_mysqld，其采用的监控的方式是通过“killall -0 mysqld”的方式，其中“interval”选项检查的时间间隔，即2s执行一次检测。

2>通过脚本进行服务状态监控：

vrrp_script <SCRIPT_NAME> {             #定义一个检测脚本，在global_defs 之外配置script <STRING>|<QUOTED-STRING>     # shell命令或脚本路径interval <INTEGER>                  # 间隔时间，单位为秒，默认1秒timeout <INTEGER>                   # 超时时间weight <INTEGER:-254..254>          # 权重，当脚本成功或失败对当前节点的优先级是增加还是减少，这个值会与定义的优先级做加法例：-80时则为priority+（-80）。weight为正数：1、当 Master 节点的“ vrrp_script” 脚本检测失败时， 如果 Master 节点的 “priority ” 值小于 Backup 节点的 “ weight” 值与 “ priority ” 值之和， 将发生主、 备切换。2、当 Master 节点的“ vrrp_script” 脚本检测成功时， 如果 Master 节点的 “ weight ” 值与 “ priority ” 值之和大于 Backup 节点的 “ weight” 值与 “ priority” 值之和， 主节点依然为主节点， 不发生切换。weight为负数：1、当 Master 节点的 “ vrrp script” 脚本检测失败时， 如果 Master 传点的 “ priority” 值与 “weight” 值之差小于 Backup 竹点的 “ priority ” 值， 将发生主、 备切换。2、当 Master 节点的“ vrrp_script” 脚本检测成功时， 如果 Master 诗点的 “ priority ” 值大于 Backup 节点的 “priority ” 值， 主节点依然为主节点， 不发生切换。fall <INTEGER>                      #脚本几次失败转换为失败rise <INTEGER>                      # 脚本连续监测成果后，把服务器从失败标记为成功的次数user USERNAME [GROUPNAME]           # 执行监测的用户或组init_fail                           # 设置默认标记为失败状态，监测成功之后再转换为成功状态
}

这是最常见的监控方式，其监控过程类似于nagios的执行方式，不同的是，这里只有0、1两种返回状态，例如：

vrrp_script chk_mysqld {
script "/etc/keepalived/check_mysqld.sh"
interval 2
}track_script {
chk_mysqld
}

其中，check_mysqld.sh的内容为：

#!/bin/bash
/usr/bin/mysql -e "show status;" > /dev/null 2>&1
if [ $? -eq 0 ];then
MYSQL_STATUS=0
else
MYSQL_STATUS=1
fiexit $MYSQL_STATUS

这是一个最简单的实现MySQL服务状态检测的shell脚本，它通过登录MySQL数据库后执行查询操作来检测MySQL运行是否正常，如果检测正常，将返回状态码0，否则返回状态码1。

3.3.2 从调度服务器

1、安装keepalived

[root@open-Euler2 conf.d]# yum install keepalived -y

2、开发检测nginx存活的shell脚本

[root@open-Euler2 conf.d]# vim /etc/keepalived/check_nginx.sh 
#!/bin/bash
#代码一定注意空格，逻辑就是：如果nginx进程不存在则启动nginx,如果nginx无法启动则kill掉keepalived所有进程
A=`ps -C nginx --no-header | wc -l`
if [ $A -eq 0 ];thensystemctl start nginxsleep 2if [ `ps -C nginx --no-header | wc -l` -eq 0 ] thensystemctl stop keepalivedfi
fi

3、配置keepalived

[root@open-Euler2 keepalived]# cat /etc/keepalived/keepalived.conf
! Configuration File for keepalivedglobal_defs {router_id LVS_2  #改
}vrrp_script check_nginx {script "/etc/keepalived/check_nginx.sh"
}vrrp_instance VI_1 {state BACKUP #改interface ens160lvs_sync_daemon_interface ens192virtual_router_id 51priority 80 #改advert_int 1authentication {auth_type PASSauth_pass 1111}virtual_ipaddress {192.168.121.180}track_script {check_nginx
}
}

注意：keepalived配置文件里面注意空格问题。

比如：script "/etc/keepalived/check_nginx.sh"后面不能空格。

4 项目测试

启动主从调度的nginx和keepalived

[root@open-Euler1 ~]# systemctl restart nginx keepalived
[root@open-Euler2 ~]# systemctl restart nginx keepalived

Master，Backup都正常，只有Master对外提供服务

[root@open-Euler1 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160

Master宕机，Backup接替Master对外提供服务

模拟Master的keepalived服务器停止
[root@open-Euler1 ~]# systemctl stop keepalived.service 
此时VIP在open-Euler2上
[root@open-Euler2 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160

Master恢复正常，Master继续提供服务，Backup停止服务

模拟Master的keepalived服务恢复正常
[root@open-Euler1 ~]# systemctl start keepalived.service 
此时VIP在Master上
[root@open-Euler1 conf.d]# ip a | grep "192.168.121.180"inet 192.168.121.180/32 scope global ens160

Master上的nginx服务停止，监控脚本尝试重新启动nginx

[root@open-Euler1 conf.d]# systemctl stop nginx
[root@open-Euler1 conf.d]# systemctl status nginx
● nginx.service - The nginx HTTP and reverse proxy serverLoaded: loaded (/usr/lib/systemd/system/nginx.service; disabled; vendor preset: disabled)Active: active (running) since Fri 2025-02-28 20:05:22 CST; 4s agoProcess: 14207 ExecStartPre=/usr/bin/rm -f /run/nginx.pid (code=exited, status=0/SUCCESS)Process: 14211 ExecStartPre=/usr/sbin/nginx -t (code=exited, status=0/SUCCESS)Process: 14214 ExecStart=/usr/sbin/nginx (code=exited, status=0/SUCCESS)Main PID: 14215 (nginx)Tasks: 3 (limit: 8932)Memory: 4.0MCGroup: /system.slice/nginx.service├─ 14215 "nginx: master process /usr/sbin/nginx"├─ 14216 "nginx: worker process"└─ 14217 "nginx: worker process"Feb 28 20:05:22 open-Euler1 systemd[1]: Starting The nginx HTTP and reverse proxy server...
Feb 28 20:05:22 open-Euler1 nginx[14211]: nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
Feb 28 20:05:22 open-Euler1 nginx[14211]: nginx: configuration file /etc/nginx/nginx.conf test is successful
Feb 28 20:05:22 open-Euler1 systemd[1]: Started The nginx HTTP and reverse proxy server.

可以看到即使我关闭了nginx服务监控脚本也帮我重新开启了服务

模拟修改错误nginx配置文件的话导致无法启动

[root@open-Euler1 conf.d]# vim /etc/nginx/nginx.conf
[root@open-Euler1 conf.d]# systemctl stop nginx

查看日志

[root@open-Euler1 nginx]# tail -f /var/log/messages

可以看到日志中监控脚本检测失败

这时VIP就飘移到了open-Euler2服务器上