前言
在现代网络服务架构中,高可用性(High Availability, HA)是保障业务连续性的关键要素。Keepalived 是一个基于 VRRP 协议实现的 LVS 服务高可用方案,能够有效解决静态路由中出现的单点故障问题,确保服务在个别节点发生故障时仍能持续运行。
本文将从理论到实践,全面介绍 LVS+Keepalived 集群的架构、工作原理及部署方法。
一、Keepalived 概述
1.1 Keepalived 简介
Keepalived 是一个基于VRRP
协议的高可用解决方案(单点故障),可以监控集群系统当中每个服务器节点的一个状态,实现故障切换和负载均衡。
1.1.1 核心功能
LVS集群管理:通过配置文件直接管理LVS集群节点
健康检查(Health Check):通过不同的方式(TCP、ICMP、http等)检查后端服务器运行状态,如果发现故障,就从集群中移除。
故障自动切换(Failover)
:通过VRRP协议,在主备服务器之间维护心跳,主服务器故障时,备用服务器接管VIP并提供服务。IPVS:通过IPVS模块来实现负载均衡,将请求分发到不同的后端服务器。
VIP接管:虚拟IP地址在主备节点间自动迁移。
1.1.2 Keepalived工作原理
基于VRRP协议:Keepalived采用VRRP(虚拟路由冗余协议)实现高可用性。多台服务器组成一个集群组,其中主服务器(Master)负责对外提供虚拟IP(VIP)并定期发送心跳包。当备服务器(Backup)无法检测到主服务器心跳时,会根据优先级自动选举新的主服务器接管VIP,确保服务持续可用。
基于TCP/IP协议:Keepalived支持多层健康检测机制,包括IP层(Ping检测)、TCP层(端口连通性检测)以及应用层(自定义脚本检测),全面保障服务的正常运行和高可用性。
选举策略:Keepalived通过优先级和权重机制实现主备切换,支持手动配置或脚本动态调整。当主节点故障或新节点加入时,系统会自动触发选举流程,重新分配虚拟IP,实现服务的无缝接管。
1.2 VRRP 协议基础
VRRP
(Virtual Router Redundancy Protocol,虚拟路由器冗余协议)的主要目的是解决静态路由单点故障问题,确保网络在部分节点故障时仍能不间断运行。
在一个 LVS 服务集群中,通常包含主服务器(MASTER)和备份服务器(BACKUP),它们通过虚拟 IP(VIP)对外提供服务。
主服务器会定期向备份服务器发送 VRRP 通告信息,若备份服务器无法收到通告信息,则会接管虚拟 IP,继续提供服务。
- MASTER 节点发送心跳(通告)给 BACKUP 节点。
- BACKUP 节点收不到心跳时,接管 VIP。
- MASTER 恢复时,可抢回 VIP(抢占模式)或不抢回(非抢占模式)。
- 默认多播地址:224.0.0.18
- 优先级决定 MASTER 节点(数值越大优先)。
官方地址:http://www.keepalived.org
1.2.1 VRRP工作机制
VRRP的工作机制可以概括为选举、监控和切换三个过程,如下图所示:
选举机制 (Election):
VRRP组内的路由器在初始化时,会根据各自的优先级进行选举。优先级最高的路由器将成为主路由器,负责接管虚拟IP地址并进行数据转发;其他路由器则成为备份路由器,进入等待状态。心跳检测 (Heartbeat Detection):
主路由器会周期性地向备份路由器发送VRRP通告报文(一种心跳信号),宣告自己工作正常。备份路由器通过监听到这些报文来判断主路由器的状态。故障切换 (Failover):
- 当备份路由器在预定时间内收不到主路由器的心跳报文时,它会判定主路由器已出现故障(“主异常”)。
- 此时,备份路由器会将自己的状态提升为主路由器,并接管虚拟IP地址。
- 这个过程被称为 “VIP漂移” 。网络中的主机感知不到任何变化,其默认网关地址(VIP)始终保持不变,但实际处理数据的物理设备已经无缝切换,从而保证了业务的连续性。即所谓的“主不行了,有备做主”。
二、Keepalived 体系架构与模块功能
2.1 核心模块组成
Core模块:Keepalived核心,负责主进程管理和配置加载
VRRP模块:实现VRRP协议,处理主备状态切换
Check模块:负责健康检查,支持多种检查方式,支持TCP/HTTP/脚本检查
2.2 工作流程
1、通过配置文件定义LVS节点和参数
2、定期对后端节点进行健康检查
3、自动从转发队列中移除故障节点
4、节点恢复后自动重新加入服务队列
5、实现主备节点间的故障转移和自动切换
2.3 状态管理机制
初始状态:MASTER节点持有资源,BACKUP节点处于热备状态
故障状态:MASTER故障时,BACKUP自动接管所有服务
恢复状态:MASTER恢复后,根据配置决定是否重新接管服务
三、Keepalived 脑裂问题及解决方案
3.1 脑裂现象
脑裂就是当网络出现问题或者配置错误时,多个服务器都认为自己是主服务器,导致虚拟IP(VIP
)冲突,进而服务器终端或者不稳定。
3.2 脑裂原因
心跳线故障(断线或老化)
高可用服务器之间的心跳线链路出现故障(如线路断裂或老化),导致通信异常。网卡或驱动故障
网卡硬件损坏、驱动异常或IP配置冲突(尤其在网卡直连场景)引发通信问题。心跳网络设备故障
心跳链路中的网络设备(如网卡、交换机)出现故障导致通信中断。仲裁服务器异常
仲裁服务器发生故障,影响集群决策机制。防火墙拦截VRRP流量
服务器防火墙(如iptables)配置不当,阻断了VRRP心跳消息传输。VRRP配置不一致
同一VRRP实例的virtual_router_id参数在两端配置不匹配,可能引发裂脑问题。VRRP实例配置冲突
VRRP实例名称不一致或优先级相同导致的配置冲突问题。
3.3 应对策略
双心跳线冗余
采用双心跳线设计(如HA双线路),通过冗余配置显著降低"脑裂"现象的发生概率。磁盘锁机制(共享资源锁定)
主服务节点通过锁定共享磁盘来确保资源独占性。当发生"脑裂"时,备用节点将无法获取共享资源。
该机制存在一个显著缺陷:若主节点异常崩溃导致无法主动释放锁,备用节点将长期无法接管服务。为此,现代HA系统引入了智能锁机制——仅在检测到所有心跳线中断时才会激活磁盘锁,常态下保持解锁状态。仲裁机制(Ping参考IP)
配置参考IP(如网关IP)作为仲裁节点。当心跳完全中断时,双方节点会尝试ping通参考IP:- 无法连通的一方判定自身网络故障,主动放弃服务竞争
- 能连通的一方接管服务
为彻底释放资源,建议无法连通参考IP的节点执行自我重启。
脚本监控报警
部署监控脚本实时检测系统状态,异常时触发告警机制。
四、LVS+Keepalived 集群部署实践
4.1 环境准备
角色 | IP 地址 | 软件组件 | 虚拟 IP (VIP) |
---|---|---|---|
主 DR 服务器 | 192.168.10.110 | ipvsadm, keepalived | 192.168.10.180 |
备 DR 服务器 | 192.168.10.119 | ipvsadm, keepalived | 192.168.10.180 |
Web 服务器 1 | 192.168.10.120 | nginx | 192.168.10.180 (lo:0) |
Web 服务器 2 | 192.168.10.123 | nginx | 192.168.10.180 (lo:0) |
客户端 | 192.168.10.2 | - | - |
4.2 负载调度器配置(主备相同)
4.2.1 基础环境配置
systemctl stop firewalld.service
setenforce 0
yum -y install ipvsadm keepalived
modprobe ip_vs
cat /proc/net/ip_vs # 检查模块
4.2.2 Keepalived 配置
- 文件: /etc/keepalived/keepalived.conf
主备服务器均需进行以下配置:
cd /etc/keepalived/
cp keepalived.conf keepalived.conf.bak
vim keepalived.conf
配置文件内容如下:
global_defs {
smtp_server 127.0.0.1
router_id LVS_01 # 备服务器改为 LVS_02
# vrrp_strict
}
vrrp_instance VI_1 {
state MASTER # 备服务器改为 BACKUP
interface ens33
virtual_router_id 10
priority 100 # 备服务器改为 90
advert_int 1
authentication {
auth_type PASS
auth_pass abc123
}
virtual_ipaddress {
192.168.10.180
}
}
virtual_server 192.168.10.180 80 {
delay_loop 6
lb_algo rr
lb_kind DR
persistence_timeout 50
protocol TCP
real_server 192.168.10.120 80 {
weight 1
TCP_CHECK {
connect_port 80
connect_timeout 3
nb_get_retry 3
delay_before_retry 3
}
}
real_server 192.168.10.123 80 {
weight 1
TCP_CHECK {
connect_port 80
connect_timeout 3
nb_get_retry 3
delay_before_retry 3
}
}
}
4.2.3 配置虚拟 IP
vim /etc/sysconfig/network-scripts/ifcfg-ens33:0
内容如下:
DEVICE=ens33:0
ONBOOT=yes
IPADDR=192.168.10.180
NETMASK=255.255.255.255
重启网络服务:
systemctl restart network
ifup ens33:0
4.2.4 启动服务
systemctl start keepalived
ip addr show # 查看虚拟 IP 是否生效
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
ipvsadm -ln # 查看 IPVS 规则
4.2.5 调整内核参数
vim /etc/sysctl.conf
添加以下内容:
net.ipv4.ip_forward = 0
net.ipv4.conf.all.send_redirects = 0
net.ipv4.conf.default.send_redirects = 0
net.ipv4.conf.ens33.send_redirects = 0
应用配置:
sysctl -p
4.3 节点服务器配置
4.3.1 Web 服务器基础配置
systemctl stop firewalld
setenforce 0
yum -y install nginx
systemctl start nginx
- Web1 (192.168.10.120):
echo "<h1>this is 192.168.10.120 web01</h1>" > /usr/local/nginx/html//index.html
- Web2 (192.168.10.123):
echo "<h1>this is 192.168.10.123 web02</h1>" > /usr/local/nginx/html//index.html
4.3.2 配置 Loopback 接口
vim /etc/sysconfig/network-scripts/ifcfg-lo:0
内容如下:
DEVICE=lo:0
ONBOOT=yes
IPADDR=192.168.10.180
NETMASK=255.255.255.255
重启网络服务:
systemctl restart network
ifup lo:0
ifconfig lo:0
route add -host 192.168.10.180 dev lo:0
4.3.3 调整 ARP 参数
vim /etc/sysctl.conf
添加以下内容:
net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2
应用配置:
sysctl -p
4.4 测试验证
1、客户端访问 VIP,轮询显示不同节点页面内容:
http://192.168.10.180/
2、停掉 MASTER Keepalived:
# 在主DR上执行
systemctl stop keepalived
3、观察 BACKUP 节点接管 VIP 是否成功。
4、再启动 MASTER,观察 VIP 是否回归(抢占或非抢占模式)。
总结
LVS+Keepalived 集群架构为企业提供了高性能、高可用的负载均衡解决方案。通过本文的理论讲解和实践部署,我们可以了解到:
- Keepalived 基于 VRRP 协议实现高可用性,能够有效解决单点故障问题
- LVS 提供负载均衡功能,结合 Keepalived 可实现故障自动切换
- 合理配置健康检查机制可以确保后端服务的可靠性
- 脑裂问题是高可用系统中需要特别注意和防范的现象
- 通过实战部署,我们掌握了 LVS+Keepalived 集群的搭建和配置方法
这种架构不仅适用于 Web 服务,还可以为数据库、应用服务器等多种服务提供高可用保障,是企业级应用架构中不可或缺的重要组成部分。
注意:实际部署时应根据网络环境和业务需求调整配置参数,并进行充分测试以确保系统的稳定性和可靠性。