Nginx 实战系列（十）—— LVS+Keepalived 高可用集群技术详解-EW帮帮网

文章目录

前言
一、Keepalived 概述
二、Keepalived 体系架构与模块功能
三、Keepalived 脑裂问题及解决方案
四、LVS+Keepalived 集群部署实践
总结

前言

在现代网络服务架构中，高可用性（High Availability, HA）是保障业务连续性的关键要素。Keepalived 是一个基于 VRRP 协议实现的 LVS 服务高可用方案，能够有效解决静态路由中出现的单点故障问题，确保服务在个别节点发生故障时仍能持续运行。

本文将从理论到实践，全面介绍 LVS+Keepalived 集群的架构、工作原理及部署方法。

一、Keepalived 概述

1.1 Keepalived 简介

Keepalived 是一个基于VRRP协议的高可用解决方案（单点故障），可以监控集群系统当中每个服务器节点的一个状态，实现故障切换和负载均衡。

1.1.1 核心功能

LVS集群管理：通过配置文件直接管理LVS集群节点
健康检查（Health Check）：通过不同的方式（TCP、ICMP、http等）检查后端服务器运行状态，如果发现故障，就从集群中移除。
故障自动切换（Failover）
：通过VRRP协议，在主备服务器之间维护心跳，主服务器故障时，备用服务器接管VIP并提供服务。
IPVS：通过IPVS模块来实现负载均衡，将请求分发到不同的后端服务器。
VIP接管：虚拟IP地址在主备节点间自动迁移。

1.1.2 Keepalived工作原理

基于VRRP协议：Keepalived采用VRRP（虚拟路由冗余协议）实现高可用性。多台服务器组成一个集群组，其中主服务器（Master）负责对外提供虚拟IP（VIP）并定期发送心跳包。当备服务器（Backup）无法检测到主服务器心跳时，会根据优先级自动选举新的主服务器接管VIP，确保服务持续可用。
基于TCP/IP协议：Keepalived支持多层健康检测机制，包括IP层（Ping检测）、TCP层（端口连通性检测）以及应用层（自定义脚本检测），全面保障服务的正常运行和高可用性。
选举策略：Keepalived通过优先级和权重机制实现主备切换，支持手动配置或脚本动态调整。当主节点故障或新节点加入时，系统会自动触发选举流程，重新分配虚拟IP，实现服务的无缝接管。

1.2 VRRP 协议基础

VRRP（Virtual Router Redundancy Protocol，虚拟路由器冗余协议）的主要目的是解决静态路由单点故障问题，确保网络在部分节点故障时仍能不间断运行。

在一个 LVS 服务集群中，通常包含主服务器（MASTER）和备份服务器（BACKUP），它们通过虚拟 IP（VIP）对外提供服务。
主服务器会定期向备份服务器发送 VRRP 通告信息，若备份服务器无法收到通告信息，则会接管虚拟 IP，继续提供服务。

MASTER 节点发送心跳（通告）给 BACKUP 节点。
BACKUP 节点收不到心跳时，接管 VIP。
MASTER 恢复时，可抢回 VIP（抢占模式）或不抢回（非抢占模式）。
默认多播地址：224.0.0.18
优先级决定 MASTER 节点（数值越大优先）。

官方地址：http://www.keepalived.org

1.2.1 VRRP工作机制

VRRP的工作机制可以概括为选举、监控和切换三个过程，如下图所示：

（此处应插入您提供的图片）

选举机制 (Election)：
VRRP组内的路由器在初始化时，会根据各自的优先级进行选举。优先级最高的路由器将成为主路由器，负责接管虚拟IP地址并进行数据转发；其他路由器则成为备份路由器，进入等待状态。
心跳检测 (Heartbeat Detection)：
主路由器会周期性地向备份路由器发送VRRP通告报文（一种心跳信号），宣告自己工作正常。备份路由器通过监听到这些报文来判断主路由器的状态。
故障切换 (Failover)：
- 当备份路由器在预定时间内收不到主路由器的心跳报文时，它会判定主路由器已出现故障（“主异常”）。
- 此时，备份路由器会将自己的状态提升为主路由器，并接管虚拟IP地址。
- 这个过程被称为 “VIP漂移” 。网络中的主机感知不到任何变化，其默认网关地址（VIP）始终保持不变，但实际处理数据的物理设备已经无缝切换，从而保证了业务的连续性。即所谓的“主不行了，有备做主”。

二、Keepalived 体系架构与模块功能

2.1 核心模块组成

Core模块：Keepalived核心，负责主进程管理和配置加载
VRRP模块：实现VRRP协议，处理主备状态切换
Check模块：负责健康检查，支持多种检查方式，支持TCP/HTTP/脚本检查

2.2 工作流程

1、通过配置文件定义LVS节点和参数
2、定期对后端节点进行健康检查
3、自动从转发队列中移除故障节点
4、节点恢复后自动重新加入服务队列
5、实现主备节点间的故障转移和自动切换

2.3 状态管理机制

初始状态：MASTER节点持有资源，BACKUP节点处于热备状态
故障状态：MASTER故障时，BACKUP自动接管所有服务
恢复状态：MASTER恢复后，根据配置决定是否重新接管服务

三、Keepalived 脑裂问题及解决方案

3.1 脑裂现象

脑裂就是当网络出现问题或者配置错误时，多个服务器都认为自己是主服务器，导致虚拟IP（VIP）冲突，进而服务器终端或者不稳定。

3.2 脑裂原因

心跳线故障（断线或老化）
高可用服务器之间的心跳线链路出现故障（如线路断裂或老化），导致通信异常。
网卡或驱动故障
网卡硬件损坏、驱动异常或IP配置冲突（尤其在网卡直连场景）引发通信问题。
心跳网络设备故障
心跳链路中的网络设备（如网卡、交换机）出现故障导致通信中断。
仲裁服务器异常
仲裁服务器发生故障，影响集群决策机制。
防火墙拦截VRRP流量
服务器防火墙（如iptables）配置不当，阻断了VRRP心跳消息传输。
VRRP配置不一致
同一VRRP实例的virtual_router_id参数在两端配置不匹配，可能引发裂脑问题。
VRRP实例配置冲突
VRRP实例名称不一致或优先级相同导致的配置冲突问题。

3.3 应对策略

双心跳线冗余
采用双心跳线设计（如HA双线路），通过冗余配置显著降低"脑裂"现象的发生概率。
磁盘锁机制（共享资源锁定）
主服务节点通过锁定共享磁盘来确保资源独占性。当发生"脑裂"时，备用节点将无法获取共享资源。
该机制存在一个显著缺陷：若主节点异常崩溃导致无法主动释放锁，备用节点将长期无法接管服务。为此，现代HA系统引入了智能锁机制——仅在检测到所有心跳线中断时才会激活磁盘锁，常态下保持解锁状态。
仲裁机制（Ping参考IP）
配置参考IP（如网关IP）作为仲裁节点。当心跳完全中断时，双方节点会尝试ping通参考IP：
- 无法连通的一方判定自身网络故障，主动放弃服务竞争
- 能连通的一方接管服务
  为彻底释放资源，建议无法连通参考IP的节点执行自我重启。
脚本监控报警
部署监控脚本实时检测系统状态，异常时触发告警机制。

四、LVS+Keepalived 集群部署实践

4.1 环境准备

角色	IP 地址	软件组件	虚拟 IP (VIP)
主 DR 服务器	192.168.10.110	ipvsadm, keepalived	192.168.10.180
备 DR 服务器	192.168.10.119	ipvsadm, keepalived	192.168.10.180
Web 服务器 1	192.168.10.120	nginx	192.168.10.180 (lo:0)
Web 服务器 2	192.168.10.123	nginx	192.168.10.180 (lo:0)
客户端	192.168.10.2	-	-

4.2 负载调度器配置（主备相同）

4.2.1 基础环境配置

systemctl stop firewalld.service
setenforce 0
yum -y install ipvsadm keepalived
modprobe ip_vs
cat /proc/net/ip_vs  # 检查模块

在这里插入图片描述

4.2.2 Keepalived 配置

文件： /etc/keepalived/keepalived.conf

主备服务器均需进行以下配置：

cd /etc/keepalived/
cp keepalived.conf keepalived.conf.bak
vim keepalived.conf

在这里插入图片描述

配置文件内容如下：

global_defs {
    smtp_server 127.0.0.1
    router_id LVS_01   # 备服务器改为 LVS_02
    # vrrp_strict
}

vrrp_instance VI_1 {
    state MASTER        # 备服务器改为 BACKUP
    interface ens33
    virtual_router_id 10
    priority 100        # 备服务器改为 90
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass abc123
    }
    virtual_ipaddress {
        192.168.10.180
    }
}

virtual_server 192.168.10.180 80 {
    delay_loop 6
    lb_algo rr
    lb_kind DR
    persistence_timeout 50
    protocol TCP
    real_server 192.168.10.120 80 {
        weight 1
        TCP_CHECK {
            connect_port 80
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
        }
    }
    real_server 192.168.10.123 80 {
        weight 1
        TCP_CHECK {
            connect_port 80
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
        }
    }
}

4.2.3 配置虚拟 IP

vim /etc/sysconfig/network-scripts/ifcfg-ens33:0

内容如下：

DEVICE=ens33:0
ONBOOT=yes
IPADDR=192.168.10.180
NETMASK=255.255.255.255

在这里插入图片描述

重启网络服务：

systemctl restart network
ifup ens33:0

在这里插入图片描述

4.2.4 启动服务

systemctl start keepalived
ip addr show  # 查看虚拟 IP 是否生效
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
ipvsadm -ln   # 查看 IPVS 规则

在这里插入图片描述

4.2.5 调整内核参数

vim /etc/sysctl.conf

添加以下内容：

net.ipv4.ip_forward = 0
net.ipv4.conf.all.send_redirects = 0
net.ipv4.conf.default.send_redirects = 0
net.ipv4.conf.ens33.send_redirects = 0

应用配置：

sysctl -p

在这里插入图片描述

4.3 节点服务器配置

4.3.1 Web 服务器基础配置

systemctl stop firewalld
setenforce 0
yum -y install nginx
systemctl start nginx

Web1 (192.168.10.120):

echo "<h1>this is 192.168.10.120 web01</h1>" > /usr/local/nginx/html//index.html

Web2 (192.168.10.123):

echo "<h1>this is 192.168.10.123 web02</h1>" > /usr/local/nginx/html//index.html

4.3.2 配置 Loopback 接口

vim /etc/sysconfig/network-scripts/ifcfg-lo:0

内容如下：

DEVICE=lo:0
ONBOOT=yes
IPADDR=192.168.10.180
NETMASK=255.255.255.255

重启网络服务：

systemctl restart network
ifup lo:0
ifconfig lo:0
route add -host 192.168.10.180 dev lo:0

在这里插入图片描述

4.3.3 调整 ARP 参数

vim /etc/sysctl.conf

添加以下内容：

net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2

应用配置：

sysctl -p

在这里插入图片描述

4.4 测试验证

1、客户端访问 VIP，轮询显示不同节点页面内容：

http://192.168.10.180/

在这里插入图片描述

在这里插入图片描述
2、停掉 MASTER Keepalived：

在这里插入图片描述

# 在主DR上执行
systemctl stop keepalived

在这里插入图片描述

3、观察 BACKUP 节点接管 VIP 是否成功。
在这里插入图片描述

4、再启动 MASTER，观察 VIP 是否回归（抢占或非抢占模式）。
在这里插入图片描述

总结

LVS+Keepalived 集群架构为企业提供了高性能、高可用的负载均衡解决方案。通过本文的理论讲解和实践部署，我们可以了解到：

Keepalived 基于 VRRP 协议实现高可用性，能够有效解决单点故障问题
LVS 提供负载均衡功能，结合 Keepalived 可实现故障自动切换
合理配置健康检查机制可以确保后端服务的可靠性
脑裂问题是高可用系统中需要特别注意和防范的现象
通过实战部署，我们掌握了 LVS+Keepalived 集群的搭建和配置方法

这种架构不仅适用于 Web 服务，还可以为数据库、应用服务器等多种服务提供高可用保障，是企业级应用架构中不可或缺的重要组成部分。

注意：实际部署时应根据网络环境和业务需求调整配置参数，并进行充分测试以确保系统的稳定性和可靠性。

Nginx 实战系列（十）—— LVS+Keepalived 高可用集群技术详解

文章目录

前言

一、Keepalived 概述

1.1 Keepalived 简介

1.1.1 核心功能

1.1.2 Keepalived工作原理

1.2 VRRP 协议基础

1.2.1 VRRP工作机制

二、Keepalived 体系架构与模块功能

2.1 核心模块组成

2.2 工作流程

2.3 状态管理机制

三、Keepalived 脑裂问题及解决方案

3.1 脑裂现象

3.2 脑裂原因

3.3 应对策略

四、LVS+Keepalived 集群部署实践

4.1 环境准备

4.2 负载调度器配置（主备相同）

4.2.1 基础环境配置

4.2.2 Keepalived 配置

4.2.3 配置虚拟 IP

4.2.4 启动服务

4.2.5 调整内核参数

4.3 节点服务器配置

4.3.1 Web 服务器基础配置

4.3.2 配置 Loopback 接口

4.3.3 调整 ARP 参数

4.4 测试验证

总结

网站公告

今日签到

热门文章

最新发布