LVS+Keepalived 高可用集群搭建

?一、高可用集群：

1.什么是高可用集群：

高可用集群（High Availability Cluster）是以減少服務中斷時間為目地的服務器集群技術它通過保護用戶的業務程序對外不間斷提供的服務，把因軟件、硬件、人為造成的故障對業務的影響降低到最小程度。

2.高可用的自動切換/故障轉移（FailOver）

通俗地說，即當A無法為客戶服務時，系統能夠自動地切換，使B能夠及時地頂上繼續為客戶提供服務，且客戶感覺不到這個為他提供服務的對象已經更換。通過上面判斷節點故障后，將高可用集群資源（如VIP、httpd等）從該不具備法定票數的集群節點轉移到故障轉移域（Failover Domain，可以接收故障資源轉移的節點）。

3.高可用中的自動偵測：

自動偵測階段由主機上的軟件通過冗余偵測線，經由復雜的監聽程序，邏輯判斷，來相互偵測對方運行的情況。常用的方法是：集群各節點間通過心跳信息判斷節點是否出現故障。

4.腦裂現象：

在高可用（HA）系統中，當聯系2個節點的“心跳線”斷開時，本來為一整體、動作協調的HA系統，就分裂成為2個獨立的個體。由于相互失去了聯系，都以為是對方出了故障。兩個節點上的HA軟件像“裂腦人”一樣，爭搶“共享資源”、爭起“應用服務”，就會發生嚴重后果——或者共享資源被瓜分、2邊“服務”都起不來了；或者2邊“服務”都起來了，但同時讀寫“共享存儲”，導致數據損壞（常見如數據庫輪詢著的聯機日志出錯）。

5.腦裂的原因：

因心跳線壞了（包括斷了，老化）。因網卡及相關驅動壞了，ip配置及沖突問題（網卡直連）。因心跳線間連接的設備故障（網卡及交換機）。因仲裁的機器出問題（采用仲裁的方案）。高可用服務器上開啟了 iptables防火墻阻擋了心跳消息傳輸。高可用服務器上心跳網卡地址等信息配置不正確，導致發送心跳失敗。其他服務配置不當等原因，如心跳方式不同，心跳廣插沖突、軟件Bug等。

??二、keepalived原理與簡介：

1.keepalived是什么

keepalived是集群管理中保證集群高可用的一個服務軟件，用來防止單點故障。

2.keepalived工作原理：

keepalived是以VRRP協議為實現基礎的，VRRP全稱Virtual Router Redundancy Protocol，即虛擬路由冗余協議。

將N臺提供相同功能的服務器組成一個服務器組，這個組里面有一個master和多個backup，master上面有一個對外提供服務的vip（該服務器所在局域網內其他機器的默認路由為該vip），master會發組播，當backup收不到vrrp包時就認為master宕掉了，這時就需要根據VRRP的優先級來選舉一個backup當master

3.keepalived主要有三個模塊：

分別是core、check和vrrp。 core模塊為keepalived的核心，負責主進程的啟動、維護以及全局配置文件的加載和解析。 check負責健康檢查，包括常見的各種檢查方式。 vrrp模塊是來實現VRRP協議的。

?三、VRRP虛擬路由冗余協議

虛擬路由冗余協議(Virtual Router Redundancy Protocol，簡稱VRRP)是由IETF提出的解決局域網中配置靜態網關出現單點失效現象的路由協議，1998年已推出正式的RFC2338協議標準。

VRRP廣泛應用在邊緣網絡中，它的設計目標是支持特定情況下IP數據流量失敗轉移不會引起混亂，允許主機使用單路由器，以及即使在實際第一跳路由器使用失敗的情形下仍能夠維護路由器間的連通性。

那么這個VRRP協議是干嘛用呢？傳統上來說我們通過一個路由器上網，如果故障那就不能用了，如果使用2個路由器，有一個故障你就需要手動的設置客戶端切換到另外的路由器上，或者使用ARP客戶端也可以實現，但總之部署比較麻煩不利于管理，就像下圖

有沒有一種辦法可以自動轉移而省去手動配置呢？我們就可以通過VRRP協議來實現路由器的故障轉移。如下圖

虛擬路由器是VRRP備份組中所有路由器的集合，它是一個邏輯概念，并不是正真存在的。從備份組外面看備份組中的路由器，感覺組中的所有路由器就像一個一樣，可以理解為在一個組中：主路由器+所有備份路由器=虛擬路由器。

四、LVS+keepalived高可用集群的大致工作流程：?

在lvs沒有實現高可用之前，我們的架構是一臺lvs服務器和兩臺web服務器，由lvs做負載均衡，將用戶的請求按照一定的負載均衡算法，分發給兩臺web服務器。然而，這種架構有一個很大的痛點，由于我們訪問web服務器是由lvs來進行負載均衡，也就是必須經過lvs服務器，從而訪問到real-server也就是我們的web服務器。那么當lvs服務器掛掉之后，我們就無法達到均衡的去訪問web服務器了。所以我們必須使用高可用技術，就是配置兩臺lvs服務器，在這兩臺lvs服務器上面都安裝上keepalived。在正常情況下，一臺lvs服務器作為master另一臺lvs服務器作為backup，虛擬的vip只在master服務器上出現。我們只對外暴露出vip讓客戶進行訪問，并不將真實的web服務器的ip暴露給用戶，這樣能夠保證我們web服務器的安全，所以客戶只能通過vip來訪問我們的web服務器。當客戶通過vip來訪問web服務器的時候，會先經過帶有vip的服務器，也就是master，再通過master來進行負載均衡。當發生特殊情況：master服務器掛了的時候。此時的vip就會自動跳到backup服務器上，此時我們通過vip來訪問web服務器的時候，也會先經過帶有vip的服務器，也就是backup，再通過backup來進行負載均衡，從而實現了lvs的高可用。

?五、搭建LVS+Keepalived 高可用集群

服務器說明 IP openEuler 主機名稱
lvs調度器 192.168.46.110 lvs01
lvs調度器 192.168.46.120 lvs02
web服務器 192.168.46.130 server1

web服務器 192.168.46.140 server2
client 192.168.46.150 client

DIP： 192.168.46.100

服務器說明	IP	主機名稱
lvs調度器	192.168.46.110	lvs01
lvs調度器	192.168.46.120	lvs02
web服務器	192.168.46.130	server1

1. 配置lvs調度器（以master為例）

（1）安裝LVS和keepalived軟件包

yum install -y keepalived ipvsadm# 檢查LVS
lsmod | grep ip_vs

（2）配置轉發及防火墻

#修改配置文件
[root@lvs01 ~]# vim /etc/sysctl.conf
#將0改為1
net.ipv4.ip_forward=1# 啟動
[root@lvs01 ~]# sysctl -p

（3）配置keepalived實現LVS負載均衡

a. 首先進行原配置文件的備份保存

[root@lvs01 ~]# cd /etc/keepalived/# 進行備份
[root@lvs01 keepalived]# cp keepalived.conf{,.bak}# 進行查看
[root@lvs01 keepalived]# ls
keepalived.conf  keepalived.conf.bak

b. 修改原配置文件（注意：大括號是否完整）

[root@lvs01 keepalived]# vim keepalived.conf
[root@lvs01 keepalived]# cat keepalived.conf
! Configuration File for keepalivedglobal_defs {router_id LVS_1
}vrrp_instance VI_1 {state MASTERinterface ens160virtual_router_id 51priority 100advert_int 1authentication {auth_type PASSauth_pass 1111}virtual_ipaddress {192.168.46.100}
}virtual_server 192.168.46.100 80 {delay_loop 3lb_algo rrlb_kind DR# persistence_timeout 50  #對該地方進行注釋，方便測試實驗結果protocol TCPreal_server 192.168.46.130 80 {weight 1TCP_CHECK {connect_timeout 3nb_get_retry 3delay_before_retry 3connect_port 80}}real_server 192.168.46.140 80 {weight 1TCP_CHECK {connect_timeout 3nb_get_retry 3delay_before_retry 3connect_port 80}}
}

參數說明：

virtual_server 192.168.79.110 80 { #定義虛擬服務，需指定IP地址和端口，空格隔開
delay_loop 6 #定義RS運行情況監測時間間隔
lb_algo wrr #定義負載調度算法
lb_kind DR #定義LVS的工作模式
nat_mask 255.255.255.0 #定義虛擬服務的mask
persistence_timeout 300 #定義會話保持時間，S為單位
protocol TCP #指定轉發協議
real_server 192.168.79.118 80 { #定義真實服務器IP地址和端口
weight 1 #定義RS的權重
TCP_CHECK { #RS server 健康檢查部分
connect_timeout 8 #定義超出8s連接超時
nb_get_retry 3 #定義重試次數
delay_before_retry 3 #定義重試時間間隔
connect_port 80 #定義健康檢查端口
}

（4）拷貝master上的keepalived.conf到backup上

[root@lvs01 keepalived]# scp keepalived.conf 192.168.46.120:$PWD

（5）拷貝后,修改配置文件

只需修改三個地方：1.router_id Director22.state BACKUP3.priority 80

?（6）啟動keepalived服務

[root@lvs01 keepalived]# systemctl start keepalived.service# 查看ip綁定情況
[root@lvs01 keepalived]# ip ad

可以看出lvs01上的ens160上出現了虛擬IP地址，而lvs02上沒有出現說明配置正確，否則兩臺及其都有虛擬IP的話就出現了腦裂。

2. 配置web服務器

（1）安裝nginx測試點

[root@server1 ~]# yum install -y nginx

（2）查看80端口是否啟動

[root@server1 ~]# netstat -anpt | grep 80
tcp        0      0 0.0.0.0:80              0.0.0.0:*               LISTEN      3046/nginx: master
tcp6       0      0 :::80                   :::*                    LISTEN      3046/nginx: master

（3）自定義web主頁

# 編寫默認主頁內容
echo "test page, `hostname -I`" > /usr/share/nginx/html/index.html# 設置開機自啟動
systemctl enable --now nginx.service# 進行測試
[root@server1 ~]# curl localhost
test page, 192.168.46.130

（4）編寫腳本，進行綁定VIP和抑制arp

配置腳本如下：

#!/bin/sh
#
# Startup script handle the initialisation of LVS
# chkconfig: - 28 72
# description: Initialise the Linux Virtual Server for DR
#
### BEGIN INIT INFO
# Provides: ipvsadm
# Required-Start: $local_fs $network $named
# Required-Stop: $local_fs $remote_fs $network
# Short-Description: Initialise the Linux Virtual Server
# Description: The Linux Virtual Server is a highly scalable and highly
# available server built on a cluster of real servers, with the load
# balancer running on Linux.
# description: start LVS of DR-RIP
LOCK=/var/lock/ipvsadm.lock
VIP=192.168.46.150
. /etc/rc.d/init.d/functions
start() {
PID=`ifconfig | grep lo:10 | wc -l`
if [ $PID -ne 0 ];
then
echo "The LVS-DR-RIP Server is already running !"
else
/sbin/ifconfig lo:10 $VIP netmask 255.255.255.255 broadcast $VIP up
/sbin/route add -host $VIP dev lo:10
echo "1" >/proc/sys/net/ipv4/conf/lo/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/lo/arp_announce
echo "1" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/ens160/arp_announce
echo "1" >/proc/sys/net/ipv4/conf/all/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/all/arp_announce
/bin/touch $LOCK
echo "starting LVS-DR-RIP server is ok !"
fi
}
stop() {
/sbin/route del -host $VIP dev lo:10
/sbin/ifconfig lo:10 down >/dev/null
echo "0" >/proc/sys/net/ipv4/conf/lo/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/lo/arp_announce
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_announce
echo "0" >/proc/sys/net/ipv4/conf/all/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/all/arp_announce
rm -rf $LOCK
echo "stopping LVS-DR-RIP server is ok !"
}
status() {
if [ -e $LOCK ];
then
echo "The LVS-DR-RIP Server is already running !"
else
echo "The LVS-DR-RIP Server is not running !"
fi
}
case "$1" in
start)
start
;;
stop)
stop
;;
restart)
stop
start
;;
status)
status
;;
*)
echo "Usage: $1 {start|stop|restart|status}"
exit 1
esac
exit 0

# 創建開機自啟動腳本lvs_dr
[root@openEuler ~]# vim /etc/init.d/lvs_rs# 設置編輯權限
[root@openEuler ~]# chmod +x /etc/init.d/lvs_rs# 修改腳本內容
[root@openEuler ~]# vim /etc/init.d/lvs_rs
VIP=192.168.46.100echo "1" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/ens160/arp_announceecho "0" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_announce# 將 lvs_dr 服務添加到系統的服務列表中
[root@openEuler ~]# chkconfig --add lvs_rs# 將 lvs_dr 服務設置為在系統運行級別 3、4 和 5 時自動啟動
[root@openEuler ~]# chkconfig lvs_rs on# 啟動該服務
[root@openEuler ~]# systemctl start lvs_rs.service# 查看服務是否啟動
[root@openEuler ~]# systemctl status lvs_rs.service# 查看是否運行腳本，存在VIP
[root@openEuler ~]# ip ad

# 查看是否配置成功
[root@openEuler ~]# route -n

3. 測試?

（1）查看VIP在哪個機器上

VIP在lvs01上

（2）在client上訪問192.168.46.100
[root@slient ~]# for ((i=1;i<7;i++)) ; do curl 192.168.46.100; done
實現負載均衡！

（3）假設master上的keepalived停止服務，看lvs02是否承擔master任務
# 在lvs01 上停止服務
[root@lvs01 ~]# systemctl stop keepalived.service#查看lvs02 IP地址
[root@lvs02 ~]# ip ad
現象表明，VIP漂移到lvs02上，實現高可用！

（4）關閉server1站點服務
[root@server1 ~]# systemctl stop nginx.service
server1 站點關閉后，再次訪問vip我們發現仍能訪問到業務。說明我們的高可用集群試驗成功。到此實驗完畢！