云計算與大數據
黑洞
RHCS(概念篇)
一、?什么是RHCS?
RHCS是Red Hat Cluster Suite的縮寫,也就是紅帽子集群套件,RHCS是一個能夠提供高可用性、高可靠性、負載均衡、存儲共享且經濟廉價的集群工具集合,它將集群系統中三大集群架構融合一體,可以給web應用、數據庫應用等提供安全、穩定的運行環境。?
更確切的說,RHCS是一個功能完備的集群應用解決方案,它從應用的前端訪問到后端的數據存儲都提供了一個行之有效的集群架構實現,通過RHCS提供的這種解決方案,不但能保證前端應用持久、穩定的提供服務,同時也保證了后端數據存儲的安全。
? RHCS提供了集群系統中三種集群構架,分別是高可用性集群、負載均衡集群、存儲集群。
二、RHCS提供的三個核心功能?
高可用集群是RHCS的核心功能。當應用程序出現故障,或者系統硬件、網絡出現故障時,應用可以通過RHCS提供的高可用**管理組件自動、快速從一個節點切換到另一個節點,節點故障轉移功能對客戶端來說是透明的,從而保證應用持續、不間斷的對外提供服務,這就是RHCS高可用集群實現的功能。?
???????? RHCS通過LVS(Linux Virtual Server)來提供負載均衡集群,而LVS是一個開源的、功能強大的基于IP的負載均衡技術,LVS由負載調度器和服務訪問節點組成,通過LVS的負載調度功能,可以將客戶端請求平均的分配到各個服務節點,同時,還可以定義多種負載分配策略,當一個請求進來時,集群系統根據調度算法來判斷應該將請求分配到哪個服務節點,然后,由分配到的節點響應客戶端請求,同時,LVS還提供了服務節點故障轉移功能,也就是當某個服務節點不能提供服務時,LVS會自動屏蔽這個故障節點,接著將失敗節點從集群中剔除,同時將新來此節點的請求平滑的轉移到其它正常節點上來;而當此故障節點恢復正常后,LVS又會自動將此節點加入到集群中去。而這一系列切換動作,對用戶來說,都是透明的,通過故障轉移功能,保證了服務的不間斷、穩定運行。
???????? RHCS通過GFS文件系統來提供存儲集群功能,GFS是Global File System的縮寫,它允許多個服務同時去讀寫一個單一的共享文件系統,存儲集群通過將共享數據放到一個共享文件系統中從而消除了在應用程序間同步數據的麻煩,GFS是一個分布式文件系統,它通過鎖管理機制,來協調和管理多個服務節點對同一個文件系統的讀寫操作。
三、RHCS集群的組成?
RHCS是一個集群工具的集合,主要有下面幾大部分組成:?
??集群構架管理器?
這是RHCS集群的一個基礎套件,提供一個集群的基本功能,使各個節點組成集群在一起工作,具體包含分布式集群管理器(CMAN)、成員關系管理、鎖管理(DLM)、配置文件管理(CCS)、柵設備(FENCE)。?
??高可用服務管理器?
提供節點服務監控和服務故障轉移功能,當一個節點服務出現故障時,將服務轉移到另一個健康節點。?
??集群配置管理工具?
RHCS最新版本通過LUCI來配置和管理RHCS集群,LUCI是一個基于web的集群配置方式,通過luci可以輕松的搭建一個功能強大的集群系統。?
??Linux Virtual Server?
LVS是一個開源的負載均衡軟件,利用LVS可以將客戶端的請求根據指定的負載策略和算法合理的分配到各個服務節點,實現動態、智能的負載分擔。
RHCS除了上面的幾個核心構成,還可以通過下面一些組件來補充RHCS集群功能。?
??Red Hat GFS (Global File System)?
GFS是Redhat公司開發的一款集群文件系統,目前的最新版本是GFS2,GFS文件系統允許多個服務同時讀寫一個磁盤分區,通過GFS可以實現數據的集中管理,免去了數據同步和拷貝的麻煩,但GFS并不能孤立的存在,安裝GFS需要RHCS的底層組件支持。?
? Cluster Logical Volume Manager?
Cluster邏輯卷管理,即CLVM,是LVM的擴展,這種擴展允許cluster中的機器使用LVM來管理共享存儲。?
??iSCSI?
iSCSI是一種在Internet協議上,特別是以太網上進行數據塊傳輸的標準,它是一種基于IP Storage理論的新型存儲技術,RHCS可以通過ISCSI技術來導出和分配共享存儲的使用。?
??Global Network Block Device?
全局網絡模塊,簡稱GNBD,是GFS的一個補充組件,用于RHCS分配和管理共享存儲,GNBD分為客戶端和服務端,在服務端GNBD允許導出多個塊設備或者GNBD文件,而GNBD客戶端通過導入這些導出的塊設備或者文件,就可以把它們當作本地塊設備使用。由于現在GNBD已經停止了開發,所以使用GNBD的越來越少。
四、?RHCS集群結構?
RHCS集群從整體上分為三大部分,負載均衡集群、 高可用性集群、存儲集群,如圖1所示:
圖1
圖1是典型的RHCS集群拓撲結構:整個拓撲結構分為三個層面:?
最上層是LVS負載均衡層,中間一層是Real Server層,就是服務節點部分,最后一層是共享存儲層,主要用于給GFS文件系統提供共享存儲空間。
五、RHCS集群運行原理及功能介紹
1、 分布式集群管理器(CMAN)?
?Cluster Manager,簡稱CMAN,是一個分布式集群管理工具,它運行在集群的各個節點上,為RHCS提供集群管理任務。?
CMAN用于管理集群成員、消息和通知。它通過監控每個節點的運行狀態來了解節點成員之間的關系,當集群中某個節點出現故障,節點成員關系將發生改變,CMAN及時將這種改變通知底層,進而做出相應的調整。
2、鎖管理(DLM)?
?Distributed Lock Manager,簡稱DLM,表示一個分布式鎖管理器,它是RHCS的一個底層基礎構件,同時也為集群提供了一個公用的鎖運行機制,在RHCS集群系統中,DLM運行在集群的每個節點上,GFS通過鎖管理器的鎖機制來同步訪問文件系統元數據。CLVM通過鎖管理器來同步更新數據到LVM卷和卷組。?
?DLM不需要設定鎖管理服務器,它采用對等的鎖管理方式,大大的提高了處理性能。同時,DLM避免了當單個節點失敗需要整體恢復的性能瓶頸,另外,DLM的請求都是本地的,不需要網絡請求,因而請求會立即生效。最后,DLM通過分層機制,可以實現多個鎖空間的并行鎖模式。
3、配置文件管理(CCS)?
?Cluster Configuration System,簡稱CCS,主要用于集群配置文件管理和配置文件在節點之間的同步。CCS運行在集群的每個節點上,監控每個集群節點上的單一配置文件/etc/cluster/cluster.conf的狀態,當這個文件發生任何變化時,都將此變化更新到集群中的每個節點,時刻保持每個節點的配置文件同步。例如,管理員在節點A上更新了集群配置文件,CCS發現A節點的配置文件發生變化后,馬上將此變化傳播到其它節點上去。?
?rhcs的配置文件是cluster.conf,它是一個xml文件,具體包含集群名稱、集群節點信息、集群資源和服務信息、fence設備等,這個會在后面講述。
4、柵設備(FENCE)?
?FENCE設備是RHCS集群中必不可少的一個組成部分,通過FENCE設備可以避免因出現不可預知的情況而造成的“腦裂”現象,FENCE設備的出現,就是為了解決類似這些問題,Fence設備主要就是通過服務器或存儲本身的硬件管理接口,或者外部電源管理設備,來對服務器或存儲直接發出硬件管理指令,將服務器重啟或關機,或者與網絡斷開連接。?
?FENCE的工作原理是:當意外原因導致主機異常或者宕機時,備機會首先調用FENCE設備,然后通過FENCE設備將異常主機重啟或者從網絡隔離,當FENCE操作成功執行后,返回信息給備機,備機在接到FENCE成功的信息后,開始接管主機的服務和資源。這樣通過FENCE設備,將異常節點占據的資源進行了釋放,保證了資源和服務始終運行在一個節點上。?
?RHCS的FENCE設備可以分為兩種:內部FENCE和外部FENCE,常用的內部FENCE有IBM RSAII卡,HP的iLO卡,還有IPMI的設備等,外部fence設備有UPS、SAN SWITCH、NETWORK SWITCH等
5、高可用服務管理器?
高可用**管理主要用來監督、啟動和停止集群的應用、服務和資源。它提供了一種對集群服務的管理能力,當一個節點的服務失敗時,高可用性集群服務管理進程可以將服務從這個失敗節點轉移到其它健康節點上來,并且這種服務轉移能力是自動、透明的。?
?RHCS通過rgmanager來管理集群服務,rgmanager運行在每個集群節點上,在服務器上對應的進程為clurgmgrd。?
在一個RHCS集群中,高可用**包含集群服務和集群資源兩個方面,集群服務其實就是應用服務,例如apache、mysql等,集群資源有很多種,例如一個IP地址、一個運行腳本、ext3/GFS文件系統等。?
在RHCS集群中,高可用**是和一個失敗轉移域結合在一起的,所謂失敗轉移域是一個運行特定服務的集群節點的集合。在失敗轉移域中,可以給每個節點設置相應的優先級,通過優先級的高低來決定節點失敗時服務轉移的先后順序,如果沒有給節點指定優先級,那么集群高可用服務將在任意節點間轉移。因此,通過創建失敗轉移域不但可以設定服務在節點間轉移的順序,而且可以限制某個服務僅在失敗轉移域指定的節點內進行切換。
6、集群配置管理工具?
?RHCS提供了多種集群配置和管理工具,常用的有基于GUI的system-config-cluster、Conga等,也提供了基于命令行的管理工具。?
?system-config-cluster是一個用于創建集群和配置集群節點的圖形化管理工具,它有集群節點配置和集群管理兩個部分組成,分別用于創建集群節點配置文件和維護節點運行狀態。一般用在RHCS早期的版本中。?
?Conga是一種新的基于網絡的集群配置工具,與system-config-cluster不同的是,Conga是通過web方式來配置和管理集群節點的。Conga有兩部分組成,分別是luci和ricci,luci安裝在一**立的計算機上,用于配置和管理集群,ricci安裝在每個集群節點上,Luci通過ricci和集群中的每個節點進行通信。?
?RHCS也提供了一些功能強大的集群命令行管理工具,常用的有clustat、cman_tool、ccs_tool、fence_tool、clusvcadm等,這些命令的用法將在下面講述。
7、 Redhat GFS?
?GFS是RHCS為集群系統提供的一個存儲解決方案,它允許集群多個節點在塊級別上共享存儲,每個節點通過共享一個存儲空間,保證了訪問數據的一致性,更切實的說,GFS是RHCS提供的一個集群文件系統,多個節點同時掛載一個文件系統分區,而文件系統數據不受破壞,這是單一的文件系統,例如EXT3、EXT2所不能做到的。?
為了實現多個節點對于一個文件系統同時讀寫操作,GFS使用鎖管理器來管理I/O操作,當一個寫進程操作一個文件時,這個文件就被鎖定,此時不允許其它進程進行讀寫操作,直到這個寫進程正常完成才釋放鎖,只有當鎖被釋放后,其它讀寫進程才能對這個文件進行操作,另外,當一個節點在GFS文件系統上修改數據后,這種修改操作會通過RHCS底層通信機制立即在其它節點上可見。?
在搭建RHCS集群時,GFS一般作為共享存儲,運行在每個節點上,并且可以通過RHCS管理工具對GFS進行配置和管理。這些需要說明的是RHCS和GFS之間的關系,一般初學者很容易混淆這個概念:運行RHCS,GFS不是必須的,只有在需要共享存儲時,才需要GFS支持,而搭建GFS集群文件系統,必須要有RHCS的底層支持,所以安裝GFS文件系統的節點,必須安裝RHCS組件。