HDFS原理剖析

一、概述

HDFS是Hadoop的分布式文件系統（Hadoop Distributed File System），實現大規模數據可靠的分布式讀寫。HDFS針對的使用場景是數據讀寫具有“一次寫，多次讀”的特征，而數據“寫”操作是順序寫，也就是在文件創建時的寫入或者在現有文件之后的添加操作。HDFS保證一個文件在一個時刻只被一個調用者執行寫操作，而可以被多個調用者執行讀操作。

二、HDFS結構

HDFS包含主、備NameNode和多個DataNode，如下圖所示。
HDFS是一個Master/Slave的架構，在Master上運行NameNode，而在每一個Slave上運行DataNode，ZKFC需要和NameNode一起運行。
NameNode和DataNode之間的通信都是建立在TCP/IP的基礎之上的。NameNode、DataNode、ZKFC和JournalNode能部署在運行Linux的服務器上。
在這里插入圖片描述

名稱	描述
NameNode	用于管理文件系統的命名空間、目錄結構、元數據信息以及提供備份機制等，分為：1. Active NameNode：管理文件系統的命名空間、維護文件系統的目錄結構樹以及元數據信息；記錄寫入的每個“數據塊”與其歸屬文件的對應關系。2. Standby NameNode：與Active NameNode中的數據保持同步；隨時準備在Active NameNode出現異常時接管其服務。3.Observer NameNode：與Active NameNode中的數據保持同步，處理來自客戶端的讀請求。
DataNode	用于存儲每個文件的“數據塊”數據，并且會周期性地向NameNode報告該DataNode的數據存放情況。
JournalNode	HA集群下，用于同步主備NameNode之間的元數據信息。
ZKFC	ZKFC是需要和NameNode一一對應的服務，即每個NameNode都需要部署ZKFC。它負責監控NameNode的狀態，并及時把狀態寫入ZooKeeper。ZKFC也有選擇誰作為Active NameNode的權利。
ZK Cluster	ZooKeeper是一個協調服務，幫助ZKFC執行主NameNode的選舉。
HttpFS gateway	HttpFS是個單獨無狀態的gateway進程，對外提供webHDFS接口，對HDFS使用FileSystem接口對接。可用于不同Hadoop版本間的數據傳輸，及用于訪問在防火墻后的HDFS（HttpFS用作gateway）。

HttpFS是個單獨無狀態的gateway進程，對外提供webHDFS接口，對HDFS使用FileSystem接口對接。可用于不同Hadoop版本間的數據傳輸，及用于訪問在防火墻后的HDFS（HttpFS用作gateway）。

三、HDFS原理

使用HDFS的副本機制來保證數據的可靠性，HDFS中每保存一個文件則自動生成1個備份文件，即共2個副本。HDFS副本數可通過“dfs.replication”參數查詢。

當集群中Core節點規格選擇為非本地盤（hdd）時，若集群中只有一個Core節點，則HDFS默認副本數為1。若集群中Core節點數大于等于2，則HDFS默認副本數為2。
當集群中Core節點規格選擇為本地盤（hdd）時，若集群中只有一個Core節點，則HDFS默認副本數為1。若集群中有兩個Core節點，則HDFS默認副本數為2。若集群中Core節點數大于等于3，則HDFS默認副本數為3。

HDFS組件支持以下部分特性：

HDFS組件支持糾刪碼，使得數據冗余減少到50%，且可靠性更高，并引入條帶化的塊存儲結構，最大化的利用現有集群單節點多磁盤的能力，使得數據寫入性能在引入編碼過程后，仍和原來多副本冗余的性能接近。
支持HDFS組件上節點均衡調度和單節點內的磁盤均衡調度，有助于擴容節點或擴容磁盤后的HDFS存儲性能提升。

關于Hadoop的架構和詳細原理介紹，請參見：http://hadoop.apache.org/。

四、HDFS HA方案背景

在Hadoop2.0.0之前，HDFS集群中存在單點故障問題。由于每個集群只有一個NameNode，如果NameNode所在機器發生故障，將導致HDFS集群無法使用，除非NameNode重啟或者在另一臺機器上啟動。這在兩個方面影響了HDFS的整體可用性：

當異常情況發生時，如機器崩潰，集群將不可用，除非重新啟動NameNode。
計劃性的維護工作，如軟硬件升級等，將導致集群停止工作。

針對以上問題，HDFS高可用性方案通過自動或手動（可配置）的方式，在一個集群中為NameNode啟動一個熱替換的NameNode備份。當一臺機器故障時，可以迅速地自動進行NameNode主備切換。或者當主NameNode節點需要進行維護時，通過集群管理員控制，可以手動進行NameNode主備切換，從而保證集群在維護期間的可用性。

有關HDFS自動故障轉移功能，請參閱：
https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoophdfs/HDFSHighAvailabilityWithQJM.html#Automatic_Failover

五、HDFS HA實現方案

在這里插入圖片描述
在一個典型的HA集群中（如上圖所示），需要把兩個NameNodes配置在兩臺獨立的機器上。在任何一個時間點，只有一個NameNode處于Active狀態，另一個處于Standby狀態。Active節點負責處理所有客戶端操作，Standby節點時刻保持與Active節點同步的狀態以便在必要時進行快速主備切換。

為保持Active和Standby節點的數據一致性，兩個節點都要與一組稱為JournalNode的節點通信。當Active對文件系統元數據進行修改時，會將其修改日志保存到大多數的JournalNode節點中，例如有3個JournalNode，則日志會保存在至少2個節點中。Standby節點監控JournalNodes的變化，并同步來自Active節點的修改。根據修改日志，Standby節點將變動應用到本地文件系統元數據中。一旦發生故障轉移，Standby節點能夠確保與Active節點的狀態是一致的。這保證了文件系統元數據在故障轉移時在Active和Standby之間是完全同步的。

為保證故障轉移快速進行，Standby需要時刻保持最新的塊信息，為此DataNodes同時向兩個NameNodes發送塊信息和心跳。

對一個HA集群，保證任何時刻只有一個NameNode是Active狀態至關重要。否則，命名空間會分為兩部分，有數據丟失和產生其他錯誤的風險。為保證這個屬性，防止“split-brain”問題的產生，JournalNodes在任何時刻都只允許一個NameNode寫入。在故障轉移時，將變為Active狀態的NameNode獲得寫入JournalNodes的權限，這會有效防止其他NameNode的Active狀態，使得切換安全進行。

關于HDFS高可用性方案的更多信息，可參考如下鏈接：

https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoophdfs/HDFSHighAvailabilityWithQJM.html

六、HDFS和HBase的關系

HDFS是Apache的Hadoop項目的子項目，HBase利用Hadoop HDFS作為其文件存儲系統。HBase位于結構化存儲層，Hadoop HDFS為HBase提供了高可靠性的底層存儲支持。除了HBase產生的一些日志文件，HBase中的所有數據文件都可以存儲在Hadoop HDFS文件系統上。

七、HDFS和MapReduce的關系

HDFS是Hadoop分布式文件系統，具有高容錯和高吞吐量的特性，可以部署在價格低廉的硬件上，存儲應用程序的數據，適合有超大數據集的應用程序。
而MapReduce是一種編程模型，用于大數據集（大于1TB）的并行運算。在MapReduce程序中計算的數據可以來自多個數據源，如Local FileSystem、HDFS、數據庫等。最常用的是HDFS，可以利用HDFS的高吞吐性能讀取大規模的數據進行計算。同時在計算完成后，也可以將數據存儲到HDFS。

八、HDFS和Spark的關系

通常，Spark中計算的數據可以來自多個數據源，如Local File、HDFS等。最常用的是HDFS，用戶可以一次讀取大規模的數據進行并行計算。在計算完成后，也可以將數據存儲到HDFS。

分解來看，Spark分成控制端（Driver）和執行端（Executor）。控制端負責任務調度，執行端負責任務執行。
讀取文件的過程如下圖所示。
在這里插入圖片描述
讀取文件步驟的詳細描述如下所示：

Driver與HDFS交互獲取File A的文件信息。
HDFS返回該文件具體的Block信息。
Driver根據具體的Block數據量，決定一個并行度，創建多個Task去讀取這些文件Block。
在Executor端執行Task并讀取具體的Block，作為RDD（彈性分布數據集）的一部分。

寫入文件的過程如下圖所示。
在這里插入圖片描述
HDFS文件寫入的詳細步驟如下所示：

Driver創建要寫入文件的目錄。
根據RDD分區分塊情況，計算出寫數據的Task數，并下發這些任務到Executor。
Executor執行這些Task，將具體RDD的數據寫入到步驟1創建的目錄下。

九、HDFS和ZooKeeper的關系

ZooKeeper與HDFS的關系如下圖所示
在這里插入圖片描述
ZKFC（ZKFailoverController）作為一個ZooKeeper集群的客戶端，用來監控NameNode的狀態信息。ZKFC進程僅在部署了NameNode的節點中存在。HDFS NameNode的Active和Standby節點均部署有zkfc進程。

HDFS NameNode的ZKFC連接到ZooKeeper，把主機名等信息保存到ZooKeeper中，即“/hadoop-ha”下的znode目錄里。先創建znode目錄的NameNode節點為主節點，另一個為備節點。HDFS NameNode Standby通過ZooKeeper定時讀取NameNode信息。
當主節點進程異常結束時，HDFS NameNode Standby通過ZooKeeper感知“/hadoop-ha”目錄下發生了變化，NameNode會進行主備切換。