- 目錄
- 1、體系圖
- 寫數據的流程(參考上圖):
- 讀數據的流程(參考下圖):
目錄
1、體系圖
針對上圖的一些解釋:
這里面數據分區(region)存儲是為了查詢方便(即因為是集群所以能充分利用磁盤的IO性)。添加數據時,數據先進入Hlog–預寫日志(數據只能追加不能修改)<防止數據丟失>,數據在Hlog寫完后再寫到內存中。
HFile:認為是將數據進行序列化。
StoreFile:認為是一個文件。
DFS:調用HDFS的客戶端API來將數據傳到HDFS。
寫數據的流程(參考上圖):
1、客戶端向hregionServer請求寫數據
2、hregionServer將數據先寫入hlog中。
3、hregionServer將數據后寫入memstore中。
4、當內存中的數據達到閾值64M的時候,將數據Flush到硬盤中,并同時刪除內存和hlog中的歷史數據。
5、將硬盤中數據通過HFile來序列化,再將數據傳輸到HDFS進行存儲。并對Hlog做一個標記。
6、當HDFS中的數據塊達到4塊的時候,Hmaster將數據加載到本地進行一個合并(如果合并后數據的大小小于256M則當數據塊再次達到4塊時(包含小于256M的數據塊)將最新4塊數據塊再次進行合并,此時數據塊大于256M)。
7、若數據塊大于256M,則將數據重新拆分,將分配后的region重新分配給不同的hregionServer進行管理。
8、當hregionServer宕機后,將hregionServer上的hlog重新分配給不同的hregionServer進行加載(修改.META文件中關于數據所在server的信息)。注意:hlog會同步到HDFS中。
讀數據的流程(參考下圖):
1、通過zk來獲取ROOT表在那個節點上,然后進一步通過-ROOT表和-META表來獲取最終的位置信息。
2、數據從內存和硬盤合并后返回到客戶端。
PS:由上圖可看到,當客戶端在執行查詢語句的時候,會先到zk上尋找對應-ROOT表(主要描述-META表在哪里)的位置信息(由此也知道ZK在Hbase中的作用),接下來根據-ROOT表中數據進而找到對應的HRegionServer,在對應的HRegionServer上的-META表(主要記載表的元數據信息)中找到對應的Table表在哪個HRegionServer上,再到對應的HRegionServer中查找對應的數據。