現狀
大數據平臺中,采用hadoop的方式存儲數據,hdfs本質上是文件系統,而文件系統對數據的監管能力有限,但是數據安全領域問題日漸凸顯,現目前,大數據平臺一般以分層結構進行授權,但是對于一線開發人員而言,是能夠接觸到整個大數據平臺中的所有表的,那么如何實現這樣一個表的結構和數據的權限控制流程就顯得尤為重要。
HDFS的數據節點
節點存儲
對于每個hdfs存儲節點而言,存儲節點被稱為數據節點(Data Node)。數據節點負責實際存儲數據塊并執行數據的讀寫操作。
-
數據塊存儲: HDFS將大文件切分成固定大小的數據塊(通常為128MB或256MB)。這些數據塊會被分布存儲在不同的數據節點上。
-
數據冗余: HDFS使用數據冗余機制來保障數據的可靠性和容錯性。每個數據塊的多個副本會被存儲在不同的數據節點上,通常是默認的3個副本。這些副本的分布有助于防止數據丟失。
-
塊的復制: 當客戶端寫入數據到HDFS時,數據首先會寫入本地數據節點。然后,數據塊的副本會被自動創建并復制到其他數據節點,通常是在不同的機架上,以減少機架級別的故障對數據的影響。
-
心跳和報告: 數據節點會定期向HDFS的主節點(Name Node)發送心跳信號,以通知其存活狀態。此外,數據節點會發送塊報告,其中包含它所持有的所有數據塊的信息。這些信息幫助主節點跟蹤數據塊的位置和復制狀