大數據學習（3）- 分布式文件系統HDFS

數據節點是分布式文件系統HDFS的工作節點，負責數據的存儲和讀取，會根據客戶端或者是名稱節點的調度來進行數據的存儲和檢索，并且向名稱節點定期發送自己所存儲的塊的列表
每個數據節點中的數據會被保存在各自節點的本地Linux文件系統中

3.HDFS體系結構

在這里插入圖片描述

在這里插入圖片描述

4.HDFS存儲原理

在這里插入圖片描述

在這里插入圖片描述

HDFS具有較高的容錯性，可以兼容廉價的硬件，它把硬件出錯看作一種常態，而不是異常，并設計了相應的機制檢測數據錯誤和進行自動恢復，主要包括以下幾種情形：名稱節點出錯、數據節點出錯和數據出錯。

名稱節點保存了所有的元數據信息，其中，最核心的兩大數據結構是FsImage和Editlog，如果這兩個文件發生損壞，那么整個HDFS實例將失效。因此，HDFS設置了備份機制，把這些核心文件同步復制到備份服務器SecondaryNameNode上。當名稱節點出錯時，就可以根據備份服務器SecondaryNameNode中的FsImage和Editlog數據進行恢復。

在這里插入圖片描述

網絡傳輸和磁盤錯誤等因素，都會造成數據錯誤
如何判斷數據出錯：HDFS在創建每個文件的時候，都默認給出了一個校驗碼，在讀取文件的時候，會比對校驗碼，如果校驗碼沒有錯，則數據沒有出錯。
在文件被創建時，客戶端就會對每一個文件塊進行信息摘錄，并把這些信息寫入到同一個路徑的隱藏文件里面
當客戶端讀取文件的時候，會先讀取該信息文件，然后，利用該信息文件對每個讀取的數據塊進行校驗，如果校驗出錯，客戶端就會請求到另外一個數據節點讀取該文件塊，并且向名稱節點報告這個文件塊有錯誤，名稱節點會定期檢查并且重新復制這個塊

HDFS支持兩種方式的交互，我們可以自由的選擇shell和java的方式。

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

參考鏈接：http://dblab.xmu.edu.cn/blog/290-2/
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/445367.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/445367.shtml
英文地址，請注明出處：http://en.pswp.cn/news/445367.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！