大數據 - 2. Hadoop - HDFS（分布式文件系統）

前言

為什么海量數據需要分布式存儲技術？

文件過大時，單臺服務器無法承擔，要靠數量來解決。數量的提升帶來的是網絡傳輸、磁盤讀寫、CPU、內存等各方面的提升。?

眾多的服務器一起工作，如何保證高效且不出錯?？

大數據體系中，分布式的調度有2類架構模式：去中心化模式、中心化模式

大數據框架大多是：中心化模式：一個中心節點（服務器）來統籌其它服務器的工作，統一指揮，統一調派。也稱：一主多從模式，簡稱主從模式（Master And Slaves）

去中心化模式：沒有明確的中心。眾多服務器之間協調工作。

主角色：NameNode??	主角色的輔助： SecondaryNameNode
從角色：DataNode

NameNode	SecondaryNameNode	DataNode
HDFS系統的主角色，是一個獨立進程管理HDFS整個文件系統管理DataNode	NameNode的輔助，是一個獨立進程幫助NameNode整理元數據（打雜）	HDFS系統的從角色，是一個獨立進程負責數據的存儲，即存入、取出數據

一個典型的HDFS集群，就是由1個DataNode加若干（至少一個）DataNode組成

下載地址：Apache Hadoop

第一步：VMware 準備3臺虛擬機。硬件配置如下：

服務規劃

什么是分布式計算？

分布式計算：多臺服務器協同工作，共同完成一個計算任務

分布式計算常見的 2 種工作模式

分散->匯總 ?（MapReduce是這種模式）

中心調度->步驟執行（大數據體系的Spark、Flink是這種模式）

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/77317.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/77317.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/77317.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！