文章目錄
- 一、Hadoop是什么
- 二、Hadoop發展歷史
- 三、Hadoop三大發行版本
- 1. Apache Hadoop
- 2. Cloudera Hadoop
- 3. Hortonworks Hadoop
- 四、Hadoop優勢
- 1. 高可靠性
- 2. 高擴展性
- 3. 高效性
- 4. 高容錯性
- 五、Hadoop 組成
- 1. Hadoop1.x、2.x、3.x區別
- 2. HDFS 架構概述
- 3. YARN 架構概述
- 4. MapReduce 架構概述
- 5. HDFS、YARN、MapReduce 三者關系
- 六、大數據技術生態體系
- 七、推薦系統框架圖
一、Hadoop是什么
- Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
- 主要解決,海量數據的存儲和海量數據的分析計算問題。
- 廣義上來說,Hadoop通常是指一個更廣泛的概念——Hadoop生態圈。
二、Hadoop發展歷史
- Hadoop創始人Doug Cutting,為了實現與Google類似的全文搜索功能,他在Lucene框架基礎上進行優化升級,查詢引擎和索引引擎。
- 2001年年底Lucene成為Apache基金會的一個子項目。
- 對于海量數據的場景,Lucene框架面對與Google同樣的困難,存儲海量數據困難,檢索海量速度慢。
- 學習和模仿Google解決這些問題的辦法︰微型版Nutclh。
- 可以說Google是Hadoop的思想之源(Google在大數據方面的三篇論文)
5.1. GFS —>HDFS
5.2. Map-Reduce —>MR
5.3. BigTable —>HBase - 2003-2004年,Google公開了部分GFS和MapReduce思想的細節,以此為基礎Doug Cutting等人用了2年業余時間實現了DFS和MapReduce機制,使Nutch性能飆升。
- 2005年Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。
- 2006年3月份,Map-Reduce和Nutch Distributed File System (NDFS)分別被納入到Hadoop項目中,Hadoop就此正式誕生,標志著大數據時代來臨。
- 名字來源于Doug Cutting兒子的玩具大象
三、Hadoop三大發行版本
Hadoop三大發行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基礎)的版本,對于入門學習最好。2006
- Cloudera內部集成了很多大數據框架,對應產品CDH。2008
- Hortonworks文檔較好,對應產品HDP。2011
Hortonwork