Hadoop是一種用Java編寫的框架,用于在大型商品硬件集群上運行應用程序,并具有類似于Google File System和MapReduce的功能 。 HDFS是高度容錯的分布式文件系統,與Hadoop一樣,旨在部署在低成本硬件上。 它提供對應用程序數據的高吞吐量訪問,并且適用于具有大數據集的應用程序。
Hadoop主要由處理大量數據的公司使用。 他們可能需要處理數據 , 執行分析或生成報告 。 當前,所有領先的組織,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有關更多信息,請查看PoweredBy Hadoop頁面 。

為什么選擇Hadoop:
MapReduce是Google的秘密武器:一種將復雜的問題分解并散布到許多計算機上的方法。 Hadoop是MapReduce及其自己的文件系統HDFS(Hadoop分布式文件系統)的開源實現。
Hadoop在某種程度上擊敗了超級計算機:
Hadoop集群在209秒內對1 TB的數據進行了排序,在年度通用(daytona)TB的基準測試中打破了之前297秒的記錄。 排序基準由Jim Gray于1998年創建,它指定了輸入數據(100億條100字節記錄),這些數據必須完全排序并寫入磁盤。 這是Java或開放源代碼程序的首次獲獎。 有關更多信息, 請單擊此處 。
歐洲最大的廣告定位平臺使用Hadoop:
歐洲最大的廣告公司每天可獲得超過100GB的數據,現在使用RDBMS等經典解決方案需要5天的時間進行分析并生成報告。 因此他們落后1個弱點。 經過大量研究,他們開始使用hadoop。 現在有趣的事實是“ Tey能夠在1小時內處理數據并生成報告”,這就是Hadoop的魅力所在。 有關更多信息, 請單擊此處 。
Hadoop的主要發行版:
1. Apache Hadoop:
Apache Hadoop項目開發了用于可靠,可擴展的分布式計算的開源軟件。
Apache Hadoop提供:
- Hadoop Common :支持其他Hadoop子項目的通用實用程序。
- HDFS :一種分布式文件系統,可提供對應用程序數據的高吞吐量訪問。
- MapReduce :一個用于在計算集群上對大型數據集進行分布式處理的軟件框架。
- Avro :數據序列化系統。
- Chukwa :用于管理大型分布式系統的數據收集系統。
- HBase :可擴展的分布式數據庫,支持大型表的結構化數據存儲。
- Hive :一種數據倉庫基礎結構,可提供數據匯總和即席查詢。
- Mahout :可擴展的機器學習和數據挖掘庫。
- Pig :用于并行計算的高級數據流語言和執行框架。
- ZooKeeper :針對分布式應用程序的高性能協調服務。
2. Cloudera Hadoop:
Cloudera的Apache Hadoop發行版(CDH)為基于Hadoop的數據管理平臺設定了新標準。 它是當今可用的最全面的平臺,可顯著加速組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩定版本。 它包括一些從將來發行版反向移植的有用補丁,以及我們為客戶開發的改進
Cloudera Hadoop提供:
- HDFS –自愈式分布式文件系統
- MapReduce –強大的并行數據處理框架
- Hadoop Common –一組支持Hadoop子項目的實用程序
- HBase – Hadoop數據庫,用于隨機讀寫訪問
- Hive –大型數據集上類似SQL的查詢和表
- Pig –數據流語言和編譯器
- Oozie –相互依賴的Hadoop作業的工作流程
- Sqoop –將數據庫和數據倉庫與Hadoop集成
- Flume –高度可靠,可配置的流數據收集
- Zookeeper –分布式應用程序的協調服務
- Hue –用于可視Hadoop應用程序的用戶界面框架和SDK

Hadoop可以三種方式安裝
要以獨立模式部署Hadoop,我們只需要設置JAVA_HOME的路徑即可。 在這種模式下,不需要啟動守護程序,也不需要名稱節點格式,因為數據保存在本地磁盤中。
在這種模式下,所有守護程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一臺機器上運行。
在此模式下,守護程序(nameNode,jobTracker,secondaryNameNode(可選))在主服務器(NameNode)上運行,守護程序(dataNode和taskTracker)在從屬服務器(DataNode)上運行。 請繼續關注有關三種Hadoop模式/配置的文章。
相關文章 :
- MapReduce:簡單介紹
- Cajo,用Java完成分布式計算的最簡單方法
- Hibernate映射集合性能問題
- Java Code Geeks Andygene Web原型
- Servlet 3.0異步處理可將服務器吞吐量提高十倍
參考:通過高性能計算博客上的 JCG合作伙伴 了解什么是Hadoop 。
翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html