Hadoop：簡單介紹

什么是Hadoop：

Hadoop是一種用Java編寫的框架，用于在大型商品硬件集群上運行應用程序，并具有類似于Google File System和MapReduce的功能。 HDFS是高度容錯的分布式文件系統，與Hadoop一樣，旨在部署在低成本硬件上。它提供對應用程序數據的高吞吐量訪問，并且適用于具有大數據集的應用程序。

誰使用Hadoop：

Hadoop主要由處理大量數據的公司使用。他們可能需要處理數據 ， 執行分析或生成報告 。當前，所有領先的組織，包括Facebook，Yahoo，Amazon，IBM，Joost，PowerSet，New York Times，Veoh等，都在使用Hadoop。有關更多信息，請查看PoweredBy Hadoop頁面。

為什么選擇Hadoop：

MapReduce是Google的秘密武器：一種將復雜的問題分解并散布到許多計算機上的方法。 Hadoop是MapReduce及其自己的文件系統HDFS（Hadoop分布式文件系統）的開源實現。

Hadoop在某種程度上擊敗了超級計算機：

Hadoop集群在209秒內對1 TB的數據進行了排序，在年度通用（daytona）TB的基準測試中打破了之前297秒的記錄。排序基準由Jim Gray于1998年創建，它指定了輸入數據（100億條100字節記錄），這些數據必須完全排序并寫入磁盤。這是Java或開放源代碼程序的首次獲獎。有關更多信息，請單擊此處。

歐洲最大的廣告定位平臺使用Hadoop：

歐洲最大的廣告公司每天可獲得超過100GB的數據，現在使用RDBMS等經典解決方案需要5天的時間進行分析并生成報告。因此他們落后1個弱點。經過大量研究，他們開始使用hadoop。現在有趣的事實是“ Tey能夠在1小時內處理數據并生成報告”，這就是Hadoop的魅力所在。有關更多信息，請單擊此處。

Hadoop的主要發行版：

1. Apache Hadoop：

Apache Hadoop項目開發了用于可靠，可擴展的分布式計算的開源軟件。

Apache Hadoop提供：

Hadoop Common ：支持其他Hadoop子項目的通用實用程序。
HDFS ：一種分布式文件系統，可提供對應用程序數據的高吞吐量訪問。
MapReduce ：一個用于在計算集群上對大型數據集進行分布式處理的軟件框架。

Avro ：數據序列化系統。
Chukwa ：用于管理大型分布式系統的數據收集系統。
HBase ：可擴展的分布式數據庫，支持大型表的結構化數據存儲。
Hive ：一種數據倉庫基礎結構，可提供數據匯總和即席查詢。
Mahout ：可擴展的機器學習和數據挖掘庫。
Pig ：用于并行計算的高級數據流語言和執行框架。
ZooKeeper ：針對分布式應用程序的高性能協調服務。

2. Cloudera Hadoop：

Cloudera的Apache Hadoop發行版（CDH）為基于Hadoop的數據管理平臺設定了新標準。它是當今可用的最全面的平臺，可顯著加速組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩定版本。它包括一些從將來發行版反向移植的有用補丁，以及我們為客戶開發的改進

Cloudera Hadoop提供：

HDFS –自愈式分布式文件系統
MapReduce –強大的并行數據處理框架
Hadoop Common –一組支持Hadoop子項目的實用程序
HBase – Hadoop數據庫，用于隨機讀寫訪問
Hive –大型數據集上類似SQL的查詢和表
Pig –數據流語言和編譯器
Oozie –相互依賴的Hadoop作業的工作流程
Sqoop –將數據庫和數據倉庫與Hadoop集成
Flume –高度可靠，可配置的流數據收集
Zookeeper –分布式應用程序的協調服務
Hue –用于可視Hadoop應用程序的用戶界面框架和SDK

Hadoop體系結構：

Hadoop分布式文件系統（HDFS）是一種旨在在商品硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多相似之處。但是，與其他分布式文件系統的區別很明顯。 HDFS具有高度的容錯能力，旨在部署在低成本硬件上。 HDFS提供對應用程序數據的高吞吐量訪問，并且適用于具有大數據集的應用程序。 HDFS放寬了一些POSIX要求，以實現對文件系統數據的流式訪問。

名稱節點：

NameNode管理名稱空間，文件系統元數據和訪問控制。每個群集中只有一個NameNode。我們可以說NameNode是主節點，數據節點是從節點。它包含有關數據（即元數據）的所有信息

數據節點：

DataNode保存實際的文件系統數據。每個數據節點管理其自己的本地連接的存儲（即節點的硬盤），并在文件系統中存儲一些或所有塊的副本。每個群集中有一個或多個DataNode。

安裝/部署Hadoop：

Hadoop可以三種方式安裝

1.獨立模式：
要以獨立模式部署Hadoop，我們只需要設置JAVA_HOME的路徑即可。在這種模式下，不需要啟動守護程序，也不需要名稱節點格式，因為數據保存在本地磁盤中。

2.偽分布式模式：
在這種模式下，所有守護程序（nameNode，dataNode，secondaryNameNode，jobTracker，taskTracker）都在一臺機器上運行。

在此模式下，守護程序（nameNode，jobTracker，secondaryNameNode（可選））在主服務器（NameNode）上運行，守護程序（dataNode和taskTracker）在從屬服務器（DataNode）上運行。 請繼續關注有關三種Hadoop模式/配置的文章。

相關文章：

MapReduce：簡單介紹
Cajo，用Java完成分布式計算的最簡單方法
Hibernate映射集合性能問題
Java Code Geeks Andygene Web原型
Servlet 3.0異步處理可將服務器吞吐量提高十倍

參考：通過高性能計算博客上的 JCG合作伙伴了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/374567.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/374567.shtml
英文地址，請注明出處：http://en.pswp.cn/news/374567.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！