Hadoop:簡單介紹

什么是Hadoop:

Hadoop是一種用Java編寫的框架,用于在大型商品硬件集群上運行應用程序,并具有類似于Google File System和MapReduce的功能 。 HDFS是高度容錯的分布式文件系統,與Hadoop一樣,旨在部署在低成本硬件上。 它提供對應用程序數據的高吞吐量訪問,并且適用于具有大數據集的應用程序。
誰使用Hadoop:

Hadoop主要由處理大量數據的公司使用。 他們可能需要處理數據執行分析生成報告 。 當前,所有領先的組織,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有關更多信息,請查看PoweredBy Hadoop頁面 。

為什么選擇Hadoop:

MapReduce是Google的秘密武器:一種將復雜的問題分解并散布到許多計算機上的方法。 Hadoop是MapReduce及其自己的文件系統HDFS(Hadoop分布式文件系統)的開源實現。

Hadoop在某種程度上擊敗了超級計算機:

Hadoop集群在209秒內對1 TB的數據進行了排序,在年度通用(daytona)TB的基準測試中打破了之前297秒的記錄。 排序基準由Jim Gray于1998年創建,它指定了輸入數據(100億條100字節記錄),這些數據必須完全排序并寫入磁盤。 這是Java或開放源代碼程序的首次獲獎。 有關更多信息, 請單擊此處 。

歐洲最大的廣告定位平臺使用Hadoop:

歐洲最大的廣告公司每天可獲得超過100GB的數據,現在使用RDBMS等經典解決方案需要5天的時間進行分析并生成報告。 因此他們落后1個弱點。 經過大量研究,他們開始使用hadoop。 現在有趣的事實是“ Tey能夠在1小時內處理數據并生成報告”,這就是Hadoop的魅力所在。 有關更多信息, 請單擊此處

Hadoop的主要發行版:

1. Apache Hadoop:

Apache Hadoop項目開發了用于可靠,可擴展的分布式計算的開源軟件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子項目的通用實用程序。
  • HDFS一種分布式文件系統,可提供對應用程序數據的高吞吐量訪問。
  • MapReduce一個用于在計算集群上對大型數據集進行分布式處理的軟件框架。
  • Avro數據序列化系統。
  • Chukwa用于管理大型分布式系統的數據收集系統。
  • HBase可擴展的分布式數據庫,支持大型表的結構化數據存儲。
  • Hive一種數據倉庫基礎結構,可提供數據匯總和即席查詢。
  • Mahout可擴展的機器學習和數據挖掘庫。
  • Pig用于并行計算的高級數據流語言和執行框架。
  • ZooKeeper針對分布式應用程序的高性能協調服務。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop發行版(CDH)為基于Hadoop的數據管理平臺設定了新標準。 它是當今可用的最全面的平臺,可顯著加速組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩定版本。 它包括一些從將來發行版反向移植的有用補丁,以及我們為客戶開發的改進

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系統
  • MapReduce –強大的并行數據處理框架
  • Hadoop Common –一組支持Hadoop子項目的實用程序
  • HBase – Hadoop數據庫,用于隨機讀寫訪問
  • Hive –大型數據集上類似SQL的查詢和表
  • Pig –數據流語言和編譯器
  • Oozie –相互依賴的Hadoop作業的工作流程
  • Sqoop –將數據庫和數據倉庫與Hadoop集成
  • Flume –高度可靠,可配置的流數據收集
  • Zookeeper –分布式應用程序的協調服務
  • Hue –用于可視Hadoop應用程序的用戶界面框架和SDK
Hadoop體系結構:
Hadoop分布式文件系統(HDFS)是一種旨在在商品硬件上運行的分布式文件系統。 它與現有的分布式文件系統有許多相似之處。 但是,與其他分布式文件系統的區別很明顯。 HDFS具有高度的容錯能力,旨在部署在低成本硬件上。 HDFS提供對應用程序數據的高吞吐量訪問,并且適用于具有大數據集的應用程序。 HDFS放寬了一些POSIX要求,以實現對文件系統數據的流式訪問。
名稱節點:
NameNode管理名稱空間,文件系統元數據和訪問控制。 每個群集中只有一個NameNode。 我們可以說NameNode是主節點,數據節點是從節點。 它包含有關數據(即元數據)的所有信息
數據節點:
DataNode保存實際的文件系統數據。 每個數據節點管理其自己的本地連接的存儲(即節點的硬盤),并在文件系統中存儲一些或所有塊的副本。 每個群集中有一個或多個DataNode。
安裝/部署Hadoop:

Hadoop可以三種方式安裝
1.獨立模式:
要以獨立模式部署Hadoop,我們只需要設置JAVA_HOME的路徑即可。 在這種模式下,不需要啟動守護程序,也不需要名稱節點格式,因為數據保存在本地磁盤中。
2.偽分布式模式:
在這種模式下,所有守護程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一臺機器上運行。

在此模式下,守護程序(nameNode,jobTracker,secondaryNameNode(可選))在主服務器(NameNode)上運行,守護程序(dataNode和taskTracker)在從屬服務器(DataNode)上運行。 請繼續關注有關三種Hadoop模式/配置的文章。

相關文章 :

  • MapReduce:簡單介紹
  • Cajo,用Java完成分布式計算的最簡單方法
  • Hibernate映射集合性能問題
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0異步處理可將服務器吞吐量提高十倍


參考:通過高性能計算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/374567.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/374567.shtml
英文地址,請注明出處:http://en.pswp.cn/news/374567.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PHP中__get()和__set()的用法實例詳

剛剛看到一個對我有用的文章,我就把它摘抄下來了。 php面向對象_get(),_set()的用法 一般來說,總是把類的屬性定義為private,這更符合現實的邏輯。但是,對屬性的讀取和賦值操作是非常頻繁的,因此在PHP5中&#xff0…

Javascript 異步編程的4種方法

你可能知道,Javascript語言的執行環境是"單線程"(single thread)。 所謂"單線程",就是指一次只能完成一件任務。如果有多個任務,就必須排隊,前面一個任務完成,再執行后面一…

力扣奇偶鏈表

給定單鏈表的頭節點 head ,將所有索引為奇數的節點和索引為偶數的節點分別組合在一起,然后返回重新排序的列表。 第一個節點的索引被認為是 奇數 , 第二個節點的索引為 偶數 ,以此類推。 請注意,偶數組和奇數組內部的…

JAVA入門之方法

所謂方法,就是用來解決一類問題的代碼的有序組合,是一個功能模塊。 一般情況下,定義一個方法的語法是: 其中: 1、 訪問修飾符:方法允許被訪問的權限范圍, 可以是 public、protected、private 甚…

使用Netbeans開發App Engine Java

如果您剛開始進行App引擎開發,那么您可能會感覺Eclipse是首選的IDE。 而且,Google還單獨提供了它的Eclipse IDE 官方插件 。 但是不使用Eclipse的人呢? 當然,您始終可以進行命令行開發,但是現在這些人是誰!…

JAVA基本類庫介紹

我們曾經講過,Java已經為編程者編制了許多類,這些類已經經過測試,基本上不存在錯誤,這些類都是我們編程的基礎。如果不利用這些已存在的類,我們的 編程工作將變得異常復雜,所以我們應盡可能多的掌握Java基本…

力扣回文鏈表

給你一個單鏈表的頭節點 head &#xff0c;請你判斷該鏈表是否為回文鏈表。如果是&#xff0c;返回 true &#xff1b;否則&#xff0c;返回 false 。 class Solution {public boolean isPalindrome(ListNode head) {List<Integer> res new ArrayList<Integer>()…

JAVA運算符和優先級

1、算術運算符&#xff1a; 和 -- 既可以出現在操作數的左邊&#xff0c;也可以出現在右邊&#xff0c;但結果是不同&#xff0c;如&#xff1a; ①int a5&#xff1b;int ba&#xff1b; #先把a賦給b&#xff0c;a再自增 ②int a5&#xff1b;int ba&#xff1b;   #a先…

將JSON功能添加到您的GWT應用程序中

JSON簡介 在Web應用程序上工作時&#xff0c;總是會出現客戶端-服務器數據交換的問題。 在此問題上有多種方法&#xff0c;其中許多使用XML進行交換。 執行此任務的一種不太知名的格式是JSON。 JSON&#xff08;JavaScript對象表示法&#xff09;是一種輕量級的數據交換格式。…

win10資源管理器怎么打開_讓你效率倍增的電腦神器,最強資源管理器增強工具「QTTabBar」...

前言Windows 自帶的資源管理器的功能比較簡單&#xff0c;夠用是夠用了&#xff0c;但有時也確實無法滿足我們對更便捷高效的操作方式的追求。「QTTabBar」正是一個非常強大的 Windows 資源管理器增強工具&#xff01;不僅支持多標簽頁管理&#xff0c;還有許多便捷的擴展功能&…

android橫向滑動選擇的view

做文字編輯&#xff0c;從網上找來的。 HorizontalScrollSelectView&#xff1a; public boolean mAlwaysOverrideTouch true;protected ListAdapter mAdapter;private int mLeftViewIndex -1;private int mRightViewIndex 0;protected int mCurrentX;protected int mNextX;…

適用于Mac OS X的官方Java 7 –狀態

希望到現在&#xff0c;每個人都知道蘋果公司去年加入了OpenJDK項目。 這意味著什么&#xff1f; 蘋果將??把用于私有Mac Java構建的代碼作為GPL代碼貢獻給OpenJDK 甲骨文將接管Java的Mac端口 隨著時間的流逝&#xff0c;Mac平臺將成為Java世界中完全一流的公民 對于想要在…

excel使用教程_數據分析Excel必備技能:數據透視表使用教程

江米小棗tonylua | 作者掘金 | 來源處理數量較大的數據時&#xff0c;一般分為數據獲取、數據篩選&#xff0c;以及結果展示幾個步驟。在 Excel 中&#xff0c;我們可以利用數據透視表(Pivot Table)方便快捷的實現這些工作。本文首先手把手的教你如何在 Excel 中手動構建一個基…

.典型用戶 - 場景

典型用戶&#xff1a; 名字黃德勝性別、年齡男&#xff0c;35歲職業自由投資人收入20萬元/年知識層次和能力專科&#xff0c;有一定的投資經驗&#xff0c;對經濟有自己的看法生活/工作情況已婚&#xff0c;生活負擔在加重動機&#xff0c;目的&#xff0c;困難想要增加收入&am…

java調用webservice_篤學私教:Java開發網站架構演變過程-從單體應用到微服務架構詳解...

原標題&#xff1a;篤學私教&#xff1a;Java開發網站架構演變過程-從單體應用到微服務架構詳解Java開發網站架構演變過程&#xff0c;到目前為止&#xff0c;大致分為5個階段&#xff0c;分別為單體架構、集群架構、分布式架構、SOA架構和微服務架構。下面玄武老師來給大家詳細…

再把你的錢加倍

總覽 很久以前&#xff0c;我寫了一篇關于用雙倍賺錢的文章。 但是&#xff0c;當解決方案相當簡單時&#xff0c;仍然是許多開發人員普遍擔心的問題。 用雙倍賺錢的問題 double有兩種類型的錯誤。 它存在表示錯誤。 即&#xff0c;它不能完全代表所有可能的十進制值。 即使0…

單元測試中Assert類的用法

Assert類所在的命名空間為Microsoft.VisualStudio.TestTools.UnitTesting 在工程文件中只要引用Microsoft.VisualStudio.QualityTools.UnitTestFramework.dll就可以使用了&#xff0c; 在這里我會舉例說明Assert里面的一些主要的靜態成員。 1、 AreEqual&#xff1a;方法被重載…

CocoaPods安裝使用

$ gem sources --remove https://rubygems.org/ //等有反應之后再敲入以下命令 $ gem sources -a http://ruby.taobao.org/*** CURRENT SOURCES ***http://ruby.taobao.org/ //出現這個說明安裝正確$ sudo gem install cocoapods 安裝cocoaPods到項目的路徑下 $ touch Pod…

303. 區域和檢索 - 數組不可變(數組前綴和知識應用)

給定一個整數數組 nums&#xff0c;處理以下類型的多個查詢: 計算索引 left 和 right &#xff08;包含 left 和 right&#xff09;之間的 nums 元素的 和 &#xff0c;其中 left < right 實現 NumArray 類&#xff1a; NumArray(int[] nums) 使用數組 nums 初始化對象 in…

pat1049. Counting Ones (30)

1049. Counting Ones (30) 時間限制10 ms內存限制65536 kB代碼長度限制16000 B判題程序Standard作者CHEN, YueThe task is simple: given any positive integer N, you are supposed to count the total number of 1s in the decimal form of the integers from 1 to N. For ex…