大數據學習(09)--Hadoop2.0介紹

文章目錄

  • 目錄
    • 1.Hadoop的發展與優化
      • 1.1 Hadoop1.0 的不足與局限
      • 1.2 Hadoop2.0 的改進與提升
    • 2.HDFS2.0 的新特性
      • 2.1 HDFS HA
      • 2.2 HDFS Federation
    • 3. 新一代的資源管理器YARN
      • 3.1 MapReduce1.0 缺陷
      • 3.2 YARN的設計思路
      • 3.3 YARN 體系結構
      • 3.4 YARN工作流程
      • 3.5 YARN框架與MapReduce1.0框架進行對比
      • 3.6 YARN的發展目標
    • 4.Hadoop2.0 生態中具有代表性的功能組件
      • 4.1 Pig
      • 4.2 Tez
      • 4.3 Spark
      • 4.4 Kafka

目錄

1.Hadoop的發展與優化

1.1 Hadoop1.0 的不足與局限

主要針對于Hadoop1.0中兩大核心組件:MapReduce和HDFS有以下幾點不足:

  • 抽象層次低,需要人工編碼(MapReduce需要人為的寫map和reduce函數)
  • 表達能力有限(MapReduce)
  • 開發者自己管理作業之間的依賴關系(MapReduce)
  • 難以看清程序的整體邏輯(MapReduce)
  • 執行迭代操作效率低(MapReduce每次迭代寫磁盤)
  • 資源浪費(map-slot與reduce-slot不能共用)
  • 實時性差(適用于批處理,不支持實時交互)

1.2 Hadoop2.0 的改進與提升

在這里插入圖片描述
在這里插入圖片描述

hdfs fedration只是提供管理多個命名空間,每個節點還是存在單點故障的問題,所以需要集合HDFS HA一起使用,即對HDFS Fedration中的每個節點創建一個附屬的名稱節點,作為單個節點的熱備份。
Hadoop1.0 中的第二名稱節點不是一個熱備份的功能,濕冷備份,具體請查看之前的博客。

在這里插入圖片描述

2.HDFS2.0 的新特性

2.1 HDFS HA

在這里插入圖片描述
在這里插入圖片描述
HDFS HA
在這里插入圖片描述

2.2 HDFS Federation

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

3. 新一代的資源管理器YARN

3.1 MapReduce1.0 缺陷

在這里插入圖片描述

3.2 YARN的設計思路

在這里插入圖片描述

在Hadoop1.0 中,MapReduce既是一個大數據計算框架,又是一個資源和任務調度管理框架。

3.3 YARN 體系結構

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

3.4 YARN工作流程

在這里插入圖片描述

3.5 YARN框架與MapReduce1.0框架進行對比

在這里插入圖片描述

3.6 YARN的發展目標

在這里插入圖片描述
在這里插入圖片描述

4.Hadoop2.0 生態中具有代表性的功能組件

4.1 Pig

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

4.2 Tez

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

Tez是對MapReduce中的map和reduce過程進行優化,所以只要最終只要轉換為map和reduce操作的都可以使用Tez進行優化。

在這里插入圖片描述

4.3 Spark

在這里插入圖片描述

4.4 Kafka

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445220.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445220.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445220.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java多線程常用方法

start()與run() start() 啟動線程并執行相應的run()方法 run() 子線程要執行的代碼放入run()方法 getName()和setName() getName() 獲取此線程的名字 setName() 設置此線程的名字 isAlive() 是判斷當前線程是否處于活動狀態。活動狀態就是已經啟動尚未終止。 curren…

MachineLearning(2)-圖像分類常用數據集

圖像分類常用數據集1 CIFAR-102.MNIST3.STL_104.Imagenet5.L-Sun6.caltech-101在訓練神經網絡進行圖像識別分類時,常會用到一些通用的數據集合。利用這些數據集合可以對比不同模型的性能差異。下文整理常用的圖片數據集合(持續更新中)。基本信息對比表格…

Linux網絡編程實例詳解

本文介紹了在Linux環境下的socket編程常用函數用法及socket編程的一般規則和客戶/服務器模型的編程應注意的事項和常遇問題的解決方法,并舉了具體代 碼實例。要理解本文所談的技術問題需要讀者具有一定C語言的編程經驗和TCP/IP方面的基本知識。要實習本文的示例&…

python的命令解析getopt.getopt()函數分析

【轉自http://hi.baidu.com/javalang/blog/category/Python】 可以參考http://docs.python.org/lib/module-getopt.html # -*- coding: cp936 -*-import getoptimport sysdef usage():print Help Information:-h: Show help information-xValue:...if __name____main__:#set d…

博弈論基礎

博弈論總結 什么是博弈論: 多人進行博弈,假設每個人都采取最優策略,一定有一個人勝出,在知道初態及規則的情況下,求解出 何人勝出的一類問題的理論及方法。 博弈論的一些性質 P點:必敗點,N…

矩陣論-范數理論及其應用

范數理論及其應用2.1向量范數及其性質2.2矩陣范數本系列博文主要總結學習矩陣論的心得筆記,參考數目《矩陣論》–張凱院;整個文章的整理體系參照行書過程。范數–非負實數,用于衡量線性空間元素(如:向量,矩…

大數據學習(09)--spark學習

文章目錄目錄1.spark介紹1.1 spark介紹1.2 scale介紹1.3 spark和Hadoop比較2.spark生態系統3.spark運行框架3.1 基本概念3.2 架構的設計3.3 spark運行基本流程3.4 spark運行原理3.5 RDD運行原理3.5.1 設計背景3.5.2 RDD概念和特性3.5.3 RDD之間的依賴關系3.5.4 stage的劃分3.5.…

探索 Pexpect

概述 通過本系列第一部分 《探索 Pexpect,第 1 部分:剖析 Pexpect 》(請參閱參考資料)的介紹,相信大家已經對 Pexpect 的用法已經有了比較全面的了解,知道 Pexpect 是個純 Python 語言實現的模塊&#xff…

Python的Pexpect詳解 [圖片]

Pexpect 是一個用來啟動子程序并對其進行自動控制的純 Python 模塊。 Pexpect 可以用來和像 ssh、ftp、passwd、telnet 等命令行程序進行自動交互。繼第一部分《探索 Pexpect,第 1 部分:剖析 Pexpect 》介紹了 Pexpect 的基礎和如何使用后,本…

關系數據庫——sql增刪改

數據的插入 插入元祖 --1. 表名后沒有指定屬性列:表示要插入的是一條完整的元組,且屬性列屬性與表定義中的順序一致 insert into student values (201215128, 陳東, 18, 男, IS);--2. 在表明后指定要插入數據的表名及屬性列,屬性列的順序可…

機器學習中的聚類方法總結

聚類定義 定義 聚類就是對大量未知標注 的數據集,按數據 的內在相似性將數據集劃分為多個類別,使 類別內的數據相似度較大而類別間的數據相 似度較小。是無監督的分類方式。 聚類思想 給定一個有N個對象的數據集,構造數據的k 個簇&#x…

學點數學(1)-隨機變量函數變換

隨機變量函數變換本文介紹一維隨機變量函數變換,參考文獻:https://wenku.baidu.com/view/619f74ac3186bceb19e8bbd0.html變換TTT作用于隨機變量XXX,產生隨機變量YYY. T:X?>Y或者寫為yT(x)T:X->Y 或者寫為 yT(x)T:X?>Y或者寫為yT(x…

關系數據庫——關系數據語言

關系 域:一組具有相同數據類型的值的集合(即取值范圍) 笛卡爾積:域上的一種集合運算。結果為一個集合,集合的每一個元素是一個元組,元組的每一個分量來自不同的域。 基數:一個域允許的不同取值…

Python模塊(2)-Numpy 簡易使用教程

Numpy模塊 簡易使用教程1.數組創建2.數組基本屬性-維度、尺寸、數據類型3.數組訪問-索引、切片、迭代4.數組的算術運算-加減乘除、轉置求逆、極大極小5.通用函數-sin,cos,exp,sqrtnp.dot與np.matmul的區別6.數組的合并和分割6.1 np.vstack(),np.hstack()6.2 np.stack()7.list與…

機器學習問題總結(01)

文章目錄1.請描述推薦系統中協同過濾算法CF的原理2.請描述決策樹的原理、過程、終止條件,以及如何防止過擬合2.1決策樹生成算法2.2 剪枝處理(防止過擬合)2.3 停止條件2.4 棵決策樹的生成過程2.5 決策樹的損失函數3.請描述K-means的原理&#…

pthread_attr_init線程屬性

1.線程屬性 線程具有屬性,用pthread_attr_t表示,在對該結構進行處理之前必須進行初始化,在使用后需要對其去除初始化。我們用pthread_attr_init函數對其初始化,用pthread_attr_destroy對其去除初始化。 1. …

Python實例講解 -- 解析xml

Xml代碼 <?xml version"1.0" encoding"utf-8"?> <info> <intro>信息</intro> <list id001> <head>auto_userone</head> <name>Jordy</name> <number&g…

springboot3——Email

maven導入包&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId><version>2.1.6.RELEASE</version></dependency> 參數配置&#xff1a; # MailPrope…

python(22)--面向對象1-封裝

python面向對象1面向過程/面向對象2面向對象核心概念-類3類的設計3.1類三要素-類名、屬性、方法3.2面向對象基礎語法3.2.1查看對象的常用方法3.2.2類定義3.2.3創建類對象3.2.4__init__()方法3.2.5 self參數3.2.6類內置方法和屬性_del_()方法--銷毀對象_str_()方法--定制化輸出對…

機器學習問題總結(02)

文章目錄1.stacking模型以及做模型融合的知識1.1 從提交結果中融合1.2 stacking1.3 blending2. 怎樣去優化SVM算法模型的&#xff1f;2.1 SMO優化算法2.2 libsvm 和 Liblinear3.現有底層是tensorflow的keras框架&#xff0c;如果現在有一個tensorflow訓練好的模型&#xff0c;k…