一、Hdfs 架構
訪問 ? (1) ?----nameNode
(2)?
|
|
|
dataNode
每隔一段時間secondaryNameNode會將fsimage和edits進行合并產生心得fsimage;
1、Hdfs 適用場景
數據密集型并行計算
計算密集并行計算
2、不適合的場景
HDFS不合適大量小文件的儲存
HDFS適用于高吞吐量,不適合低時間延遲的訪問
流式讀取的方式、不適合多用戶寫入一個文件(一個文件同時只能被一個客戶端寫),以及任意位置寫入(不支持隨機寫);
不適合用mapreduce方式進行計算的場景;
二、MapReduce ? ?編程
MapReduce借用的函數式編程的概念,google發明的一種分布式的數據處理模型。Hadoop的坐著Doug Cutting 根據這篇論文復制了google的分布式文件系統gfs和mapReduce,
對應的hadoop的hdfs和mapreduce。
MapReduce模型是整個大數據技術的核心思想,hdfs的架構是為了方便mapreduce而設計,hive、pig等軟件最后總是通過調用mapreduce運行
三、Hive體系結構
Hive不是數據庫、僅僅是數據倉庫。是建立在hadoop上的數據倉庫基礎框架,它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL)