初識Hadoop
Hadoop是一個開源的分布式存儲+分布式計算平臺。
Hadoop核心組成部分:
- HDFS:分布式文件系統,存儲海量的數據。
- MapReduce:并行處理框架,實現任務分解和調度。
Hadoop可以用來做什么?
搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。
Hadoop優勢:高擴展、低成本(不依賴高端硬件,只需要PC機就可以實現)、成熟的生態圈(開源、有很多衍生的小工具)
工具:
HIVE寫SQL,降低人們使用Hadoop的門檻。
HBASE 放棄事物特性,提供數據隨機讀寫。
zookeeper監控Hadoop每個節點的狀態。
安裝Hadoop
有三種方式:單機環境、偽分布環境、集群環境
Step 1:準備Linux環境
租用云主機,在阿里云或UnitedStack等定制。
Step 2:安裝JDK
Step 3:配置Hadoop