寫給大數據開發初學者的話2

見 :?http://lxw1234.com/archives/2016/11/782.htm

如果你已經按照《寫給大數據開發初學者的話》中第一章和第二章的流程認真完整的走了一遍，那么你應該已經具備以下技能和知識點：

0和Hadoop2.0的區別；
MapReduce的原理（還是那個經典的題目，一個10G大小的文件，給定1G大小的內存，如何使用Java程序統計出現次數最多的10個單詞及次數）；
HDFS讀寫數據的流程；向HDFS中PUT數據；從HDFS中下載數據；
自己會寫簡單的MapReduce程序，運行出現問題，知道在哪里查看日志；
會寫簡單的SELECT、WHERE、GROUP BY等SQL語句；
Hive SQL轉換成MapReduce的大致流程；
Hive中常見的語句：創建表、刪除表、往表中加載數據、分區、將表中數據下載到本地；

從上面的學習，你已經了解到，HDFS是Hadoop提供的分布式存儲框架，它可以用來存儲海量數據，MapReduce是Hadoop提供的分布式計算框架，它可以用來統計和分析HDFS上的海量數據，而Hive則是SQL On Hadoop，Hive提供了SQL接口，開發人員只需要編寫簡單易上手的SQL語句，Hive負責把SQL翻譯成MapReduce，提交運行。

此時，你的”大數據平臺”是這樣的：

lxw1234

那么問題來了，海量數據如何到HDFS上呢？

第三章：把別處的數據搞到Hadoop上

此處也可以叫做數據采集，把各個數據源的數據采集到Hadoop上。

3.1 HDFS PUT命令

這個在前面你應該已經使用過了。

put命令在實際環境中也比較常用，通常配合shell、python等腳本語言來使用。

建議熟練掌握。

3.2 HDFS API

HDFS提供了寫數據的API，自己用編程語言將數據寫入HDFS，put命令本身也是使用API。
實際環境中一般自己較少編寫程序使用API來寫數據到HDFS，通常都是使用其他框架封裝好的方法。比如：Hive中的INSERT語句，Spark中的saveAsTextfile等。
建議了解原理，會寫Demo。

3.3 Sqoop

Sqoop是一個主要用于Hadoop/Hive與傳統關系型數據庫Oracle/MySQL/SQLServer等之間進行數據交換的開源框架。
就像Hive把SQL翻譯成MapReduce一樣，Sqoop把你指定的參數翻譯成MapReduce，提交到Hadoop運行，完成Hadoop與其他數據庫之間的數據交換。

自己下載和配置Sqoop（建議先使用Sqoop1，Sqoop2比較復雜）。
了解Sqoop常用的配置參數和方法。
使用Sqoop完成從MySQL同步數據到HDFS；
使用Sqoop完成從MySQL同步數據到Hive表；

PS：如果后續選型確定使用Sqoop作為數據交換工具，那么建議熟練掌握，否則，了解和會用Demo即可。

3.4 Flume

Flume是一個分布式的海量日志采集和傳輸框架，因為“采集和傳輸框架”，所以它并不適合關系型數據庫的數據采集和傳輸。
Flume可以實時的從網絡協議、消息系統、文件系統采集日志，并傳輸到HDFS上。
因此，如果你的業務有這些數據源的數據，并且需要實時的采集，那么就應該考慮使用Flume。

下載和配置Flume。
使用Flume監控一個不斷追加數據的文件，并將數據傳輸到HDFS；

PS：Flume的配置和使用較為復雜，如果你沒有足夠的興趣和耐心，可以先跳過Flume。

3.5 阿里開源的DataX

之所以介紹這個，是因為我們公司目前使用的Hadoop與關系型數據庫數據交換的工具，就是之前基于DataX開發的，非常好用。
可以參考我的博文《異構數據源海量數據交換工具-Taobao DataX 下載和使用》。
現在DataX已經是3.0版本，支持很多數據源。
你也可以在其之上做二次開發。

PS：有興趣的可以研究和使用一下，對比一下它與Sqoop。

如果你認真完成了上面的學習和實踐，此時，你的”大數據平臺”應該是這樣的：

lxw1234

如果覺得本博客對您有幫助，請?贊助作者?。

第四章：把Hadoop上的數據搞到別處去

前面介紹了如何把數據源的數據采集到Hadoop上，數據到Hadoop上之后，便可以使用Hive和MapReduce進行分析了。那么接下來的問題是，分析完的結果如何從Hadoop上同步到其他系統和應用中去呢？

其實，此處的方法和第三章基本一致的。

4.1 HDFS GET命令

把HDFS上的文件GET到本地。需要熟練掌握。

4.2 HDFS API

同3.2.

4.3 Sqoop

同3.3.
使用Sqoop完成將HDFS上的文件同步到MySQL；
使用Sqoop完成將Hive表中的數據同步到MySQL；

4.4 DataX

同3.5.

如果你認真完成了上面的學習和實踐，此時，你的”大數據平臺”應該是這樣的：

lxw1234

以下章節正在整理中，請持續關注?lxw的大數據田地

第五章：快一點吧，我的SQL

第六章：一夫多妻制

第七章：越來越多的分析任務

第八章：我的數據要實時

第九章：我的數據要對外

第十章：牛逼高大上的機器學習

?寫給大數據開發初學者的話1