官網
http://flume.apache.org/
介紹
Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的系統。
Flume可以采集文件,socket數據包等各種形式源數據,又可以將采集到的數據輸出到HDFS、hbase、hive、kafka等眾多外部存儲系統中。
一般的采集需求,通過對flume的簡單配置即可實現。
Flume針對特殊場景也具備良好的自定義擴展能力,因此,flume可以適用于大部分的日常數據采集場景。
運行機制
1、 Flume分布式系統中最核心的角色是agent,flume采集系統就是由一個個agent所連接起來形成。2、 每一個agent相當于一個數據傳遞員,內部有三個組件:
a) Source:采集源,用于跟數據源對接,以獲取數據
b) Sink:下沉地,采集數據的傳送目的,用于往下一級agent傳遞數據或者往最終存儲系統傳遞數據
c) Channel:angent內部的數據傳輸通道,用于從source將數據傳遞到sink
理解它:
source是對接要采集的數據源頭的,比如數據源頭是hdfs,則配置成hdfs的。如果是文件的,則配置成文件的。
sink是輸出的,如果目的地是hdfs,則配置成hdfs的,如果是文件的,則配置成文件的。
當source的源頭是上一個sink,sink的目的地是下一個source的時候,則形成了多級串聯(如下圖)。
source是對接要采集的數據源頭的,比如數據源頭是hdfs,則配置成hdfs的。如果是文件的,則配置成文件的。
sink是輸出的,如果目的地是hdfs,則配置成hdfs的,如果是文件的,則配置成文件的。
當source的源頭是上一個sink,sink的目的地是下一個source的時候,則形成了多級串聯(如下圖)。
下載
http://flume.apache.org/download.html
官方學習文檔
http://flume.apache.org/documentation.html
文檔內容很具體詳細,包含了source,sink,channel的各種場景配置
-------------
更多的Java,Angular,Android,大數據,J2EE,Python,數據庫,Linux,Java架構師,:
http://www.cnblogs.com/zengmiaogen/p/7083694.html