Storm編程模型總結

目錄
- 前言：
- 1、Storm編程模型
- 2、對應的的WordCount案例
- 總結：

DataSource：外部數據源
Spout：接受外部數據源的組件，將外部數據源轉化成Storm內部的數據，以Tuple為基本的傳輸單元下發給Bolt
Bolt:接受Spout發送的數據，或上游的bolt的發送的數據。根據業務邏輯進行處理。發送給下一個Bolt或者是存儲到某種介質上。介質可以是Redis可以是mysql，或者其他。
Tuple：Storm內部中數據傳輸的基本單元，里面封裝了一個List對象，用來保存數據。
StreamGrouping:數據分組策略

7種：shuffleGrouping(Random函數),Non Grouping(Random函數),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或隨機，優先本地。
1. Shuffle Grouping: 隨機分組，隨機派發stream里面的tuple，保證每個bolt接收到的tuple數目大致相同。
2. FieldsGrouping：按字段分組，比如按userid來分組，具有同樣userid的tuple會被分到相同的Bolts里的一個task，而不同的userid則會被分配到不同的bolts里的task。
3. All Grouping：廣播發送，對于每一個tuple，所有的bolts都會收到。
4. Global Grouping：全局分組，這個tuple被分配到storm中的一個bolt的其中一個task。再具體一點就是分配給id值最低的那個task。
5. Non Grouping：不分組，這stream grouping個分組的意思是說stream不關心到底誰會收到它的tuple。目前這種分組和Shuffle
  grouping是一樣的效果，有一點不同的是storm會把這個bolt放到這個bolt的訂閱者同一個線程里面去執行。
6. Direct Grouping：直接分組，這是一種比較特別的分組方法，用這種分組意味著消息的發送者指定由消息接收者的哪個task處理這個消息。只有被聲明為Direct Stream的消息流可以聲明這種分組方法。而且這種消息tuple必須使用emitDirect方法來發射。消息處理者可以通過TopologyContext來獲取處理它的消息的task的id（OutputCollector.emit方法也會返回task的id）。
7. Local or shuffle grouping：如果目標bolt有一個或者多個task在同一個工作進程中，tuple將會被隨機發生給這些tasks。否則，和普通的Shuffle Grouping行為一致。

FieldGrouping和shuffleGrouping 運行過程分析：

FieldsGroup：你會發現相同的數據被分到相同的線程中。
95    word:am
95    word:am
95    word:am
95    word:am
95    word:am
91    word:love
91    word:love
91    word:love
91    word:love
91    word:love
95    word:am
89    word:i
89    word:hanmeimei
89    word:i
89    word:hanmeimei
89    word:i
93    word:lilei
93    word:lilei
93    word:lilei
93    word:lilei-----------------------------------
shuffleGroup:你會發現相同的數據被分到不同的線程中（數字代表線程id）
95    word:hanmeimei
89    word:love
95    word:hanmeimei
89    word:am
95    word:am
89    word:love
89    word:love
89    word:hanmeimei
89    word:am
95    word:love
95    word:hanmeimei
89    word:i
95    word:am
95    word:i
95    word:hanmeimei
95    word:i
95    word:hanmeimei
89    word:am
95    word:love
89    word:love
95    word:love

2、對應的的WordCount案例

2.1、功能說明
設計一個topology，來實現對文檔里面的單詞出現的頻率進行統計。
整個topology分為三個部分：

RandomSentenceSpout：數據源，在已知的英文句子中，隨機發送一條句子出去。
SplitSentenceBolt：負責將單行文本記錄（句子）切分成單詞
WordCountBolt：負責對單詞的頻率進行累加

執行wc時，通過Spout來讀取數據，然后通過Bolt來切分數據（如map階段）再通過另一個Bolt和上一個Bolt相連來進一步做單詞的統計（通過hashmap來實現）
2.2、項目主要流程
這里寫圖片描述
首先new TopologyBuilder->setSpout(spot的id，new spot的實現類，并發度)->setBolt（Bolt的id，new Bolt的實現類，并發度）<可設置多個Bolt>->new Config->config設置worker的數量。

2.3、RandomSentenceSpout的實現及生命周期
這里寫圖片描述
Spout的生命周期：open（初始化）->nextTuple（框架一直調用）->declareOutputFields(該方法用于聲明自己發射出去的數據的類型（自定義或者可以理解為標識自己發射出去的數據）)

2.4、SplitSentenceBolt的實現及生命周期
這里寫圖片描述
Bolt的生命周期：prepare(初始化)->execute（對傳過來的tuple進行處理）->declareOutoutFields(聲明輸出的數據類型若輸出數據類型為多個則聲明多個如下圖所示（自定義）)
2.5、WordCountBolt的實現及生命周期

代碼執行圖：
這里寫圖片描述

總結：

這篇文章最主要的目的還是讓讀者能夠對Storm的編程模型有個初步的認識；至少你得能夠看懂簡單的WC案例，知道里面各個參數的含義，以及整個程序的執行流程。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/456640.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/456640.shtml
英文地址，請注明出處：http://en.pswp.cn/news/456640.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！