Storm是實時流式數據處理框架,支持多種編程語言
應用案例:
realtime analytics
online machine learning
continuous computation
distributed RPC
ETL
性能:a million tuples per second per node
可擴展、高容錯
結合消息隊列和數據庫一起使用,消息隊列作為數據源,數據庫作為結果的輸出。
基本概念:
Topologies:拓撲,也稱為一個任務,即數據的輸入-->處理-->輸出的過程
Spouts:拓撲的消息源
Bolts:拓撲的處理邏輯單元
Tuple:消息元組,Spouts的數據輸出最小單元
Stream:流
Stream grouping:流的分組策略
Tasks:任務處理單元
Executor:工作線程
Workers:工作進程
Configuration:topology的配置