一、技術棧分層架構
大數據技術棧通常分為四個核心層級:
-
數據采集層
負責多源異構數據的實時/批量采集- 日志采集: F l u m e Flume Flume、 L o g s t a s h Logstash Logstash
- 消息隊列: K a f k a Kafka Kafka、 R a b b i t M Q RabbitMQ RabbitMQ
- 數據庫同步: S q o o p Sqoop Sqoop、 C a n a l Canal Canal
-
數據存儲層
解決海量數據的分布式存儲問題
H D F S (分布式文件系統) HDFS \text{(分布式文件系統)} HDFS(分布式文件系統)
N o S Q L 數據庫: C a s s a n d r a , H B a s e NoSQL \text{數據庫:} Cassandra, \ HBase NoSQL數據庫:Cassandra,?HBase
云存儲:? S 3 , A z u r e B l o b 云存儲:\ S3, \ Azure \ Blob 云存儲:?S3,?Azure?Blob -
數據處理層
實現批流融合計算- 批處理: S p a r k ( R D D / D a t a F r a m e ) Spark \ (RDD/DataFrame) Spark?(RDD/DataFrame), M a p R e d u c e MapReduce MapReduce
- 流處理: F l i n k Flink Flink, S t o r m Storm Storm, S p a r k S t r e a m i n g Spark \ Streaming Spark?Streaming
- SQL引擎: H i v e Hive Hive, I m p a l a Impala Impala
-
數據應用層
支撐上層業務場景
機器學習:? S p a r k M L l i b , T e n s o r F l o w 機器學習:\ Spark \ MLlib, \ TensorFlow 機器學習:?Spark?MLlib,?TensorFlow
可視化:? T a b l e a u , K i b a n a 可視化:\ Tableau, \ Kibana 可視化:?Tableau,?Kibana
調度系統:? A i r f l o w , A z k a b a n 調度系統:\ Airflow, \ Azkaban 調度系統:?Airflow,?Azkaban
二、能級演進背景
技術發展遵循"存儲→計算→智能"的三階躍遷:
-
基礎存儲能級(2003-2010)
Google發布 G F S GFS GFS(2003)和 B i g t a b l e Bigtable Bigtable(2006)論文,奠定分布式存儲理論基礎。Hadoop實現開源化,解決 P B PB PB級數據存儲瓶頸。 -
實時計算能級(2010-2016)
數據時效性需求催生Lambda架構:
批處理層 + 速度層 → 服務層 \text{批處理層} + \text{速度層} \rightarrow \text{服務層} 批處理層+速度層→服務層
Spark內存計算將批處理性能提升 100 × 100\times 100×,Storm實現毫秒級延遲。 -
智能分析能級(2016至今)
云原生架構推動技術融合:- 計算存儲分離: S n o w f l a k e Snowflake Snowflake架構
- 批流一體: F l i n k S t a t e f u l C o m p u t i n g Flink \ Stateful \ Computing Flink?Stateful?Computing
- AI融合: T e n s o r F l o w o n S p a r k TensorFlow \ on \ Spark TensorFlow?on?Spark
三、典型技術組合
場景 | 技術棧組合 | 吞吐量 |
---|---|---|
實時風控 | K a f k a + F l i n k + R e d i s Kafka + Flink + Redis Kafka+Flink+Redis | > 100 K e v e n t s / s >100K \ events/s >100K?events/s |
數倉建設 | H i v e + S p a r k + H D F S Hive + Spark + HDFS Hive+Spark+HDFS | E B EB EB級存儲 |
用戶畫像 | F l i n k + C l i c k H o u s e + T e n s o r F l o w Flink + ClickHouse + TensorFlow Flink+ClickHouse+TensorFlow | 千維特征實時計算 |
四、發展趨勢
- Serverless化: A W S G l u e AWS \ Glue AWS?Glue等無服務架構降低運維成本
- AI融合深化: P y T o r c h B i g G r a p h PyTorch \ BigGraph PyTorch?BigGraph支持萬億級圖計算
- 隱私計算:聯邦學習與差分隱私技術保障數據安全
當前技術棧已從單一工具演進為生態體系,需根據 數據規模 × 時效性 × 業務復雜度 數據規模 \times 時效性 \times 業務復雜度 數據規模×時效性×業務復雜度三維度選擇適配方案。