生產環境Spark Structured Streaming實時數據處理應用實踐分享

封面圖片

生產環境Spark Structured Streaming實時數據處理應用實踐分享

一、業務場景描述

我們所在的電商平臺需要實時監控用戶行為數據（如點擊、下單、支付等），基于事件級別的流式數據進行實時統計、會話聚合、漏斗分析，并將結果推送到Dashboard和報表存儲。原有系統使用的Storm+Kafka方案在高并發時存在容錯難、狀態管理復雜、維護成本高的問題。

核心需求：

低延遲：端到端處理延遲控制在2秒以內。
可伸縮：能水平擴展，應對峰值10萬條/秒消息吞吐。
容錯性：任務失敗自動重啟且保證端到端數據不丟失。
狀態管理：支持有狀態聚合（窗口、會話）和超大狀態存儲。

二、技術選型過程

我們對主流實時計算框架進行了對比：

| 框架 | 延遲 | 狀態管理 | 易用性 | 擴展性 | 社區成熟度 | | ---- | ---- | ---- | ---- | ---- | ---- | | Apache Storm | 500ms~1s | 需自行實現State Store | 開發復雜 | 高 | 高 | | Apache Flink | 200ms~500ms | 內置強大狀態管理 | 編程模型復雜 | 高 | 高 | | Spark Structured Streaming | 1s~2s | 使用Checkpoint and WAL，可容錯 | API友好，基于Spark SQL | 高 | 高 | | Apache Kafka Streams | <1s | 基于RocksDB，狀態管理受限 | 與Kafka耦合高 | 中 | 中 |

綜合考慮團隊技術棧和運維成本，我們最終選定Spark Structured Streaming：

與現有Spark Batch集群共用資源。
編程模型統一，SQL/DS/Lambda API支持靈活。
Checkpoint與WAL機制簡化狀態管理，集成HDFS持久化狀態。

三、實現方案詳解

3.1 項目結構

├── pom.xml
├── src
│   ├── main
│   │   ├── java
│   │   │   └── com.company.streaming
│   │   │       ├── App.java
│   │   │       └── utils
│   │   │           └── KafkaOffsetManager.java
│   │   └── resources
│   │       └── application.conf
└── README.md

3.2 核心配置（application.conf）

spark.app.name=RealTimeUserBehavior
spark.master=yarn
spark.sql.shuffle.partitions=200
spark.streaming.backpressure.enabled=true
spark.checkpoint.dir=hdfs://namenode:8020/app/checkpoints/structured-streaming
kafka.bootstrap.servers=broker1:9092,broker2:9092
kafka.topic.user=topic_user_behavior
kafka.group.id=user_behavior_group

3.3 主入口代碼（App.java）

package com.company.streaming;import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.streaming.OutputMode;
import org.apache.spark.sql.streaming.Trigger;public class App {public static void main(String[] args) throws Exception {SparkSession spark = SparkSession.builder().appName("RealTimeUserBehavior").getOrCreate();// 從Kafka讀取原始數據Dataset<Row> raw = spark.readStream().format("kafka").option("kafka.bootstrap.servers", spark.sparkContext().getConf().get("kafka.bootstrap.servers")).option("subscribe", spark.sparkContext().getConf().get("kafka.topic.user")).option("startingOffsets", "latest").load();// 解析JSON并選取字段Dataset<Row> userEvents = raw.selectExpr("CAST(value AS STRING) as json").select(org.apache.spark.sql.functions.from_json(org.apache.spark.sql.functions.col("json"),DataSchema.eventSchema()).as("data")).select("data.*");// 實時會話聚合：10分鐘無操作認為會話結束Dataset<Row> sessions = userEvents.withWatermark("eventTime", "2 minutes").groupBy(org.apache.spark.sql.functions.window(org.apache.spark.sql.functions.col("eventTime"),"10 minutes", "5 minutes"),org.apache.spark.sql.functions.col("userId")).agg(org.apache.spark.sql.functions.count("eventType").alias("eventCount"),org.apache.spark.sql.functions.min("eventTime").alias("startTime"),org.apache.spark.sql.functions.max("eventTime").alias("endTime"));// 輸出到HDFS OR 更新到外部系統sessions.writeStream().outputMode(OutputMode.Update()).trigger(Trigger.ProcessingTime("30 seconds")).option("path", "hdfs://namenode:8020/app/output/user_sessions").option("checkpointLocation", spark.sparkContext().getConf().get("spark.checkpoint.dir") + "/sessions").start().awaitTermination();}
}

3.4 關鍵工具類(KafkaOffsetManager.java)

package com.company.streaming.utils;// 省略：管理Kafka手動提交offset、讀寫Zookeeper存儲偏移量

四、踩過的坑與解決方案

狀態膨脹導致Checkpoint文件過大：
- 方案：定期做State TTL清理，結合Spark 3.1.1+的state cleanup策略。
Kafka消費位點重復或丟失：
- 方案：使用KafkaOffsetManager手動管理，結合冪等寫入目標系統保證At-Least-Once語義。
延遲抖動：
- 方案：開啟backpressure，限制最大并行度，并合理調整Trigger頻率。
Driver內存溢出：
- 方案：提升driver內存，拆分業務流程；或將部分輕量計算遷移至Executors。

五、總結與最佳實踐

合理規劃Checkpoint和WAL存儲目錄，避免與業務數據混淆。
利用Spark監控UI實時觀察批次時長、shuffle寫入、延遲指標。
結合PeriodicStateCleanup+Watermark確保有狀態算子狀態可控。
抽象共通工具類（KafkaOffsetManager、JSON解析、公用Schema），提高代碼可維護性。
復雜業務可拆分成多個流式子作業，下游合并結果，增強可擴展性。

通過以上實踐，我們成功將平臺數據實時處理延遲穩定在1.2秒左右，作業穩定運行10+節點集群一個季度零故障。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/97593.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/97593.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/97593.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！