在本節實戰中,我們初步探索了Spark Streaming,它是Spark的流式數據處理子框架,具備高吞吐量、可伸縮性和強容錯能力。我們了解了Spark Streaming的基本概念和運行原理,并通過兩個案例演示了如何利用Spark Streaming實現詞頻統計。第一個案例是監聽TCP Socket端口的數據,實時計算接收到的文本數據中的單詞數。第二個案例是監聽HDFS上的目錄,一旦有新文件加入到指定目錄下,Spark Streaming計算出該時間內的單詞統計數。通過這些實戰操作,我們掌握了Spark Streaming的基本使用方法,為后續的深入學習打下了基礎。