Spark初識-Spark基本架構概覽使用

當需要處理的數據量超過了單機尺度(比如我們的計算機有4GB的內存，而我們需要處理100GB以上的數據)這時我們可以選擇spark集群進行計算，有時我們可能需要處理的數據量并不大，但是計算很復雜，需要大量的時間，這時我們也可以選擇利用spark集群強大的計算資源，并行化地計算

一、架構及生態

架構示意圖如下：

Spark Core：實現了 Spark 的基本功能，包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。SparkCore 中還包含了對彈性分布式數據集(Resilient Distributed DataSet，簡稱RDD)的API定義。
Spark SQL：是 Spark 用來操作結構化數據的程序包。通過SparkSql，我們可以使用 SQL或者Apache Hive 版本的 SQL 方言(HQL)來查詢數據。Spark SQL 支持多種數據源，比如 Hive 表、Parquet 以及 JSON 等。
Spark Streaming：是 Spark 提供的對實時數據進行流式計算的組件。提供了用來操作數據流的 API，并且與 Spark Core 中的 RDD API 高度對應。
Spark MLlib：提供常見的機器學習 (ML) 功能的程序庫。包括分類、回歸、聚類、協同過濾等，還提供了模型評估、數據導入等額外的支持功能。
GraphX：控制圖、并行圖操作和計算的一組算法和工具的集合。GraphX擴展了RDD API，包含控制圖、創建子圖、訪問路徑上所有頂點的操作。

Spark架構的組成圖如下：

Cluster Manager：Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計算，為了實現這樣的要求，同時獲得最大靈活性，Spark 支持在各種集群管理器(Cluster Manager)上運行，目前 Spark 支持 3 種集群管理器:
1. Hadoop YARN(在國內使用最廣泛)
2. Apache Mesos(國內使用較少, 國外使用較多)
3. Standalone(Spark 自帶的資源調度器, 需要在集群中的每臺節點上配置 Spark)
Worker節點：從節點，負責控制計算節點，啟動Executor或者Driver。
Driver：運行Application 的main()函數
Executor：執行器，是為某個Application運行在worker node上的一個進程

二、Spark運行架構

基本概念：RDD、DAG、Executor、Application、Task、Job、Stage

RDD：彈性分布式數據集的簡稱，是分布式內存的一個抽象概念，提供了一個高度共享的內存模型。
Worker Node：物理節點，上面執行executor進程
Executor：Worker Node為某應用啟動的一個進程，執行多個tasks
Jobs:action 的觸發會生成一個job, Job會提交給DAGScheduler,分解成Stage,
Stage:DAGScheduler 根據shuffle將job劃分為不同的stage，同一個stage中包含多個task，這些tasks有相同的 shuffle dependencies。

? 有兩類shuffle map stage和result stage：
? shuffle map stage：case its tasks’ results are input for other stage(s)
? result stage：case its tasks directly compute a Spark action (e.g. count(), save(), etc) by running a function on an RDD，輸入與結果間劃分stage