spark架構和RDD相關概念

?運行架構：

? ? ? ? ?Spark采用master - slave結構，Driver作為master負責作業任務調度，Executor作為slave負責實際執行任務。

? ? ? 以Yarn環境為例，Spark應用程序有Client和Cluster兩種部署執行方式。

Yarn Client模式：Driver在本地機器運行，與ResourceManager通訊申請啟動ApplicationMaster，后續完成Executor啟動、反向注冊等流程后執行main函數，遇到Action算子時劃分stage并分發task。
Yarn Cluster模式：Driver在Yarn集群資源中執行，任務提交后申請啟動ApplicationMaster（此時ApplicationMaster就是Driver），后續流程與Client模式類似。

? ? ? RDD是Spark最基本的數據處理模型，是一個抽象類，代表彈性、不可變、可分區且元素可并行計算的集合。具有存儲、容錯、計算、分片彈性，數據分布式存儲，封裝計算邏輯但不保存數據。

? ? ? 包含分區列表、分區計算函數、RDD之間的依賴關系、分區器（K-V類型數據時可選）、首選位置（可選），這些屬性是RDD實現分布式計算和高效處理的關鍵。

? ? ? ?在Yarn環境中，Spark先申請資源創建調度和計算節點，將計算邏輯按分區劃分為任務，調度節點根據計算節點狀態發送任務執行，RDD負責封裝邏輯并生成任務。

? ? ? ?涉及閉包檢查，確保算子外數據可序列化；Spark支持Kryo序列化框架，比Java序列化速度快10倍，使用時即使采用Kryo序列化，相關類也需繼承Serializable接口。

? ? ?記錄RDD元數據和轉換行為，用于恢復丟失分區數據。

? ? ?窄依賴指父RDD分區最多被一個子RDD分區使用；

? ? ?寬依賴指父RDD分區被多個子RDD分區依賴，會引發Shuffle。

? ? ? DAG記錄RDD轉換和任務階段；一個Action算子生成一個Job，Stage數量為寬依賴個數加1，一個Stage中最后一個RDD的分區數就是Task個數。

? ? ?通過Cache或Persist方法緩存計算結果，默認存于JVM堆內存，觸發action算子時緩存，緩存丟失可重算丟失部分。

? ? ?將RDD中間結果寫入磁盤，切斷血緣依賴，提升容錯性，執行Action操作才會觸發。

? ? ? Cache不切斷血緣，數據可靠性低；Checkpoint切斷血緣，數據存儲在高可靠文件系統。建議對Checkpoint的RDD使用Cache緩存以提升效率。

? ? ? Spark支持Hash分區（默認）、Range分區和用戶自定義分區，僅Key - Value類型RDD有分區器。

? ? ? ?Hash分區根據key的hashCode取余確定分區；Range分區將數據按范圍映射到分區，保證數據均勻且分區間有序。

? ? ? ? 可從文件格式（text、csv、sequence、object文件）和文件系統（本地、HDFS、HBASE、數據庫）兩個維度區分。不同文件格式有相應讀取和保存方法，如text文件用?sc.textFile?讀取、?saveAsTextFile?保存。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/78905.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/78905.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/78905.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！