Spark提交任務的資源配置和優化

Spark 提交任務時主要可調的資源配置參數包括 Driver 資源（內存、CPU）、Executor 資源（數量、內存、CPU）以及集群管理相關參數。配置和優化時一般結合集群硬件資源、數據規模、作業類型和作業復雜度（SQL / 機器學習）來綜合設置。
下面是提交過程參數配置實例：

spark-submit --driver-memory 4g \ # 指定Driver進程的內存大小(堆內存)，影響不大。
--num-executors 15 # Executor 的總數量，Standalone/K8s 可直接設定；Yarn默認會動態分配。
--executor-memory 8g \ # 指定每個Executor的內存大小(堆內存)，一般都是Execution會出現OOM，因為Storage會落盤。
--executor-cores 3 \ # 指定每個Executor核心數(真正并行數)，4核心建議設成3。
--queue root.default \ # 設置Yarn的資源隊列。
--conf spark.yarn.executor.memoryOverhead=2048 \ # 設置堆外內存大小，默認executor-memory的10%。
--conf spark.core.connection.ack.wait.timeout=300 # 設置通訊等待超時時間。
# 例如集群有15臺機器，每臺2個CPU核心，則指定15個Executor每個的核心為2。總并行度 = num-executors × executor-cores，盡量大于等于總分區數

資源優化的策略包括：

內存分配：
executor-memory ≈ 節點內存 ÷ 每節點 Executor 數量 - 預留空間；
num-executors × executor-cores 不要超過節點總核數。
并行度：一般建議總 cores ≈ 分區數或者稍大一些。SQL 場景調節 spark.sql.shuffle.partitions（默認 200 通常過大/過小都不好）。
動態分配：在資源緊張的環境或多租戶模式下建議開啟，可避免資源浪費。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/921813.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/921813.shtml
英文地址，請注明出處：http://en.pswp.cn/news/921813.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！