PySpark Standalone 集群

PySpark Standalone 集群是 Apache Spark 的一種部署模式，它不依賴于其他資源管理系統（如 YARN 或 Mesos），而是使用 Spark 自身的集群管理器。這種模式適合快速部署和測試，尤其在開發和學習環境中較為常見。

Master 節點：
- 負責資源調度和任務分配
- 管理 Worker 節點的注冊和狀態
- 協調應用程序的執行
Worker 節點：
- 負責執行具體的計算任務
- 管理本地資源（CPU、內存）
- 與 Master 節點通信，匯報狀態
Driver 程序：
- 運行用戶編寫的 Spark 應用程序
- 負責將應用轉換為任務（Task）
- 與 Master 和 Worker 節點協作完成計算

啟動集群：
- 首先啟動 Master 節點
- 然后啟動多個 Worker 節點，它們會自動連接到 Master
提交應用：
- 用戶通過 spark-submit 命令提交 PySpark 應用
- Driver 程序在本地或集群中啟動
資源分配：
- Master 為應用分配資源（Worker 上的 Executor）
- Executor 是運行在 Worker 節點上的進程，負責執行任務
任務執行：
- Driver 將任務分發給 Executor
- Executor 執行任務并返回結果

確保所有節點安裝了 Java 和 Python，并配置好環境變量。

從 Apache 官網下載 Spark，解壓到所有節點的相同目錄：

wget https://downloads.apache.org/spark/spark-3.4.1/spark-3.4.1-bin-hadoop3.tgz
tar -zxvf spark-3.4.1-bin-hadoop3.tgz

在所有節點的.bashrc 或.bash_profile 中添加：

export SPARK_HOME=/path/to/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

在 Spark 目錄下創建并編輯配置文件：

cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves

編輯 spark-env.sh：

export JAVA_HOME=/path/to/java
export SPARK_MASTER_HOST=master-node-ip
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=2g

編輯 slaves：

worker1-ip
worker2-ip
worker3-ip

在 Master 節點上執行：

start-all.sh

這將啟動 Master 和所有 Worker 節點。

訪問 Master 的 Web UI：http://master-node-ip:8080

spark-submit --master spark://master-node-ip:7077 your_script.py

資源相關：
- SPARK_WORKER_MEMORY：每個 Worker 可用的內存
- SPARK_WORKER_CORES：每個 Worker 可用的 CPU 核心數
- spark.executor.memory：每個 Executor 的內存大小
- spark.executor.cores：每個 Executor 的 CPU 核心數
網絡相關：
- SPARK_MASTER_HOST：Master 節點的 IP 或主機名
- SPARK_MASTER_PORT：Master 監聽的端口
- SPARK_WORKER_PORT：Worker 監聽的端口
日志相關：
- SPARK_LOG_DIR：日志存儲目錄
- SPARK_WORKER_DIR：Worker 工作目錄

Web UI：
- Master UI：http://master-node-ip:8080
- 應用 UI：http://driver-node-ip:4040
命令行工具：
- spark-status.sh：查看集群狀態
- stop-all.sh：停止集群
日志查看：
- Master 日志：$SPARK_HOME/logs/spark--org.apache.spark.deploy.master.Master-.out
- Worker 日志：$SPARK_HOME/logs/spark--org.apache.spark.deploy.worker.Worker-.out

通過以上步驟，你可以成功部署和使用 PySpark Standalone 集群。這種模式適合小規模數據處理和測試環境，對于大規模生產環境，建議考慮 YARN 或 Kubernetes 等更強大的資源管理系統。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/89295.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/89295.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/89295.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！