以下是搭建Spark YARN模式集群的一般步驟:
?
準備工作
?
- 確保集群中各節點安裝了Java環境,并配置好?JAVA_HOME?環境變量。
?
- 各節點間能通過SSH免密登錄。
?
- 安裝并配置好Hadoop集群,YARN作為Hadoop的資源管理器,Spark YARN模式需要依賴Hadoop環境。
?
下載與安裝Spark
?
- 在官網下載適合你系統的Spark版本,將下載的壓縮包上傳到集群的主節點,并解壓到指定目錄。
?
- 配置?SPARK_HOME?環境變量,在?spark-env.sh?文件中配置相關環境參數,如?export SPARK_DIST_CLASSPATH=$(hadoop classpath)?,讓Spark能夠找到Hadoop的相關類。
?
配置Spark
?
- 進入Spark的配置目錄,復制?spark-defaults.conf.template?為?spark-defaults.conf?,并進行編輯,設置?spark.master?為?yarn?,?spark.submit.deployMode?為?cluster?等參數。
?
- 復制?slaves.template?為?slaves?,在?slaves?文件中列出所有從節點的主機名或IP地址。
?
分發Spark到從節點
?
將安裝好的Spark目錄通過?scp?命令復制到所有從節點的相同目錄下。
?
啟動集群
?
- 先啟動Hadoop集群,包括NameNode、DataNode、ResourceManager、NodeManager等服務。
?
- 在主節點上進入Spark的?sbin?目錄,執行?start-all.sh?腳本啟動Spark集群,會啟動Master和Worker等進程。
?
驗證集群
?
- 提交一個Spark示例應用程序,如?spark-examples?中的?WordCount?程序,觀察任務是否能在YARN集群上正常運行。
?
- 通過YARN的Web界面(通常是?http://resourcemanager_ip:8088?)查看應用程序的運行情況和資源使用情況,也可以通過Spark的Web界面(通常是?http://master_ip:8080?)查看Spark集群的狀態。