如何搭建spark yarn 模式的集群集群。

下載 App
如何搭建spark yarn 模式的集群集群。
搭建Spark on YARN集群的詳細步驟
Spark on YARN模式允許Spark作業在Hadoop YARN資源管理器上運行,利用YARN進行資源調度。以下是搭建步驟:

一、前提條件
已安裝并配置好的Hadoop集群(包括HDFS和YARN)

所有節點已配置SSH免密登錄

Java環境已安裝(建議JDK 8或11)

二、安裝Spark
1. ?https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzvf spark-3.3.2-bin-hadoop3.tgz
mv spark-3.3.2-bin-hadoop3 /opt/spark
2. 配置環境變量
在所有節點上編輯~/.bashrc或/etc/profile。
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
然后執行:
source ~/.bashrc
三、配置Spark on YARN
1. 配置spark-env.sh
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
編輯spark-env.sh,添加:
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_EXECUTOR_MEMORY=2g
export SPARK_DRIVER_MEMORY=1g
export SPARK_YARN_QUEUE=default
2. 配置spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf
編輯spark-defaults.conf,添加:
spark.master ? ? ? ? ? ? ? ? ? ? yarn
spark.eventLog.enabled ? ? ? ? ? true
spark.eventLog.dir ? ? ? ? ? ? ? hdfs://namenode:8020/spark-logs
spark.history.fs.logDirectory ? ?hdfs://namenode:8020/spark-logs
spark.yarn.jars ? ? ? ? ? ? ? ? ?hdfs://namenode:8020/spark-jars/*
3. 上傳Spark依賴到HDFS

hdfs dfs -mkdir /spark-jars
hdfs dfs -put $SPARK_HOME/jars/* /spark-jars/
四、啟動服務
首先啟動Hadoop集群:


start-dfs.sh
start-yarn.sh
啟動Spark歷史服務器(可選):


$SPARK_HOME/sbin/start-history-server.sh
五、驗證安裝
提交一個測試作業:


spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
$SPARK_HOME/examples/jars/spark-examples_2.12-3.3.2.jar 10
六、關鍵配置說明
部署模式:

client模式:Driver運行在提交作業的客戶端

cluster模式:Driver運行在YARN集群中

資源分配:

bash
spark-submit \
--master yarn \
--deploy-mode cluster \
--num-executors 4 \
--executor-memory 2g \
--executor-cores 2 \
your-application.jar
動態資源分配(在spark-defaults.conf中配置):

properties
spark.dynamicAllocation.enabled=true
spark.dynamicAllocation.minExecutors=1
spark.dynamicAllocation.maxExecutors=10
spark.dynamicAllocation.initialExecutors=2
七、常見問題解決
Classpath問題:確保HADOOP_CONF_DIR和YARN_CONF_DIR正確指向Hadoop配置目錄

權限問題:檢查HDFS目錄權限和YARN隊列權限

資源不足:調整spark.executor.memory和spark.executor.cores參數

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/79216.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/79216.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/79216.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++--入門基礎

C入門基礎 1. C的第一個程序 C繼承C語言許多大多數的語法,所以以C語言實現的hello world也可以運行,C中需要把文件定義為.cpp,vs編譯器看是.cpp就會調用C編譯器編譯,linux下要用g編譯,不再是gcc。 // test.cpp #inc…

從實列中學習linux shell9 如何確認 服務器反應遲鈍是因為cpu還是 硬盤io 到底是那個程序引起的。cpu負載多高算高

在 Linux 系統中,Load Average(平均負載) 是衡量系統整體壓力的關鍵指標,但它本身沒有絕對的“高/低”閾值,需要結合 CPU 核心數 和 其他性能指標 綜合分析。以下是具體判斷方法: 一、Load Average 的基本含義 定義:Load Average 表示 單位時間內處于可運行狀態(R)和不…

聊一聊接口測試更側重于哪方面的驗證

目錄 一、功能性驗證 輸入與輸出正確性 參數校驗 業務邏輯覆蓋 二、數據一致性驗證 數據格式規范 數據完整性 數據類型與范圍 三、異常場景驗證 容錯能力測試 邊界條件覆蓋 錯誤碼與信息清晰度 四、安全與權限驗證 身份認證 數據安全 防攻擊能力 五、性能與可…

Fiddler抓取APP端,HTTPS報錯全解析及解決方案(一篇解決常見問題)

環境:雷電模擬器Android9系統 ? 你所遇到的fiddler中抓取HTTPS的問題可以分為三類:一類是你自己證書安裝上邏輯錯誤,另一種是APP中使用了“證書固定”的手段。三類fiddler中生成證書時的參數過程。 1.Fiddler證書安裝上的邏輯錯誤 更新Opt…

OpenGL-ES 學習(15) ----紋理

目錄 紋理簡介紋理映射紋理映射流程示例代碼:紋理的環繞和過濾方式紋理的過濾方式 紋理簡介 現實生活中,紋理(Texture) 類似于游戲中皮膚的概念,最通常的作用是裝飾 3D 物體,它像貼紙一樣貼在物體的表面,豐富物體的表…

OpenCV計算機視覺實戰(2)——環境搭建與OpenCV簡介

OpenCV計算機視覺實戰(2)——環境搭建與OpenCV簡介 0. 前言1. OpenCV 安裝與配置1.1 安裝 Python-OpenCV1.2 配置開發環境 2. OpenCV 基礎2.1 圖像讀取與顯示2.2 圖像保存 3. 攝像頭實時捕獲小結系列鏈接 0. 前言 OpenCV (Open Source Computer Vision …

ubuntu22.04安裝顯卡驅動與cuda+cuDNN

背景: 緊接前文:Proxmox VE 8.4 顯卡直通完整指南:NVIDIA 2080 Ti 實戰。在R740服務器完成了proxmox的安裝,并且安裝了一張2080ti 魔改22g顯存的的顯卡。配置完了proxmox顯卡直通,并將顯卡掛載到了vm 301(…

A2A Python 教程 - 綜合指南

目錄 ? 介紹? 設置環境? 創建項目? 代理技能? 代理卡片? A2A服務器? 與A2A服務器交互? 添加代理功能? 使用本地Ollama模型? 后續步驟 介紹 在本教程中,您將使用Python構建一個簡單的echo A2A服務器。這個基礎實現將向您展示A2A提供的所有功能。完成本教…

MySQL基礎關鍵_005_DQL(四)

目 錄 一、分組函數 1.說明 2.max/min 3.sum/avg/count 二、分組查詢 1.說明 2.實例 (1)查詢崗位和平均薪資 (2)查詢每個部門編號的不同崗位的最低薪資 3.having (1)說明 (2&#xff…

GAMES202-高質量實時渲染(Assignment 2)

目錄 作業介紹環境光貼圖預計算傳輸項的預計算Diffuse unshadowedDiffuse shadowedDiffuse Inter-reflection(bonus) 實時球諧光照計算 GitHub主頁:https://github.com/sdpyy1 作業實現:https://github.com/sdpyy1/CppLearn/tree/main/games202 作業介紹 物體在不同…

2025年- H21-Lc129-160. 相交鏈表(鏈表)---java版

1.題目描述 2.思路 當pa!pb的時候,執行pa不為空,遍歷pa鏈表。執行pb不為空,遍歷pb鏈表。 3.代碼實現 // 單鏈表節點定義 class ListNode {int val;ListNode next;ListNode(int x){valx;nextnull;}}public class H160 {// 主方法…

win10系統安卓開發環境搭建

一 安裝jdk 下載jdk17 ,下載路徑:https://download.oracle.com/java/17/archive/jdk-17.0.12_windows-x64_bin.exe 下載完畢后,按照提示一步步完成,然后接著創建環境變量, 在cmd控制臺輸入java -version 驗證: 有上面的輸出代表jdk安裝并配置成功。 二 安裝Android stu…

【算法基礎】選擇排序算法 - JAVA

一、算法基礎 1.1 什么是選擇排序 選擇排序是一種簡單直觀的排序算法,它的工作原理是:首先在未排序序列中找到最小(或最大)元素,存放到排序序列的起始位置,然后再從剩余未排序元素中繼續尋找最小&#xf…

LabVIEW異步調用VI介紹

在 LabVIEW 編程環境里,借助結合異步 VI 調用,并使用 “Open VI Reference” 函數上的 “Enable simultaneous calls on reentrant VIs” 選項(0x40),達成了對多個 VI 調用執行效率的優化。以下將從多方面詳細介紹該 V…

Leetcode刷題 | Day50_圖論02_島嶼問題01_dfs兩種方法+bfs一種方法

一、學習任務 99. 島嶼數量_深搜dfs代碼隨想錄99. 島嶼數量_廣搜bfs100. 島嶼的最大面積101. 孤島的總面積 第一類DFS(主函數中處理第一個節點,DFS處理相連節點): 主函數中先將起始節點標記為已訪問DFS函數中不處理起始節點&…

深入理解網絡安全中的加密技術

1 引言 在當今數字化的世界中,網絡安全已經成為個人隱私保護、企業數據安全乃至國家安全的重要組成部分。隨著網絡攻擊的復雜性和頻率不斷增加,保護敏感信息不被未授權訪問變得尤為關鍵。加密技術作為保障信息安全的核心手段,通過將信息轉換為…

舊版本NotionNext圖片失效最小改動解決思路

舊版本NotionNext圖片失效最小改動解決思路 契機 好久沒寫博客了,最近在notion寫博客的時候發現用notionNext同步到個人網站時,圖片無法預覽。猜測是notion加了防盜鏈措施,去notionNext官方github上尋找解決方案,需要升級到4.8.…

深度學習筆記40_中文文本分類-Pytorch實現

🍨 本文為🔗365天深度學習訓練營 中的學習記錄博客🍖 原作者:K同學啊 | 接輔導、項目定制 一、我的環境 1.語言環境:Python 3.8 2.編譯器:Pycharm 3.深度學習環境: torch1.12.1cu113torchvision…

010302-oss_反向代理_負載均衡-web擴展2-基礎入門-網絡安全

文章目錄 1 OSS1.1 什么是 OSS 存儲?1.2 OSS 核心功能1.3 OSS 的優勢1.4 典型使用場景1.5 如何接入 OSS?1.6 注意事項1.7 cloudreve實戰演示1.7.1 配置cloudreve連接阿里云oss1.7.2 常見錯誤1.7.3 安全測試影響 2 反向代理2.1 正向代理和反向代理2.2 演示…