使用 Docker 部署 Apache Spark 集群教程

簡介

Apache Spark 是一個強大的統一分析引擎,用于大規模數據處理。本文將詳細介紹如何使用 Docker 和 Docker Compose 快速部署一個包含一個 Master 節點和兩個 Worker 節點的 Spark 集群。這種方法不僅簡化了集群的搭建過程,還提供了資源隔離、易于擴展等優勢。

前置條件

在開始之前,請確保你的環境中已經準備好了以下組件:

  • 安裝并運行 Docker Engine。
  • 安裝 Docker Compose,用于定義和運行多容器應用。
  • 主機能夠連接到 Docker Hub 以下載所需的鏡像。

Docker Compose 文件配置

創建 docker-compose.yml

首先,創建一個名為 docker-compose.yml 的文件,并添加如下內容:

version: '3'
services:master:image: bitnami/spark:3.5.4container_name: masteruser: rootenvironment:- SPARK_MODE=master- SPARK_MASTER_WEBUI_PORT=8080- SPARK_MASTER_PORT=7077ports:- '8080:8080'- '7077:7077'volumes:- ./python:/pythonworker1:image: bitnami/spark:3.5.4container_name: worker1user: rootenvironment:- SPARK_MODE=worker- SPARK_MASTER_URL=spark://master:7077- SPARK_WORKER_MEMORY=1G- SPARK_WORKER_CORES=1depends_on:- masterworker2:image: bitnami/spark:3.5.4container_name: worker2user: rootenvironment:- SPARK_MODE=worker- SPARK_MASTER_URL=spark://master:7077- SPARK_WORKER_MEMORY=1G- SPARK_WORKER_CORES=1depends_on:- master
networks:default:driver: bridge

啟動 Spark 集群

進入保存 docker-compose.yml 文件的目錄,執行以下命令啟動集群:

docker compose up -d

這將構建并以后臺模式啟動所有容器。

驗證集群狀態

成功啟動后,您可以通過瀏覽器訪問 {您的虛擬機IP}:8080 查看 Spark Master 的 Web UI,確認 worker1worker2 是否已成功連接。

運行 Spark 作業

為了測試集群功能,可以提交一個簡單的 Python 腳本 pi.py 計算圓周率 Pi 的近似值。腳本內容如下:

from pyspark.sql import SparkSessionif __name__ == "__main__":spark = SparkSession.builder.appName("Pi Calculator").getOrCreate()numSamples = 100000000count = spark.sparkContext.parallelize(range(1, numSamples)).count()print(f"Pi is roughly {4.0 * count / numSamples}")spark.stop()

將此腳本放置于 ./python 目錄下,并通過以下命令提交作業:

docker-compose exec master /opt/bitnami/spark/bin/spark-submit --master spark://master:7077 /python/pi.py

結束語

通過上述步驟,您已經成功地使用 Docker 部署了一個包含一個 Master 節點和兩個 Worker 節點的 Spark 集群。這種部署方式不僅快速便捷,而且便于根據需求調整配置(如增加 Worker 節點數量或調整資源配置)。希望這篇教程能幫助您快速上手 Spark 集群的 Docker 部署!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895804.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895804.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895804.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

瑞薩RA-T系列芯片ADCGPT功能模塊的配合使用

在馬達或電源工程中,往往需要采集多路AD信號,且這些信號的優先級和采樣時機不相同。本篇介紹在使用RA-T系列芯片建立馬達或電源工程時,如何根據需求來設置主要功能模塊ADC&GPT,包括采樣通道打包和分組,GPT觸發啟動…

20250217 隨筆 redis非原子性操作簡述

從你提供的文本來看,核心是 Redis 作為緩存的檢查機制,以及非原子性操作導致的不一致性問題。 我們可以拆解為兩個部分來理解: 📌 1. 邏輯:先查 Redis,再決定是否注冊 邏輯流程 先查詢 Redis 是否有某個 …

git-提交時間和作者時間的區別

1.介紹 定義介紹 提交時間(Committer Date):決定了提交在 Git 歷史中的位置,通常影響 GitHub 上提交顯示的順序。 作者時間(Author Date):雖然不影響提交的排序,但在每個提交詳情頁…

PHP框架入門指南:從零構建現代Web應用

一、為什么需要PHP框架? 1.1 傳統PHP開發的痛點 重復造輪子:用戶認證、表單驗證等基礎功能需要反復開發代碼混亂:缺乏統一結構導致維護困難安全漏洞:手動處理SQL注入/XSS攻擊效率低下擴展性差:耦合代碼難以適應業務增長1.2 框架的核心價值 標準化架構:MVC模式強制代碼分…

Leetcode 146 LRU緩存 的三種解法

146. LRU 緩存 請你設計并實現一個滿足 LRU (最近最少使用) 緩存 約束的數據結構。 實現 LRUCache 類: LRUCache(int capacity) 以 正整數 作為容量 capacity 初始化 LRU 緩存int get(int key) 如果關鍵字 key 存在于緩存中,則返回關鍵字的值&#xff0…

尚硅谷 java 學習Day19 抽象類與抽象方法、接口、內部類

6-5 抽象類(abstract)與抽象方法(important) 一、什么叫抽象類: 有時候將一個父類設計的非常抽象,以至于它沒有具體的實例,這樣的類稱為抽象類 abstract關鍵字的使用: ? 1、abstract:抽象的 ? 2、abs…

【LeetCode Hot100 鏈表(上)】相交鏈表、反轉鏈表、回文鏈表、環形鏈表、合并兩個有序鏈表、兩數相加

鏈表 1. 相交鏈表問題描述解決思路代碼實現 2. 反轉鏈表問題描述解決思路代碼實現 3. 回文鏈表問題描述解決思路代碼實現 4. 環形鏈表問題描述解決思路代碼實現 5. 環形鏈表II問題描述解決思路代碼實現 6. 合并兩個有序鏈表問題描述解決思路代碼實現 7. 兩數相加問題描述解決思…

【Python pro】基本數據類型

一、數字類型 1.1 數字類型的組成 1.1.1 整數 (1)十進制,二進制0b,八進制0o,十六進制0x print(16 0b10000 0o20 0x10) # 輸出:True(2)十進制轉其他進制 a bin(16) b oct(1…

拯救者電腦在重裝系統之后電源計劃丟失Fn+Q切換不了模式怎么恢復?

參考聯想知識庫的一下鏈接: https://iknow.lenovo.com.cn/detail/196192 其中下載的解壓文件后的文件需要復制粘貼到D盤的根目錄下,再來運行文件。若在生成的log文件中看到導入成功以及控制面板中看到已添加的電源計劃即可 如果還是無效可是試試以下的…

ubuntu 執行 sudo apt-get update 報錯

記錄一下,遇到這個問題了,網絡上看到的解決辦法,親測有效 執行sudo apt-get update ,卻報以下錯誤,“SECURITY: URL redirect target contains control characters rejecting ” 經檢查發現,/etc/apt/source.list 下的…

深度集成DeepSeek大模型:WebSocket流式聊天實現

目錄 5分鐘快速接入DeepSeek大模型:WebSocket實時聊天指南創建應用開發后端代碼 (Python/Node.js)結語 5分鐘快速接入DeepSeek大模型:WebSocket實時聊天指南 創建應用 訪問DeepSeek官網 前往 DeepSeek官網。如果還沒有賬號,需要先注冊一個。…

java斷點調試(debug)

在開發中,新手程序員在查找錯誤時, 這時老程序員就會溫馨提示,可以用斷點調試,一步一步的看源碼執行的過程,從而發現錯誤所在。 重要提示: 斷點調試過程是運行狀態,是以對象的運行類型來執行的 斷點調試介紹 斷點調試是…

軟件技術實訓室解決方案(2025年最新版)

軟件產業作為新興產業的核心組成部分,是推動數字經濟發展的重要力量。在“十四五”規劃的新機遇與挑戰下,我國已明確將加強關鍵數字技術創新應用作為戰略重點,并將軟件和信息技術服務業的發展列為重中之重。這不僅是為了加速構建現代產業體系…

foobar2000設置DSP使用教程及軟件推薦

foobar2000安卓中文版:一款高品質手機音頻播放器 foobar2000安卓中文版是一款備受好評的高品質手機音頻播放器。 幾乎支持所有的音頻格式,包括 MP3、MP4、AAC、CD 音頻等。不論是經典老歌還是最新的流行音樂,foobar2000都能完美播放。除此之…

DeepSeek企業級部署實戰指南:從服務器選型到Dify私有化落地

對于個人開發者或嘗鮮者而言,本地想要部署 DeepSeek 有很多種方案,但是一旦涉及到企業級部署,則步驟將會繁瑣很多。 比如我們的第一步就需要先根據實際業務場景評估出我們到底需要部署什么規格的模型,以及我們所要部署的模型&…

I2C、SPI、UART

I2C:串口通信,同步,半雙工,雙線(數據線SDA時鐘線SCL),最大距離1米到幾米 SPI(串行外設接口):串口通信,同步,全雙工,四線&…

uniapp 連接mqtt

1:下載插件 npm install mqtt 2:創建 mqtt.js /* main.js 項目主入口注入實例 */ // import mqttTool from ./lib/mqttTool.js // Vue.prototype.$mqttTool mqttTool/* 使用范例見 /pages/index/index.vue */ // mqtt協議:H5使用ws/wss APP-…

shell腳本備份PostgreSQL數據庫和庫下表

注意: 以下為對PostgreSQL13.16版本數據庫備份shell腳本參考請確認備份節點上psql和pgdump的版本不至于太低,建議>13.16該腳本目前是對于整庫、(默認針對public這個schema,如果有其他schema,請自行添加一層循環&am…

EXCEL解決IF函數“您已為此函數輸入太多個參數”的報錯

IF函數的基本結構是IF(條件, 值為真時的結果, 值為假時的結果),所以標準的IF函數最多只能有三個參數。當用戶輸入的參數超過三個時,Excel就會報這個錯誤。比如多個IF語句疊加,但可能在嵌套的過程中沒有正確關閉每個IF函數的括號,導…

圖像質量評價指標-UCIQE-UIQM

一、評價指標UCIQE 在文章《An underwater color image quality evaluation metric》中,提到的了評價指標UCIQE(Underwater Colour Image Quality Evaluation),是一種無參考圖像質量評價指標,主要用于評估水下圖像的質…