從零開始配置spark-local模式

1. 環境準備

  • 操作系統:推薦使用 Linux 或 macOS,Windows 也可以,但可能會有一些額外的配置問題。

  • Java 環境:Spark 需要 Java 環境。確保安裝了 JDK 1.8 或更高版本。

    • 檢查 Java 版本:

      bash

      復制

      java -version
    • 如果沒有安裝,可以從 Oracle 官網 或使用包管理工具安裝,例如在 Ubuntu 上:

      bash

      復制

      sudo apt update
      sudo apt install openjdk-11-jdk

2. 下載和安裝 Spark

  • 下載 Spark

    • 訪問 Apache Spark 官方下載頁面。

    • 選擇合適的版本(建議選擇預編譯的版本,如 Hadoop 2.7+)。

    • 下載完成后,解壓到本地目錄,例如:

      bash

      復制

      tar -xzf spark-3.4.0-bin-hadoop2.7.tgz
      mv spark-3.4.0-bin-hadoop2.7 ~/spark

3. 配置環境變量

  • 配置 SPARK_HOME 和 PATH

    • 打開你的 shell 配置文件(如 .bashrc.zshrc):

      bash

      復制

      nano ~/.bashrc
    • 添加以下內容:

      bash

      復制

      export SPARK_HOME=~/spark
      export PATH=$SPARK_HOME/bin:$PATH
    • 應用配置:

      bash

      復制

      source ~/.bashrc

4. 配置 Spark

  • 修改配置文件(可選):

    • Spark 默認使用本地模式運行,但你可以通過修改配置文件來調整一些參數。

    • 進入 Spark 的配置目錄:

      bash

      復制

      cd ~/spark/conf
    • 復制 spark-defaults.conf.templatespark-defaults.conf

      bash

      復制

      cp spark-defaults.conf.template spark-defaults.conf
    • 編輯 spark-defaults.conf,添加或修改以下內容(根據需要):

      bash

      復制

      spark.master                     local[*]
      spark.executor.memory            1g
      spark.driver.memory              1g

5. 啟動 Spark Shell

  • 進入 Spark 安裝目錄

    bash

    復制

    cd ~/spark
  • 啟動 Spark Shell

    bash

    復制

    ./bin/spark-shell

    如果一切正常,你會看到 Spark Shell 的提示符,例如:

    復制

    Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282
    Type in expressions to have them evaluated.
    Type :help for more information.scala>

6. 測試 Spark

  • 在 Spark Shell 中運行以下代碼測試:

    scala

    復制

    val data = Array(1, 2, 3, 4, 5)
    val distData = sc.parallelize(data, 2)
    distData.reduce(_ + _)

    輸出結果應該為 15

7. 使用 PySpark(可選)

如果你使用 Python,可以安裝 PySpark:

  • 安裝 PySpark

    bash

    復制

    pip install pyspark
  • 運行 PySpark Shell

    bash

    復制

    pyspark
  • 測試代碼:

    Python

    復制

    data = [1, 2, 3, 4, 5]
    distData = sc.parallelize(data, 2)
    print(distData.reduce(lambda a, b: a + b))

8. 關閉 Spark Shell

  • 在 Spark Shell 中輸入 :quitexit 退出。

注意事項

  • 內存配置:根據你的機器配置調整 spark.executor.memoryspark.driver.memory

  • 網絡問題:如果在 Windows 上運行,可能會遇到網絡配置問題,建議使用 WSL 或 Docker。

  • 依賴問題:如果需要連接數據庫或使用其他組件,可能需要額外配置依賴。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/80113.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/80113.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/80113.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端~地圖(openlayers)繪制車輛運動軌跡(仿高德)

繪制軌跡路線軌跡路線描邊增加起點終點圖標繪制仿高德方向箭頭模仿車輛動態運動動畫 車輛運行軌跡 車輛軌跡經緯度坐標 const linePoints [new Point([123.676031, 43.653421]),new Point([123.824347, 43.697124]),new Point([124.197882, 43.946811]),new Point([124.104498…

分布式之CAP原則:理解分布式系統的核心設計哲學

聲明:CAP中的P原則都是需要帶著的 在分布式系統的設計與實踐中,CAP原則(又稱CAP定理)是開發者必須掌握的核心理論之一。它揭示了分布式系統在一致性(Consistency)、可用性(Availability&#x…

IF=40.8|腫瘤免疫:從免疫基因組學到單細胞分析和人工智能

一、寫在前面 今天分享的是發表在《Signal Transduction and Targeted Therapy》上題目為"Technological advances in cancer immunity: from immunogenomics to single-cell analysis and artificial intelligence"的文章。 IF:40.8 DOI:10.1038/s41392…

深入理解 Spring @Bean 注解

在 Spring 框架中,@Bean 注解是用于顯式地聲明一個或多個 Bean 實例,并將其注冊到 Spring 容器中的重要工具。與 @Component 系列注解不同的是,@Bean 是方法級別的注解,通常與 @Configuration 注解結合使用。本文將詳細介紹 @Bean 注解的功能、用法及其應用場景。 1. @Bean…

Pycharm 如何刪除某個 Python Interpreter

在PyCharm中,點擊右下角的“Interpreter Settings”按鈕,或者通過菜單欄選擇“File” > “Settings”(macOS用戶選擇“PyCharm” > “Preferences”)。在設置窗口中,導航到“Project: [Your Project Name]” >…

如何改電腦網絡ip地址完整教程

更改電腦的網絡IP地址以滿足特定的網絡需求,本文將為您提供一份詳細的步驟指南。其實,改變IP地址并不是一件復雜的事,能解決因為IP限制帶來的麻煩。以下是操作指南: 方法一:Windows 系統,通過圖形界面修改 …

Oracle--SQL性能優化與提升策略

前言:本博客僅作記錄學習使用,部分圖片出自網絡,如有侵犯您的權益,請聯系刪除 一、導致性能問題的內在原因 系統性能問題的底層原因主要有三個方面: CPU占用率過高導致資源爭用和等待內存使用率過高導致內存不足并需…

【go】什么是Go語言中的GC,作用是什么?調優,sync.Pool優化,逃逸分析演示

Go 語言中的 GC 簡介與調優建議 Go語言GC工作原理 對于 Go 而言,Go 的 GC 目前使用的是無分代(對象沒有代際之分)、不整理(回收過程中不對對象進行移動與整理)、并發(與用戶代碼并發執行)的三…

【unity實戰】Animator啟用root motion根運動動畫,實現完美的動畫動作匹配

文章目錄 前言1、動畫分類2、如何使用根位移動畫? 一、根位移動畫的具體使用1、導入人形模型2、導入動畫3、配置動畫參數4、配置角色Animator動畫狀態機5、使用代碼控制人物前進后退 二、問題分析三、Humanoid動畫中的Root Motion機制及相關配置1、Humanoid動畫中的…

中間件--ClickHouse-10--海量數據存儲如何抉擇ClickHouse和ES?

在Mysql數據存儲或性能瓶頸時,采用冷熱數據分離的方式通常是一種選擇。ClickHouse和Elasticsearch(ES)是兩個常用的組件,但具體使用哪種組件取決于冷數據的存儲目的、查詢模式和業務需求等方面。 1、核心對比 (1&…

服務器運維:服務器流量的二八法則是什么意思?

文章目錄 用戶行為角度時間分布角度應用場景角度 服務器流量的二八法則,又稱 80/20 法則,源自意大利經濟學家帕累托提出的帕累托法則,該法則指出在很多情況下,80% 的結果是由 20% 的因素所決定的。在服務器流量領域,二…

springboot對接豆包大模型

文檔地址: 豆包大模型-火山引擎 模型廣場地址: 賬號登錄-火山引擎 首先來到模型廣場,選取你需要的模型,我這邊要做圖片理解的應用,所以選用了Doubao-1.5.vision-pro. 點立即體驗,進入一個新的頁面,可以上傳圖片,然后…

數據通信學習筆記之OSPF其他內容3

對發送的 LSA 進行過濾 當兩臺路由器之間存在多條鏈路時,可以在某些鏈路上通過對發送的 LSA 進行過濾,減少不必要的重傳,節省帶寬資源。 通過對 OSPF 接口出方向的 LSA 進行過濾可以不向鄰居發送無用的 LSA,從而減少鄰居 LSDB 的…

智能安全用電系統預防電氣線路老化、線路或設備絕緣故障

智能安全用電系統預防電氣線路老化、線路或設備絕緣故障 智能安全用電系統,猶如一位忠實而敏銳的衛士,主要針對低壓供電網中一系列潛在的危險狀況進行了全方位且行之有效的預防和保護。 智能安全用電系統在低壓供電網這個復雜的體系中,電氣線…

使用Intel Advisor工具分析程序

使用Intel Advisor工具分析程序 Intel Advisor是一款性能分析工具,主要用于識別代碼中的向量化機會、線程化和內存訪問模式等問題。以下是使用Intel Advisor分析程序的基本步驟: 安裝與準備 從Intel官網下載并安裝Intel Advisor(通常作為I…

【UniApp】Vue2 scss 預編譯器默認已由 node-sass 更換為 dart-sass

從 HBuilderX 4.56 ,vue2 項目也將默認使用 dart-sass 預編譯器。 vue2開發者sass預處理注意: sass的預處理器,早年使用node-sass,也就是vue2最初默認的編譯器。 sass官方推出了dart-sass來替代。node-sass已經停維很久了。 另…

智慧能源安全新紀元:當能源監測遇上視頻聯網的無限可能

引言:在數字化浪潮席卷全球的今天,能源安全已成為國家安全戰略的重要組成部分。如何構建更加智能、高效的能源安全保障體系?能源安全監測平臺與視頻監控聯網平臺的深度融合,正為我們開啟一扇通向未來能源管理新世界的大門。這種創…

C++游戲服務器開發之⑦redis的使用

目錄 1.當前進度 2.守護進程 3.進程監控 4.玩家姓名添加文件 5.文件刪除玩家姓名 6.redis安裝 7.redis存取命令 8.redis鏈表存取 9.redis程序結構 10.hiredisAPI使用 11.基于redis查找玩家姓名 12.MAKEFILE編寫 13.游戲業務實現總結 1.當前進度 2.守護進程 3.進程監…

db中查詢關于null的sql該怎么寫

正確示例 # 等于null select * from 表名 where 字段名 is NULL; # 不等于null select * from 表名 where 字段名 is not NULL;若需要同時判斷字段不等于某個值且不為null select * from users where age ! 30 and age is not null; select * from users where age ! 30 or a…

從“堆料競賽”到“體驗深耕”,X200 Ultra和X200s打響手機價值升維戰

出品 | 何璽 排版 | 葉媛 vivo雙旗艦來襲! 4月21日,vivo X系列春季新品發布會盛大開啟,帶來了一場科技與創新的盛宴。會上,消費者期待已久的X200 Ultra及X200s兩款旗艦新品正式發布。 vivo兩款旗艦新品發布后,其打破…