從零開始配置spark-local模式

1. 環境準備

操作系統：推薦使用 Linux 或 macOS，Windows 也可以，但可能會有一些額外的配置問題。
Java 環境：Spark 需要 Java 環境。確保安裝了 JDK 1.8 或更高版本。
- 檢查 Java 版本：
  bash
  復制
```
java -version
```
- 如果沒有安裝，可以從 Oracle 官網或使用包管理工具安裝，例如在 Ubuntu 上：
  bash
  復制
```
sudo apt update
sudo apt install openjdk-11-jdk
```

2. 下載和安裝 Spark

下載 Spark：
- 訪問 Apache Spark 官方下載頁面。
- 選擇合適的版本（建議選擇預編譯的版本，如 Hadoop 2.7+）。
- 下載完成后，解壓到本地目錄，例如：
  bash
  復制
```
tar -xzf spark-3.4.0-bin-hadoop2.7.tgz
mv spark-3.4.0-bin-hadoop2.7 ~/spark
```

3. 配置環境變量

配置 SPARK_HOME 和 PATH：
- 打開你的 shell 配置文件（如 .bashrc 或 .zshrc）：
  bash
  復制
```
nano ~/.bashrc
```
- 添加以下內容：
  bash
  復制
```
export SPARK_HOME=~/spark
export PATH=$SPARK_HOME/bin:$PATH
```
- 應用配置：
  bash
  復制
```
source ~/.bashrc
```

4. 配置 Spark

修改配置文件（可選）：
- Spark 默認使用本地模式運行，但你可以通過修改配置文件來調整一些參數。
- 進入 Spark 的配置目錄：
  bash
  復制
```
cd ~/spark/conf
```
- 復制 spark-defaults.conf.template 為 spark-defaults.conf：
  bash
  復制
```
cp spark-defaults.conf.template spark-defaults.conf
```
- 編輯 spark-defaults.conf，添加或修改以下內容（根據需要）：
  bash
  復制
```
spark.master                     local[*]
spark.executor.memory            1g
spark.driver.memory              1g
```

5. 啟動 Spark Shell

進入 Spark 安裝目錄：
bash
復制
```
cd ~/spark
```

啟動 Spark Shell：

bash

復制

./bin/spark-shell

如果一切正常，你會看到 Spark Shell 的提示符，例如：

復制

Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282
Type in expressions to have them evaluated.
Type :help for more information.scala>

6. 測試 Spark

在 Spark Shell 中運行以下代碼測試：

scala

復制

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data, 2)
distData.reduce(_ + _)

輸出結果應該為 15。

7. 使用 PySpark（可選）

如果你使用 Python，可以安裝 PySpark：

安裝 PySpark：
bash
復制
```
pip install pyspark
```
運行 PySpark Shell：
bash
復制
```
pyspark
```

測試代碼：

Python

復制

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data, 2)
print(distData.reduce(lambda a, b: a + b))

8. 關閉 Spark Shell

在 Spark Shell 中輸入 :quit 或 exit 退出。

注意事項

內存配置：根據你的機器配置調整 spark.executor.memory 和 spark.driver.memory。
網絡問題：如果在 Windows 上運行，可能會遇到網絡配置問題，建議使用 WSL 或 Docker。
依賴問題：如果需要連接數據庫或使用其他組件，可能需要額外配置依賴。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/80113.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/80113.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/80113.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！