1. 環境準備
-
操作系統:推薦使用 Linux 或 macOS,Windows 也可以,但可能會有一些額外的配置問題。
-
Java 環境:Spark 需要 Java 環境。確保安裝了 JDK 1.8 或更高版本。
-
檢查 Java 版本:
bash復制
java -version
-
如果沒有安裝,可以從 Oracle 官網 或使用包管理工具安裝,例如在 Ubuntu 上:
bash復制
sudo apt update sudo apt install openjdk-11-jdk
-
2. 下載和安裝 Spark
-
下載 Spark:
-
訪問 Apache Spark 官方下載頁面。
-
選擇合適的版本(建議選擇預編譯的版本,如 Hadoop 2.7+)。
-
下載完成后,解壓到本地目錄,例如:
bash復制
tar -xzf spark-3.4.0-bin-hadoop2.7.tgz mv spark-3.4.0-bin-hadoop2.7 ~/spark
-
3. 配置環境變量
-
配置 SPARK_HOME 和 PATH:
-
打開你的 shell 配置文件(如
bash.bashrc
或.zshrc
):復制
nano ~/.bashrc
-
添加以下內容:
bash復制
export SPARK_HOME=~/spark export PATH=$SPARK_HOME/bin:$PATH
-
應用配置:
bash復制
source ~/.bashrc
-
4. 配置 Spark
-
修改配置文件(可選):
-
Spark 默認使用本地模式運行,但你可以通過修改配置文件來調整一些參數。
-
進入 Spark 的配置目錄:
bash復制
cd ~/spark/conf
-
復制
bashspark-defaults.conf.template
為spark-defaults.conf
:復制
cp spark-defaults.conf.template spark-defaults.conf
-
編輯
bashspark-defaults.conf
,添加或修改以下內容(根據需要):復制
spark.master local[*] spark.executor.memory 1g spark.driver.memory 1g
-
5. 啟動 Spark Shell
-
進入 Spark 安裝目錄:
bash復制
cd ~/spark
-
啟動 Spark Shell:
bash復制
./bin/spark-shell
如果一切正常,你會看到 Spark Shell 的提示符,例如:
復制
Welcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ `/ __/ '_//__ / .__/\_,_/_/ /_/\_\ version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282 Type in expressions to have them evaluated. Type :help for more information.scala>
6. 測試 Spark
-
在 Spark Shell 中運行以下代碼測試:
scala復制
val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data, 2) distData.reduce(_ + _)
輸出結果應該為
15
。
7. 使用 PySpark(可選)
如果你使用 Python,可以安裝 PySpark:
-
安裝 PySpark:
bash復制
pip install pyspark
-
運行 PySpark Shell:
bash復制
pyspark
-
測試代碼:
Python復制
data = [1, 2, 3, 4, 5] distData = sc.parallelize(data, 2) print(distData.reduce(lambda a, b: a + b))
8. 關閉 Spark Shell
-
在 Spark Shell 中輸入
:quit
或exit
退出。
注意事項
-
內存配置:根據你的機器配置調整
spark.executor.memory
和spark.driver.memory
。 -
網絡問題:如果在 Windows 上運行,可能會遇到網絡配置問題,建議使用 WSL 或 Docker。
-
依賴問題:如果需要連接數據庫或使用其他組件,可能需要額外配置依賴。