環境準備
-
系統要求:Ubuntu 20.04/22.04 LTS
-
軟件版本:
-
Hadoop 3.3.5
-
JDK 8
-
Spark-3.5.6-bin-hadoop3
-
-
硬件要求:至少4GB內存,20GB磁盤空間
以下是基于Ubuntu系統的Spark偽分布式集群搭建全流程。以Spark 3.5.6?+ Hadoop 3.3.5?+ JDK 1.8組合為例,適用于Ubuntu 20.04/22.04系統:
詳細步驟
1.安裝Hadoop3.3.5(偽分布式)
Spark的安裝過程較為簡單,在已安裝好 Hadoop 的前提下,經過簡單配置即可使用。
如果你的系統沒有安裝Hadoop3.3.5(偽分布式),請訪問Hadoop偽分布式集群搭建(Ubuntu系統),依照教程學習安裝即可。
2.安裝JAVA JDK
安裝Hadoop3.3.5的過程就已經要求安裝JAVA JDK1.8了。如果沒有,請參考Hadoop偽分布式集群搭建(Ubuntu系統)進行安裝配置。
3.下載安裝Spark
首先需要下載Spark安裝文件,訪問Spark官網。
①使用FinalShell將Spark安裝包上傳至虛擬機目錄:/home/hadoop/下載
②解壓Spark安裝包至/usr/local目錄下
sudo tar -zxvf /home/hadoop/下載/spark-3.5.6-bin-hadoop3.3.tgz -C /usr/local/ # 解壓到/usr/local
cd /usr/local/ #切換至spark安裝目錄
sudo chown -R hadoop ./spark-3.5.6-bin-hadoop3.3 #修改spark安裝目錄權限給Hadoop用戶
4.修改Spark偽分布式配置文件
進入解壓后的Spark安裝目錄的/conf目錄即“/usr/local/spark-3.5.6-bin-hadoop3/conf”,復制spark-env.sh.template文件并重命名為spark-env.sh,命令如下:
cd /usr/local/spark-3.5.6-bin-hadoop3/conf #切換conf目錄
cp spark-env.sh.template spark-env.sh #重命名文件
打開spark-env.sh文件:
vim spark-env.sh
在spark-env.sh文件頭部添加如下代碼 :
#Jdk安裝路徑export JAVA_HOME=/usr/local/jdk1.8.0_161 #Hadoop安裝路徑export HADOOP_HOME=/usr/local/hadoop-3.3.5#Hadoop配置文件的路徑 export HADOOP_CONF_DIR=/usr/local/hadoop-3.3.5/etc/hadoop #Spark主節點的IP地址或機器名export SPARK_MASTER_IP=hadoop #Spark本地的IP地址或機器名export SPARK_LOCAL_IP=hadoop
5.啟動和關閉Spark集群
切換到spark安裝目錄的/sbin目錄,啟動spark集群,命令如下:
cd /usr/local/spark-3.5.6-bin-hadoop3/sbin
./star-all.sh
?通過jps命令查看進程,如果既有Maste進程又有Worker進程,則說明spark啟動成功。
切換至spark安裝目錄的/bin目錄下,使用SparkPi計算Pi的值,命令如下:
cd /usr/local/spark-3.5.6-bin-hadoop3/bin
./run-example SparkPi 2
?關閉集群,命令如下:
cd /usr/local/spark-3.5.6-bin-hadoop3
sbin/stop-all.sh
?
6.啟動Spark Shell?
cd /usr/local/spark-3.5.6-bin-hadoop3/bin
./spark-shell
使用:quit可以退出spark shell
學習Spark程序開發,建議首先通過spark-shell交互式學習,加深Spark程序開發的理解。
Spark shell 提供了簡單的方式來學習 API,也提供了交互的方式來分析數據。