在開始配置之前,請確保三臺虛擬機都正確啟動了!
具體配置步驟如下。
1.上傳spark安裝包到某一臺機器(例如:hadoop100)。 spark.3.1.2-bin-hadoop3.2.tgz。
2.解壓。 把第一步上傳的安裝包解壓到/opt/module下(也可以自己決定解壓到哪里)。對應的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module
3.重命名。進入/opt/module/把解壓的內容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone
4.配置環境變量,更新spark路徑。/etc/profile.d/my_env.sh。
5.同步環境變量,并使用source命令讓它生效。
6.修改workers.template文件。這個文件在spark的安裝目錄下的conf目錄下,先把名字改為workers,然后把內容設置為三臺機器的主機名,具體如下。
hadoop100
hadoop101
hadoop102
7.修改spark-env.sh.template文件。先把名字改成spark-env.sh,然后修改內容,添加JAVA_HOME環境變量和集群對應的master節點以及通信端口,具體如下。
SPARK_MASTER_HOST=hadoop100
SPARK_MASTER_PORT=7077
8.同步設置完畢的Spark目錄到其他節點。使用我們之前封裝的命令:
xsync /opt/module/spark-standalone/
9.啟動SPARK集群。進入到hadoop100機器,切換目錄到/opt/module/spark-standalone/sbin下,運行命令 ./start-all.sh。
注意,這里不要省略./,它表示的是當前目錄下的start-all命令,如果省略了./,它就會先去環境變量PATH中指定的目錄來找這個命令。
10.驗收效果。通過jps命令去每臺機器上查看運行的進程。請觀察是否在hadoop100上看到了master,worker在hadoop101,hadoop102上看到了worker。
11.查看啟動效果。打開瀏覽器,輸入Hadoop100:8080