Spark是獨立的,所以集群安裝的時候,不像hive,hbase等需要先安裝hadoop,除非文件保存在hadoop上,才需要安裝hadoop集群。
如果虛擬機安裝,點擊閱讀推薦配置
前提環境:
1、安裝了JDK1.7及以上版本的Linux機器
2、各臺機器間SSH免密碼登錄已配置。
3、各臺Linux防火墻已關閉,時間已同步。
SSH配置教程
時間同步教程
步驟:
1、下載spark安裝包
2、解壓
3、修改spark-env.sh
4、修改 slaves
5、scp -r ?到其他節點
6、start-all.sh 啟動
7、瀏覽器查看
每步詳情
1、下載spark安裝包
http://spark.apache.org/downloads.html
選擇的版本的時候注意安裝的hadoop版本,選擇相應的版本
2、解壓
略
3、修改spark-env.sh
在后面加入
export JAVA_HOME=/jdk1.8.0_73
export SPARK_MASTER_HOST=nbdo1
export SPARK_MASTER_PORT=7077
如果安裝了hadoop,可以配置下
export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
export SPARK_WORKER_CORES=3 ? ? //每個Worker使用的CPU核數
export SPARK_WORKER_INSTANCES=2 ? //每個Slave中啟動幾個Worker實例
export SPARK_WORKER_MEMORY=1G ? ?//每個Worker使用多大的內存
export SPARK_WORKER_WEBUI_PORT=8081 //Worker的WebUI端口號
export SPARK_EXECUTOR_CORES=1 ? ? ? //每個Executor使用使用的核數
export SPARK_EXECUTOR_MEMORY=1G ? ? //每個Executor使用的內存
每臺服務器上,啟動2個worker實例,每個worker用3個cpu核心,1GB內存
worker實例數:機器數*每臺機器上的worker實例數 ? ?
4、修改 slaves
nbdo2
nbdo3
(我有三臺測試機,nbdo1,nbdo2,nbdo3。
nbdo1作為了master了)
5、scp -r ?到其他節點
略
6、start-all.sh 啟動
在master節點上,進入spark安裝目錄的sbin下
[hadoop@nbdo1 sbin]$ ./start-all.sh?
(不要直接輸入 start-all.sh,hadoop啟動腳本也是start-all.sh)
7、瀏覽器查看
ip地址或域名:8080端口訪問
http://nbdo1:8080/