spark,一個數據處理框架和計算引擎。
下載
local模式即本地模式,就是不需要任何其他節點資源就可以在本地執行spark代碼的環境。用于練習演示。
上傳解壓
使用PortX將文件上傳至/opt
進入/opt目錄,創建目錄module,解壓文件至/opt/module
進入module,并修改名稱
配置jdk
啟動spark前要安裝jdk,上傳jdk文件
解壓
tar zxvf jdk-8u271-linux-x64.tar.gz
配置環境變量
以root用戶配置環境變量
cd ~
保存后,以root用戶,執行source .profle,使更改生效,并驗證。
啟動查看
進入spark-local,執行命令bin/spark-shell 啟動spark,如下所示則成功啟動
啟動成功后,可以通過瀏覽器訪問WebUI監控頁面
http://ip:4040
交互操作
使用命令行或者提交作業的方式,與spark進行交互。
命令行
進入spark目錄中的data文件夾,添加test.txt文件
vi test.txt
進入spark-standalone/bin目錄,執行./spark-shell,啟動命令行,執行以下內容
sc.textFile("../data/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
退出Ctrl+c或者輸入:quit后回車
提交應用
對于公司大數據的批量處理或周期性數據分析/處理任務,通常采用編寫好的Spark程序,并通過Spark-submit指令的方式提交給Spark集群進行具體的任務計算。
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2]?\
./examples/jars/spark-examples_2.12-3.5.5.jar?\
10
備注:路徑等信息如下,示例代碼都位于spark目錄中。