一、Spark概述
????Spark 是一個用來實現快速而通用的集群計算的平臺。
????在速度方面,Spark 擴展了廣泛使用的 MapReduce 計算模型,而且高效地支持更多計算模式,包括交互式查詢和流處理。 在處理大規模數據集時,速度是非常重要的。速度快就意味著我們可以進行交互式的數據操作,否則我們每次操作就需要等待數分鐘甚至數小時。
????Spark 的一個主要特點就是能夠在內存中進行計算,因而更快。不過即使是必須在磁盤上進行的復雜計算,Spark 依然比 MapReduce 更加高效。
Spark 5個核心庫
1.內核: spark 的核心基礎設施,提供了表示和存儲數據的原始數據類型,稱為 RDD(Resilient Distributed Dataset, 彈性分布式數據集)
2.SQL
3. MLlib(Machine Learning Library, 機器學習庫)
4. GraphX: 供圖和圖相關的計算使用
5.流(Streaming)?
二、安裝步驟
1. 安裝JDK環境
下載JDK安裝包,配置JDK環境
?
2.安裝SCALA
1).下載scala,我這里下載的是scala-2.12.2.tgz,并上傳到linux服務器?
2).新建scala目錄:/usr/local/scala?
3).將scala-2.12.2.tgz復制到:/usr/local/scala,并解壓縮?
4).在/etc/profile文件中添加:?
? SCALA_HOME=/usr/local/scala/scala-2.12.2?
? PATH=$PATH:${SCALA_HOME}/bin?
5).輸入source /etc/profile 使profile文件生效?
6).輸入scala,查看scala是否生效?
?
3.安裝Spark?
1).下載Spark,我這里下載的是spark-2.3.1-bin-hadoop2.7.tgz?
2).新建spark目錄:/usr/local/spark?
3).將spark-2.3.1-bin-hadoop2.7.tgz復制到:/usr/local/spark,并解壓縮?
4).在/etc/profile文件中添加:?
? SPARK_HOME=/usr/local/spark/spark-2.3.1-bin-hadoop2.7?
? PATH=$PATH:${SPARK_HOME}/bin?
5).輸入source /etc/profile 使profile文件生效?
6).修改spark配置?
? 進入spark-2.3.1-bin-hadoop2.4/conf?
? 復制模板文件:?
? cp spark-env.sh.template spark-env.sh?
? cp slaves.template slaves?
7).編輯spark-env.sh,添加:?
? export JAVA_HOME=/usr/local/java/jdk1.8.0_131?
? export SCALA_HOME=SCALA_HOME=/usr/local/scala/scala-2.12.2?
? export SPARK_MASTER_IP=172.20.0.204?
? export SPARK_WORKER_MEMORY=1g?
? export HADOOP_CONF_DIR=/usr/local/spark/spark-2.3.1-bin-hadoop2.7?
8).輸入source spark-env.sh,使spark-env.sh文件生效?
9).試一下spark是否安裝成功?
?
統計一下README.md文件中的單詞個數
?
Reference:
[1]:https://margaret0071.iteye.com/blog/2384805