基于Spark的用戶實時分析

Spark的最簡安裝

1. 下載并解壓 Spark

首先，我們需要下載 Spark 安裝包。您可以選擇以下方式之一：

方式一：從官網下載（推薦）

# 在 hadoop01 節點上執行
cd /home/hadoop/app
wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

方式二：如果已有安裝包，直接解壓

cd /home/hadoop/app
# 如果已經有安裝包，直接解壓
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
# 創建軟鏈接
ln -s spark-2.3.1-bin-hadoop2.7 spark

在這里插入圖片描述

2. 測試運行 Spark

(1) 準備測試數據集

cd /home/hadoop/app/spark
# 創建測試文件
cat > djt.log << EOF
hadoop hadoop hadoop spark spark spark
EOF# 查看文件內容
cat djt.log

在這里插入圖片描述

(2) Spark shell 測試運行單詞詞頻統計

# 啟動 Spark shell
bin/spark-shell# 等待 Spark shell 啟動完成，看到 scala> 提示符后，依次輸入以下命令：

在 Spark shell 中輸入以下命令：

// 讀取本地文件
val line = sc.textFile("/home/hadoop/app/spark/djt.log")// WordCount 統計并打印
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

預期輸出：

(spark,3)
(hadoop,3)

在這里插入圖片描述

3. Spark 實現 WordCount（Scala 程序）

步驟1：下載 Hadoop 及 winutils.exe

1.1 下載 Hadoop 2.7.1 安裝包

鏈接參考https://blog.csdn.net/qq_39900031/article/details/121080109

好的，我把 Windows 下 Hadoop 環境配置的 完整詳細過程整理給你（以 Hadoop 2.7.1 + JDK1.8 為例）：

一、準備工作

安裝 JDK1.8
- 下載 JDK1.8 并安裝，推薦路徑如：C:\Java\jdk1.8.0_221。
- 配置環境變量：
  - JAVA_HOME=C:\Java\jdk1.8.0_221
  - PATH 中添加：%JAVA_HOME%\bin
  - 新建 CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
下載 Hadoop 2.7.1
- 地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/
- 解壓到：C:\hadoop-2.7.1
下載 HadoopOnWindows 適配包
- GitHub 或 CSDN 提供的 hadooponwindows-master.zip
- 解壓后，把里面的 bin 和 etc 文件夾 覆蓋到 C:\hadoop-2.7.1 目錄下。

二、配置 Hadoop 環境變量

在 系統環境變量中新建：

HADOOP_HOME=C:\hadoop-2.7.1
PATH 添加：%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

三、修改配置文件

進入 C:\hadoop-2.7.1\etc\hadoop 目錄：

hadoop-env.cmd
```
set JAVA_HOME=C:\Java\jdk1.8.0_221
```

core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>C:/hadoop-2.7.1/tmp</value>

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/100472.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/100472.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/100472.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！