基于Spark的用戶實時分析

Spark的最簡安裝

1. 下載并解壓 Spark

首先,我們需要下載 Spark 安裝包。您可以選擇以下方式之一:

方式一:從官網下載(推薦)

# 在 hadoop01 節點上執行
cd /home/hadoop/app
wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

方式二:如果已有安裝包,直接解壓

cd /home/hadoop/app
# 如果已經有安裝包,直接解壓
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
# 創建軟鏈接
ln -s spark-2.3.1-bin-hadoop2.7 spark

在這里插入圖片描述

2. 測試運行 Spark

(1) 準備測試數據集
cd /home/hadoop/app/spark
# 創建測試文件
cat > djt.log << EOF
hadoop hadoop hadoop spark spark spark
EOF# 查看文件內容
cat djt.log

在這里插入圖片描述

(2) Spark shell 測試運行單詞詞頻統計
# 啟動 Spark shell
bin/spark-shell# 等待 Spark shell 啟動完成,看到 scala> 提示符后,依次輸入以下命令:

在 Spark shell 中輸入以下命令:

// 讀取本地文件
val line = sc.textFile("/home/hadoop/app/spark/djt.log")// WordCount 統計并打印
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

預期輸出:

(spark,3)
(hadoop,3)

在這里插入圖片描述

3. Spark 實現 WordCount(Scala 程序)

步驟1:下載 Hadoop 及 winutils.exe

1.1 下載 Hadoop 2.7.1 安裝包

鏈接參考https://blog.csdn.net/qq_39900031/article/details/121080109

好的,我把 Windows 下 Hadoop 環境配置的 完整詳細過程整理給你(以 Hadoop 2.7.1 + JDK1.8 為例):


一、準備工作

  1. 安裝 JDK1.8

    • 下載 JDK1.8 并安裝,推薦路徑如:C:\Java\jdk1.8.0_221

    • 配置環境變量:

      • JAVA_HOME=C:\Java\jdk1.8.0_221
      • PATH 中添加:%JAVA_HOME%\bin
      • 新建 CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
  2. 下載 Hadoop 2.7.1

    • 地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/
    • 解壓到:C:\hadoop-2.7.1
  3. 下載 HadoopOnWindows 適配包

    • GitHub 或 CSDN 提供的 hadooponwindows-master.zip
    • 解壓后,把里面的 bin 和 etc 文件夾 覆蓋到 C:\hadoop-2.7.1 目錄下。

二、配置 Hadoop 環境變量

系統環境變量中新建:

  • HADOOP_HOME=C:\hadoop-2.7.1
  • PATH 添加:%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

三、修改配置文件

進入 C:\hadoop-2.7.1\etc\hadoop 目錄:

  1. hadoop-env.cmd

    set JAVA_HOME=C:\Java\jdk1.8.0_221
    
  2. core-site.xml

    <configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>C:/hadoop-2.7.1/tmp</value>

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/100472.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/100472.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/100472.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OpenCV 風格遷移、DNN模塊 案例解析及實現

圖像風格遷移是計算機視覺領域極具趣味性的技術之一 —— 它能將普通照片&#xff08;內容圖像&#xff09;與藝術畫作&#xff08;風格圖像&#xff09;的特征融合&#xff0c;生成兼具 “內容輪廓” 與 “藝術風格” 的新圖像。OpenCV 的 DNN&#xff08;深度神經網絡&#x…

MySQL 日志:undo log、redo log、binlog以及MVCC的介紹

一、MySQL 日志&#xff1a;undo log、redo log、binlogundo log&#xff08;回滾日志&#xff09;&#xff1a;是 Innodb 存儲引擎層生成的日志&#xff0c;實現了事務中的原子性&#xff0c;主要用于事務回滾和 MVCC&#xff08;隔離性&#xff09;。 redo log&#xff08;重…

【面板數據】省及地級市農業新質生產力數據集(2002-2025年)

農業新質生產力是以科技創新為核心驅動力&#xff0c;以科技化、數字化、網絡化和智能化為主線&#xff0c;通過技術革命性突破、生產要素創新性配置、產業深度轉型升級&#xff0c;實現農業全要素生產率顯著躍升的先進生產力形態 本數據基于2002-2025年各省政府工作報告中關于…

20250917在榮品RD-RK3588-MID開發板的Android13系統下使用tinyplay播放wav格式的音頻

input keyevent 24 1|console:/sdcard # cat /proc/asound/cards console:/sdcard # ls -l /dev/snd/【需要打開Android13內置的音樂應用才會有聲音出來&#xff0c;原因未知&#xff01;】 1|console:/sdcard # tinyplay /sdcard/Music/kiss8.wav -D 1 -d 020250917在榮品RD-R…

總共分為幾種IP

IP&#xff08;Internet Protocol&#xff09;地址根據不同的分類標準可分為多種類型&#xff0c;以下是常見的分類方式&#xff1a;按版本分類IPv4&#xff1a;32位地址&#xff0c;格式為四組十進制數字&#xff08;如192.168.1.1&#xff09;&#xff0c;約43億個地址&#…

【Linux】常用命令(六)

【Linux】常用命令&#xff08;六&#xff09;1. yum命令1.1 基本語法1.2 常用命令2. 從服務器把數據cp到本地3. uname命令3.1 常用命令1. yum命令 全稱&#xff1a;Yellowdog Updater, Modified作用&#xff1a;是 RPM 包管理器的前端工具&#xff0c;用于基于 RPM 的 Linux …

go grpc開發使用

1、安裝proto 下載 Windows 版本 打開官方發布頁面 訪問 Protocol Buffers 的 GitHub Releases 頁面&#xff1a; &#x1f449; https://github.com/protocolbuffers/protobuf/releases 解壓 ZIP 文件 將下載的 ZIP 文件解壓到一個你容易找到的目錄&#xff0c;例如&#xff1…

MyBatis分頁:PageHelper

MyBatis分頁&#xff1a;PageHelper &#x1f4d6; 前言&#xff1a;為什么需要分頁&#xff1f; 在處理大量數據時&#xff0c;一次性從數據庫查詢并返回所有結果是不可行的&#xff0c;這會帶來巨大的性能和內存開銷。分頁是解決這一問題的標準方案。而PageHelper是一個極其流…

Gin框架:構建高性能Go Web應用

Gin框架&#xff1a;構建高性能Go Web應用 Gin是Go語言中最受歡迎的Web框架之一&#xff0c;以其高性能、簡潔API和豐富的中間件支持而聞名。本文將帶你從零開始&#xff0c;逐步掌握Gin框架的核心概念和高級特性&#xff0c;并通過實際代碼示例演示如何構建高效的Web應用程序。…

IO進程——線程、IO模型

一、線程Thread1、引入1.1 概念相當于是一個輕量級的進程&#xff0c;為了提高系統的性能引入線程&#xff0c;在同一進程中可以創建多個線程&#xff0c;共享進程資源1.2 進程和線程比較相同點&#xff1a;都為操作系統提供了并發執行的能力不同點&#xff1a;調度和資源&…

人工智能概念:NLP任務的評估指標(BLEU、ROUGE、PPL、BERTScore、RAGAS)

文章目錄一、評估指標基礎1. 準確率&#xff08;Accuracy&#xff09;2. 精確率&#xff08;Precision&#xff09;3. 召回率&#xff08;Recall&#xff09;4. F1-Score5. 示例二、文本生成專用指標1. BLEU&#xff1a;機器翻譯與標準化文案的“質量標尺”1.1 計算流程&#x…

團隊對 DevOps 理解不統一會帶來哪些問題

團隊對DevOps理念與實踐的理解不統一、片面甚至扭曲&#xff0c;是導致眾多企業DevOps轉型失敗的根本原因&#xff0c;它將直接引發一系列深層次的、相互關聯的嚴重問題。核心體現在&#xff1a;轉型極易淪為“為了工具而工具”的盲目自動化&#xff0c;導致最核心的文化變革被…

企業級實戰:構建基于Qt、C++與YOLOv8的模塊化工業視覺檢測系統(基于QWidget)

目錄一、概述二、項目目標與技術架構2.1 核心目標2.2 技術選型2.3 軟件架構三、AI推理DLL的開發 (Visual Studio 2019)3.1 定義DLL接口 (DetectorAPI.h)3.2 實現核心功能 (DetectorAPI.cpp)四、Qt Widget GUI應用程序的開發4.1 項目配置 (.pro 文件)4.2 UI設計 (mainwindow.ui)…

SVN自動化部署工具 腳本

SVN自動化部署工具 功能概述 這是一個自動化部署SVN倉庫的bash腳本&#xff0c;主要功能包括&#xff1a; 自動安裝SVN服務&#xff08;如未安裝&#xff09; 創建SVN項目倉庫 配置多用戶權限 設置自動同步到網站目錄 提供初始檢出功能 下載地址 https://url07.ctfile…

Facebook主頁變現功能被封?跨境玩家該如何申訴和預防

不少跨境玩家在運營Facebook公共主頁時&#xff0c;最期待的就是通過變現工具獲得穩定收入。但現實中&#xff0c;經常會遇到一個扎心的問題&#xff1a;主頁好不容易做起來&#xff0c;卻突然收到提示——“你的變現功能已被停用”。這意味著收入中斷&#xff0c;甚至可能導致…

安裝es、kibana、logstash

下載 elk 下載地址 elasticsearch地址: https://www.elastic.co/cn/downloads/elasticsearch kibana地址: https://www.elastic.co/cn/downloads/kibana logstash地址: https://www.elastic.co/cn/downloads/logstash 解壓elk 創建es全家桶文件夾 cd /usr/local mkdir elk …

Django admin 后臺開發案例【字段/圖片】

這是一個簡單的django admin 管理后臺,這個應用案例主要是給運營人員進行填寫數據 主要功能包括: 上傳圖片功能【選擇上傳時可以預覽】【替換已有數據中的圖片時可以預覽新舊圖片】 每條數據都將會記錄操作歷史。記錄操作人是誰?修改內容是什么?并且定位責任到某一員。 …

【C++】const和static的用法

目錄&#x1f680;前言&#x1f4bb;const&#xff1a;“只讀”的守護者&#x1f4af;修飾普通變量&#x1f4af;修飾指針&#x1f4af;修飾函數&#x1f4af;修飾類成員&#x1f4af;修飾對象&#x1f31f;static&#xff1a;“靜態存儲”與“作用域控制”&#x1f4af;修飾全…

F019 vue+flask海外購商品推薦可視化分析系統一帶一路【三種推薦算法】

文章結尾部分有CSDN官方提供的學長 聯系方式名片 B站up&#xff1a; 麥麥大數據 關注B站&#xff0c;有好處&#xff01; 編號: F019 關鍵詞&#xff1a;海外購 推薦系統 一帶一路 python 視頻 VueFlask 海外購電商大數據推薦系統源碼 &#xff08;三種推薦算法 全新界面布局…

【大數據專欄】流式處理框架-Apache Fink

Apache Fink 1 前言 1.1 功能 1.2 用戶 國際 國內 1.3 特點 ◆ 結合Java、Scala兩種語言 ◆ 從基礎到實戰 ◆ 系統學習Flink的核心知識 ◆ 快速完成從入門到上手企業開發的能力提升 1.4 安排 ◆ 初識Flink ◆ 編程模型及核心概念 ◆ DataSet API編程 ◆ Data…