spark在shell中運行RDD程序

spark在shell中運行RDD程序

web/2025/7/12 14:03:36/文章來源:https://blog.csdn.net/2401_85987174/article/details/147892419

在hdfs中/wcinput中創建一個文件：word2.txt在里面寫幾個單詞

啟動hdfs集群

[root@hadoop100 ~]# myhadoop start

[root@hadoop100 ~]# cd /opt/module/spark-yarn/bin

[root@hadoop100 ~]# ./spark-shell

寫個1+1測試一下

按住ctrl+D退出

?進入環境：spark-shell --master yarn

逐個寫代碼：

// 讀取文件，得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")

// 將單詞進行切割，得到一個存儲全部單詞的RDD

val rdd2= rdd1.flatMap(line => line.split(" "))

// 將單詞轉換為元組對象，key是單詞，value是數字1

val rdd3= rdd2.map(word => (word, 1))

// 將元組的value按照key來分組，對所有的value執行聚合操作(相加)

val rdd4= rdd3.reduceByKey((num1, num2) => num1 + num2)

// 收集RDD的數據并打印輸出結果

rdd4.collect().foreach(println)

// 將結果儲存在out111中

rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")

在根目錄下可見out111文件，文件打開后可以看到，word2.txt文件內單詞被拆分

RDD的執行過程

spark大數據分布式

?
————————————————

? ? ? ? ? ? ? ? ? ? ? ? ? ? 版權聲明：本文為博主原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接和本聲明。
? ? ? ? ? ? ? ? ? ? ? ??
原文鏈接：https://blog.csdn.net/2401_87076425/article/details/147892134

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/80061.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/80061.shtml
英文地址，請注明出處：http://en.pswp.cn/web/80061.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Redis 主從復制的實現原理是什么？

Redis 主從復制的實現原理是什么？

Redis主從復制的實現原理可通過以下核心機制與流程解析： 一、核心目標與角色分工 Redis主從復制通過**單一主節點（Master）**處理寫操作，**多個從節點（Slave）**同步數據并提供讀服務，實現&…

閱讀更多...

量化交易 - 網格交易策略實現與原理解析

量化交易 - 網格交易策略實現與原理解析

📈 網格交易策略實現與原理解析 🧠 什么是網格交易策略？ 網格交易（Grid Trading）是一種經典的量化交易策略，其核心思想是在價格的不同區間（“網格”）中設置買入和賣出操作&#xf…

閱讀更多...

前端npm的核心作用與使用詳解

前端npm的核心作用與使用詳解

一、npm是什么？ npm（Node Package Manager）是 Node.js 的默認包管理工具，也是全球最大的開源代碼庫生態系統。雖然它最初是為 Node.js 后端服務設計的，但如今在前端開發中已成為不可或缺的基礎設施。通過npm，開發者可以輕松安裝、管理和共享代碼模塊。特性：依賴管理…

閱讀更多...

Vue3學習（組合式API——生命周期函數基礎）

Vue3學習（組合式API——生命周期函數基礎）

目錄一、Vue3組合式API中的生命周期函數。 （1）各階段生命周期涉及函數簡單介紹。 <1>創建掛載階段的生命周期函數。 <2>更新階段的生命周期函數。 <3>卸載階段的生命周期函數。 <4>錯誤處理的生命周期函數。 （2&…

閱讀更多...

道通EVO MAX系列無人機-支持二次開發

道通EVO MAX系列無人機-支持二次開發

道通EVO MAX系列無人機-支持二次開發 EVO Max 系列采用Autel Autonomy自主飛行技術，實現復雜環境下的全局路徑規劃、3D場景重建、自主繞障和返航；高精度視覺導航能力，使其在信號干擾強、信號遮擋、信號弱等復雜環境下，依然獲得高精…

閱讀更多...

網張實驗操作-防火墻+NAT

網張實驗操作-防火墻+NAT

實驗目的了解防火墻（ENSP中的USG5500）域間轉發策略配置、NAT（與路由器NAT配置命令不同）配置。網絡拓撲兩個防火墻連接分別連接一個內網，中間通過路由器連接。配置NAT之后，內網PC可以ping公網&#xf…

閱讀更多...

FPGA: UltraScale+ bitslip實現（方案+代碼）

FPGA: UltraScale+ bitslip實現（方案+代碼）

收獲一晃五年~ 五年前那個夏夜，我對著泛藍的屏幕敲下《給十年后的自己》，在2020年的疫情迷霧中編織著對未來的想象。此刻回望，第四屆集創賽的參賽編號仍清晰如昨，而那個在家熬夜焊電路板的"不眠者"，現在…

閱讀更多...

機器學習筆記2

機器學習筆記2

5 TfidfVectorizer TF-IDF文本特征詞的重要程度特征提取 (1) 算法詞頻(Term Frequency, TF), 表示一個詞在當前篇文章中的重要性逆文檔頻率(Inverse Document Frequency, IDF), 反映了詞在整個文檔集合中的稀有程度 (2) API sklearn.feature_extraction.text.TfidfVector…

閱讀更多...

UV 快速入門和使用案例

UV 快速入門和使用案例

UV 快速入門和使用案例作者：王珂郵箱：49186456qq.com 文章目錄 UV 快速入門和使用案例簡介一、安裝1.1 安裝包安裝1.2 從 PyPI 安裝二、使用2.1 創建項目2.2 包管理2.3 工具2.4 Python 版本簡介官網： 項目： https://githu…

閱讀更多...

質控腳本來嘍

質控腳本來嘍

好久不更新，上個硬貨。腳本需提前準備宿主和rrna的bowtie2索引文件，原始數據的命名方式為{sample}_raw_1/2.fq.gz，保存有原始數據路徑的文件，保存樣品列表的文件。最后打個廣告，歡迎畜牧學方向的研究生報考蘭州大學。…

閱讀更多...

Linux Bash | Capture Output / Recall

Linux Bash | Capture Output / Recall

注：本文為 “Linux Bash | Capture Output / Recall” 相關文章合輯。英文引文，機翻未校。中文引文，略作重排。 Automatically Capture Output of the Last Command Into a Variable Using Bash 使用 Bash自動將最后一個命令的輸出捕獲到…

閱讀更多...

編程題 03-樹2 List Leaves【PAT】

編程題 03-樹2 List Leaves【PAT】

文章目錄題目輸入格式輸出格式輸入樣例輸出樣例題解解題思路完整代碼編程練習題目集目錄題目 Given a tree, you are supposed to list all the leaves in the order of top down, and left to right. 輸入格式 Each input file contains one test case. For each case, …

閱讀更多...

QT設置MySQL驅動

QT設置MySQL驅動

QSqlDatabase: QMYSQL driver not loaded QSqlDatabase: available drivers: QSQLITE QMYSQL QMYSQL3 QODBC QODBC3 QPSQL QPSQL7 第一步：下載MySQL https://dev.mysql.com/downloads/mysql/ 解壓縮下載的安裝包，其目錄結構如下所示： 第二…

閱讀更多...

ABP User Interface-Angular UI中文詳解

ABP User Interface-Angular UI中文詳解

本系列文章主要用于對ABP User Interface-Angular UI （Angular UI | ABP.IO Documentation）不分的中文講解以及記錄自己在學習過程中發現的容易出錯的地方。 1. 開發Development 2. 核心功能Core Functions 3. 通用組件Utilities 4. 自定義Customiza…

閱讀更多...

常用負載均衡技術有哪些？不同網絡層面上的網絡負載均衡技術

常用負載均衡技術有哪些？不同網絡層面上的網絡負載均衡技術

前言負載均衡是一種策略，它能讓多臺服務器或多條鏈路共同承擔一些繁重的計算或I/O任務，從而以較低成本消除網絡瓶頸，提高網絡的靈活性和可靠性。在系統管理員發現網絡性能不好時，可以通過網絡負載均衡來分配資源，以…

閱讀更多...

ARMV8 RK3399 u-boot TPL啟動流程分析 --crt0.S

ARMV8 RK3399 u-boot TPL啟動流程分析 --crt0.S

上一篇介紹到start.S 最后一個指令是跳轉到_main, 接下來分析 __main 都做了什么 arch/arm/lib/crt0.S __main 注釋寫的很詳細，主要分為5步 1. 準備board_init_f的運行環境 2. 跳轉到board_init_f 3. 設置broad_init_f 申請的stack 和 GD 4. 完整u-boot 執行re…

閱讀更多...

RabbitMQ--進階篇

RabbitMQ--進階篇

RabbitMQ 客戶端整合Spring Boot 添加相關的依賴 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifactId> </dependency> 編寫配置文件，配置RabbitMQ的服務信息 spri…

閱讀更多...

Redis--基礎知識點--27--redis緩存分類樹

Redis--基礎知識點--27--redis緩存分類樹

在 Redis 中存儲分類樹，通常需要選擇合適的數據結構來表現層級關系。以下是使用字符串（String） 和哈希（Hash） 兩種常見方案的舉例說明，結合電商分類場景（如電子產品 > 手機 > 智能手機…

閱讀更多...

【C++】匯編角度分析棧攻擊

【C++】匯編角度分析棧攻擊

棧攻擊介紹原理示例代碼匯編分析介紹原理核心原理是通過緩沖區溢出（Buffer Overflow） 等漏洞，覆蓋棧上的關鍵數據（如返回地址、函數指針），從而改變程序執行流程； 在 C 中，每個…

閱讀更多...

訪問 Docker 官方鏡像源（包括代理）全部被“重置連接”或超時

訪問 Docker 官方鏡像源（包括代理）全部被“重置連接”或超時

華為云輕量應用服務器（Ubuntu 系統） 遇到的問題是： 🔒 訪問 Docker 官方鏡像源（包括代理）全部被“重置連接”或超時了，說明你這臺服務器的出境網絡對這些國外域名限制很嚴格，常見于華…

閱讀更多...

最新文章