spark-core編程2

Key-Value類型:

foldByKey

????????當分區內計算規則和分區間計算規則相同時,aggregateByKey 就可以簡化為 foldByKey

?

combineByKey

????????最通用的對 key-value 型 rdd 進行聚集操作的聚集函數(aggregation function)。類似于aggregate(),combineByKey()允許用戶返回值的類型與輸入不一致。

????????示例:現有數據 List(("a", 88), ("b", 95), ("a", 91), ("b", 93), ("a", 95), ("b", 98)),求每個key的總值及每個key對應鍵值對的個數

reduceByKey、foldByKey、aggregateByKey、combineByKey 的區別:

????????reduceByKey: 相同 key 的第一個數據不進行任何計算,分區內和分區間計算規則相同

????????FoldByKey: 每一個key 對應的數據和初始值進行分區內計算,分區內和分區間計算規則相同

????????AggregateByKey:每一個 key 對應的數據和初始值進行分區內計算,分區內和分區間計算規則可以不相同

????????CombineByKey:當計算時,發現數據結構不滿足要求時,可以讓第一個數據轉換結構。分區

內和分區間計算規則不相同。

?

sortByKey

根據鍵值對中的鍵進行排序,支持升序和降序排列。(布爾值決定升序(true)或降序(false)。)

?

join

????????join操作:返回兩個RDD中相同鍵對應的所有元素連接在一起,結果以鍵開頭,右邊是嵌套的值。

?

leftOuterJoin

類似于 SQL 語句的左外連接

左外連接和右外連接:

????????leftOuterJoin操作:類似于SQL中的左外連接,以元RDD為主。
????????rightOuterJoin操作:類似于SQL中的右外連接,以參數RDD為主。

?

cogroup

????????在類型為(K,V)和(K,W)的 RDD 上調用,返回一個(K,(Iterable<V>,Iterable<W>))類型的 RDD

?

RDD行動算子

????????行動算子就是會觸發action的算子,觸發action的含義就是真正的計算數據。

轉換算子與行動算子的區別:

轉換算子:不立即執行,只有在遇到行動算子時才會觸發計算。

行動算子:立即執行計算,返回具體值或觸發實際的計算過程

?

reduce

????????聚集 RDD 中的所有元素,先聚合分區內數據,再聚合分區間數據

?

?collect

????????函數簽名

????????????????def collect(): Array[T]

????????函數說明

????????????????在驅動程序中,以數組 Array 的形式返回數據集的所有元素

?

foreach

????????分布式遍歷 RDD 中的每一個元素,調用指定函數

?

count

????????返回 RDD 中元素的個數

?

first

????????返回 RDD 中的第一個元素

?

take

????????返回一個由 RDD 的前 n 個元素組成的數組

?

takeOrdered

????????返回該 RDD 排序后的前 n 個元素組成的數組

?

aggregate

????????分區的數據通過初始值和分區內的數據進行聚合,然后再和初始值進行分區間的數據聚合

如果圖片中rdd中numSlices那個地方不寫數字的話,是根據CPU來算的,如下圖所示

? ? ? ? (分區計算與CPU核數的關系。
????????????????通過任務管理器查看CPU核數,并以此為基礎進行分區計算。)

?

fold

????????折疊操作,aggregate 的簡化版操作

?

countByKey

????????統計每種 key 的個數

?

save 相關算子

????????將數據保存到不同格式的文件中

?

Spark的三大數據結構

1. RDD

????????轉換算子和行動算子

2.累加器

????????用于將executor端的變量信息聚合到driver端。

????????每個task得到變量副本并更新,傳回driver端。

????????展示了相關代碼,強調可自定義創建和調用。

3.廣播變量????????

????????用于高效分發較大只讀值。

????????是只讀變量,在多個并行操作中使用同一變量。

????????展示了與RDD進行數據關聯操作的代碼

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75435.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75435.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75435.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

原理圖設計準備:頁面柵格模板應用設置

一、頁面大小的設置 &#xff08;1&#xff09;單頁原理圖頁面設置 首先&#xff0c;選中需要更改頁面尺寸的那一頁原理圖&#xff0c;鼠標右鍵&#xff0c;選擇“Schmatic Page Properties”選項&#xff0c;進行頁面大小設置。 &#xff08;2&#xff09;對整個原理圖頁面設…

關于異步消息隊列的詳細解析,涵蓋JMS模式對比、常用組件分析、Spring Boot集成示例及總結

以下是關于異步消息隊列的詳細解析&#xff0c;涵蓋JMS模式對比、常用組件分析、Spring Boot集成示例及總結&#xff1a; 一、異步消息核心概念與JMS模式對比 1. 異步消息核心組件 組件作用生產者發送消息到消息代理&#xff08;如RabbitMQ、Kafka&#xff09;。消息代理中間…

【深度洞察】解碼飲料行業破局點:場景革命

當東鵬特飲以 “大瓶裝 防塵蓋” 精準解決貨車司機的場景化需求&#xff0c;當農夫山泉通過 “冷藏版東方樹葉” 打開年輕白領的早餐場景 —— 這些現象級案例背后&#xff0c;是飲料行業底層邏輯的深刻變革&#xff1a;真正的市場增量&#xff0c;藏在對消費場景的極致拆解中…

二、TorchRec中的分片

TorchRec中的分片 文章目錄 TorchRec中的分片前言一、Planner二、EmbeddingTable 的分片TorchRec 中所有可用的分片類型列表 三、使用 TorchRec 分片模塊進行分布式訓練TorchRec 在三個主要階段處理此問題 四、DistributedModelParallel&#xff08;分布式模型并行&#xff09;…

如何在 Spring Boot 項目中使用 MyBatis 進行批量操作以提升性能?

MyBatis 提供了 ExecutorType.BATCH 類型&#xff0c;允許將多個 SQL 語句進行組合&#xff0c;最后統一執行&#xff0c;從而減少數據庫的訪問頻率&#xff0c;提升性能。 以下是如何在 Spring Boot 項目中使用 MyBatis 進行批量操作的關鍵點&#xff1a; 1. 配置 MyBatis 使…

Redis 字符串(String)詳解

1. 什么是字符串類型 在 Redis 中&#xff0c;字符串&#xff08;String&#xff09; 是最基本的數據類型。它可以包含任何數據&#xff0c;比如文本、JSON、甚至二進制數據&#xff08;如圖片的 Base64 編碼&#xff09;&#xff0c;最大長度為 512 MB。 字符串在 Redis 中不…

Elasticsearch 系列專題 - 第四篇:聚合分析

聚合(Aggregation)是 Elasticsearch 的強大功能之一,允許你對數據進行分組、統計和分析。本篇將從基礎到高級逐步講解聚合的使用,并結合實際案例展示其應用。 1. 聚合基礎 1.1 什么是聚合(Aggregation)? 聚合是對文檔集合的統計分析,類似于 SQL 中的 GROUP BY 和聚合…

YOLO學習筆記 | YOLOv8 全流程訓練步驟詳解(2025年4月更新)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 這里寫自定義目錄標題 一、數據準備1. 數據標注與格式轉換2. 配置文件生…

context上下文(一)

創建一個基礎的context 使用BackGround函數&#xff0c;BackGround函數原型如下&#xff1a; func Background() Context {return backgroundCtx{} } 作用&#xff1a;Background 函數用于創建一個空的 context.Context 對象。 context.Background() 函數用于獲取一個空的 cont…

Java中常見的設計模式

Java中常見的設計模式 Java 中有 23 種經典設計模式&#xff0c;通常被分為三大類&#xff1a;創建型、結構型和行為型。每個設計模式都解決了不同類型的設計問題。以下是幾種常見設計模式的總結&#xff0c;并附帶了實際應用場景、示例代碼和詳細的注釋說明。 一、創建型設計…

責任鏈設計模式(單例+多例)

目錄 1. 單例責任鏈 2. 多例責任鏈 核心區別對比 實際應用場景 單例實現 多例實現 初始化 初始化責任鏈 執行測試方法 歡迎關注我的博客&#xff01;26屆java選手&#xff0c;一起加油&#x1f498;&#x1f4a6;&#x1f468;?&#x1f393;&#x1f604;&#x1f602; 最近在…

springboot 處理編碼的格式為opus的音頻數據解決方案【java8】

opus編碼的格式概念&#xff1a; Opus是一個有損聲音編碼的格式&#xff0c;由Xiph.Org基金會開發&#xff0c;之后由IETF&#xff08;互聯網工程任務組&#xff09;進行標準化&#xff0c;目標是希望用單一格式包含聲音和語音&#xff0c;取代Speex和Vorbis&#xff0c;且適用…

vue項目引入tailwindcss

vue3項目引入tailwindcss vue3 vite tailwindcss3 版本 初始化項目 npm create vitelatest --template vue cd vue npm install npm run dev安裝tailwindcss3 和 postcss 引入 npm install -D tailwindcss3 postcss autoprefixer // 初始化引用 npx tailwindcss init -p…

Google ADK(Agent Development Kit)簡要示例說明

一、環境準備與依賴安裝 1.1 系統 硬件&#xff1a; GPU NVIDIA 3070加速模型推理&#xff0c;內存64GB軟件&#xff1a; Python 3.11Docker 28.04&#xff08;用于容器化部署&#xff09;Kubernetes 1.25&#xff08;可選&#xff0c;用于集群管理&#xff09; 1.2 安裝 A…

批量給文件編排序號,支持數字序號及時間日期序號編排文件

當我們需要對文件進行編號的時候&#xff0c;我們可以通過這個工具來幫我們完成&#xff0c;它可以支持從 001 到 100 甚至更多的數字序號編號。也可以支持按照日期、時間等方式對文件進行編號操作。這是一種操作簡單&#xff0c;處理起來也非常的高效文件編排序號的方法。 工作…

【系統架構】AI時代下,系統架構師如何修煉

在AI時代,系統架構師的角色正經歷深刻變革,需在技術深度、工具應用與思維模式上全面升級。以下結合行業趨勢與實踐建議,總結系統架構師的修煉路徑: 一、掌握AI工具,重構工作流 自動化文檔與設計 利用生成式AI(如DeepSeek、ChatGPT)完成70%的需求文檔、接口設計及架構圖生…

圖像顏色空間對比(Opencv)

1. 顏色轉換 import cv2 import matplotlib.pyplot as plotimg cv2.imread("tmp.jpg") img_r cv2.cvtColor(img, cv2.COLOR_BGR2RGB) img_g cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) img_h cv2.cvtColor(img, cv2.COLOR_BGR2HSV) img_l cv2.cvtColor(img, cv2.C…

JDBC驅動autosave缺陷的修復與配置指南

opengauss-jdbc-6.0.0.jar和opengauss-jdbc-6.0.0-og.jar版本修復了&#xff1a;autosavealways時&#xff0c;事務嵌套太深&#xff0c;導致棧溢出問題。如果使用的版本低于opengauss-jdbc-6.0.0版本&#xff0c;需要通過替換jdbc驅動和修改url參數來解決autosave缺陷。以下是…

K8S-證書過期更新

K8S證書過期問題 K8S證書過期處理方法 Unable to connect to the server: x509: certificate has expired or is not yet valid 1、查看證書有效期&#xff1a; # kubeadm certs check-expiration2、備份證書 # cp -rp /etc/kubernetes /etc/kubernetes.bak3、直接重建證書 …

2025 年網絡安全終極指南

我們生活在一個科技已成為日常生活不可分割的一部分的時代。對數字世界的依賴性日益增強的也帶來了更大的網絡風險。 網絡安全并不是IT專家的專屬特權&#xff0c;而是所有用戶的共同責任。通過簡單的行動&#xff0c;我們可以保護我們的數據、隱私和財務&#xff0c;降低成為…