大數據技術之SPARK

大數據技術之SPARK

pingmian/2025/8/18 12:27:54/文章來源:https://blog.csdn.net/2402_85245931/article/details/147099002

Spark Core

什么是 RDD

代碼中是一個抽象類，它代表一個彈性的、不可變、可分區、里面的元素可并行計算的集合

彈性

存儲的彈性：內存與磁盤的自動切換；

容錯的彈性：數據丟失可以自動恢復；

計算的彈性：計算出錯重試機制；

分片的彈性：可根據需要重新分片。

分布式：數據存儲在大數據集群不同節點上

數據集：RDD 封裝了計算邏輯，并不保存數據

?數據抽象：RDD 是一個抽象類，需要子類具體實現

?不可變：RDD 封裝了計算邏輯，是不可以改變的，想要改變，只能產生新的 RDD在新的 RDD 里面封裝計算邏輯

?可分區、并行計算

二.核心屬性

分區列表

RDD 數據結構中存在分區列表，用于執行任務時并行計算，是實現分布式計算的重要屬性。

RDD 之間的依賴關系

RDD 是計算模型的封裝，當需求中需要將多個計算模型進行組合時，就需要將多個 RDD 建立依賴關系

三. 執行原理

啟動 Yarn 集群環境

Spark 通過申請資源創建調度節點和計算節點

Spark 框架根據需求將計算邏輯根據分區劃分成不同的任務

調度節點將任務根據計算節點狀態發送到對應的計算節點進行計算

四．RDD 序列化

閉包檢查

序列化方法和屬性

Kryo 序列化框架

五．RDD 依賴關系

RDD 血緣關系

RDD 只支持粗粒度轉換，即在大量記錄上執行的單個操作。將創建 RDD 的一系列 Lineage（血統）記錄下來，以便恢復丟失的分區

RDD 依賴關系

RDD 窄依賴

RDD 寬依賴

寬依賴表示同一個父（上游）RDD 的 Partition 被多個子（下游）RDD 的 Partition 依賴，會引起 Shuffle，總結：寬依賴我們形象的比喻為多生

RDD 階段劃分

RDD 任務劃分

六．RDD 持久化

RDD Cache 緩存

Spark 會自動對一些 Shuffle 操作的中間數據做持久化操作(比如：reduceByKey)。這樣做的目的是為了當一個節點 Shuffle 失敗了避免重新計算整個輸入。但是，在實際使用的時候，如果想重用數據，仍然建議調用 persist 或 cache

RDD CheckPoint 檢查點

緩存和檢查點區別

七．RDD 分區器

只有 Key-Value 類型的 RDD 才有分區器，非 Key-Value 類型的 RDD 分區的值是 None

? 每個 RDD 的分區 ID 范圍：0 ~ (numPartitions - 1)，決定這個值是屬于那個分區的。

Hash 分區：對于給定的 key，計算其 hashCode,并除以分區個數取余。
Range 分區：將一定范圍內的數據映射到一個分區中，盡量保證每個分區數據均勻，而且分區間有序

八．RDD 文件讀取與保存

?text 文件

sequence 文件

sequence 文件

object 對象文件

Spark運行架構

核心組件

Driver

Spark 驅動器節點，用于執行 Spark 任務中的 main 方法，負責實際代碼的執行工作。

Driver 在 Spark 作業執行時主要負責：

? 將用戶程序轉化為作業（job）

? 在 Executor 之間調度任務(task)

? 跟蹤 Executor 的執行情況

? 通過 UI 展示查詢運行情況

Executor

Spark Executor 是集群中工作節點（Worker）中的一個 JVM 進程，負責在 Spark 作業中運行具體任務（Task），任務彼此之間相互獨立

核心概念

有向無環圖（DAG）

提交流程

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/76148.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/76148.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/76148.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Go 語言范圍 (Range)

Go 語言范圍 (Range)

Go 語言范圍 (Range) Go 語言是一種靜態強類型、編譯型、并發型編程語言，由 Google 開發。它的簡潔性和高效性使其成為眾多開發者的首選。在 Go 語言中，range 是一個非常有用的關鍵字，用于遍歷數組、切片、字符串以及通道（channe…

閱讀更多...

VUE中數據綁定之OptionAPI

VUE中數據綁定之OptionAPI

<template> <div> 姓名：<input v-model="userName" /> {{ userName }} <br /> 薪水：<input type="number" v-model="salary" /> <br /> <button v-on:click="submit">提交</button>…

閱讀更多...

react動態路由

react動態路由

框架的權限控制（在config.ts中配置） export default {access: {}, }; 權限配置文件（access.ts） 新建 src/access.ts ，在該文件中 export default 一個函數，定義用戶擁有的權限該文件需要返回一個 functi…

閱讀更多...

Android里面如何優化xml布局

Android里面如何優化xml布局

在 Android 開發中，以下是系統化的優化方案，從基礎到高級分層解析： 一、基礎優化策略 1. 減少布局層級問題：每增加一層布局，測量/布局時間增加 1-2ms 解決方案：  <LinearLayo…

閱讀更多...

基于STM32、HAL庫的IP6525S快充協議芯片簡介及驅動程序設計

基于STM32、HAL庫的IP6525S快充協議芯片簡介及驅動程序設計

一、簡介： IP6525S是一款高性能的同步降壓DC-DC轉換器芯片，具有以下特點：輸入電壓范圍：4.5V至32V 輸出電壓范圍：0.8V至30V 最大輸出電流：5A 效率高達95% 可編程開關頻率（100kHz-1MHz）支持PWM和PFM模式內置過流保護、過溫保護等功能該芯片常用于工業控制、通信設備…

閱讀更多...

二分算法的入門筆記

二分算法的入門筆記

二分查找使用前提：有序。可理解為枚舉的一種技巧。時間復雜度： l o g ( n ) log(n) log(n) 基礎模版代碼使用時根據情景進行相應的變化。注意跳出條件and分支處理方式and返回答案，三者之間的配合，不要進入死循環。可以在模擬…

閱讀更多...

輕量級Java跨包調用(完全解耦)

輕量級Java跨包調用(完全解耦)

Java函數式命令模式輕量級跨包調用解耦方案，讓跨包調用就像調用本地接口那樣簡單。適用與具有公共依賴的兩個jar包，但是又不想相互引入對方作為依賴。函數式命令模式，很好地實現了跨包調用解耦的目標，并且通過泛型JSON動態轉換保…

閱讀更多...

離散數學問題集--問題5.9

離散數學問題集--問題5.9

問題 5.9 綜合了計算機組成原理、數字邏輯和離散數學中的關鍵概念，旨在幫助學生理解二進制算術運算的硬件實現、邏輯門與算術運算的關系，以及如何使用數學方法來驗證數字系統的正確性。它強調了從規范到實現再到驗證的完整過程。思想函數抽象&#xf…

閱讀更多...

OpenLayers：海量圖形渲染之矢量切片

OpenLayers：海量圖形渲染之矢量切片

最近由于在工作中涉及到了海量圖形渲染的問題，因此我開始研究相關的解決方案。在咨詢了許多朋友之后發現矢量切片似乎是行業內最常用的一種解決方案，于是我便開始研究它該如何使用。一、什么是矢量切片矢量切片按照我的理解就是用柵格切片的方式把矢…

閱讀更多...

神經網絡入門—自定義網絡

神經網絡入門—自定義網絡

網絡模型定義一個兩層網絡 import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F# 定義神經網絡模型 class Net(nn.Module):def __init__(self, init_x0.0):super().__init__()self.fc1 nn.Linear(1, 10)self.fc2 nn.Linear(…

閱讀更多...

無人機裝調與測試

無人機裝調與測試

文章目錄前言一、無人機基本常識/預備知識（一）無人機飛行原理無人機硬件組成/各組件作用1.飛控2.GPS3.接收機4.電流計5.電調6.電機7.電池8.螺旋槳9.UBEC（穩壓模塊） （二）飛控硬件簡介（三&#x…

閱讀更多...

2024年-全國大學生數學建模競賽(CUMCM)試題速瀏、分類及淺析

2024年-全國大學生數學建模競賽(CUMCM)試題速瀏、分類及淺析

2024年-全國大學生數學建模競賽(CUMCM)試題速瀏、分類及淺析全國大學生數學建模競賽（China Undergraduate Mathematical Contest in Modeling）是國家教委高教司和中國工業與應用數學學會共同主辦的面向全國大學生的群眾性科技活動，目的在于激…

閱讀更多...

Linux入門指南：從零開始探索開源世界

Linux入門指南：從零開始探索開源世界

🚀 前言大家好！今天我們來聊一聊Linux這個神奇的操作系統~ 🤖 很多小伙伴可能覺得Linux是程序員專屬，其實它早已滲透到我們生活的各個角落！本文將帶你了解Linux的誕生故事、發行版選擇攻略、應用領域，還有…

閱讀更多...

記錄vscode連接不上wsl子系統下ubuntu18.04問題解決方法

記錄vscode連接不上wsl子系統下ubuntu18.04問題解決方法

記錄vscode連接不上wsl子系統下ubuntu18.04問題解決方法報錯內容嘗試第一次解決方法嘗試第二次解決方法注意事項參考連接報錯內容 Unable to download server on client side: Error: Request downloadRequest failed unexpectedly without providing any details… Will tr…

閱讀更多...

Cursor+MCP學習記錄

Cursor+MCP學習記錄

參考視頻 Cursor MCP 王炸！徹底顛覆我的Cursor工作流，效率直接起飛_嗶哩嗶哩_bilibili 感覺這個博主講的還不錯所使用到的網址 Smithery - Model Context Protocol Registry Introduction - Model Context Protocol 學習過程 Smithery - Model …

閱讀更多...

testflight上架ipa包-只有ipa包的情況下如何修改簽名信息為蘋果開發者賬戶對應的信息-ipa蘋果包如何手動改簽或者第三方工具改簽-優雅草卓伊凡

testflight上架ipa包-只有ipa包的情況下如何修改簽名信息為蘋果開發者賬戶對應的信息-ipa蘋果包如何手動改簽或者第三方工具改簽-優雅草卓伊凡

testflight上架ipa包-只有ipa包的情況下如何修改簽名信息為蘋果開發者賬戶對應的信息-ipa蘋果包如何手動改簽或者第三方工具改簽-優雅草卓伊凡直接修改蘋果IPA包的簽名和打包信息并不是一個推薦的常規做法，因為這可能違反蘋果的開發者條款，并且可能導致…

閱讀更多...

深入解析Java內存與緩存：從原理到實踐優化

深入解析Java內存與緩存：從原理到實踐優化

一、Java內存管理：JVM的核心機制 1. JVM內存模型全景圖 ┌───────────────────────────────┐ │ JVM Memory │ ├─────────────┬─────────────────┤ │ Thread │ 共享…

閱讀更多...

紫光展銳5G SoC T8300：影像升級，「定格」美好世界

紫光展銳5G SoC T8300：影像升級，「定格」美好世界

影像能力已成為當今衡量智能手機性能的重要標尺之一。隨著消費者對手機攝影需求日益提升，手機廠商紛紛在影像硬件和算法上展開激烈競爭，力求為用戶帶來更加出色的拍攝體驗。紫光展銳專為全球主流用戶打造的暢享影音和游戲體驗的5G SoC——T8300&#x…

閱讀更多...

【Java設計模式】第6章抽象工廠模式講解

【Java設計模式】第6章抽象工廠模式講解

6. 抽象工廠模式 6.1 抽象工廠講解定義：提供一個接口創建一系列相關或依賴對象，無需指定具體類。核心概念：產品等級結構：同一類型的不同產品（如Java視頻、Python視頻）。產品族：同一工廠生產的多個產品（如Java視頻 + Java手記）。適用場景：需要創建多個相關聯的產品…

閱讀更多...

Dify教程01-Dify是什么、應用場景、如何安裝

Dify教程01-Dify是什么、應用場景、如何安裝

Dify教程01-Dify是什么、應用場景、如何安裝大家好，我是星哥，上篇文章講了Coze、Dify、FastGPT、MaxKB 對比，今天就來學習如何搭建Dify。 Dify是什么 **Dify 是一款開源的大語言模型(LLM) 應用開發平臺。**它融合了后端即服務&#xff08…

閱讀更多...

最新文章