Spark緩存--persist方法

Spark緩存--persist方法

diannao/2025/6/23 7:24:26/文章來源:https://blog.csdn.net/2401_83374563/article/details/147798085

1. 功能本質

persist：這是一個通用的持久化方法，能夠指定多種不同的存儲級別。存儲級別決定了數據的存儲位置（如內存、磁盤）以及存儲形式（如是否序列化）。

2. 存儲級別指定

persist：可以通過傳入 StorageLevel 參數來指定不同的持久化級別。常見的持久化級別有：

MEMORY_ONLY：將 RDD 以 Java 對象的形式存儲在 JVM 的內存中。若內存不足，部分分區將不會被緩存，需要時會重新計算。

MEMORY_AND_DISK：優先把 RDD 以 Java 對象的形式存儲在 JVM 的內存中。若內存不足，會把多余的分區存儲到磁盤上。

DISK_ONLY：將 RDD 的數據存儲在磁盤上。

MEMORY_ONLY_SER：將 RDD 以序列化的 Java 對象形式存儲在內存中，相較于 MEMORY_ONLY，序列化后占用的內存空間更小，但讀取時需要進行反序列化操作，會帶來一定的性能開銷。

MEMORY_AND_DISK_SER：優先將 RDD 以序列化的 Java 對象形式存儲在內存中，內存不足時存儲到磁盤上。

cache：不能指定存儲級別，它固定使用 MEMORY_ONLY 存儲級別。

3.persist的示例

下面我們以DISK_ONLY為例，改寫上面的程序，驗證它的持久化效果。具體要改動的地方有兩個：指定持久化地址；把cache改成persist；

conf.set("spark.local.dir", "/path/to/your/local/dir")

sc = SparkContext(conf)

val cachedRDD = largeRDD.map(complexTransformation).persist(StorageLevel.MEMORY_ONLY)

4.?`persist()`?的核心優勢

靈活性：可根據數據大小、集群資源選擇最優存儲策略。
性能優化：
- 內存充足時用?MEMORY_ONLY?避免磁盤 IO。
- 內存不足時用?MEMORY_AND_DISK?避免頻繁重計算。
資源平衡：通過序列化（如?MEMORY_ONLY_SER）減少內存占用，降低 OOM 風險。

5. 何時使用?`persist()`？

適用場景

迭代算法：如機器學習中的梯度下降、圖計算的 PageRank。
多階段計算：同一數據集被多次用于不同操作（如過濾、聚合、JOIN）。
交互式分析：在 Spark Shell 或 Notebook 中多次查詢同一數據集。

不適用場景

數據僅使用一次：緩存反而浪費資源。
存儲成本高于計算成本：如數據極大且后續操作簡單。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/82258.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/82258.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/82258.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

裸辭8年前端的面試筆記——JavaScript篇（一）

裸辭8年前端的面試筆記——JavaScript篇（一）

裸辭后的第二個月開始準備找工作，今天是第三天目前還沒有面試，現在的行情是一言難盡，都在瘋狂的壓價。下邊是今天復習的個人筆記一、事件循環 JavaScript 的事件循環（Event Loop）是其實現異步編程的關鍵機制。從…

閱讀更多...

什么是死信隊列？死信隊列是如何導致的？

什么是死信隊列？死信隊列是如何導致的？

死信交換機（Dead Letter Exchange，DLX） 定義：死信交換機是一種特殊的交換機，專門用于**接收從其他隊列中因特定原因變成死信的消息**。它的本質還是交換機，遵循RabbitMQ中交換機的基本工作原理&#xff0c…

閱讀更多...

9. 從《蜀道難》學CSS基礎：三種選擇器的實戰解析

9. 從《蜀道難》學CSS基礎：三種選擇器的實戰解析

引言：當古詩遇上現代網頁設計今天我們通過李白的經典詩作《蜀道難》來學習CSS的三種核心選擇器。這種古今結合的學習方式，既能感受中華詩詞的魅力，又能掌握實用的網頁設計技能。讓我們開始這場穿越時空的技術之旅吧！ 一、HTML骨架…

閱讀更多...

三角網格減面算法及其代表的算法庫都有哪些？

三角網格減面算法及其代表的算法庫都有哪些？

以下是三角網格減面算法及其代表庫/工具的詳細分類，涵蓋經典算法和現代實現： ??1. 頂點聚類（Vertex Clustering）?? ??原理??：將網格空間劃分為體素柵格，合并每個柵格內的頂點。??特點??&#…

閱讀更多...

URP - 屏幕圖像(_CameraOpaqueTexture)

URP - 屏幕圖像(_CameraOpaqueTexture)

首先需要在unity中開啟屏幕圖像開關才可以使用該紋理同樣只有不透明對象才能被渲染到屏幕圖像中若想要該對象不被渲染到屏幕圖像中，可以將其Shader的渲染隊列改為 "Queue" "Transparent" 如何在Shader中使用_CameraOpaqueTexture&#xf…

閱讀更多...

vue 和 html 的區別

vue 和 html 的區別

使用 Vue.js 和原生 HTML 開發 Web 應用有顯著的區別，主要體現在開發模式、功能擴展、性能優化和維護性等方面。以下是兩者的對比分析： 🧱 原生 HTML（HTML CSS JavaScript） 特點： 靜態結構：H…

閱讀更多...

LeetCode[226] 翻轉二叉樹

LeetCode[226] 翻轉二叉樹

思路： 使用遞歸，歸根結底還是左右節點互相倒，那么肯定需要一個temp節點在中間傳遞，最后就是遞歸，沒什么說的代碼： /*** Definition for a binary tree node.* public class TreeNode {* int …

閱讀更多...

冪等的幾種解決方案以及實踐

冪等的幾種解決方案以及實踐

目錄什么是冪等？ 解決冪等的常見解決方案： 唯一標識符案例數據庫唯一約束案例樂觀鎖案例分布式鎖（Distributed Locking） 實踐精選方案首先為什么不直接使用分布式鎖呢？ 自定義實現冪等組件&#xff01…

閱讀更多...

PowerShell中的Json處理

PowerShell中的Json處理

1.定義JSON字符串變量 PS C:\WINDOWS\system32> $body {"Method": "POST","Body": {"model": "deepseek-r1","messages": [{"content": "why is the sky blue?","role"…

閱讀更多...

奧威BI：AI+BI深度融合，重塑智能AI數據分析新標桿

奧威BI：AI+BI深度融合，重塑智能AI數據分析新標桿

在數字化浪潮席卷全球的今天，企業正面臨著前所未有的數據挑戰與機遇。如何高效、精準地挖掘數據價值，已成為推動業務增長、提升競爭力的核心議題。奧威BI，作為智能AI數據分析領域的領軍者，憑借其創新的AIBI融合模式，正…

閱讀更多...

【Linux網絡】網絡協議基礎

【Linux網絡】網絡協議基礎

網絡基礎計算機網絡背景獨立模式:計算機之間相互獨立網絡互聯:多臺計算機連接在一起,完成數據共享局域網LAN:計算機數量更多了,通過交換機和路由器連接在一起廣域網WAN:將遠隔千里的計算機都連在一起所謂"局域網"和"廣域網"只是一個相對的概念.比…

閱讀更多...

LabVIEW表面粗糙度測量及算法解析

LabVIEW表面粗糙度測量及算法解析

在制造業和科研領域，表面粗糙度測量對保障產品質量、推動材料研究意義重大。表面粗糙度作為衡量工件表面加工質量的關鍵指標，直接影響著工件諸如磨損、密封、疲勞等機械性能。隨著技術的發展，LabVIEW 在表面粗糙度測量及數據處理中發揮著不可…

閱讀更多...

深入探索 JavaScript 中的模塊對象

深入探索 JavaScript 中的模塊對象

引言在現代 JavaScript 開發中，模塊化編程是一項至關重要的技術。它允許開發者將代碼拆分成多個獨立的模塊，每個模塊專注于單一功能，從而提高代碼的可維護性、可測試性和復用性。而模塊對象則是模塊化編程中的核心概念之一，它為…

閱讀更多...

Linux——Mysql數據庫

Linux——Mysql數據庫

目錄一，數據庫簡介二，數據庫的基本概念 1，數據 2，數據庫和數據庫表 3，數據庫管理系統和數據庫系統三，主流數據庫介紹四，數據庫的兩大類型 1，關系型數據庫主鍵外鍵 2…

閱讀更多...

73頁最佳實踐PPT《DeepSeek自學手冊-從理論模型訓練到實踐模型應用》

73頁最佳實踐PPT《DeepSeek自學手冊-從理論模型訓練到實踐模型應用》

這份文檔是一份關于 DeepSeek 自學手冊的詳細指南，涵蓋了 DeepSeek V3 和 R1 模型的架構、訓練方法、性能表現以及使用技巧等內容。它介紹了 DeepSeek V3 作為強大的 MoE 語言模型在數學、代碼等任務上的出色表現以及其訓練過程中的創新架構如多頭潛在注意力和多 To…

閱讀更多...

LabVIEW 2019 與 NI VISA 20.0 安裝及報錯處理

LabVIEW 2019 與 NI VISA 20.0 安裝及報錯處理

在使用 Windows 11 操作系統的電腦上，同時安裝了 LabVIEW 2019 32 位和 64 位版本的軟件。此前安裝的 NI VISA 2024 Q1 版，該版本與 LabVIEW 2019 32 位和 64 位不兼容，之后重新安裝了 NI VISA 20.0。從說明書來看，NI VISA 20.0 …

閱讀更多...

基于Centos7的DHCP服務器搭建

基于Centos7的DHCP服務器搭建

一、準備實驗環境： 克隆兩臺虛擬機一臺作服務器：DHCP Server 一臺作客戶端：DHCP Clinet 二、部署服務器在網絡模式為NAT下使用yum下載DHCP 需要管理員用戶權限才能下載，下載好后關閉客戶端，改NAT模式為僅主機模式…

閱讀更多...

最全盤點，趕緊收藏：2025 年全網最全的 Java 技術棧內容梳理（持續更新中）

最全盤點，趕緊收藏：2025 年全網最全的 Java 技術棧內容梳理（持續更新中）

大家好，我是栗箏i，是一個擁有 5 年經驗的 Java 開發工程師和技術博主，曾有多年在國內某大廠工作的經歷。從 2022 年 10 月份開始，我將持續梳理出全面的 Java 技術棧內容，一方面是對自己學習內容進行整合梳理&#xff0…

閱讀更多...

【項目實踐】boost 搜索引擎

【項目實踐】boost 搜索引擎

1. 項目展示 boost搜索引擎具體講解視頻 2. 項目背景對于boost庫，官方是沒有提供搜索功能的，我們這個項目就是來為它添加一個站內搜索的功能。 3. 項目環境與技術棧 ? 項目環境： ubuntu22.04、vscode ? 技術棧： C/C、C11、S…

閱讀更多...

一個簡單的MCP測試與debug

一個簡單的MCP測試與debug

最近MCP挺火，我也跟著網上教程試試，參考如下，感謝原博主分享： https://zhuanlan.zhihu.com/p/1891227835722606201https://zhuanlan.zhihu.com/p/1891227835722606201 MCP是啥？技術原理是什么？一個視頻搞…

閱讀更多...

最新文章