Spark(二): 內存管理

2019獨角獸企業重金招聘Python工程師標準>>> hot3.png

Spark 作為一個以擅長內存計算為優勢的計算引擎,內存管理方案是其非常重要的模塊; Spark的內存可以大體歸為兩類:execution和storage,前者包括shuffles、joins、sorts和aggregations所需內存,后者包括cache和節點間數據傳輸所需內存;在Spark 1.5和之前版本里,兩者是靜態配置的,不支持借用,spark1.6 對內存管理模塊進行了優化,通過內存空間的融合,消除以上限制,提供更好的性能。官方網站只是要求內存在8GB之上即可(Impala推薦要求機器配置在128GB), 但spark job運行效率主要取決于:數據量大小,內存消耗,內核數(確定并發運行的task數量)

目錄:

  • ?基礎知識
  • spark1.5- 內存管理
  • spark1.6 內存管理

基本知識:

  • on-heap memory:Java中分配的非空對象都是由Java虛擬機的垃圾收集器管理的,也稱為堆內內存。虛擬機會定期對垃圾內存進行回收,在某些特定的時間點,它會進行一次徹底的回收(full gc)。徹底回收時,垃圾收集器會對所有分配的堆內內存進行完整的掃描,這意味著一個重要的事實——這樣一次垃圾收集對Java應用造成的影響,跟堆的大小是成正比的。過大的堆會影響Java應用的性能
  • off-heap memory:堆外內存意味著把內存對象分配在Java虛擬機的堆以外的內存,這些內存直接受操作系統管理(而不是虛擬機)。這樣做的結果就是能保持一個較小的堆,以減少垃圾收集對應用的影響
  • LRU Cache(Least Recently Used):LRU可以說是一種算法,也可以算是一種原則,用來判斷如何從Cache中清除對象,而LRU就是“近期最少使用”原則,當Cache溢出時,最近最少使用的對象將被從Cache中清除
  • spark 源碼: https://github.com/apache/spark/releases
  • scale?ide for Intellij?: http://plugins.jetbrains.com/plugin/?id=1347

Spark1.5- 內存管理:

  • 1.6 版本引入了新的內存管理方案,配置參數: spark.memory.useLegacyMode 默認 false 表示使用新方案,true 表示使用舊方案, SparkEnv.scala?源碼?如下圖:
  • ?
  • 在staticMemoryManager.scala 類中查看構造類及內存獲取定義
  • ??????
  • 通過代碼推斷,若設置了 spark.testing.memory 則以該配置的值作為 systemMaxMemory,否則使用 JVM 最大內存作為 systemMaxMemory。
  • spark.testing.memory 僅用于測試,一般不設置,所以這里我們認為 systemMaxMemory 的值就是 executor 的最大可用內存
  • Execution:用于緩存shuffle、join、sort和aggregation的臨時數據,通過spark.shuffle.memoryFraction配置
  • spark.shuffle.memoryFraction:shuffle 期間占 executor 運行時內存的百分比,用小數表示。在任何時候,用于 shuffle 的內存總 size 不得超過這個限制,超出部分會 spill 到磁盤。如果經常 spill,考慮調大參數值
  • spark.shuffle.safetyFraction:為防止 OOM,不能把 systemMaxMemory * spark.shuffle.memoryFraction 全用了,需要有個安全百分比
  • 最終用于 execution 的內存量為:executor 最大可用內存* spark.shuffle.memoryFraction*spark.shuffle.safetyFraction,默認為 executor 最大可用內存 * 0.16
  • execution內存被分配給JVM里的多個task線程。
  • task間的execution內存分配是動態的,如果沒有其他tasks存在,Spark允許一個task占用所有可用execution內存
  • storage內存分配分析過程與 Execution 一致,由上面的代碼得出,用于storage 的內存量為: executor 最大可用內存 *?spark.storage.memoryFraction *?spark.storage.safetyFraction,默認為 executor 最大可用內存 * 0.54
  • 在 storage 中,有一部分內存是給 unroll 使用的,unroll 即反序列化 block,該部分占比由 spark.storage.unrollFraction 控制,默認為0.2
  • 通過代碼分析,storage 和 execution 總共使用了 80% 的內存,剩余 20% 內存被系統保留了,用來存儲運行中產生的對象,該類型內存不可控.

小結:

  • 這種內存管理方式的缺陷,即 execution 和 storage 內存表態分配,即使在一方內存不夠用而另一方內存空閑的情況下也不能共享,造成內存浪費,為解決這一問題,spark1.6 啟用新的內存管理方案UnifiedMemoryManager
  • staticMemoryManager- jvm 堆內存分配圖如下

?

Spark1.6 內存管理:

  • 從spark1.6開始,引入了新的內存管理方式-----統一內存管理(UnifiedMemoryManager),在統一內存管理下,spark一個executor中的jvm heap內存被劃分成如下圖:

  • Reserved Memory,這一部分的內存是我們無法使用的部分,spark內部保留內存,會存儲一些spark的內部對象等內容。
  • spark1.6默認的Reserved Memory大小是300MB。這部分大小是不允許我們使用者改變的。簡單點說就是我們在為executor申請內存后,有300MB是我們無法使用的。并且如果我們申請的executor的大小小于1.5 * Reserved Memory 即 < 450MB,spark會報錯:
  • User Memory:用戶在程序中創建的對象存儲等一系列非spark管理的內存開銷都占用這一部分內存
  • Spark Memory:該部分大小為 (JVM Heap Size - Reserved Memory) * spark.memory.fraction,其中的spark.memory.fraction可以是我們配置的(默認0.75),如下圖:
  • 如果spark.memory.fraction配小了,我們的spark task在執行時產生數據時,包括我們在做cache時就很可能出現經常因為這部分內存不足的情況而產生spill到disk的情況,影響效率。采用官方推薦默認配置
  • Spark Memory這一塊有被分成了兩個部分,Execution Memory 和 Storage Memory,這通過spark.memory.storageFraction來配置兩塊各占的大小(默認0.5,一邊一半),如圖:
  • Storage Memory主要用來存儲我們cache的數據和臨時空間序列化時unroll的數據,以及broadcast變量cache級別存儲的內容
  • Execution Memory則是spark Task執行時使用的內存(比如shuffle時排序就需要大量的內存)
  • 為了提高內存利用率,spark針對Storage Memory 和 Execution Memory有如下策略:
    1. 一方空閑,一方內存不足情況下,內存不足一方可以向空閑一方借用內存
    2. 只有Execution Memory可以強制拿回Storage Memory在Execution Memory空閑時,借用的Execution Memory的部分內存(如果因強制取回,而Storage Memory數據丟失,重新計算即可)
    3. 如果Storage Memory只能等待Execution Memory主動釋放占用的Storage Memory空閑時的內存。(這里不強制取回,因為如果task執行,數據丟失就會導致task 失敗)

?

轉載于:https://my.oschina.net/hblt147/blog/1571528

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/540286.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/540286.shtml
英文地址,請注明出處:http://en.pswp.cn/news/540286.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[轉載] 手把手教你整合最優雅SSM框架:SpringMVC + Spring + MyBatis

參考鏈接&#xff1a; Java繼承類的對象創建 本文發表于2016年6月&#xff0c;寫于作者學生時期。文中使用到的技術和框架可能不是當下最佳實踐&#xff0c;甚至很不“優雅”。但對于剛接觸JavaEE和Spring的同學來說&#xff0c;還是能有很多收獲的&#xff0c;大牛輕拍 我們…

多播、組播、廣播優缺點分析

2019獨角獸企業重金招聘Python工程師標準>>> 單播、多播和廣播單播”&#xff08;Unicast&#xff09;、“多播”&#xff08;Multicast&#xff09;和“廣播”&#xff08;Broadcast&#xff09;這三個術語都是用來描述網絡節點之間通訊方式的術語。那么這些術語究…

[轉載] Java重載、覆蓋與構造函數

參考鏈接&#xff1a; Java中的繼承和構造函數 /** * 拷貝構造函數---Copyf t2 new Copyf(t1);就不會在調用默認構造函數了。 * 復制clone和引用 * 重載是在同一個類&#xff08;范圍&#xff09;中&#xff0c;覆蓋是子類對父類而言。 重載不關心返回值類型。 靜態方法不能被…

LOFTERD18B542F16FF685FD684F427B4…

2019獨角獸企業重金招聘Python工程師標準>>> 驗證 轉載于:https://my.oschina.net/jinhengyu/blog/1572124

[轉載] Java獲取一個類繼承的父類或者實現的接口的泛型參數

參考鏈接&#xff1a; Java中的接口和繼承 泛型的作用就不多介紹了&#xff0c;如果你想具備架構設計能力&#xff0c;那么熟練使用泛型是必不可少的。 不多說了&#xff0c;先定義泛型父類和泛型接口&#xff1a; package cn.zhh; public class Parent<T1, T2> { …

PHP系列(一)PHP流程控制結構

while(){} do{ }while(); for( 表達式1; 表達式2;表達式3 ){ 語句或語句序列; } if(){} if(){ }elseif{} <?php $i0; while(true) { if($i>100) break; echo ".$i.<br>"; $i; } ?> <?php echo "<table border1800>"; echo &quo…

[轉載] Scala繼承與Java的區別

參考鏈接&#xff1a; Java中將final與繼承一起使用 在之前的筆記Java靜態屬性和方法的繼承問題中&#xff0c;通過具體的實驗證明&#xff0c;在子類中重寫父類的字段時并沒有覆蓋父類的字段&#xff0c;只是隱藏了父類的字段。而在scala中則不同&#xff0c;scala子類的同名…

Source Map調試壓縮后代碼

在前端開發過程中&#xff0c;無論是樣式還是腳本&#xff0c;運行時的文件可能是壓縮后的&#xff0c;那這個時候調試起來就很麻煩。 這個時候&#xff0c;可以使用Source Map文件來優化調試&#xff0c;Source Map是一個信息文件&#xff0c;里面儲存著原代碼位置信息&#x…

[轉載] Python3十大經典錯誤及解決辦法

參考鏈接&#xff1a; Python中的關鍵字2 ◆ ◆ ◆ ◆ ◆ 接觸了很多Python愛好者&#xff0c;有初學者&#xff0c;亦有轉行人。不論大家學習Python的目的是什么&#xff0c;總之&#xff0c;學習Python前期寫出來的代碼不報錯就是極好的。下面&#xff0c;嚴小樣兒為大家羅…

兩臺電腦間大量數據拷貝的快捷方法

可能大家會遇到需要將一臺電腦里的數據拷貝到另外一臺電腦&#xff0c;最常用的方法是用u盤或移動硬盤等存儲設備來拷貝&#xff0c;這樣速度慢&#xff0c;而且可能拷貝多次才能將數據拷貝完。現提供一種方法&#xff0c;就是通過windows 的文件共享來實現。通過千兆網線直接連…

[轉載] 使用 Web 標準生成 ASP.NET 2.0 Web 站點

參考鏈接&#xff1a; 使用super訪問Java祖父母的成員 Stephen WaltherSuperExpert.com 適用于&#xff1a; Microsoft ASP.NET 2.0 (Beta 2) Microsoft Visual Studio .NET 2005 Microsoft Visual Web Developer 摘要&#xff1a; Microsoft ASP.NET 2.0 具有很多有用的功能…

Office快捷鍵大全之三(Access快捷鍵下篇)

向下鍵 向某幫助主題的末尾滾動 Page Up 以較大增量向某幫助主題的開頭滾動 Page Down 以較大增量向某幫助主題的末尾滾動 Home 移到某幫助主題的開頭 End 移到某幫助主題的末尾 CtrlP 打印當前幫助主題 CtrlA 選定整個幫助主題 CtrlC 將選定項復制到"剪貼…

[轉載] 如何在Android設備之間共享Google Play應用,音樂等

參考鏈接&#xff1a; 使用super訪問Java祖父母的成員 We recently showed you how to configure your iOS devices for app and media sharing; more than a few people wrote in asking how to do the same thing with Google Play purchases. Read on as we dig into how t…

linux 高性能讀書筆記之通用socket地址

####socket網絡編程接口 socket的地址是結構體sockaddr 代碼如下 struct sockaddr{ sa_family_t sa_family; char sa_data[14]; } sa_family 成員是地址族類型&#xff08;sa_family_t)變量。地址族類型通常與協議族類型對應 1.二者對應表 協議族地址表描述PF_UNIXAF_UNIXUNIX本…

[轉載] JAVA面向對象之代碼塊 繼承 方法的重寫 super關鍵字與重寫toString()方法介紹

參考鏈接&#xff1a; 可以重寫Java中的私有方法嗎 JAVA面向對象之代碼塊與繼承 代碼塊分類 局部代碼塊 作用:限制變量生命周期 書寫位置:在方法中 構造代碼塊 開發中很少使用 書寫位置:類中 方法外 調用時機:如果你有構造代碼塊 系統會幫你調用 幫你在創建對象…

struts2中s:select標簽的使用

轉自&#xff1a;https://www.cnblogs.com/Sara-shi/archive/2013/03/13/struts2_select.html 1 靜態生成 <s:select name"user.sex" list"#{0:男,1:女}" label"性別" headerKey"" headerValue"請選擇性別"></s:se…

[轉載] JAVA面試題大全(part_1)

參考鏈接&#xff1a; 對Java中派生類方法更嚴格的訪問 JAVA面試題大全(part_1) 1、面向對象的特征有哪些方面 (1)抽象&#xff1a; 抽象就是忽略一個主題中與當前目標無關的那些方面&#xff0c;以便更充分地注意與當前目標有關的方面。抽象并不打算了解全部問題&#xf…

使用mysqladmin命令修改MySQL密碼與忘記密碼

修改密碼&#xff1a; 1.例如你的 root用戶現在沒有密碼&#xff0c;你希望的密碼修改為123456&#xff0c;那么命令是&#xff1a; mysqladmin -u root password 123456 2.如果你的root現在有密碼了&#xff08;123456&#xff09;&#xff0c;那么修改密碼為abcdef的命令是&a…

[轉載] java面試100問+參考答案

參考鏈接&#xff1a; 對Java中派生類方法更嚴格的訪問 1、面向對象的特征有哪些方面 (1).抽象&#xff1a; 抽象就是忽略一個主題中與當前目標無關的那些方面&#xff0c;以便更充分地注意與當前目標有關的方面。抽象并不打算了解全部問題&#xff0c;而只是選擇其中的…

工作所用的模塊回滾腳本

俗話說的好&#xff1a;“真男人從來不回滾”&#xff0c;但是家中常備一個回滾腳本也是很有必要的&#xff0c;我所在公司的服務器模塊名都是在初始化的時候寫進/etc/role_install這個文件里&#xff0c;如下圖的這個服務器就是fss服務器&#xff1a; 再比如下面這個服務器&am…