1.集群配置
操作系統:SuSe操作系統
集群節點:100臺相同配置的服務器
單臺:核心112Core,內存396G
2.問題現象
現象1:跑單個入庫任務報錯,批量提交任務后出現OOM異常
執行12個hivesql,將數據寫入hbase.hbase入庫有近一半的任務報錯。
每次報錯的任務不是同一個,hivesql任務分為2個階段:
第1個階段是hive自處理階段,底層是spark計算引擎。出現oom,無法開啟新的本地線程
第2階段是以parquet格式生成Hfile寫入hbase,出現如下報錯:
OutOfMemoryError: unable to create new native thread異常
現象2:報錯 Container [pid=XXX,containerID=container_1XXX] is running beyond virtual memory limits
以及 spark.deploy.yarn.ApplicationMaster: received term signal
3.問題分析
3.1 OOM異常分析
OutOfMemoryError: unable to create new native thread異常,一般是因