數倉開發那些事(11)

某神州優秀員工:一閃,領導說要給我漲米。

一閃:。。。。(著急的團團轉)


老運維:Oi,兩個吊毛,看看你們的hadoop集群,健康度30分,怎么還在抽思謀克?
①Flink流作業(常駐任務,占用20個Container)
②Hive夜間ETL批處理(每日1次,需50個Container)
③Spark ML模型訓練(每周執行,需80個Container)
近期頻繁出現:
①Hive ETL超時3小時以上
②Spark任務因ExitCode: 143被YARN強制終止
③Flink作業反壓報警持續10分鐘/次
老員工:好像資源有點緊張啊。
一閃:豈止是有點緊張(收拾東西),我媽喊我回家吃飯了。
老員工:給你個表現的機會,快處理下。
一閃:肯定是資源調度器的問題,之前用的公平調度(Fair Scheduler)壓根沒配任務權重和任務最小資源保證,出問題不是遲早得事情嗎。Flink任務是常駐任務,持續占用20個Container,其他的批處理任務重疊得時候集群資源肯定不足了。spark報錯143就是外部關閉,說明是yarn殺任務釋放資源了。說到頭這不是你們運維應該優化嗎,怎么又找我們了。
老運維:快點處理下,等會請你們抽思謀克,紅色軟殼的。


(臥槽,是軟華子)
一閃:主要是想解決問題,和思謀克沒啥關系。
先看看幾個關鍵的參數:
yarn.nodemanager.resource.cpu-vcores = -1;
yarn.nodemanager.resource.detect-hardware-capabilities = false;
一閃:快快快,第二個參數改成true。
這時候就會有小朋友問了,啊,第一個參數我知道,網上說都要改成物理機的實際核心數,你怎么要改下面那個啊?
莫慌,莫慌,hadoop.apache.org啟動(做什么事情都要先看官網,某度某AI都是耍流氓)
具體鏈接:https://hadoop.apache.org/docs/r3.3.4/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

所以可以看出來,如果你要改上面那個,那么還需要去確認真實的核心數,如果你有亂七八糟幾十臺機器....好像是有點恐怖的....所以我們直接把yarn.nodemanager.resource.detect-hardware-capabilities改成true。這樣yarn會以機器實際的核心數為準,而且你只要把配置文件分發到所有節點上就完整了集群的配置修改!

這里又要有小朋友問了,啊,那我改之前假如我的機器核心數是4核和16核,分別會有什么癥狀呢?


如果改參數之前核數只有4個,那么就是一個牛馬要干兩個牛馬的活,別看了說的就是你.....也就是CPU上下文切換頻率會和你的血壓一樣飆升....總而言之就是因為資源不足會導致很多問題。
如果改參數之前核數有16個,那么就是會有一半的資源在摸魚,機器數量越多浪費的資源也就越多,你也不想你摸魚的事情被老板知道吧...

說到這里有些小朋友就興致勃勃的去改配置了,但是,慢!
有些反應慢的小朋友就會問了,啊,那我的是k8s和docker,這也能用自檢查參數來獲取核數嗎?
老運維:搶答,在容器化部署的場景下,一定要關掉自檢查并顯示指定vcores,不然多半會超賣,然后歇菜。
一閃:吊毛搞了半天你知道啊,那你還讓我們看。
老運維:我只是讓你們幫忙分析下問題...又沒說不會優化。。
一閃:快請我一根思謀克。
老運維拿出了一盒扁了的硬云,說盒子已經被他捏軟了......

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/899657.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/899657.shtml
英文地址,請注明出處:http://en.pswp.cn/news/899657.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MyBatis Plus 中 update_time 字段自動填充失效的原因分析及解決方案

? MyBatis Plus 中 update_time 字段自動填充失效的原因分析及解決方案 前言一、問題現象二、原因分析1. 使用了 strictInsertFill/strictUpdateFill 導致更新失效2. 實體類注解配置錯誤3. MetaObjectHandler 未生效4. 使用自定義 SQL 導致自動填充失效5. 字段類型不匹配 三、…

C++ STL常用算法之常用算術生成算法

常用算術生成算法 學習目標: 掌握常用的算術生成算法 注意: 算術生成算法屬于小型算法&#xff0c;使用時包含的頭文件為 #include <numeric> 算法簡介: accumulate // 計算容器元素累計總和 fill // 向容器中添加元素 accumulate 功能描述: 計算區間內容器元素…

axios基礎入門教程

一、axios 簡介 axios 是一個基于 Promise 的 HTTP 客戶端&#xff0c;可用于瀏覽器和 Node.js 環境&#xff0c;支持以下特性&#xff1a; 發送 HTTP 請求&#xff08;GET/POST/PUT/DELETE 等&#xff09; 攔截請求和響應 自動轉換 JSON 數據 取消請求 并發請求處理 二…

短視頻團隊架構工作流程---2025.3.30 李劭卓

短視頻團隊架構&工作流程—2025.3.30 李劭卓 文章目錄 短視頻團隊架構&工作流程---2025.3.30 李劭卓1 工作職責1.1 編劇&#xff1a;1.2 主編&#xff1a;1.3 總編&#xff1a;1.4 導演&#xff1a;1.5 攝影&#xff1a;1.6 演員&#xff1a;1.7 后期&#xff1a;1.8 美…

MySQL 高效 SQL 使用技巧詳解

MySQL 高效 SQL 使用 技巧詳解 一、為什么需要優化 SQL&#xff1f; 性能瓶頸&#xff1a;慢查詢導致數據庫負載升高&#xff0c;響應時間延長。資源浪費&#xff1a;低效 SQL 可能占用大量 CPU、內存和磁盤 I/O。 目標&#xff1a;通過優化 SQL 將查詢性能提升 10 倍以上&am…

AI基礎03-視頻數據采集

上篇文章我們學習了圖片的數據采集&#xff0c;今天主要了解一下視頻數據采集的方法。視頻是由一系列圖像構成的&#xff0c;其中每一張圖片就是一幀。視頻數據采集方法通常有自動圖像采集和基于處理器的圖像采集兩種。我們學習一下如何利用python 工具和筆記本計算機攝像頭進行…

Scala 數組

Scala 數組 引言 Scala 作為一門多范式編程語言&#xff0c;融合了面向對象和函數式編程的特點。數組是編程語言中非常基礎和常見的數據結構&#xff0c;在 Scala 中也不例外。本文將詳細介紹 Scala 中的數組&#xff0c;包括其定義、操作以及在實際開發中的應用。 Scala 數…

Text-to-SQL將自然語言轉換為數據庫查詢語句

有關Text-To-SQL方法&#xff0c;可以查閱我的另一篇文章&#xff0c;Text-to-SQL方法研究 直接與數據庫對話-text2sql Text2sql就是把文本轉換為sql語言&#xff0c;這段時間公司有這方面的需求&#xff0c;調研了一下市面上text2sql的方法&#xff0c;比如阿里的Chat2DB,麻…

golang 的strconv包常用方法

目錄 1. 字符串與整數的轉換 2. 字符串與浮點數的轉換 3. 布爾值的轉換 4. 字符串的轉義 5. 補充&#xff1a;rune 類型的使用 方法功能詳解 代碼示例&#xff1a; 1. 字符串與整數的轉換 方法名稱功能描述示例Atoi將字符串轉換為十進制整數。strconv.Atoi("123&q…

MATLAB詳細圖文安裝教程(附安裝包)

前言 MATLAB&#xff08;Matrix Laboratory&#xff09;是由MathWorks公司開發的一款高性能的編程語言和交互式環境&#xff0c;主要用于數值計算、數據分析和算法開發。內置數學函數和工具箱豐富&#xff0c;開發效率高&#xff0c;特別適合矩陣運算和領域特定問題。接下來就…

ShapeCrawler:.NET開發者的PPTX操控魔法

引言 在當今的軟件開發領域&#xff0c;隨著數據可視化和信息展示需求的不斷增長&#xff0c;處理 PPTX 文件的場景日益頻繁。無論是自動化生成報告、批量制作演示文稿&#xff0c;還是對現有 PPT 進行內容更新與格式調整&#xff0c;開發者都需要高效的工具來完成這些任務。傳…

HTML5貪吃蛇游戲開發經驗分享

HTML5貪吃蛇游戲開發經驗分享 這里寫目錄標題 HTML5貪吃蛇游戲開發經驗分享項目介紹技術棧核心功能實現1. 游戲初始化2. 蛇的移動控制3. 碰撞檢測4. 食物生成 開發心得項目收獲后續優化方向結語 項目介紹 在這個項目中&#xff0c;我使用HTML5 Canvas和原生JavaScript實現了一…

有關pip與conda的介紹

Conda vs. Pip vs. Virtualenv 命令對比 任務Conda 命令Pip 命令Virtualenv 命令安裝包conda install $PACKAGE_NAMEpip install $PACKAGE_NAMEX更新包conda update --name $ENVIRONMENT_NAME $PACKAGE_NAMEpip install --upgrade $PACKAGE_NAMEX更新包管理器conda update con…

【Linux】調試器——gdb使用

目錄 一、預備知識 二、常用指令 三、調試技巧 &#xff08;一&#xff09;監視變量的變化指令 watch &#xff08;二&#xff09;更改指定變量的值 set var 正文 一、預備知識 程序的發布形式有兩種&#xff0c;debug和release模式&#xff0c;Linux gcc/g出來的二進制…

【Ubuntu常用命令】

1.將本地服務器文件或文件夾傳輸到遠程服務器 文件 scp /data/a.txt administrator10.60.51.20:/home/administrator/ 文件夾 scp -r /data/ administrator10.60.51.20:/home/administrator/ 2.從遠程服務器傳輸文件到本地服務器 scp administrator10.60.51.20:/data/a.txt /h…

golang 的time包的常用方法

目錄 time 包方法總結 類型 time.Time 的方法 庫函數 代碼示例&#xff1a; time 包方法總結 類型 time.Time 的方法 方法名描述示例               ?Now()獲取當前時間和日期time.Now()Format()格式化時間為字符串time.Now().Format("2006-01-02 15…

Elasticsearch:使用 Azure AI 文檔智能解析 PDF 文本和表格數據

作者&#xff1a;來自 Elastic James Williams 了解如何使用 Azure AI 文檔智能解析包含文本和表格數據的 PDF 文檔。 Azure AI 文檔智能是一個強大的工具&#xff0c;用于從 PDF 中提取結構化數據。它可以有效地提取文本和表格數據。提取的數據可以索引到 Elastic Cloud Serve…

【ArcGIS操作】ArcGIS 進行空間聚類分析

ArcGIS 是一個強大的地理信息系統&#xff08;GIS&#xff09;軟件&#xff0c;主要用于地理數據的存儲、分析、可視化和制圖 啟動 ArcMap 在 Windows 中&#xff0c;點擊“開始”菜單&#xff0c;找到 ArcGIS文件夾&#xff0c;然后點擊 ArcMap 添加數據 添加數據 - 點擊工具…

RabbitMQ消息相關

MQ的模式&#xff1a; 基本消息模式&#xff1a;一個生產者&#xff0c;一個消費者work模式&#xff1a;一個生產者&#xff0c;多個消費者訂閱模式&#xff1a; fanout廣播模式&#xff1a;在Fanout模式中&#xff0c;一條消息&#xff0c;會被所有訂閱的隊列都消費。 在廣播…

緩存使用紀要

一、本地緩存&#xff1a;Caffeine 1、簡介 Caffeine是一種高性能、高命中率、內存占用低的本地緩存庫&#xff0c;簡單來說它是 Guava Cache 的優化加強版&#xff0c;是當下最流行、最佳&#xff08;最優&#xff09;緩存框架。 Spring5 即將放棄掉 Guava Cache 作為緩存機…