記一次某制造業ERP系統 CPU打爆事故分析

一:背景

1.講故事

前些天有位朋友微信找到我,說他的程序出現了CPU階段性爆高,過了一會就下去了,咨詢下這個爆高階段程序內部到底發生了什么?畫個圖大概是下面這樣,你懂的。

30e560de84427a607dca00bc25df9185.png

按經驗來說,這種情況一般是程序在做 CPU 密集型運算,所以讓朋友在 CPU 高的時候間隔 5~10s 抓兩個 dump 下來,然后就是用 WinDbg 分析。

二:WinDbg 分析

1. CPU 真的爆高嗎

耳聽為虛,眼見為實,我們用 !tp 觀察下當前的CPU情況。

0:000>?!tp
CPU?utilization:?100%
Worker?Thread:?Total:?16?Running:?2?Idle:?14?MaxLimit:?32767?MinLimit:?2
Work?Request?in?Queue:?0
--------------------------------------
Number?of?Timers:?2
--------------------------------------
Completion?Port?Thread:Total:?2?Free:?2?MaxFree:?4?CurrentLimit:?2?MaxLimit:?1000?MinLimit:?2

果不其然,CPU直接打滿,接下來就是看看當前有幾個CPU邏輯核,這么不夠扛。。。

0:000>?!cpuid
CP??F/M/S??Manufacturer?????MHz0??6,106,6??<unavailable>???27001??6,106,6??<unavailable>???2700

我去,一個生產環境居然只有兩個核。。。果然這大環境下公司活著都不夠滋潤。

2. 到底是誰引發的

既然是階段性爆高,最簡單粗暴的就是看下各個線程棧,使用 ~*e !clrstack 命令即可,因為只有兩核,所以理論上兩個線程就可以把 CPU 干趴下,掃了一下線程棧,果然有對號入座的,輸出信息如下:

0:000>?~*e?!clrstack?
OS?Thread?Id:?0x146c?(42)Child?SP???????????????IP?Call?Site
00000089abcfca18?00007ffc4baffdb4?[InlinedCallFrame:?00000089abcfca18]?System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfca18?00007ffbdd4a7a48?[InlinedCallFrame:?00000089abcfca18]?System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfc9f0?00007ffbdd4a7a48?DomainNeutralILStubClass.IL_STUB_PInvoke(System.Runtime.InteropServices.HandleRef)
00000089abcfcaa0?00007ffbdd52ad0a?System.Drawing.SafeNativeMethods+Gdip.GdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfcae0?00007ffbdd52ac3f?System.Drawing.Image.Dispose(Boolean)
00000089abcfcb30?00007ffbdd556b5a?System.Drawing.Image.Dispose()
00000089abcfcb60?00007ffbe39397c7?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089abcfcc00?00007ffbe3939654?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089abcfcd30?00007ffbe39382e1?NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet,?Int32,?Boolean)
00000089abcfcdc0?00007ffbe39380bc?NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32,?Boolean)
...OS?Thread?Id:?0x1c8c?(46)Child?SP???????????????IP?Call?Site
00000089ad43dba8?00007ffc4baffdb4?[InlinedCallFrame:?00000089ad43dba8]?System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43dba8?00007ffbdd4a7a48?[InlinedCallFrame:?00000089ad43dba8]?System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43db80?00007ffbdd4a7a48?DomainNeutralILStubClass.IL_STUB_PInvoke(System.Runtime.InteropServices.HandleRef)
00000089ad43dc30?00007ffbdd52ad0a?System.Drawing.SafeNativeMethods+Gdip.GdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43dc70?00007ffbdd52ac3f?System.Drawing.Image.Dispose(Boolean)
00000089ad43dcc0?00007ffbdd556b5a?System.Drawing.Image.Dispose()
00000089ad43dcf0?00007ffbe39397c7?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089ad43dd90?00007ffbe3939654?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089ad43dec0?00007ffbe39382e1?NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet,?Int32,?Boolean)
00000089ad43df50?00007ffbe39380bc?NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32,?Boolean)
...
00000089ad43e460?00007ffbe115b193?System.Web.Mvc.ControllerActionInvoker.InvokeActionMethod(System.Web.Mvc.ControllerContext,?System.Web.Mvc.ActionDescriptor,?System.Collections.Generic.IDictionary`2<System.String,System.Object>)
...
00000089abcfd310?00007ffbe115b147?System.Web.Mvc.Async.AsyncControllerActionInvoker+c.b__9_0(System.IAsyncResult,?ActionInvocation)
...

有些朋友要問了,你是怎么確定就是這兩個線程呢?其實有兩個方法可以驗證。

  1. 使用 !whttp 看http請求

既然是 web 請求,自然就可以拿到里面的 HttpContext,這里面記錄著當前請求的運行時間,這個信息非常重要,截圖如下:

6ad0314921624c2bc95b7fd37b6ba865.png

從圖中可以看到,有兩個 xxxx/Export 請求運行時間非常高,一個是 4min30s ,一個是 50s ,剛好落在了 4246 號線程上。

  1. 借助第二個 dump 文件

這就是為什么要抓二個dump的原因了,因為另一個dump會給我們相當有價值的對比信息,同樣使用 !whttp 驗證。

c7e39d4754631094c49f6195ae21d761.png

接下來我們就要調研為什么這兩個線程會運行這么久?

3. 為什么會運行這么久

既然是 Export 導出文件,第一時間就應該想到是不是和數據量有關?通過線程棧上的方法,發現是一個List 集合,接下來用 !dso 命令找出來看看。

0:042>?!dso
OS?Thread?Id:?0x146c?(42)
RSP/REG??????????Object???????????Name
00000089ABCFCAC8?0000020683b7c128?System.Drawing.Bitmap
00000089ABCFCAF8?0000020683b7c158?System.Drawing.Graphics
00000089ABCFCB10?0000020683b7c128?System.Drawing.Bitmap
00000089ABCFCB30?0000020683b7c128?System.Drawing.Bitmap
00000089ABCFCB40?0000020683b7c4d0?NPOI.XSSF.UserModel.XSSFCellStyle
00000089ABCFCB50?0000020683b7c198?NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCB68?0000020683b7c198?NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCBC0?0000020683b7c198?NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCBC8?0000020683b7c2e8?System.String[]
00000089ABCFCBD0?0000020683b7c360?System.Drawing.Font
00000089ABCFCDE8?0000020666501240?System.Collections.Generic.List`1[[System.Collections.Generic.List`1[[System.Object,?mscorlib]],?mscorlib]]
...0:042>?!do?0000020666501240
Name:????????System.Collections.Generic.List`1[[System.Collections.Generic.List`1[[System.Object,?mscorlib]],?mscorlib]]
MethodTable:?00007ffbde342440
EEClass:?????00007ffc36fc2af8
Size:????????40(0x28)?bytes
File:????????C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:MT????Field???Offset?????????????????Type?VT?????Attr????????????Value?Name
00007ffc36e4e250??40018a0????????8?????System.__Canon[]??0?instance?00000207658592d8?_items
00007ffc36e385a0??40018a1???????18?????????System.Int32??1?instance????????????44906?_size
00007ffc36e385a0??40018a2???????1c?????????System.Int32??1?instance????????????44906?_version
00007ffc36e35dd8??40018a3???????10????????System.Object??0?instance?0000000000000000?_syncRoot
00007ffc36e4e250??40018a4????????0?????System.__Canon[]??0???shared???????????static?_emptyArray>>?Domain:Value?dynamic?statics?NYI?0000020563eec3c0:NotInit?dynamic?statics?NYI?0000020795f5b9a0:NotInit??<<

可以清楚的看到,這個list高達 4.5w,這個量級說多也不多,說少也不少,言外之意就是代碼寫的也不好不到哪里去。

4. 用戶代碼要承擔責任嗎

要判斷用戶代碼是不是很爛,除了白盒看代碼,也可以黑盒觀察這幾個線程棧,可以發現兩個dump 顯示的棧信息都和 AutoSizeColumn 方法有關。

00000089abcfcae0?00007ffbdd52ac3f?System.Drawing.Image.Dispose(Boolean)
00000089abcfcb30?00007ffbdd556b5a?System.Drawing.Image.Dispose()
00000089abcfcb60?00007ffbe39397c7?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089abcfcc00?00007ffbe3939654?NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell,?Int32,?NPOI.SS.UserModel.DataFormatter,?Boolean)
00000089abcfcd30?00007ffbe39382e1?NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet,?Int32,?Boolean)
00000089abcfcdc0?00007ffbe39380bc?NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32,?Boolean)

從名字看是 NOPI 提供的自動調整列寬 的方法,那是不是這個方法的單次性能很慢呢?要尋找答案,只能求助百度啦。。。

  • 圖一dd61e06d0fb9c5867b28411ce0cf4d9b.png

  • 圖二bd00ba112fa574b1c65661bca77f65d7.png

到這里我們基本就搞清楚了,導致 reqeust 高達 5min + 的誘因大概有三個。

  1. 數據量大

  2. AutoSizeColumn 速度慢

  3. 代碼上的其他因素

跟朋友溝通后,朋友說這塊請求中的 AutoSizeColumn 方法忘了改掉。

三:總結

這個 Dump 分析起來其實非常簡單,思路也比較明朗,重點還是提醒一下大家慎用 NPOI 的 AutoSizeColumn 方法,弄不好就得出個生產事故!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/282044.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/282044.shtml
英文地址,請注明出處:http://en.pswp.cn/news/282044.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PC端和移動APP端CSS樣式初始化

CSS樣式初始化分為PC端和移動APP端 1.PC端&#xff1a;使用Normalize.css Normalize.css是一種CSS reset的替代方案。 我們創造normalize.css有下面這幾個目的&#xff1a; 保護有用的瀏覽器默認樣式而不是完全去掉它們一般化的樣式&#xff1a;為大部分HTML元素提供修復瀏覽器…

FPGA浮點數定點化

因為在普通的fpga芯片里面&#xff0c;寄存器只可以表示無符號型&#xff0c;不可以表示小數&#xff0c;所以在計算比較精確的數值時&#xff0c;就需要做一些處理&#xff0c;不過在altera在Arria 10 中增加了硬核浮點DSP模塊&#xff0c;這樣更加適合硬件加速和做一些比較精…

框架實現修改功能的原理_JAVA集合框架的特點及實現原理簡介

1.集合框架總體架構集合大致分為Set、List、Queue、Map四種體系,其中List,Set,Queue繼承自Collection接口&#xff0c;Map為獨立接口Set的實現類有:HashSet&#xff0c;LinkedHashSet&#xff0c;TreeSet...List下有ArrayList&#xff0c;Vector&#xff0c;LinkedList...Map下…

NPM報錯終極大法

2019獨角獸企業重金招聘Python工程師標準>>> 所有的錯誤基本上都跟node的版本相關 直接刪除系統中的node 重新安裝 sudo rm -rf /usr/local/{bin/{node,npm},lib/node_modules/npm,lib/node,share/man/*/node.*} 重新安裝 $ n lts $ npm install -g npm $ n stable…

自己使用的一個.NET輕量開發結構

三個文件夾&#xff0c;第一個是放置前端部分&#xff0c;第二個是各種支持的類文件&#xff0c;第三個是單元測試文件。Core文件類庫放置的是與數據庫做交互的文件&#xff0c;以及一些第三方類庫&#xff0c;還有與數據庫連接的文件1.Lasy.Validator是一個基于Attribute驗證器…

英語影視臺詞---八、the shawshank redemption

英語影視臺詞---八、the shawshank redemption 一、總結 一句話總結&#xff1a;肖申克的救贖 1、Its funny. On the outside, I was an honest man. Straight as an arrow. I had to come to prison to be a crook.&#xff1f; 這很有趣。 在外面&#xff0c;我是一個誠實的人…

10.python網絡編程(socket server 實現并發 part 2)

一、基于tcp的socket通信的基本原理分析。基于tcp的socket通信&#xff0c;主要依靠兩個循環&#xff0c;分別是連接循環和通信循環。這個前面的文章有寫過&#xff0c;在這里就不再重復了。二、socketserver實現多并發的原理分析。1.server類&#xff1a;2.reques類。類繼承關…

如何在一小時內更新100篇文章?-Evernote Sync插件介紹

上一篇“手把手教你制作微信小程序&#xff0c;開源、免費、快速搞定”&#xff0c;已經教會你如何快速制作一個小程序&#xff0c;但作為資訊類小程序&#xff0c;內容不可少&#xff0c;并且還需要及時更新。 但是&#xff0c;如果讓你復制粘貼&#xff0c;可能還需要上傳圖片…

linux awk

grep 文本過濾器sed 流編輯器awk 報告生成器 格式化以后顯示awk [option] PATTERN {action} file1 file2awk -F"|" BEGIN{OFS":"} {print $1,$2,$3} test.txt #文本字符串用雙引號awk -F"|" BEGIN{OFS":"} {print $1,"jksong&quo…

iOS無線真機調試

為什么80%的碼農都做不了架構師&#xff1f;>>> Xcode從9開始 就支持無線真機調試&#xff0c;那么怎么操作呢&#xff1f; 首先用數據線連接你的設備&#xff0c;接下來Xcode- Window-Devices and Simulators 點開之后看到你的設備 默認情況下Connect via networ…

Mybatis中jdbcType和javaType的對應關系

2019獨角獸企業重金招聘Python工程師標準>>> Mybatis中jdbcType和javaType的對應關系 1 JDBC Type Java Type 2 CHAR String 3 VARCHAR String 4 LONGVARCHAR String 5 NUMERIC java.math.…

java貪吃蛇

使用雙向鏈表實現貪吃蛇程序 1.鏈表節點定義&#xff1a; package snake;public class SnakeNode {private int x;private int y;private SnakeNode next;private SnakeNode ahead;public SnakeNode() {}public SnakeNode(int x, int y) {super();this.x x;this.y y;}public …

【死磕 Spring】----- IOC 之解析 bean 標簽:解析自定義標簽

前面四篇文章都是分析 Bean 默認標簽的解析過程&#xff0c;包括基本屬性、六個子元素&#xff08;meta、lookup-method、replaced-method、constructor-arg、property、qualifier&#xff09;&#xff0c;涉及內容較多&#xff0c;拆分成了四篇文章&#xff0c;導致我們已經忘…

Codeigniter 4.0-dev 版源碼學習筆記之四——詳細路由過程

前言 我個人覺得在當前 MVC 流行的架構下&#xff0c;要想去了解一個框架&#xff0c;或者是一個基于此架構下的應用程序&#xff0c;最好的入手方式就是先看路由&#xff0c;雖然路由不是 MVC 里的任何一個&#xff0c;但是知道了路由的來龍去脈就知道了整個框架或者是應用的結…

固態硬盤和機械硬盤的比較和SQLSERVER在兩種硬盤上的性能差異

聽說固態硬盤是高富帥的必備神器&#xff0c;本人為了提升工作效率和提高工作速度 這個月節衣縮食&#xff0c;終于也決定買了一塊三星固態硬盤120G容量 這個固態硬盤拿在手里輕飄飄的&#xff0c; 好像里面什么東西都沒有似的 廢話少說&#xff0c;先上圖 開機速度20秒左右 測…

大文件讀寫效率比較

之前做到一個大日志文件&#xff08;size > 1G&#xff09;解析的項目&#xff0c;在此記錄下對于大文本解析方式的效率比較。不同方式的性能差別很大&#xff0c;那個項目的日志解析時間能從原來的超過36小時優化到只需要2分鐘&#xff0c;awk功不可沒。 bash 比較 bash腳本…

python裝飾器執行順序

2019獨角獸企業重金招聘Python工程師標準>>> 1、單個裝飾器執行 上來先看代碼&#xff1a; import timedef deco(func):functools.wraps(func)def _wrapper():startTime time.time()print "start"func()print "end"endTime time.time()msecs …

tomcat限制用域名訪問 禁止 ip訪問

有時候會遇到服務器網站。只可以通過域名訪問。而不允許ip訪問。防止域名惡意解析&#xff0c;tomcat可以實現這個簡單功能。1&#xff0c;禁止ip訪問項目 2&#xff0c;只允許綁定域名訪問環境&#xff1a;tomcat7 外網地址&#xff1a;114.113.100.166 域名&#xff1a;bi…

Object關于屬性property的靜態方法

Object.defineProperty Object.defineProperty(obj, prop, { value: undefined, enumerable: true, writable:true, get: function() {return value}, set: function(newValue) {value newValue;} }) 當時配置了set和get時&#xff0c;則不能配置value。 Object.getOwnPropert…