.NET 材料檢測系統崩潰分析

Windbg 分析

1. 到底是哪里的崩潰

一直跟蹤我這個系列的朋友應該知道分析崩潰第一個命令就是?!analyze -v?,讓windbg幫我們自動化異常分析。


0:033> !analyze -v
CONTEXT:  (.ecxr)
rax=00000039cccff2d7 rbx=00000039c85fc2b0 rcx=00000039cccff2d8
rdx=0000000000000000 rsi=0000000000000000 rdi=00000039c85fbdc0
rip=00007ffb934b1199 rsp=00000039c85fc550 rbp=00000039c85fc5b8r8=0000000000000000  r9=00000039c85fce90 r10=0000000000000009
r11=0000000000000080 r12=0000000000000000 r13=00000039c85fdaf0
r14=00007ffb933d12b0 r15=0000022939e68440
iopl=0         nv up ei pl nz ac pe cy
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010211
clr!Frame::HasValidVTablePtr+0x2a:
00007ffb`934b1199 488b39          mov     rdi,qword ptr [rcx] ds:00000039`cccff2d8=????????????????
Resetting default scopeSTACK_TEXT:  
00000039`c85fc550 00007ffb`934b7107     : 00007ffb`933140d0 00007ffb`933140d0 00000000`00000000 00000000`00000000 : clr!Frame::HasValidVTablePtr+0x2a
00000039`c85fc600 00007ffb`933d3427     : 00000000`00000000 00000000`00000000 00007ffb`93c641e0 00007ffb`93c64c48 : clr!GCToEEInterface::GcScanRoots+0x2f2
00000039`c85fdac0 00007ffb`933d1843     : 00000000`00000000 00007ffb`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::mark_phase+0x197
00000039`c85fdb70 00007ffb`933d1762     : 00000000`00000001 00000039`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::gc1+0xa3
00000039`c85fdbd0 00007ffb`933d1539     : 00000000`00000001 00000000`00000000 00000229`00af0f88 00000000`00000000 : clr!WKS::gc_heap::garbage_collect+0x54c
00000039`c85fdc50 00007ffb`933d5f51     : 00000000`00000578 00007ffb`00000000 00000229`01ee5200 00000039`c85fdca0 : clr!WKS::GCHeap::GarbageCollectGeneration+0x10d
00000039`c85fdcb0 00007ffb`933d838c     : 00000229`01ee5288 00000000`00000030 00000229`2328ff18 00000229`2328ff18 : clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
00000039`c85fdcf0 00007ffb`9333a88b     : 00000000`00000030 00000000`00000008 00000000`00000000 00007ffb`00000000 : clr!WKS::GCHeap::Alloc+0x2a9
00000039`c85fdd50 00007ffb`9333a465     : ffffffc6`37a021c8 00000039`c85fded0 00000039`c85fde20 00000039`c85fdf00 : clr!SlowAllocateString+0x8b
...

從卦中的調用棧來看,有如下兩點信息:

  • GC 觸發了

上面的mark_phase表示當前 GC 正在標記階段,后面的GcScanRoots表示 GC正在線程棧上尋找根對象。

  • 崩潰點在 clr 中

看到崩潰在clr的?clr!Frame::HasValidVTablePtr?方法中真的有點不敢相信,從崩潰點的匯編代碼?rdi,qword ptr [rcx]?來看,貌似 rcx 沒有分配到物理內存,可以用?!address rcx?驗證下。


0:033> !address rcxUsage:                  Free
Base Address:           00000039`ccb00000
End Address:            00000039`cce00000
Region Size:            00000000`00300000 (   3.000 MB)
State:                  00010000          MEM_FREE
Protect:                00000001          PAGE_NOACCESS
Type:                   <info not present at the target>Content source: 0 (invalid), length: 1fbd28

尼瑪,真的好無語,這個rcx=00000039cccff2d8?所處的內存居然是一個 MEM_FREE,訪問它自然會拋異常,現在很迷茫的是這玩意是 GC 的內部邏輯,按理說不會有這種異常,難道是 CLR 自己的 bug 嗎?

三: 真的是 CLR 的 bug 嗎

1. 分析 CLR 源碼

要想尋找真相,就必須要理解崩潰處的 CLR 源碼了,這里拿coreclr做參考,首先從?clr!Frame::HasValidVTablePtr+2a?處說起,這個方法大概就是用來判斷 Frame 類的虛方法表指針是否有效,簡化后的代碼如下:


// static
bool Frame::HasValidVTablePtr(Frame * pFrame)
{TADDR vptr = pFrame->GetVTablePtr();if (vptr == HelperMethodFrame::GetMethodFrameVPtr())return true;if (vptr == DebuggerSecurityCodeMarkFrame::GetMethodFrameVPtr())return true;if (s_pFrameVTables->LookupValue(vptr, (LPVOID) vptr) == (LPVOID) INVALIDENTRY)return false;return true;
}

這里簡單說下什么是虛方法表,如果一個類通過各種渠道擁有了虛方法后,那這個類的第一個字段就是?虛方法表指針,這個指針所指向的虛方法表中存放著每個虛方法的入口地址,畫個圖大概是這樣。

有了這張圖再讓chatgpt寫一段C++代碼驗證下。


#include <iostream>using namespace std;// 父類
class Animal {
private:int age;
public:virtual void makeSound() {cout << "The animal makes a sound" << endl;}
};// 子類
class Cat : public Animal {
public:void makeSound() override {cout << "The cat meows" << endl;}
};int main() {// 使用父類指針指向子類對象,調用子類重寫的方法Animal* animal = new Cat();animal->makeSound(); // 輸出 "The cat meows"return 0;
}

上圖中的00219b60就是虛方法表指針,后面的0021100a就是虛方法地址了。

有了這些鋪墊之后,可以得知是在提取frame虛方法指針的時候,這個地址已被釋放導致崩潰的。

2. frame來自于哪里

通過在 coreclr 源碼中一頓梳理,發現它是 Thread 類的第四個字段,偏移是0x10,參考代碼如下:


PTR_GSCookie Frame::SafeGetGSCookiePtr(Frame* pFrame)
{Frame::HasValidVTablePtr(pFrame)
}BOOL StackFrameIterator::Init(Thread* pThread,PTR_Frame   pFrame,PREGDISPLAY pRegDisp,ULONG32     flags)
{m_crawl.pFrame = m_pThread->GetFrame();m_crawl.SetCurGSCookie(Frame::SafeGetGSCookiePtr(m_crawl.pFrame));
}0:008> dt coreclr!Thread+0x000 m_stackLocalAllocator : Ptr64 StackingAllocator+0x008 m_State          : Volatile<enum Thread::ThreadState>+0x00c m_fPreemptiveGCDisabled : Volatile<unsigned long>+0x010 m_pFrame         : Ptr64 Frame

觀察源碼大概就知道了 Frame 是棧幀的表示,標記階段要在每個線程中通過?m_pThread->GetFrame?方法來獲取爬棧的起始點。

到這里我們知道了 m_pFrame 有問題,那它到底屬于哪個線程呢?

3. 尋找問題 Thread

要想尋找問題線程,可以自己寫個腳本,判斷下 ThreadOBJ-0x10 = rcx(00000039cccff2d8) 即可。


function invokeScript() {var lines = exec("!t").Skip(8);for (var line of lines) {var t_addr = line.substr(15, 16);var commandText = "dp " + t_addr + " L8";log(commandText);var output = exec(commandText);for (var line2 of output) {log(line2);}log("--------------------------------------")}
}

從卦中數據看終于給找到了,原來是有一個OSID=744的線程意外退出導致棧空間被釋放引發的,真的無語了。

接下來的問題是這個線程是用來干嘛的,它做了什么?

4. 778號線程是何方神圣

到這里要給大家一點遺憾了,778號線程已經退出了,棧空間都被釋放了,在dump中不可能找到它生前做了什么,不過最起碼我們知道如下幾點信息:

  • 它是一個由 C# 創建的托管線程
  • 它是一個非 線程池線程
  • 它肯定是某種原因意外退出的

要想知道這個線程生前做了什么,最好的辦法就是用 perfview 捕獲線程創建和退出的 ETW 事件,到那一天定會水落石出!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/213672.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/213672.shtml
英文地址,請注明出處:http://en.pswp.cn/news/213672.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

洛谷P3807 Lucas定理

傳送門&#xff1a; P3807 【模板】盧卡斯定理/Lucas 定理 - 洛谷 | 計算機科學教育新生態 (luogu.com.cn)https://www.luogu.com.cn/problem/P3807題干&#xff1a; 給定整數n,m,p 的值&#xff0c;求出C&#xff08;nm&#xff0c;n&#xff09;?mod p 的值。 輸入數據保證…

5分鐘搞懂K8S Pod Terminating/Unknown故障排查

Kubernetes集群中的Pod有時候會進入Terminating或Unknown狀態&#xff0c;本文列舉了6種可能的原因&#xff0c;幫助我們排查這種現象。原文: K8s Troubleshooting — Pod in Terminating or Unknown Status 有時我們會看到K8S集群中的pod進入"Terminating"或"U…

每日一練【查找總價格為目標值的兩個商品】

一、題目描述 題目鏈接 購物車內的商品價格按照升序記錄于數組 price。請在購物車中找到兩個商品的價格總和剛好是 target。若存在多種情況&#xff0c;返回任一結果即可。 示例 1&#xff1a; 輸入&#xff1a;price [3, 9, 12, 15], target 18 輸出&#xff1a;[3,15] …

成都工業學院Web技術基礎(WEB)實驗一:HTML5排版標簽使用

寫在前面 1、基于2022級計算機大類實驗指導書 2、代碼僅提供參考&#xff0c;前端變化比較大&#xff0c;按照要求&#xff0c;只能做到像&#xff0c;不能做到一模一樣 3、圖片和文字僅為示例&#xff0c;需要自行替換 4、如果代碼不滿足你的要求&#xff0c;請尋求其他的…

Python+AI實現AI繪畫

&#x1f517; 運行環境&#xff1a;Python &#x1f6a9; 撰寫作者&#xff1a;左手の明天 &#x1f947; 精選專欄&#xff1a;《python》 &#x1f525; 推薦專欄&#xff1a;《算法研究》 &#x1f510;#### 防偽水印——左手の明天 ####&#x1f510; &#x1f497; 大家…

Gemini與GPT-4的巔峰對決:AI界的雙壁之戰

隨著人工智能技術的飛速發展&#xff0c;AI領域的競爭越來越激烈。在這個充滿挑戰與機遇的時代&#xff0c;兩個備受矚目的AI巨頭——Gemini Pro和GPT-4&#xff0c;成為了人們關注的焦點。這兩者都以其強大的功能和卓越的性能&#xff0c;引領著AI領域的發展潮流。本文將詳細介…

MyBatisX插件

MyBatisX插件 MyBatis-Plus為我們提供了強大的mapper和service模板&#xff0c;能夠大大的提高開發效率。 但是在真正開發過程中&#xff0c;MyBatis-Plus并不能為我們解決所有問題&#xff0c;例如一些復雜的SQL&#xff0c;多表聯查&#xff0c;我們就需要自己去編寫代碼和SQ…

connection error;reply-code=503;unknown exchange type ‘x-delayed-message‘

錯誤原因 這個錯誤表明你的 RabbitMQ 服務器不認識交換機類型 “x-delayed-message”&#xff0c;這通常是因為你的 RabbitMQ 服務器沒有啟用 rabbitmq_delayed_message_exchange 插件&#xff0c;或者插件版本與你的 RabbitMQ 服務器不兼容。 解決方法 啟用 RabbitMQ 延遲隊…

JAVA安全之Spring參數綁定漏洞CVE-2022-22965

前言 在介紹這個漏洞前&#xff0c;介紹下在spring下的參數綁定 在Spring框架中&#xff0c;參數綁定是一種常見的操作&#xff0c;用于將HTTP請求的參數值綁定到Controller方法的參數上。下面是一些示例&#xff0c;展示了如何在Spring中進行參數綁定&#xff1a; 示例1&am…

2024年C語言基礎知識入門來了,一文搞定C語言基礎知識!

一、C語言基礎知識入門 c語言基礎知識入門一經出現就以其功能豐富、表達能力強、靈活方便、應用面廣等特點迅速在全世界普及和推廣。C語言不但執行效率高而且可移植性好&#xff0c;可以用來開發應用軟件、驅動、操作系統等&#xff0c;2024年C語言基礎知識入門大全。C語言基礎…

Spring boot 使用Redis 消息發布訂閱

Spring boot 使用Redis 消息發布訂閱 文章目錄 Spring boot 使用Redis 消息發布訂閱Redis 消息發布訂閱Redis 發布訂閱 命令 Spring boot 實現消息發布訂閱發布消息消息監聽主題訂閱 Spring boot 監聽 Key 過期事件消息監聽主題訂閱 最近在做請求風控的時候&#xff0c;在網上搜…

postgreSql邏輯復制常用語句匯總和說明

簡單說明 postgreSql邏輯復制的原理這里不再贅述&#xff0c;度娘一下即可。這里只是對常用的語句做一些匯總和說明&#xff0c;以便日后查找時方便。 邏輯復制的概念 邏輯復制整體上采用的是一個發布訂閱的模型&#xff0c;訂閱者可以訂閱一個或者多個發布者&#xff0c; 發…

全套的外貿出口業務流程,趕緊收藏起來吧

很多做外貿的小伙伴入行遇到的第一個問題就是對外貿業務流程的不熟悉&#xff0c;今天小易給大家整理了一份外貿業務全流程&#xff0c;從開發客戶到售后服務一整套流程&#xff0c;一起來看看吧&#xff01; 目前做外貿開發客戶的渠道一般有以下幾種&#xff1a; 1、自建站、外…

如何在 Windows 中恢復已刪除的 Excel 文件?– 8 個有效方法!

如何恢復已刪除的Excel文件&#xff1f;如果您不小心刪除了 Excel 文件或該文件已損壞&#xff0c;您無需擔心會丟失寶貴的數據。MiniTool 分區向導的這篇文章提供了 8 種有效的方法來幫助您恢復它們。 Microsoft Excel 是 Microsoft 為 Windows、macOS、Android、iOS 和 iPad…

【lesson4】數據類型之數值類型

文章目錄 數據分類數值類型tinyint類型有符號類型測試無符號類型測試 bit類型測試 float類型有符號測試無符號測試 decimal類型測試 數據分類 數值類型 tinyint類型 說明&#xff1a;tinyint 有符號能存儲的范圍是-128-127&#xff0c;無符號能存儲的范圍是0~255 有符號類型…

藍橋杯-動態規劃專題-子數組系列,雙指針

目錄 一、單詞拆分 二、環繞字符串中唯一的子字符串 雙指針-三數之和 ArrayList(Arrays.asList(array)) 四、四數之和&#xff08;思路和三數之和一樣&#xff0c;只是多了一層循環&#xff09; 一、單詞拆分 1.狀態表示 dp[i]:到達i位置結尾&#xff0c;能否被dict拆分 …

Terraform實戰(二)-terraform創建阿里云資源

1 初始化環境 1.1 創建初始文件夾 $ cd /data $ mkdir terraform $ mkdir aliyun terraform作為terraform的配置文件夾&#xff0c;內部的每一個.tf&#xff0c;.tfvars文件都會被加載。 1.2 配置provider 創建providers.tf文件&#xff0c;配置provider依賴。 provider…

想學編程,但不知道從哪里學起,應該怎么辦?

怎樣學習任何一種編程語言 我將教你怎樣學習任何一種你將來可能要學習的編程語言。本書的章節是基于我和很多程序員學習編程的經歷組織的&#xff0c;下面是我通常遵循的流程。 1&#xff0e;找到關于這種編程語言的書或介紹性讀物。 2&#xff0e;通讀這本書&#xff0c;把…

MYSQL數據類型詳解

MySQL支持多種數據類型&#xff0c;這些數據類型可以分為三大類&#xff1a;數值、日期和時間以及字符串&#xff08;字符&#xff09;類型。這些數據類型可以幫助我們根據需要選擇合適的類型來存儲數據。選擇合適的數據類型對于確保數據的完整性和性能至關重要。 以下…

RHEL8_Linux用rpm管理軟件

本章主要介紹使用rpm對軟件包進行管理 使用rpm查詢軟件的信息使用rpm安裝及卸載軟件使用rpm對軟件進行更新使用rpm對軟件進行驗證 rpm 全稱是redhat package manager&#xff0c;后來改成rpm package manager&#xff0c;這是根據源碼包編譯出來的包。先從光盤中拷貝一個包&am…