Windbg 分析
1. 到底是哪里的崩潰
一直跟蹤我這個系列的朋友應該知道分析崩潰第一個命令就是?!analyze -v
?,讓windbg幫我們自動化異常分析。
0:033> !analyze -v
CONTEXT: (.ecxr)
rax=00000039cccff2d7 rbx=00000039c85fc2b0 rcx=00000039cccff2d8
rdx=0000000000000000 rsi=0000000000000000 rdi=00000039c85fbdc0
rip=00007ffb934b1199 rsp=00000039c85fc550 rbp=00000039c85fc5b8r8=0000000000000000 r9=00000039c85fce90 r10=0000000000000009
r11=0000000000000080 r12=0000000000000000 r13=00000039c85fdaf0
r14=00007ffb933d12b0 r15=0000022939e68440
iopl=0 nv up ei pl nz ac pe cy
cs=0033 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00010211
clr!Frame::HasValidVTablePtr+0x2a:
00007ffb`934b1199 488b39 mov rdi,qword ptr [rcx] ds:00000039`cccff2d8=????????????????
Resetting default scopeSTACK_TEXT:
00000039`c85fc550 00007ffb`934b7107 : 00007ffb`933140d0 00007ffb`933140d0 00000000`00000000 00000000`00000000 : clr!Frame::HasValidVTablePtr+0x2a
00000039`c85fc600 00007ffb`933d3427 : 00000000`00000000 00000000`00000000 00007ffb`93c641e0 00007ffb`93c64c48 : clr!GCToEEInterface::GcScanRoots+0x2f2
00000039`c85fdac0 00007ffb`933d1843 : 00000000`00000000 00007ffb`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::mark_phase+0x197
00000039`c85fdb70 00007ffb`933d1762 : 00000000`00000001 00000039`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::gc1+0xa3
00000039`c85fdbd0 00007ffb`933d1539 : 00000000`00000001 00000000`00000000 00000229`00af0f88 00000000`00000000 : clr!WKS::gc_heap::garbage_collect+0x54c
00000039`c85fdc50 00007ffb`933d5f51 : 00000000`00000578 00007ffb`00000000 00000229`01ee5200 00000039`c85fdca0 : clr!WKS::GCHeap::GarbageCollectGeneration+0x10d
00000039`c85fdcb0 00007ffb`933d838c : 00000229`01ee5288 00000000`00000030 00000229`2328ff18 00000229`2328ff18 : clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
00000039`c85fdcf0 00007ffb`9333a88b : 00000000`00000030 00000000`00000008 00000000`00000000 00007ffb`00000000 : clr!WKS::GCHeap::Alloc+0x2a9
00000039`c85fdd50 00007ffb`9333a465 : ffffffc6`37a021c8 00000039`c85fded0 00000039`c85fde20 00000039`c85fdf00 : clr!SlowAllocateString+0x8b
...
從卦中的調用棧來看,有如下兩點信息:
- GC 觸發了
上面的mark_phase
表示當前 GC 正在標記階段,后面的GcScanRoots
表示 GC正在線程棧上尋找根對象。
- 崩潰點在 clr 中
看到崩潰在clr的?clr!Frame::HasValidVTablePtr
?方法中真的有點不敢相信,從崩潰點的匯編代碼?rdi,qword ptr [rcx]
?來看,貌似 rcx 沒有分配到物理內存,可以用?!address rcx
?驗證下。
0:033> !address rcxUsage: Free
Base Address: 00000039`ccb00000
End Address: 00000039`cce00000
Region Size: 00000000`00300000 ( 3.000 MB)
State: 00010000 MEM_FREE
Protect: 00000001 PAGE_NOACCESS
Type: <info not present at the target>Content source: 0 (invalid), length: 1fbd28
尼瑪,真的好無語,這個rcx=00000039cccff2d8
?所處的內存居然是一個 MEM_FREE,訪問它自然會拋異常,現在很迷茫的是這玩意是 GC 的內部邏輯,按理說不會有這種異常,難道是 CLR 自己的 bug 嗎?
三: 真的是 CLR 的 bug 嗎
1. 分析 CLR 源碼
要想尋找真相,就必須要理解崩潰處的 CLR 源碼了,這里拿coreclr做參考,首先從?clr!Frame::HasValidVTablePtr+2a
?處說起,這個方法大概就是用來判斷 Frame 類的虛方法表指針是否有效,簡化后的代碼如下:
// static
bool Frame::HasValidVTablePtr(Frame * pFrame)
{TADDR vptr = pFrame->GetVTablePtr();if (vptr == HelperMethodFrame::GetMethodFrameVPtr())return true;if (vptr == DebuggerSecurityCodeMarkFrame::GetMethodFrameVPtr())return true;if (s_pFrameVTables->LookupValue(vptr, (LPVOID) vptr) == (LPVOID) INVALIDENTRY)return false;return true;
}
這里簡單說下什么是虛方法表,如果一個類通過各種渠道擁有了虛方法后,那這個類的第一個字段就是?虛方法表指針
,這個指針所指向的虛方法表中存放著每個虛方法的入口地址,畫個圖大概是這樣。
有了這張圖再讓chatgpt寫一段C++代碼驗證下。
#include <iostream>using namespace std;// 父類
class Animal {
private:int age;
public:virtual void makeSound() {cout << "The animal makes a sound" << endl;}
};// 子類
class Cat : public Animal {
public:void makeSound() override {cout << "The cat meows" << endl;}
};int main() {// 使用父類指針指向子類對象,調用子類重寫的方法Animal* animal = new Cat();animal->makeSound(); // 輸出 "The cat meows"return 0;
}
上圖中的00219b60
就是虛方法表指針,后面的0021100a
就是虛方法地址了。
有了這些鋪墊之后,可以得知是在提取frame虛方法指針的時候,這個地址已被釋放導致崩潰的。
2. frame來自于哪里
通過在 coreclr 源碼中一頓梳理,發現它是 Thread 類的第四個字段,偏移是0x10,參考代碼如下:
PTR_GSCookie Frame::SafeGetGSCookiePtr(Frame* pFrame)
{Frame::HasValidVTablePtr(pFrame)
}BOOL StackFrameIterator::Init(Thread* pThread,PTR_Frame pFrame,PREGDISPLAY pRegDisp,ULONG32 flags)
{m_crawl.pFrame = m_pThread->GetFrame();m_crawl.SetCurGSCookie(Frame::SafeGetGSCookiePtr(m_crawl.pFrame));
}0:008> dt coreclr!Thread+0x000 m_stackLocalAllocator : Ptr64 StackingAllocator+0x008 m_State : Volatile<enum Thread::ThreadState>+0x00c m_fPreemptiveGCDisabled : Volatile<unsigned long>+0x010 m_pFrame : Ptr64 Frame
觀察源碼大概就知道了 Frame 是棧幀的表示,標記階段要在每個線程中通過?m_pThread->GetFrame
?方法來獲取爬棧的起始點。
到這里我們知道了 m_pFrame 有問題,那它到底屬于哪個線程呢?
3. 尋找問題 Thread
要想尋找問題線程,可以自己寫個腳本,判斷下 ThreadOBJ-0x10 = rcx(00000039cccff2d8) 即可。
function invokeScript() {var lines = exec("!t").Skip(8);for (var line of lines) {var t_addr = line.substr(15, 16);var commandText = "dp " + t_addr + " L8";log(commandText);var output = exec(commandText);for (var line2 of output) {log(line2);}log("--------------------------------------")}
}
從卦中數據看終于給找到了,原來是有一個OSID=744
的線程意外退出導致棧空間被釋放引發的,真的無語了。
接下來的問題是這個線程是用來干嘛的,它做了什么?
4. 778號線程是何方神圣
到這里要給大家一點遺憾了,778號線程已經退出了,棧空間都被釋放了,在dump中不可能找到它生前做了什么,不過最起碼我們知道如下幾點信息:
- 它是一個由 C# 創建的托管線程
- 它是一個非 線程池線程
- 它肯定是某種原因意外退出的
要想知道這個線程生前做了什么,最好的辦法就是用 perfview 捕獲線程創建和退出的 ETW 事件,到那一天定會水落石出!!!