快速了解JVM中的深堆與淺堆

在Java虛擬機（JVM）的內存管理世界里，深堆與淺堆是兩個重要的概念。它們如同衡量對象內存占用的兩把標尺，對于優化程序性能、排查內存泄漏問題起著關鍵作用。接下來，讓我們快速且深入地了解它們。

一、淺堆（Shallow Heap）：對象的“基礎重量”

淺堆指的是對象在內存中直接占用的空間，就像是一個人身上穿著的基礎衣物，不包含他攜帶的其他物品。它的構成主要有以下幾個部分：

對象頭（Object Header）：這部分存儲著對象的關鍵信息，比如標記字（Mark Word），其中記錄著哈希碼、鎖狀態等內容，通常占用8字節；還有類型指針（Klass Pointer），用于指向對象的類元數據，在64位JVM中一般占8字節。
實例數據（Instance Data）：包含了對象中的各種字段。基本類型字段（如int、long）會按照其實際大小存儲，例如int占4字節；而引用類型字段，則存儲著指向其他對象的引用，通常占8字節。
對齊填充（Padding）：JVM要求對象大小必須是8字節的整數倍，如果對象實際占用空間不足這個倍數，就會進行填充。

通過下面的代碼示例，我們可以更直觀地感受淺堆的計算：

public class User {private String name;      // 引用類型：8字節private int age;          // 基本類型：4字節private List<Order> orders; // 引用類型：8字節
}

在這個User類中，假設對象頭占用16字節，那么User對象的淺堆計算如下：8（name） + 4（age） + 8（orders） + 16（對象頭） = 36字節，經過對齊填充后，最終可能是40字節（8的整數倍）。

淺堆有兩個關鍵特性：一是它的大小由對象的類結構決定，一旦對象被創建，其淺堆大小就固定不變；二是它不包含對象所引用的其他對象的內存，比如User對象的淺堆中，并不包含orders所指向的List對象的內存。

二、深堆（Retained Heap）：對象的“影響力范圍”

深堆表示的是當一個對象被垃圾回收（GC）后，實際能夠釋放的所有內存總和。它不僅包含對象自身的淺堆，還涵蓋了該對象直接或間接引用的所有對象的內存，就好比一個人不僅自身占用空間，他攜帶的所有物品也會占用額外空間，這些物品就是他“影響力范圍”內的內存。

計算深堆時，需要遞歸遍歷對象的引用鏈：

首先是對象自身的淺堆。
然后是所有被該對象強引用的對象的淺堆。
接著是這些被引用對象再引用的其他對象的淺堆，以此類推，直到遍歷完所有的強引用鏈。

同時，還要排除共享引用的情況。如果多個對象引用同一個對象（例如A和B都引用C），那么C的淺堆僅在計算首個引用對象（假設是A）的深堆時被計入，不會在計算B的深堆時重復計算。
深堆引用舉例

看下面這個代碼示例：

public class Order {private String orderId;   // 淺堆約24字節private List<Item> items; // 引用列表public Order(String orderId, List<Item> items) {this.orderId = orderId;this.items = items;}
}
// 創建訂單及其商品列表
List<Item> items = new ArrayList<>();
for (int i = 0; i < 100; i++) {items.add(new Item("item" + i));
}
Order order = new Order("ORD123", items);

在這個例子中，order對象的深堆計算為：約24（Order自身） + 100 × 24（Item對象） = 2424字節。

深堆有兩個重要特性：一是它是動態變化的，會隨著對象引用關系的改變而改變；二是如果一個對象的深堆為0，意味著它不可達，即從GC Roots（一組被JVM直接引用的對象，如棧變量、靜態變量、JNI引用等）出發，無法通過任何強引用鏈訪問到該對象，這樣的對象是會被GC回收的。

三、深堆與淺堆的對比

為了更清晰地看出深堆與淺堆的差異，我們通過表格來進行對比：

維度	淺堆（Shallow Heap）	深堆（Retained Heap）
計算范圍	對象自身占用的內存	對象及其強引用鏈覆蓋的所有對象的內存
內存分析工具	直接顯示（如Heap Dump中的對象大小）	通過工具計算（如MAT的"Retained Size"）
典型應用	分析單個對象的內存 footprint	定位內存泄漏（如大對象的引用鏈）
GC回收條件	無關（即使淺堆很大，若被引用則不會回收）	深堆為0的對象才會被回收

四、為什么深堆為0的對象會被回收？

這是一個容易讓人困惑的點，關鍵在于理解“不可達”的概念。深堆為0的對象，其自身淺堆確實存在，但由于它不可達，從GC Roots無法訪問到它，因此它的回收不會釋放任何額外內存（因為它不持有其他對象的強引用，或被引用的對象仍被其他GC Root引用）。

通過以下代碼演示：

public class GCDemo {public static void main(String[] args) {// 1. 創建對象A和B，A引用BA a = new A();B b = new B();a.b = b; // A的深堆 = A的淺堆 + B的淺堆// 2. 切斷GC Root到A的引用a = null; // 變量a不再指向A實例，A實例變為不可達，深堆為0// 3. 此時雖然A實例的b字段仍指向B實例，但A不可達// 若要使B也不可達，需切斷所有指向B的引用b = null; // 切斷變量b對B實例的引用// 4. GC執行時，A和B都會被回收System.gc();}
}class A {B b; // 引用B
}class B {int value;
}

在步驟2之前，A的深堆 = A的淺堆（24字節） + B的淺堆（16字節） = 40字節，此時B可達，因為被A引用且被變量b引用；而在步驟2之后，a = null使得A不可達（深堆為0），但此時B仍然可通過變量b訪問。只有在執行b = null后，B才變為不可達。最終，A和B的淺堆都被釋放，在A不可達時，其深堆為0（不包含自身淺堆）。

這里需要特別注意：Java中變量引用和對象內部引用是不同的概念。當執行a = null時，只是切斷了變量a對A實例的引用，而A實例內部的b字段對B實例的引用在A實例被回收前依然存在 。

棧內存                  堆內存
a                       A實例↓b字段 ───────────→ B實例
b ──────────────────→ B實例

只有當所有指向對象的引用都被切斷（包括變量引用和對象內部引用），對象才會真正變為不可達，進而被GC回收。

五、實戰案例：通過MAT分析內存泄漏

在實際項目中，我們可能會遇到系統頻繁Full GC，堆內存卻居高不下的情況。這時，我們可以通過生成Heap Dump文件，并使用內存分析工具（如MAT，Memory Analyzer Tool）來分析深堆與淺堆，找出內存泄漏的原因。

例如，我們發現一個byte[]數組，它的淺堆很大，達到了100MB，存儲著臨時文件內容。但如果它沒有被長生命周期對象引用，GC會及時回收它，所以它不一定是內存泄漏的根源。

而當我們發現一個靜態Map，它緩存了大量User對象，每個User對象又關聯多個Order對象時，由于靜態Map是GC Root，它引用的所有對象深堆均不為0，這就很可能導致內存泄漏。

針對這種情況，我們可以使用弱引用（WeakReference）來避免內存泄漏：

// 使用弱引用避免內存泄漏
private static final Map<Key, WeakReference<Value>> cache = new WeakHashMap<>();// 顯式清理過期緩存
public void removeOldEntries() {cache.entrySet().removeIf(entry -> entry.getValue().get() == null);
}

六、常見誤區與最佳實踐

在理解深堆與淺堆的過程中，存在一些常見的誤區：

誤區1：“頻繁創建小對象不會導致內存問題”。事實是，如果這些小對象被靜態集合引用，深堆會持續增長，最終可能導致內存溢出（OOM）。
誤區2：“調用System.gc()能立即回收所有無用對象”。實際上，System.gc()只是建議GC執行，實際回收時機由JVM決定，而且GC只會回收深堆為0的對象。

為了更好地管理內存，我們可以遵循以下最佳實踐：

優先關注深堆：使用MAT等工具分析對象的Retained Heap，找出真正占用大量內存的對象及其引用鏈。
控制引用鏈長度：避免長生命周期對象（如單例）持有短生命周期對象的強引用。
使用合適的引用類型：例如，在緩存大對象時使用軟引用（SoftReference），這樣在內存不足時對象會自動被回收。

// 緩存大對象時使用軟引用，內存不足時自動回收
private static final Map<Key, SoftReference<LargeObject>> cache = new HashMap<>();

七、總結

深堆與淺堆是JVM內存管理中不可或缺的概念。淺堆反映了對象自身的“基礎重量”，體現了對象的類結構設計；而深堆則展示了對象的“影響力范圍”，決定了對象是否能被GC回收。

在實際的開發和調優過程中，當遇到內存問題時，我們可以按照以下步驟進行排查：首先使用jmap或jcmd生成Heap Dump文件；然后利用MAT分析深堆大的對象及其引用鏈；最后檢查GC Roots，找出不必要的強引用關系。掌握深堆與淺堆的知識，將為我們優化Java程序的內存使用提供有力的支持。