為什么分類任務偏愛交叉熵？MSE 為何折戟？

在機器學習的世界里，損失函數是模型的“指南針”——它定義了模型“好壞”的標準，直接決定了參數優化的方向。對于分類任務（比如判斷一張圖片是貓還是狗），我們通常會選擇交叉熵作為損失函數；而在回歸任務（比如預測房價）中，均方誤差（MSE）則是更常見的選擇。但你有沒有想過：為什么分類任務不用 MSE？交叉熵究竟有什么“不可替代”的優勢？

本文將從數學本質、優化行為、信息論視角三個維度，拆解這一經典問題的答案。

一、先明確：分類任務的核心目標是什么？

分類任務的本質是對輸入數據分配一個概率分布，讓模型輸出的“類別概率”盡可能接近真實的“類別分布”。

舉個例子：一張貓的圖片，真實標簽是“貓”（對應獨熱編碼 [1, 0]）；模型需要輸出兩個概率值，分別表示“是貓”和“是狗”的概率（理想情況是 [1, 0]）。因此，分類任務的核心是讓模型的輸出概率分布與真實分布盡可能一致。

而回歸任務的目標是預測一個連續值（比如房價的具體數值），此時模型需要最小化預測值與真實值的“距離”，這正是 MSE 的專長。

二、MSE 和交叉熵的數學本質：它們在“衡量什么差異”？

要理解兩者的差異，先看它們的數學形式。

1. 均方誤差（MSE）

MSE 是回歸任務的“標配”，公式為：
$MSE=1N∑i=1N(yi?y^i)2 \text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2$
其中， $y_i$ 是真實值， $y^i\hat{y}_i$ 是預測值， $N$ 是樣本數量。MSE 的本質是衡量預測值與真實值的歐氏距離平方，它假設誤差服從高斯分布（即“噪聲是隨機的、連續的”）。

2. 交叉熵（Cross Entropy）

交叉熵用于衡量兩個概率分布的差異，公式為（以二分類為例）：
$Cross?Entropy=?1N∑i=1N[yilog?y^i+(1?yi)log?(1?y^i)] \text{Cross Entropy} = -\frac{1}{N} \sum_{i=1}^N \left[ y_i \log \hat{y}_i + (1 - y_i) \log (1 - \hat{y}_i) \right]$
其中， $y_i$ 是真實標簽的獨熱編碼（如 [1, 0] 或 [0, 1]）， $y^i\hat{y}_i$ 是模型輸出的概率（需通過 Sigmoid 或 Softmax 激活函數保證在 [0,1] 區間）。多分類場景下，交叉熵擴展為：
$Cross?Entropy=?1N∑i=1N∑c=1Cyi,clog?y^i,c \text{Cross Entropy} = -\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{i,c} \log \hat{y}_{i,c}$
其中 $C$ 是類別總數， $y_{i,c}$ 是第 $i$ 個樣本屬于第 $c$ 類的獨熱標簽（0或1）， $y^i,c\hat{y}_{i,c}$ 是模型預測的第 $i$ 個樣本屬于第 $c$ 類的概率。

關鍵差異：MSE 衡量的是“數值距離”，而交叉熵衡量的是“概率分布的差異”。分類任務需要優化的是概率分布的匹配，因此交叉熵更“對癥”。

三、優化視角：MSE 為何在分類任務中“水土不服”？

僅看數學定義可能不夠直觀，我們需要從梯度下降的優化過程來理解兩者的行為差異。

1. 假設模型輸出層用 Sigmoid 激活（二分類場景）

假設模型的最后一層是 Sigmoid 函數，將線性輸出 $z$ 轉換為概率 $y^=σ(z)=11+e?z\hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}}$ 。此時，Sigmoid 的導數為：
$\sigma'(z) = \sigma(z)(1 - \sigma(z))$

（1）MSE 的梯度問題

MSE 對 $z$ 的梯度為：
$?MSE?z=?MSE?y^??y^?z=2?(y^?y)y^(1?y^)?σ(z)(1?σ(z))=2(y^?y) \frac{\partial \text{MSE}}{\partial z} = \frac{\partial \text{MSE}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} = 2 \cdot \frac{(\hat{y} - y)}{\hat{y}(1 - \hat{y})} \cdot \sigma(z)(1 - \sigma(z)) = 2(\hat{y} - y)$
（注：推導中利用了 $y^(1?y^)=σ(z)(1?σ(z))\hat{y}(1 - \hat{y}) = \sigma(z)(1 - \sigma(z))$ ）

看起來梯度表達式很簡潔，但問題出在當預測值 $y^\hat{y}$ 與真實值 $y$ 差異較大時，梯度會變得極小。例如：

當真實標簽 $y = 1$ （正樣本），但模型預測 $y^=0.1\hat{y}=0.1$ （嚴重錯誤），此時 $y^?y=?0.9\hat{y} - y = -0.9$ ，梯度為 $\times (-0.9) = -1.8$ ，絕對值并不大；
但如果模型使用 Sigmoid 激活，當 $z$ 很大（比如 $z = 10$ ）， $y^≈1\hat{y} \approx 1$ ，此時 $σ(z)(1?σ(z))≈0\sigma(z)(1 - \sigma(z)) \approx 0$ ，MSE 的梯度會趨近于 0——這會導致梯度消失，模型參數幾乎無法更新。

（2）交叉熵的梯度優勢

交叉熵對 $z$ 的梯度為：
$?Cross?Entropy?z=?Cross?Entropy?y^??y^?z=(?yy^+1?y1?y^)?σ(z)(1?σ(z)) \frac{\partial \text{Cross Entropy}}{\partial z} = \frac{\partial \text{Cross Entropy}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} = \left( -\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}} \right) \cdot \sigma(z)(1 - \sigma(z))$
代入 $y^=σ(z)\hat{y} = \sigma(z)$ ，化簡后得到：
$?Cross?Entropy?z=σ(z)?y=y^?y \frac{\partial \text{Cross Entropy}}{\partial z} = \sigma(z) - y = \hat{y} - y$

這個結果非常簡潔！交叉熵的梯度僅與預測值與真實值的差（ $y^?y\hat{y} - y$ ）有關，完全消除了 Sigmoid 導數中的 $σ(z)(1?σ(z))\sigma(z)(1 - \sigma(z))$ 項。這意味著：

當預測錯誤時（比如 $y = 1$ 但 $y^=0.1\hat{y}=0.1$ ），梯度為 $0.1 ? 1 = ? 0.9$ ，絕對值較大，參數會被快速更新；
當預測正確但置信度不高時（比如 $y = 1$ 但 $y^=0.6\hat{y}=0.6$ ），梯度為 $0.6 ? 1 = ? 0.4$ ，參數仍會向正確方向調整；
當預測完全正確且置信度高時（比如 $y = 1$ 且 $y^=0.99\hat{y}=0.99$ ），梯度為 $0.99 ? 1 = ? 0.01$ ，梯度很小，模型趨于穩定。

結論：交叉熵的梯度與預測誤差直接相關，避免了 MSE 因 Sigmoid 導數導致的梯度消失問題，優化過程更高效。

四、信息論視角：交叉熵是“最合理”的概率分布度量

從信息論的角度看，交叉熵衡量的是用真實分布 $p$ 編碼服從預測分布 $q$ 的數據時，所需的平均編碼長度。公式為：
$-\sum p(x) \log q(x)$

在分類任務中，真實分布 $p$ 是獨熱編碼（只有真實類別的概率為 1，其余為 0），因此交叉熵簡化為：
$H(p, q) = -\log q(c^*)$
其中 $c^*$ 是真實類別。這意味著，交叉熵越小，模型對真實類別的預測概率 $q(c^*)$ 越大——這正是分類任務的核心目標（讓模型“更確信”自己的預測）。

而 MSE 對應的是最小化預測值與真實值的 L2 距離，它假設數據的噪聲服從高斯分布（即回歸任務的合理假設）。但在分類任務中，噪聲并不服從高斯分布（標簽是離散的 0/1 或獨熱編碼），此時 MSE 會傾向于懲罰“數值偏差”，而非“概率分布偏差”。例如：

真實標簽是 [1, 0]，模型輸出 [0.9, 0.1]（正確且置信）和 [0.6, 0.4]（正確但置信低）的 MSE 分別是 $0.1)^2 + (0.1)^2 = 0.02$ 和 $0.4)^2 + (0.4)^2 = 0.32$ ，顯然前者更優；
但如果模型輸出 [0.1, 0.9]（錯誤但置信）和 [0.5, 0.5]（錯誤且模糊），MSE 分別是 $0.9)^2 + (0.9)^2 = 1.62$ 和 $0.5)^2 + (0.5)^2 = 0.5$ ，此時 MSE 會認為后者“更好”，但這與分類任務的目標完全矛盾。