深度學習——第2章習題2-1分析為什么平方損失函數不適用于分類問題

深度學習——第2章習題2-1

《神經網絡與深度學習》——邱錫鵬

2-1 分析為什么平方損失函數不適用于分類問題。

平方損失函數（Quadratic Loss Function）經常用在預測標簽y為實數值的任務中，定義為
$\mathcal{L}\left(y,f(x;\theta)\right)=\frac{1}{2}\left(y-f(x;\theta)\right)^2$
平方損失函數一般不適用于分類問題。

為什么呢？

在issue里有人這樣回答：

先來弄清楚回歸問題和分類問題的區別：

回歸問題：簡單來說，就是預測一個連續的數值。比如，預測明天的氣溫、房價、股票價格等等。這里的關鍵在于，預測的結果是一個具體的數字，范圍可以非常廣泛。

分類問題：指的是將數據分到離散的類別中。比如，判斷一封郵件是“垃圾郵件”還是“正常郵件”；識別一張圖片是“貓”還是“狗”；或者診斷一個病人是“健康”還是“生病”。這里的關鍵在于，結果是有限的幾個類別之一。

分類問題的核心目標是估計樣本屬于每個類別的概率，并最大化正確類別的概率（或對數似然）。
而平方損失函數的目標是最小化預測值（連續數值）與目標值（0或1）之間的數值差異。它沒有直接建模概率或最大化似然的機制。
交叉熵損失函數直接來源于最大似然估計原理。它衡量的是預測概率分布于真實分布（one-hot）之間的差異，完美契合分類問題的概率建模目標。

（額。。。可能看不太懂，下面通俗一點講）

分類問題要的是“選對”，而平方損失關心的是“猜得差不多”。
也就是說分類問題就像考試在做選擇題(A/B/C/D)，目標是選對正確答案。平方損失函數像是一個奇怪的考官：他不在乎你選哪個選項，他讓你給每個選項打分（比如A打90分，B打5分，C打3分，D打2分）。然后他只看正確答案的分數離100分差多少，差的平方就是扣分。學生把正確答案從60分提高到70分，考官覺得“有進步，但不用非得追求90分”。交叉熵損失函數才是一個正常的分類考官：他要求你直接選一個答案（或者說每個答案的概率）。他只看你分配給正確答案的概率是多少。如果你很確定正確答案（概率接近100%），扣分極少；如果你不太確定（比如60%），扣分較多；如果你完全選錯（概率接近0%），扣分極其嚴厲。這逼著學生：

在確定時大膽選正確答案（輸出接近1）。
在不確定時，也會傾向于提高正確答案的概率（即使從60%到70%，考官給的“獎勵”/減少的扣分也很大）。
絕不會為了“安全”而把答案說得模棱兩可。

還有梯度問題，在優化過程中，模型需要根據損失函數的梯度來調整參數。對于分類問題，特別是多分類問題，平方損失函數在預測值接近實際值時梯度會變得非常小，這意味著模型的調整速度會變得很慢，收斂時間會更長。另外，在分類問題中，我們希望模型能給出一個概率值，表示某個樣本屬于某個類別的可能性。**平方損失函數只是簡單地計算預測值和實際值之間的差距，沒有考慮到概率的含義。**對數損失函數則能更好地解釋模型的預測概率，幫助我們更準確地評估模型的性能。

平方損失函數一般用于解決什么問題呢？

平方損失函數的核心思想是：預測值離真實值越遠，懲罰越重（按距離的平方增長）。很適合解決回歸問題。

有很多關于MSE與CE的面試題(從xhs上找了兩題)：

1.MSE Loss 與 CE Loss 的誤差分別滿足什么分布？

MSE即均方誤差，常用于回歸任務（如預測連續值），其誤差滿足正態分布（高斯分布）。
原理：假設預測值與真實值的誤差以真實值為中心，呈對稱“鐘形”分布（多數誤差集中在0附近，離0越遠概率越低）。
數學邏輯：當誤差服從正態分布時，通過最大似然估計推導出的損失函數即為MSE，因此MSE本質是高斯分布假設下的最優選擇。

CE即交叉熵，常用于分類任務（如二分類、多分類），其誤差對應伯努利分布（二分類）或多項式分布（多分類）。
原理：衡量預測概率分布與真實標簽分布的差異。以二分類為例，真實標簽0/1服從伯努利分布（類似拋硬幣的概率模型），CE損失通過最大化“預測概率符合真實分布”的似然性來優化。
數學邏輯：若樣本服從伯努利/多項式分布，CE損失等價于最大化似然函數，誤差本質是預測概率偏離真實分布的程度。

伯努利分布是什么？
伯努利分布(bernouli distribution)，又叫做0-1分布，是一種離散型概率分布，指一次隨機試驗，結果只有兩種。也就是一個隨機變量的取值只有0和1.最簡單的例子就是跑一次硬幣，預測結果為正還是反。記成功概率為 $p(0\leq p \leq 1)，則失敗概率為$ $q = 1 ? p$ ，則：
其概率質量函數為：
$P(x)=p^x(1-p)^{1-x}= \begin{cases} p & if\ x=1 \\ q & if\ x=0 \end{cases}$
其期望值為：
$E(x)=\sum xP(x) = 0 \times q + 1 \times p=p$
其方差為：
$Var(x)=E[(x-E(x))^2] = \sum (x-p)^2P(x)-pq$

2.為什么分類都用CE損失？回歸用MSE損失？

先講分類任務選擇CE損失的核心原因。

與分類問題的概率本質匹配
分類任務的目標是預測樣本屬于某一類的概率（如圖片是“貓”的概率為90%），而CE損失直接衡量預測概率分布與真實標簽分布的差異（真實標簽是one-hot向量，屬于確定概率分布）。
例如：二分類中真實標簽為1，若模型預測概率為0.1，CE損失會通過對數運算放大這種偏差，促使模型提高正確類別的概率；而MSE損失此時僅計算“0.1與1的差值平方”，對概率的懲罰不夠直接。
避免MSE在分類中的梯度缺陷
若分類模型使用 sigmoid/softmax 激活函數，MSE損失會導致梯度消失問題：當預測概率接近0或1時，梯度趨近于0，模型難以優化。而CE損失與 sigmoid/softmax 組合時，梯度公式更簡潔（如二分類中梯度為預測概率與真實標簽的差值），訓練更穩定。
符合分類誤差的概率分布假設
分類問題的誤差本質是“預測概率偏離真實分布”對應伯努利/多項式分布（如二分類類似拋硬幣的概率模型）。CE損失基于最大似然估計，假設樣本服從這些分布，因此更貼合分類任務的概率邏輯。

再看看回歸問題選擇MSE損失的核心原因。

與回歸問題的連續值特性匹配
回歸任務需要預測連續值（如房價、溫度），目標是讓預測值盡可能接近真實值，而MSE直接度量預測值與真實值的距離平方，誤差越大懲罰越重，符合“最小化絕對偏差”的直觀需求。

例如：真實值為10，預測值為8和5，MSE對5的懲罰(25)遠大于對8的懲罰(4)，能更強烈地推動模型修正大誤差。
符合回歸誤差的正態分布假設
回歸問題中，誤差（真實值-預測值）通常被假設為正態分布（如測量誤差、自然現象的波動符合高斯分布）。MSE損失等價于在正態分布假設下的最大似然估計，即當誤差服從高斯分布時，最小化MSE等價于最大化數據出現的概率，理論上最優。
更易優化
MSE損失函數是凸函數，梯度為“預測值-真實值”，計算簡單且優化過程平滑，不易陷入局部最小值（相比某些非凸損失函數），適合回歸任務的數值優化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/85596.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/85596.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/85596.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！