以二分類問題為例,常見的損失函數有
- 負對數似然損失(neg log-likelihood loss),
- 交叉熵損失(cross entropy loss),
- deviance loss
- 指數損失(exponential loss)。
前三者雖然名字不同,但卻具有相同的表達形式。此外,neg log-likelihood loss 和 exponential loss在期望意義下具有相同的解
邏輯回歸(Logistic Regression)
邏輯回歸是最常見的分類模型,具有如下形式:
圖片展示的是 邏輯回歸(Logistic Regression)模型的概率預測函數,它是機器學習中經典的二分類算法核心公式。以下是詳細解析:
1. 公式組成
p ( x ; ω , b ) = σ ( ω T x + b ) = 1 1 + e ? ( ω T x + b ) p(x; \omega, b) = \sigma(\omega^T x + b) = \frac{1}{1 + e^{-(\omega^T x + b)}} p(x;ω,b)=σ(ωTx+b)=1+e?(ωTx+b)1?
-
輸入:
- ( x ): 特征向量(如圖像特征、用戶行為數據等)。
- ( ω \omega ω ): 權重向量(模型需要學習的參數)。
- ( b ): 偏置項(截距)。
-
輸出:
- ( p(x; ω \omega ω, b) ): 樣本 ( x ) 屬于類別1的概率(范圍0到1)。
-
關鍵函數:
- Sigmoid函數(σ):將線性組合 ω T x + b \omega^T x + b ωTx+b 映射到概率空間。
def sigmoid(z):return 1 / (1 + np.exp(-z))
- Sigmoid函數(σ):將線性組合 ω T x + b \omega^T x + b ωTx+b 映射到概率空間。
2. 邏輯回歸的核心思想
- 本質:通過線性回歸 + Sigmoid激活函數,實現二分類概率預測。
- 決策規則:
- 若 ( p(x) \geq 0.5 ),預測為類別1;
- 若 ( p(x) < 0.5 ),預測為類別0。
3. 邏輯回歸的BCE損失
- 邏輯回歸通常使用**二元交叉熵(BCE)**作為損失函數,而Focal BCE是對BCE的改進,用于處理類別不平衡問題。
# 邏輯回歸的BCE損失 loss = -[y * log(p) + (1-y) * log(1-p)]
損失函數設計舉例
4. 參數學習(θ = (b, ω))
- 優化目標:通過梯度下降最小化交叉熵損失,調整 ( ω \omega ω ) 和 ( b )。
- 學習過程:
ω ← ω ? η ? ? L ? ω , b ← b ? η ? ? L ? b \omega \leftarrow \omega - \eta \cdot \frac{\partial \mathcal{L}}{\partial \omega}, \quad b \leftarrow b - \eta \cdot \frac{\partial \mathcal{L}}{\partial b} ω←ω?η??ω?L?,b←b?η??b?L?- ( η \eta η ): 學習率
- ( L \mathcal{L} L ): 損失函數(如BCE)
5. 為什么用Sigmoid?
- 概率壓縮:將線性輸出 ( ω T \omega^T ωT x + b ) 映射到 (0,1) 區間,符合概率定義。
- 可解釋性:輸出可直接解釋為“屬于正類的置信度”。
總結
邏輯回歸的概率函數,它是:
- 二分類模型的基礎;
- 通過Sigmoid函數輸出概率;
- 常與交叉熵損失配合使用(可擴展為Focal BCE處理不平衡數據)。