邏輯回歸與Softmax

Softmax函數是一種將一個含任意實數的K維向量轉化為另一個K維向量的函數，這個輸出向量的每個元素都在(0, 1)區間內，并且所有元素之和等于1。
因此，它可以被看作是某種概率分布，常用于多分類問題中作為輸出層的激活函數。這里我們以拓展邏輯回歸解決多分類的角度對Softmax函數進行理解：

假設共有 $C$ 個類別，模型對輸入 $\mathbf{x}$ 輸出 $C$ 個類別的得分，
則屬于類別 $c$ 的后驗概率為：
$\mid \mathbf{x}) = \frac{e^{\beta_c^\top \mathbf{x}}}{\sum_{j=1}^{C} e^{\beta_j^\top \mathbf{x}}}$
其中 $\beta_c$ 是第 $c$ 類對應的參數向量， $j$ 是求和的類別索引， $\mathbf{x}$ 是輸入特征向量。

為什么使用指數函數 $e$ ?

Softmax 函數的形式為：
$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}},$
其中每個得分 $z_i$ 的形式為：
$z_i = \beta_i^\top \mathbf{x},$
表示輸入特征向量 $\mathbf{x}$ 與第 $i$ 類對應的參數向量 $\beta_i$ 的線性組合。

使用指數函數 $e^{z_i}$ 有以下幾點重要理由：

非負性：對于任意實數 $z_i$ ，都有 $e^{z_i} > 0$ 。這保證了 Softmax 輸出的概率值始終為正數。
保持序關系：指數函數是嚴格單調遞增函數。若 $z_i > z_j$ ，則 $e^{z_i} > e^{z_j}$ ，從而保留了原始得分之間的相對大小關系。
便于求導：指數函數具有良好的可導性，且其導數形式簡單 $\left(\frac{d}{dx}e^x = e^x\right)$ ，這對基于梯度下降等優化算法非常友好。
映射到概率分布：通過除以總和 $\sum_{j=1}^{C} e^{z_j}$ ，使得所有類別的輸出加起來等于 1，形成一個合法的概率分布。

下面的示意圖清晰地表示 Softmax 函數的原理和計算過程。以下是一個完整的推導流程示例，包括線性回歸輸出、Softmax 激活函數的應用，以及最終的分類結果。

$\overset{X}{\begin{pmatrix} 0.5 & 0 & 0.7 \\ 0.5 & 0.5 & 0.9 \\ 0.1 & 0.1 & 0.6 \\ 0.6 & 0.1 & 0 \end{pmatrix}} \times \overset{\bm{\beta}}{ \begin{pmatrix} -0.15 \\ 0.95 \\ 2.2 \end{pmatrix}} =\begin{pmatrix} 0.5 \cdot (-0.15) + 0 \cdot 0.95 + 0.7 \cdot 2.2 \\ 0.5 \cdot (-0.15) + 0.5 \cdot 0.95 + 0.9 \cdot 2.2 \\ 0.1 \cdot (-0.15) + 0.1 \cdot 0.95 + 0.6 \cdot 2.2 \\ 0.6 \cdot (-0.15) + 0.1 \cdot 0.95 + 0 \cdot 2.2 \end{pmatrix}=\overset{\text{線性輸出 } \mathbf{z}}{ \begin{pmatrix} 1.385 \\ 2.43 \\ 1.37 \\ -0.095 \end{pmatrix}}$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/908875.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/908875.shtml
英文地址，請注明出處：http://en.pswp.cn/news/908875.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！