邏輯回歸與Softmax

Softmax函數是一種將一個含任意實數的K維向量轉化為另一個K維向量的函數,這個輸出向量的每個元素都在(0, 1)區間內,并且所有元素之和等于1。
因此,它可以被看作是某種概率分布,常用于多分類問題中作為輸出層的激活函數。這里我們以拓展邏輯回歸解決多分類的角度對Softmax函數進行理解:

假設共有 C C C 個類別,模型對輸入 x \mathbf{x} x 輸出 C C C個類別的得分,
則屬于類別 c c c 的后驗概率為:
P ( y = c ∣ x ) = e β c ? x ∑ j = 1 C e β j ? x P(y = c \mid \mathbf{x}) = \frac{e^{\beta_c^\top \mathbf{x}}}{\sum_{j=1}^{C} e^{\beta_j^\top \mathbf{x}}} P(y=cx)=j=1C?eβj??xeβc??x?
其中 β c \beta_c βc? 是第 c c c 類對應的參數向量, j j j 是求和的類別索引, x \mathbf{x} x 是輸入特征向量。

為什么使用指數函數 e e e?

Softmax 函數的形式為:
σ ( z ) i = e z i ∑ j = 1 C e z j , \sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}, σ(z)i?=j=1C?ezj?ezi??,
其中每個得分 z i z_i zi? 的形式為:
z i = β i ? x , z_i = \beta_i^\top \mathbf{x}, zi?=βi??x,
表示輸入特征向量 x \mathbf{x} x 與第 i i i 類對應的參數向量 β i \beta_i βi? 的線性組合。

使用指數函數 e z i e^{z_i} ezi? 有以下幾點重要理由:

  • 非負性:對于任意實數 z i z_i zi?,都有 e z i > 0 e^{z_i} > 0 ezi?>0。這保證了 Softmax 輸出的概率值始終為正數。

  • 保持序關系:指數函數是嚴格單調遞增函數。若 z i > z j z_i > z_j zi?>zj?,則 e z i > e z j e^{z_i} > e^{z_j} ezi?>ezj?,從而保留了原始得分之間的相對大小關系。

  • 便于求導:指數函數具有良好的可導性,且其導數形式簡單 ( d d x e x = e x ) \left(\frac{d}{dx}e^x = e^x\right) (dxd?ex=ex),這對基于梯度下降等優化算法非常友好。

  • 映射到概率分布:通過除以總和 ∑ j = 1 C e z j \sum_{j=1}^{C} e^{z_j} j=1C?ezj?,使得所有類別的輸出加起來等于 1,形成一個合法的概率分布。

下面的示意圖清晰地表示 Softmax 函數的原理和計算過程。以下是一個完整的推導流程示例,包括線性回歸輸出、Softmax 激活函數的應用,以及最終的分類結果。

( 0.5 0 0.7 0.5 0.5 0.9 0.1 0.1 0.6 0.6 0.1 0 ) X × ( ? 0.15 0.95 2.2 ) β = ( 0.5 ? ( ? 0.15 ) + 0 ? 0.95 + 0.7 ? 2.2 0.5 ? ( ? 0.15 ) + 0.5 ? 0.95 + 0.9 ? 2.2 0.1 ? ( ? 0.15 ) + 0.1 ? 0.95 + 0.6 ? 2.2 0.6 ? ( ? 0.15 ) + 0.1 ? 0.95 + 0 ? 2.2 ) = ( 1.385 2.43 1.37 ? 0.095 ) 線性輸出  z \overset{X}{\begin{pmatrix} 0.5 & 0 & 0.7 \\ 0.5 & 0.5 & 0.9 \\ 0.1 & 0.1 & 0.6 \\ 0.6 & 0.1 & 0 \end{pmatrix}} \times \overset{\bm{\beta}}{ \begin{pmatrix} -0.15 \\ 0.95 \\ 2.2 \end{pmatrix}} =\begin{pmatrix} 0.5 \cdot (-0.15) + 0 \cdot 0.95 + 0.7 \cdot 2.2 \\ 0.5 \cdot (-0.15) + 0.5 \cdot 0.95 + 0.9 \cdot 2.2 \\ 0.1 \cdot (-0.15) + 0.1 \cdot 0.95 + 0.6 \cdot 2.2 \\ 0.6 \cdot (-0.15) + 0.1 \cdot 0.95 + 0 \cdot 2.2 \end{pmatrix}=\overset{\text{線性輸出 } \mathbf{z}}{ \begin{pmatrix} 1.385 \\ 2.43 \\ 1.37 \\ -0.095 \end{pmatrix}}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908875.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908875.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908875.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于PSO與BP神經網絡分類模型的特征選擇實戰(Python實現)

說明:這是一個機器學習實戰項目(附帶數據代碼文檔),如需數據代碼文檔可以直接到文章最后關注獲取。 1.項目背景 在機器學習建模過程中,特征選擇是提升模型性能、降低計算復雜度的重要環節。尤其在高維數據場景下&…

深度學習之模型壓縮三駕馬車:基于ResNet18的模型剪枝實戰(1)

一、背景:為什么需要模型剪枝? 隨著深度學習的發展,模型參數量和計算量呈指數級增長。以ResNet18為例,其在ImageNet上的參數量約為1100萬,雖然在服務器端運行流暢,但在移動端或嵌入式設備上部署時&#xf…

uni-app學習筆記二十四--showLoading和showModal的用法

showLoading(OBJECT) 顯示 loading 提示框, 需主動調用 uni.hideLoading 才能關閉提示框。 OBJECT參數說明 參數類型必填說明平臺差異說明titleString是提示的文字內容,顯示在loading的下方maskBoolean否是否顯示透明蒙層,防止觸摸穿透,默…

【大模型RAG】六大 LangChain 支持向量庫詳細對比

摘要 向量數據庫已經成為檢索增強生成(RAG)、推薦系統和多模態檢索的核心基礎設施。本文從 Chroma、Elasticsearch、Milvus、Redis、FAISS、Pinecone 六款 LangChain 官方支持的 VectorStore 出發,梳理它們的特性、典型應用場景與性能邊界&a…

【MySQL】數據庫三大范式

目錄 一. 什么是范式 二. 第一范式 三. 第二范式 不滿足第二范式時可能出現的問題 四. 第三范式 一. 什么是范式 在數據庫中范式其實就是一組規則,在我們設計數據庫的時候,需要遵守不同的規則要求,設計出合理的關系型數據庫,…

Coze工作流-語音故事創作-文本轉語音的應用

教程簡介 本教程將帶著大家去了解怎么樣把文本轉換成語音,例如說我們要做一些有聲故事,我們可能會用上一些語音的技術,來把你創作的故事朗讀出來 首先我們創建一個工作流 對各個模塊進行編輯,如果覺得系統提示詞寫的不好&#xf…

5.子網劃分及分片相關計算

某公司網絡使用 IP 地址空間 192.168.2.0/24,現需將其均分給 市場部 和 研發部 兩個子網。已知: 🏢 市場部子網 🖥? 已分配 IP 地址范圍:192.168.2.1 ~ 192.168.2.30🌐 路由器接口 IP:192.16…

三體問題詳解

從物理學角度,三體問題之所以不穩定,是因為三個天體在萬有引力作用下相互作用,形成一個非線性耦合系統。我們可以從牛頓經典力學出發,列出具體的運動方程,并說明為何這個系統本質上是混沌的,無法得到一般解…

機器學習算法時間復雜度解析:為什么它如此重要?

時間復雜度的重要性 雖然scikit-learn等庫讓機器學習算法的實現變得異常簡單(通常只需2-3行代碼),但這種便利性往往導致使用者忽視兩個關鍵方面: 算法核心原理的理解缺失 忽視算法的數據適用條件 典型算法的時間復雜度陷阱 SV…

uniapp 對接騰訊云IM群組成員管理(增刪改查)

UniApp 實戰:騰訊云IM群組成員管理(增刪改查) 一、前言 在社交類App開發中,群組成員管理是核心功能之一。本文將基于UniApp框架,結合騰訊云IM SDK,詳細講解如何實現群組成員的增刪改查全流程。 權限校驗…

OPENCV圖形計算面積、弧長API講解(1)

一.OPENCV圖形面積、弧長計算的API介紹 之前我們已經把圖形輪廓的檢測、畫框等功能講解了一遍。那今天我們主要結合輪廓檢測的API去計算圖形的面積,這些面積可以是矩形、圓形等等。圖形面積計算和弧長計算常用于車輛識別、橋梁識別等重要功能,常用的API…

一.設計模式的基本概念

一.核心概念 對軟件設計中重復出現問題的成熟解決方案,提供代碼可重用性、可維護性和擴展性保障。核心原則包括: 1.1. 單一職責原則? ?定義?:一個類只承擔一個職責,避免因職責過多導致的代碼耦合。 1.2. 開閉原則? ?定義?&#xf…

React第五十七節 Router中RouterProvider使用詳解及注意事項

前言 在 React Router v6.4 中&#xff0c;RouterProvider 是一個核心組件&#xff0c;用于提供基于數據路由&#xff08;data routers&#xff09;的新型路由方案。 它替代了傳統的 <BrowserRouter>&#xff0c;支持更強大的數據加載和操作功能&#xff08;如 loader 和…

Opencv中的addweighted函數

一.addweighted函數作用 addweighted&#xff08;&#xff09;是OpenCV庫中用于圖像處理的函數&#xff0c;主要功能是將兩個輸入圖像&#xff08;尺寸和類型相同&#xff09;按照指定的權重進行加權疊加&#xff08;圖像融合&#xff09;&#xff0c;并添加一個標量值&#x…

C++ 基礎特性深度解析

目錄 引言 一、命名空間&#xff08;namespace&#xff09; C 中的命名空間? 與 C 語言的對比? 二、缺省參數? C 中的缺省參數? 與 C 語言的對比? 三、引用&#xff08;reference&#xff09;? C 中的引用? 與 C 語言的對比? 四、inline&#xff08;內聯函數…

關于面試找工作的總結(四)

不同情況下收到offer后的處理方法 1.不會去的,只是面試練手2.還有疑問,考慮中3.offer/職位不滿足期望的4.已確認,但又收到更好的5.還想挽回之前的offer6.確認,準備入職7.還想拖一下的1.不會去的,只是面試練手 HR您好,非常榮幸收到貴司的offer,非常感謝一直以來您的幫助,…

什么是高考?高考的意義是啥?

能見到這個文章的群體&#xff0c;應該都經歷過高考&#xff0c;突然想起“什么是高考&#xff1f;意義何在&#xff1f;” 一、高考的定義與核心功能 **高考&#xff08;普通高等學校招生全國統一考試&#xff09;**是中國教育體系的核心選拔性考試&#xff0c;旨在為高校選拔…

L1和L2核心區別 !!--part 2

哈嘍&#xff0c;我是 我不是小upper~ 昨天&#xff0c;咱們分享了關于 L1 正則化和 L2 正則化核心區別的精彩內容。今天我來進一步補充和拓展。 首先&#xff0c;咱們先來聊聊 L1 和 L2 正則化&#xff0c;方便剛接觸的同學理解。 L1 正則化&#xff08;Lasso&#xff09;&…

字節推出統一多模態模型 BAGEL,GPT-4o 級的圖像生成能力直接開源了!

字節推出的 BAGEL 是一個開源的統一多模態模型&#xff0c;他們直接開源了GPT-4o級別的圖像生成能力。&#xff08;輕松拿捏“萬物皆可吉卜力”玩法~&#xff09;。可以在任何地方對其進行微調、提煉和部署&#xff0c;它以開放的形式提供與 GPT-4o 和 Gemini 2.0 等專有系統相…

互聯網大廠Java面試:從Spring Cloud到Kafka的技術考察

場景&#xff1a;互聯網大廠Java求職者面試 面試官與謝飛機的對話 面試官&#xff1a;我們先從基礎開始&#xff0c;謝飛機&#xff0c;你能簡單介紹一下Java SE和Java EE的區別嗎&#xff1f; 謝飛機&#xff1a;哦&#xff0c;這個簡單。Java SE是標準版&#xff0c;適合桌…