邏輯回歸 (Logistic Regression)

文章目錄

  • 邏輯回歸 (Logistic Regression)
    • 問題的引出
    • Sigmoid function
    • 邏輯回歸的解釋
    • 決策邊界 (Decision boundary)
    • 邏輯回歸的代價函數
    • 機器學習中代價函數的設計
      • 1. 代價函數的來源
        • (1)從概率模型推導而來(統計學習視角)
        • (2)直接針對算法目標設計(優化視角)
      • 2. 代價函數與算法的適配性
      • 總結
    • 邏輯回歸的簡化代價函數
    • 梯度下降實現

邏輯回歸 (Logistic Regression)

問題的引出

假設使用線性回歸來解決分類問題

在這里插入圖片描述

看起來還不錯,但若是沿橫軸正方向的遠處加入訓練樣本,就會導致線性回歸的擬合線偏移,如下圖所示。

在這里插入圖片描述

圖中決策邊界右移,這樣就會導致先前的部分訓練樣本預測值從 yes 變為 no。

整個模型變的很糟糕。

分類問題的目標是找到一個決策邊界,能夠正確區分不同類別的樣本。理想情況下,決策邊界應該由靠近邊界的樣本(支持向量)決定,而不是由遠處的樣本點決定。

在分類問題中,增加新的訓練樣本(尤其是遠離決策邊樣的樣本)不應顯著改變原有的分類結論。

由此引入邏輯回歸來解決分類問題。

Sigmoid function

為了更好擬合訓練樣本,整個線條呈現 s 型,由此引入 Sigmoid function(又常稱為 logistic函數)。

在這里插入圖片描述

Sigmoid函數,又稱logistic函數,是最早使用的激活函數之一。但是由于其固有存在的一些缺點,如今很少將其作為激活函數,但是依然常用于二分類問題中的概率劃分。

在這里插入圖片描述

將線性回歸的結果,通過sigmoid函數轉換到0-1的范圍,實現分類。

邏輯回歸的解釋

在這里插入圖片描述

f w ? , b ( x ? ) = P ( y = 1 ∣ x ? ; w ? , b ) f_{\vec{w}, b}(\vec{x}) = P(y = 1|\vec{x};\vec{w},b) fw ,b?(x )=P(y=1∣x ;w ,b)
表示為給定輸入特征為 x x x y y y 等于 1 1 1 的概率。

(given x, and with parameters w and b)

在這里插入圖片描述

threshold 閾值

通過與閾值進行比較來決定 y ^ \hat{y} y^? 0 0 0 還是 1 1 1,通常將 0.5 0.5 0.5 作為閾值。

決策邊界 (Decision boundary)

在這里插入圖片描述

決策邊界便是讓 z = 0 z = 0 z=0 的地方,在這里設 w ? = [ 1 , 1 ] \vec{w} = [1, 1] w =[1,1],由此令 z = 0 z = 0 z=0,則 x 1 + x 2 = 3 x_1 + x _ 2 = 3 x1?+x2?=3,在這個例子中通過線性規劃可以做出對應的直線,如上圖所示。

決策邊界也不一定是直線,通過前面學過的多項式回歸,可以得到下圖關系。

在這里插入圖片描述

先通過梯度下降算法對樣本擬合出曲線或者曲面或者更高緯度,然后對其進行分類。

在這里插入圖片描述

通過多項式特征,可以獲得非常復雜的決策邊界,換句話說邏輯回歸可以擬合非常復雜的數據。

邏輯回歸的代價函數

在這里插入圖片描述

線性回歸中,通過平方誤差作為代價函數來決定 w ? \vec{w} w b b b 的取值,同理邏輯回歸也可以去尋找對應的代價函數來決定 w ? \vec{w} w b b b 的取值。

convex function 下凸函數

concave function 上凸函數

在這里插入圖片描述

如果同樣使用前面平方誤差作為代價函數的話,從上圖結果來看,這將導致代價函數為非下凸函數 (non-convex function),使用梯度下降會導致很容易陷入局部最小值,而非全局最小值。因此,平方誤差代價函數對于邏輯回歸并不是一個好的選擇。

將以下符號稱為單個訓練實例的損失 (loss)。
L ( f w ? , b ( x ? ( i ) ) , y ( i ) ) L(f_{\vec{w}, b}(\vec{x}^{(i)}), y^{(i)}) L(fw ,b?(x (i)),y(i))

例如,在之前學到的線性回歸中,代價函數形式如下。
J ( w , b ) = 1 2 m ∑ i = 1 m ( y ^ ( i ) ? y ( i ) ) 2 J(w, b) = \frac{1}{2m} \sum_{i=1}^m (\hat y^{(i)} - y^{(i)}) ^ 2 J(w,b)=2m1?i=1m?(y^?(i)?y(i))2

因此單個訓練實例的損失定義如下。( 1 2 \frac{1}{2} 21? 要提到內部單項)
L ( f w ? , b ( x ? ( i ) ) , y ( i ) ) = 1 2 ( f w ? , b ( x ? ( i ) ) ? y ? ( i ) ) L(f_{\vec{w}, b}(\vec{x}^{(i)}), y^{(i)}) = \frac{1}{2}(f_{\vec{w}, b}(\vec{x}^{(i)}) - \vec{y}^{(i)}) L(fw ,b?(x (i)),y(i))=21?(fw ,b?(x (i))?y ?(i))

另外可以得到,以下定義。
J ( w , b ) = 1 m ∑ i = 1 m L ( f w ? , b ( x ? ( i ) ) , y ( i ) ) J(w, b) = \frac{1}{m} \sum_{i = 1}^{m}L(f_{\vec{w}, b}(\vec{x}^{(i)}), y^{(i)}) J(w,b)=m1?i=1m?L(fw ,b?(x (i)),y(i))

這里選用以下函數作為邏輯回歸的代價函數,個人感覺是一種針對sigmoid函數的 e x e^x ex 的特殊構造。(不到怎么推出來的,問就是前人的智慧😂)
L ( f w ? , b ( x ? ( i ) ) , y ( i ) ) = { ? log ? ( f w ? , b ( x ? ( i ) ) ) i f y ( i ) = 1 ? log ? ( 1 ? f w ? , b ( x ( i ) ) ) i f y ( i ) = 0 L(f_{\vec{w}, b}(\vec{x}^{(i)}), y^{(i)}) = \begin{cases} -\log(f_{\vec{w}, b}(\vec{x}^{(i)})) &if \quad y^{(i)} = 1\\ -\log (1 - f_{\vec{w}, b}(x^{(i)})) &if \quad y^{(i)} = 0 \end{cases} L(fw ,b?(x (i)),y(i))={?log(fw ,b?(x (i)))?log(1?fw ,b?(x(i)))?ify(i)=1ify(i)=0?

稱為二分類交叉熵損失(Binary Cross-Entropy, BCE)

在這里插入圖片描述

在這里插入圖片描述

如果模型預測 99.9% 的概率為惡性腫瘤,但是結果為非惡性腫瘤,loss 就會非常高用來懲罰模型。

用原來的平方和的損失函數導致在邏輯回歸情況下,函數是非凹非凸的,會落入局部最小值。兩個拆開的凸函數達到局部最優,也就是整體的全局最優,而改用為這個,把邏輯回歸分為訓練事例 y y y 的真實值為 0 0 0,為 1 1 1,依據log形成兩個拆開的凸函數。

在這里插入圖片描述

事實證明選擇這個損失函數,整體函數為下凸函數 (convex function),這個構型是高斯誤差方程。

機器學習中代價函數的設計

1. 代價函數的來源

(1)從概率模型推導而來(統計學習視角)
  • 核心思想:假設數據服從某種概率分布,通過極大似然估計(MLE)最大后驗估計(MAP) 推導出損失函數。
  • 典型例子
    • 均方誤差(MSE):假設噪聲服從高斯分布(線性回歸)。
    • 交叉熵損失:假設標簽服從伯努利/多項分布(邏輯回歸、Softmax分類)。
    • 泊松損失:假設數據服從泊松分布(計數數據回歸)。
  • 為什么有效
    這類損失函數天然具備概率解釋,優化它們等價于最大化數據似然或后驗概率。
(2)直接針對算法目標設計(優化視角)
  • 核心思想:不依賴概率假設,而是直接定義優化目標(如間隔最大化、稀疏性等)。
  • 典型例子
    • Hinge Loss(SVM):目標是最大化分類間隔,無顯式概率模型。
    • 0-1損失:直接優化分類錯誤率(但不可導,實際常用替代損失)。
    • 自定義損失:如Focal Loss(解決類別不平衡)、Huber Loss(魯棒回歸)。
  • 為什么有效
    這些函數直接反映算法的核心目標(如分類準確性、魯棒性),即使沒有概率解釋。

2. 代價函數與算法的適配性

不同算法使用不同的代價函數,因為它們的目標假設不同:

算法典型代價函數設計依據
線性回歸均方誤差(MSE)高斯噪聲假設 + MLE
邏輯回歸交叉熵損失伯努利分布 + MLE
支持向量機(SVM)Hinge Loss最大化分類間隔(幾何目標)
決策樹基尼系數/信息增益分割純度的直接度量
神經網絡多種(MSE/交叉熵等)根據任務選擇(回歸/分類)

總結

  • 回歸問題:常用MSE(高斯假設)、MAE(拉普拉斯假設)、Huber Loss(魯棒性)。
  • 分類問題:常用交叉熵(概率校準)、Hinge Loss(間隔最大化)。
  • 特定需求:如類別不平衡用Focal Loss,稀疏性用L1正則。

邏輯回歸的簡化代價函數

在這里插入圖片描述

合并二分類交叉熵損失(Binary Cross-Entropy, BCE)

L ( f w ? , b ( x ? ( i ) ) , y ( i ) ) = ? y ( i ) log ? ( f w ? , b ( x ? ( i ) ) ) ? ( 1 ? y ( i ) ) log ? ( 1 ? f w ? , b ( x ( i ) ) ) L(f_{\vec{w}, b}(\vec{x}^{(i)}), y^{(i)}) = -y ^{(i)} \log(f_{\vec{w}, b}(\vec{x}^{(i)})) - (1 - y ^{(i)}) \log (1 - f_{\vec{w}, b}(x^{(i)})) L(fw ,b?(x (i)),y(i))=?y(i)log(fw ,b?(x (i)))?(1?y(i))log(1?fw ,b?(x(i)))

在這里插入圖片描述

梯度下降實現

在這里插入圖片描述

在這里插入圖片描述

上述求導中,將 log ? \log log 默認看為了 ln ? \ln ln 然后進行。

在這里插入圖片描述

上述形式看起來很像線性回歸所求的,但是注意 f w ? , b ( x ? ( i ) ) f_{\vec{w}, b}(\vec{x}^{(i)}) fw ,b?(x (i)) 已經發生了改變。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/79352.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/79352.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/79352.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于C語言的模擬物理模型

聲明:本文全部代碼效果基于C語言easyx圖形界面庫。 引言 關于很多游戲和模型的開發,都需要模擬真實的物理模型 比如:基本矢量運動模型(位移,速度,加速度),重力模型,碰撞…

C++編譯與鏈接:從源碼到可執行文件的魔法之旅(Visual Studio實踐)

文章目錄 **C++編譯與鏈接:從源碼到可執行文件的魔法之旅(Visual Studio實踐)****一、C++編譯器的工作流程****二、Visual Studio環境配置實戰****三、示例項目:Hello World全流程解析****四、高級技巧與工具鏈****五、總結與參考資料**C++編譯與鏈接:從源碼到可執行文件的…

現代C++的范式演進與工程實踐深度解析(本文序號不知道怎么整的,有點問題)

引言:C++的復興時代 在經歷了"已死語言"的質疑后,現代C++正迎來前所未有的復興。據2024年TIOBE指數顯示,C++以8.33%的占比穩居第三,較2020年上升2.1個百分點。這種復興并非偶然——隨著C++20標準的全面落地和C++23特性的逐步實現,這門已有40年歷史的語言正在系…

通過gird布局實現div的響應式分布排列

目標&#xff1a;實現對于固定寬度的div盒子在頁面中自適應排布&#xff0c;并且最后一行的div盒子可以與前面的盒子對齊。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" con…

WSL2-Ubuntu22.04安裝URSim5.21.3

WSL2-Ubuntu22.04安裝URSim5.21.3 準備安裝啟動 準備 名稱版本WSL2Ubuntu22.04URSim5.21.3VcXsrvNaN WSL2安裝與可視化請見這篇:WSL2-Ubuntu22.04-配置。 安裝 我們是wsl2-ubuntu22.04&#xff0c;所以安裝Linux版本的URSim&#xff0c;下載之前需要注冊一下&#xff0c;即…

產品研發項目管理6大痛點

在產品研發項目管理實踐中&#xff0c;企業普遍面臨六大系統性挑戰&#x1f937;?♀?&#xff0c;直接影響研發效能與戰略目標達成&#x1f514;&#xff0c;具體表現為&#xff1a; ① 產品需求管理不完善&#xff1a;需求與市場脫節&#xff0c;需求不明確、需求變更頻繁…

計算機網絡基礎概論

計算機網絡基礎概論 目錄 一、網絡基本概念 1.1. 網絡 1.2 互聯網 1.3 ip地址 1.3.1 作用 1.3.2 分類 1.4 MAC地址 1.4.1 MAC地址與 IP 地址的關系 1.5 網絡協議 二、網絡分層模型 2.1 物理層 2.2 數據鏈路層 2.3 網絡層 2.4 傳輸層 2.5 會話層 2.6 表示層 2.7…

Windows下導入文件中的環境變量

在Windows批處理腳本&#xff08;.bat&#xff09;中&#xff0c;通過文件獲取并設置環境變量通常涉及逐行讀取文件內容并動態賦值給變量。以下是具體實現方法及示例&#xff1a; 一、從文件讀取變量并設置到環境變量 假設有一個配置文件&#xff08;如env_config.txt&#xf…

WebSocket 實現數據實時推送原理

WebSocket 實現數據實時推送的核心機制在于其全雙工通信能力和持久的連接特性。以下是其工作原理的詳細步驟&#xff1a; 1. 握手階段&#xff08;HTTP 升級協議&#xff09; 客戶端發起請求&#xff1a;通過發送一個帶有特殊頭部的 HTTP 請求&#xff0c;請求協議升級。 GET …

Linux操作系統學習之---進程狀態

目錄 明確進程的概念: Linux下的進程狀態: 虛擬終端的概念: 見一見現象: 用途之一 : 結合指令來監控進程的狀態: 和進程強相關的系統調用函數接口: getpid()和getppid(): fork(): fork函數創建子進程的分流邏輯: 進程之間具有獨立性: 進程中存在的寫時拷貝: 見一見進程狀態…

何小鵬在得意的笑

"小鵬汽車率先邁出了造車新勢力出海一大步" 作者 | 魏強 編輯 | 盧旭成 4月15日&#xff0c;小鵬汽車在香港舉行小鵬全球熱愛之夜和2025首款全球旗艦小鵬X9上市發布會。 當小鵬汽車創始人何小鵬把香車X9交付給香港首批車主的時候&#xff0c;臉上露出經典的笑臉。…

@Autowird 注解與存在多個相同類型對象的解方案

現有一個 Student 類&#xff0c;里面有兩個屬性&#xff0c;分別為 name 和 id&#xff1b;有一個 StuService 類&#xff0c;里面有兩個方法&#xff0c;返回值均為類型為 Student 的對象&#xff1b;還有一個 StuController 類&#xff0c;里面有一個 Student 類型的屬性&am…

黑馬商城項目(三)微服務

一、單體架構 測試高并發軟件 二、微服務 三、SpringCloud 四、微服務拆分 黑馬商城模塊&#xff1a; 服務拆分原則&#xff1a; 拆分服務&#xff1a; 獨立project&#xff1a; maven聚合&#xff1a; 拆分案例&#xff1a; 遠程調用&#xff1a; package com.hmall.cart.…

PyTorch:學習 CIFAR-10 分類

&#x1f50d; 開始你的圖像分類之旅&#xff1a;一步一步學習 CIFAR-10 分類 圖像分類是計算機視覺中最基礎的任務之一&#xff0c;如果你是初學者&#xff0c;那么以 CIFAR-10 為訓練場是一個不錯的選擇。本文一步一步帶你從零開始&#xff0c;學習如何用深度學習模型實現圖…

3.學習筆記--Spring-AOP總結(p39)-Spring事務簡介(P40)-Spring事務角色(P41)-Spring事務屬性(P42)

1.AOP總結&#xff1a;面向切面編程&#xff0c;在不驚動原始基礎上為方法進行功能增強。 2.AOP核心概念&#xff1a; &#xff08;1&#xff09;代理&#xff1a;SpringAOP的核心是采用代理模式 &#xff08;2&#xff09;連接點&#xff1a;在SpringAOP中&#xff0c;理解為任…

數據庫-day06

一、實驗名稱和性質 分類查詢 驗證 綜合 設計 二、實驗目的 1&#xff0e;掌握數據查詢的Group by &#xff1b; 2&#xff0e; 掌握聚集函數的使用方法。 三、實驗的軟硬件環境要求 硬件環境要求&#xff1a; PC機(單機) 使用的軟件名稱、版本號以及模塊&#xff1a; …

看門狗定時器(WDT)超時

一、問題 Arduino 程序使用<Ticker.h>包時&#xff0c;使用不當情況下&#xff0c;會導致“看門狗WDT超時” 1.1問題控制臺報錯 在串口監視器顯示 --------------- CUT HERE FOR EXCEPTION DECODER ---------------Soft WDT resetException (4): epc10x402077cb epc2…

AI在多Agent協同領域的核心概念、技術方法、應用場景及挑戰 的詳細解析

以下是 AI在多Agent協同領域的核心概念、技術方法、應用場景及挑戰 的詳細解析&#xff1a; 1. 多Agent協同的定義與核心目標 多Agent系統&#xff08;MAS, Multi-Agent System&#xff09;&#xff1a; 由多個獨立或協作的智能體&#xff08;Agent&#xff09;組成&#xff…

Wireshark TS | 異常 ACK 數據包處理

問題背景 來自于學習群里群友討論的一個數據包跟蹤文件&#xff0c;在其中涉及到兩處數據包異常現象&#xff0c;而產生這些現象的實際原因是數據包亂序。由于這兩處數據包異常&#xff0c;都有點特別&#xff0c;本篇也就其中一個異常現象單獨展開說明。 問題信息 數據包跟…

【React】項目的搭建

create-react-app 搭建vite 搭建相關下載 在Vue中搭建項目的步驟&#xff1a;1.首先安裝腳手架的環境&#xff0c;2.通過腳手架的指令創建項目 在React中有兩種方式去搭建項目&#xff1a;1.和Vue一樣&#xff0c;先安裝腳手架然后通過腳手架指令搭建&#xff1b;2.npx create-…