機器學習——邏輯回歸(LogisticRegression)的核心參數:以約會數據集為例


理解 LogisticRegression 的核心參數:以約會數據集為例

邏輯回歸(Logistic Regression)是機器學習中一種基礎且重要的分類算法,特別適用于解決二分類和多分類問題。本文將基于 sklearn.linear_model.LogisticRegression 的用法,結合一個典型的約會數據集,通過代碼實踐,詳解其核心參數的作用與調優技巧。

下方鏈接下載文件

作者《機器學習實戰》 Peter Harrington 的配套代碼

machinelearninginaction/Ch02/datingTestSet2.txt at master · pbharrin/machinelearninginactionhttps://github.com/pbharrin/machinelearninginaction/blob/master/Ch02/datingTestSet2.txt(完整代碼在底部)

一、模型背景與代碼示例

我們使用《機器學習實戰》中的數據集 datingTestSet2.txt

其數據包含三列特征和一個表示喜歡程度的標簽(1:不喜歡,2:魅力一般,3:非常喜歡)。

通過如下代碼訓練邏輯回歸模型:

from sklearn.linear_model import LogisticRegression# 初始化邏輯回歸模型
model = LogisticRegression()
model.fit(X_train, y_train)

接下來我們圍繞 LogisticRegression 的主要參數逐個進行解析。


二、核心參數詳解

1?? C: 正則化強度的倒數(默認值:1.0)

  • 含義:控制正則化項的權重。較小的 C 值表示更強的正則化,會限制模型復雜度,有助于防止過擬合。

  • 實例:在本文代碼中使用了 C=0.01,代表較強的正則化。

model = LogisticRegression(C=0.01)

? 建議:

  • 若模型過擬合(訓練集準確高,測試集低)→ 減小 C

  • 若模型欠擬合(整體準確率都低)→ 增大 C


2?? penalty: 正則化方式(默認值:'l2')

  • 可選值:'l1', 'l2', 'elasticnet', 'none'

  • 'l1':可產生稀疏模型(特征選擇)

  • 'l2':默認值,更適合大多數線性問題

  • 'elasticnet':結合 l1l2

  • 'none':不使用正則化(風險較大)

model = LogisticRegression(penalty='l2')

? 注意:不同 solver 對支持的 penalty 有限制,例如 'liblinear' 支持 'l1''l2',而 'saga' 才支持 'elasticnet'


3?? solver: 優化算法(默認值:'lbfgs')

  • 可選值:

    • 'liblinear':適用于小數據集,支持 'l1''l2'

    • 'lbfgs':適合多分類(支持 'l2'),速度快,默認值

    • 'newton-cg''sag''saga':適合大數據

model = LogisticRegression(solver='lbfgs')

? 實際建議:

  • 小數據集(如本文案例) → liblinear

  • 多分類任務 → lbfgssaga

  • 稀疏特征(如文本) → saga


4?? multi_class: 多分類策略(默認:'auto')

  • 'ovr'(一對其余,One-vs-Rest):訓練多個二分類器,速度快,解釋性強

  • 'multinomial':直接優化多分類損失函數,預測效果通常更優

  • 'auto':自動選擇(liblinearovr,其他 → multinomial

model = LogisticRegression(multi_class='multinomial')

5?? max_iter: 最大迭代次數(默認值:100)

  • 當模型無法收斂時,可以調大該值,如設置為 1000

  • 若出現如下報錯:ConvergenceWarning: lbfgs failed to converge → 增大 max_iter

model = LogisticRegression(max_iter=1000)

6?? class_weight: 類別權重(默認值:None)

  • 用于處理類別不平衡問題,如設為 'balanced' 會自動按樣本數調整權重

  • 或自定義字典,例如 {1:1, 2:2, 3:3}

model = LogisticRegression(class_weight='balanced')

7?? random_state: 隨機種子(可重復結果)

  • 設置后模型行為可復現,例如 random_state=42

  • 在劃分訓練/測試集、優化器初始化中有用

model = LogisticRegression(random_state=42)

除了LogisticRegression的參數,還有:

train_test_split的參數:

參數名類型說明
X, y數組或矩陣特征矩陣 X 和標簽向量 y,支持 NumPy、Pandas、List 等
test_sizefloat 或 int測試集占比(如 0.25)或測試集樣本數(如 100)
train_sizefloat 或 int訓練集占比或樣本數,默認自動補足(1 - test_size)
random_stateint隨機種子,用于保證劃分可復現。設為固定值(如 42)結果不會變
shufflebool是否在劃分前打亂數據(默認 True,一般都要打亂)
stratifyarray-like 或 None分層抽樣依據(常設為 y),用于保持標簽比例一致(分類任務推薦)

三、系數和截距

print(model.coef_)       # 每個類別的特征系數(權重)
print(model.intercept_)  # 每個類別的偏置(截距)

對于三分類模型(標簽為 1、2、3),會輸出三組線性決策函數(即分割面):

y = w1*x1 + w2*x2 + w3*x3 + b

如輸出結果如下:

分割線1: y = -0.1234x1 + 0.2345x2 - 0.5678x3 + 1.2345
分割線2: y = ...

四、總結:調參建議

問題建議參數
模型過擬合減小 C,增加正則化強度
模型欠擬合增大 C,嘗試 multinomial
類別不平衡使用 class_weight='balanced'
收斂慢或警告增加 max_iter,或更換 solver
特征太多,想降維使用 penalty='l1', solver='liblinear'

附:完整模型構建代碼

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_splitdata = np.loadtxt('datingTestSet2.txt')
X = data[:, :-1]
y = data[:, -1]# 劃分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)# 訓練邏輯回歸模型
model = LogisticRegression(C=0.01, max_iter=200, multi_class='auto', solver='lbfgs')
model.fit(X_train, y_train)print("訓練集準確率:", model.score(X_train, y_train))
print("測試集準確率:", model.score(X_test, y_test))
print("權重系數:", model.coef_)
print("截距:", model.intercept_)# 自變量系數和截距
a = model.coef_
b = model.intercept_
print(f"分割線1:y = {a[0][0]:.4f}x1 + {a[0][1]:.4f}x2 + {a[0][2]:.4f}x3 + {b[0]:.4f}")
print(f"分割線2:y = {a[1][0]:.4f}x1 + {a[1][1]:.4f}x2 + {a[1][2]:.4f}x3 + {b[1]:.4f}")
print(f"分割線3:y = {a[2][0]:.4f}x1 + {a[2][1]:.4f}x2 + {a[2][2]:.4f}x3 + {b[2]:.4f}")

分割線中的系數四舍五入了。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91415.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91415.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91415.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入解析 Apache Flink FLIP-511:優化 Kafka Sink 事務處理,減輕 Broker 負載

一、 背景與核心問題:Kafka Sink 事務的痛點 Flink Kafka Sink 在 Exactly-Once 模式下依賴 Kafka 事務來確保數據寫入的原子性,并與 Flink 檢查點對齊。然而,非優雅關閉(如任務失敗、非 stop-with-savepoint 的停止)會…

設計模式:組合模式 Composite

目錄前言問題解決方案結構代碼前言 組合是一種結構型設計模式,你可以使用它將對象組合成樹狀結構,并且能像使用獨立對象一樣使用它們。 問題 如果應用的核心模型能用樹狀結構表示, 在應用中使用組合模式才有價值。 例如, 你有兩…

嵌入式 C 語言入門:函數封裝與參數傳遞學習筆記 —— 從定義到內存機制

前言 大家好&#xff0c;這里是 Hello_Embed。在前一篇筆記中&#xff0c;我們用循環實現了 LED 閃爍&#xff0c;其中重復使用了兩段幾乎一樣的延時代碼&#xff1a; for(i 0; i < 100000000; i); // 延時這種重復不僅讓代碼冗余&#xff0c;還不利于后續修改&#xff08…

第一個大語言模型的微調

模型推理 現在,我們的模型應該能夠針對輸入的任何短句生成類似尤達大師風格的句子作為回應。 該模型要求其輸入格式規范。我們需要構建一個 “消息” 列表 —— 在這個案例中,就是來自用戶的消息 —— 并通過提示表明輪到模型進行輸出,以促使其做出回答。 add_generation…

Linux內核驅動開發核心問題全解

&#x1f4d6; 推薦閱讀&#xff1a;《Yocto項目實戰教程:高效定制嵌入式Linux系統》 &#x1f3a5; 更多學習視頻請關注 B 站&#xff1a;嵌入式Jerry Linux內核驅動開發核心問題全解 本文系統梳理了 Linux 驅動開發、內核同步、中斷處理、內存管理、進程通信、系統啟動等典型…

【C++篇】C++11入門:踏入C++新世界的大門

文章目錄C11簡介列表初始化1. {}初始化2. initializer_list容器initializer_list的使用場景聲明1. auto2. decltype3. nullptrSTL中的變化1. 新容器array容器forward_list容器unordered_map和unordered_set容器2. 新接口C11簡介 C98/03&#xff1a;在2003年C標準委員會曾經提交…

Java 日期時間處理:分類、用途與性能分析

Java提供了多種日期時間處理API&#xff0c;隨著版本演進不斷改進。以下是主要日期時間類的分類、用途和性能分析&#xff1a;一、Java日期時間API分類1. 傳統日期時間API (Java 1.0/1.1)java.util.Date - 表示特定的瞬間&#xff0c;精確到毫秒java.util.Calendar - 抽象類&am…

[Linux]學習筆記系列 --GCC

文章目錄屬性__cleanup__attribute_malloc__ 用于標記函數返回一個新分配的內存塊__attribute_alloc_size__ 用于指定分配的內存大小__attribute__((const)) 標記為純函數(pure function)__attribute__((__externally_visible__)) 使其在編譯器優化過程中保持對外部模塊的可見性…

【龍澤科技】汽車維護與底盤拆裝檢修仿真教學軟件【風光580】

產品簡介汽車維護與底盤拆裝檢修仿真教學軟件是依托《全國職業院校技能大賽》“汽車維修”賽項中“汽車維護與底盤拆裝檢修模塊”競賽模塊&#xff0c;自主開發的一款仿真教學軟件。軟件采用仿真仿真技術模擬實際汽車維修工的崗位技能操作流程&#xff0c;操作內容主要包括&…

Spring之【循環引用】

目錄前置知識SingletonBeanRegistryDefaultSingletonBeanRegistrySpring中處理循環引用的流程分析定義兩個具有循環引用特點的Bean執行A的實例化執行A的屬性填充(執行過程中發現A依賴B&#xff0c;就去執行B的實例化邏輯)執行B的實例化執行B的屬性填充執行B的初始化執行A的屬性…

LRU緩存淘汰算法的詳細介紹與具體實現

LRU&#xff08;Least Recently Used&#xff0c;最近最少使用&#xff09;是一種基于時間局部性原理的緩存淘汰策略。其核心思想是&#xff1a;最近被訪問的數據在未來更可能被再次使用&#xff0c;而最久未被訪問的數據應優先被淘汰&#xff0c;從而在有限的緩存空間內保留高…

JS-第十九天-事件(一)

一、事件基礎概念1.1 事件三要素事件源&#xff1a;觸發事件的元素事件類型&#xff1a;事件的種類&#xff08;如click、mouseover等&#xff09;事件處理程序&#xff1a;響應事件的函數1.2 事件流機制事件傳播分為三個階段&#xff1a;捕獲階段&#xff1a;事件從頂層開始&a…

Matplotlib(三)- 圖表輔助元素

文章目錄一、圖表輔助元素簡介二、坐標軸的標簽、刻度范圍和刻度標簽1. 坐標軸標簽1.1 x軸標簽1.2 y軸標簽1.3 示例&#xff1a;繪制天氣氣溫折線圖2. 刻度范圍和刻度標簽2.1 刻度范圍2.1.1 x軸刻度范圍2.1.2 y軸刻度范圍2.2 刻度標簽2.2.1 x軸刻度標簽2.2.2 y軸刻度標簽2.3 示…

【Linux基礎知識系列】第七十八篇 - 初識Nmap:網絡掃描工具

在網絡管理和安全領域&#xff0c;網絡掃描是一個不可或缺的工具。它可以幫助網絡管理員了解網絡中的設備、服務以及潛在的安全漏洞。Nmap&#xff08;Network Mapper&#xff09;是一個功能強大的開源網絡掃描工具&#xff0c;它能夠快速發現網絡中的主機、端口和服務&#xf…

EasyGBS的兩種錄像回看

EasyGBS 支持兩種錄像回看&#xff0c;即“平臺端”的錄像回看和“設備端”的錄像回看。本期我們來介紹兩者的區別和使用方法。一、平臺端錄像1、什么是平臺端錄像平臺端錄像是指由 EasyGBS 平臺直接錄制并存儲。2、配置平臺端錄像進入平臺&#xff0c;依次點擊【錄像回放】→【…

大模型學習思路推薦!

為進一步貫徹落實中共中央印發《關于深化人才發展體制機制改革的意見》和國務院印發《關于“十四五”數字經濟發展規劃》等有關工作的部署要求&#xff0c;深入實施人才強國戰略和創新驅動發展戰略&#xff0c;加強全國數字化人才隊伍建設&#xff0c;持續推進人工智能從業人員…

數據庫連接池性能優化實戰

背景我們公司正在處于某個項目的維護階段&#xff0c;領導對資源告警比較重視&#xff0c;服務器資源告警的就不說了&#xff0c;運維同學每隔一小時都會檢測線上環境的應用服務信息&#xff0c;例如&#xff1a;網關日志響應時間告警/nginx日志接口響應時間告警/日志關鍵字異常…

Excel常用函數大全,非常實用

一、數學與統計函數1. SUM作用&#xff1a;求和SUM(number1, [number2], ...)SUM(A1:A10) ? 計算A1到A10單元格的總和注意&#xff1a;自動忽略文本和空單元格2. AVERAGE作用&#xff1a;計算平均值AVERAGE(number1, [number2], ...)AVERAGE(B2:B20) ? 計算B列20個數據的平均…

性能優化(一):時間分片(Time Slicing):讓你的應用在高負載下“永不卡頓”的秘密

性能優化(一)&#xff1a;時間分片&#xff08;Time Slicing&#xff09;&#xff1a;讓你的應用在高負載下“永不卡頓”的秘密 引子&#xff1a;那張讓你瀏覽器崩潰的“無限列表” 想象一個場景&#xff1a;你需要渲染一個包含一萬個項目的列表。在我們的“看不見”的應用中&a…

《C++》STL--list容器詳解

在 C 標準模板庫(STL)中&#xff0c;list 是一個非常重要的序列容器&#xff0c;它實現了雙向鏈表的數據結構。與 vector 和 deque 不同&#xff0c;list 提供了高效的插入和刪除操作&#xff0c;特別是在任意位置。本文將深入探討 list 容器的特性、使用方法以及常見操作。 文…