機器學習02——模型評估與選擇(過擬合與欠擬合、K折交叉驗證、均方誤差、混淆矩陣)

上一章:機器學習01——機器學習概述
下一章:機器學習03——線性模型
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備

文章目錄

      • 一、經驗誤差與過擬合
        • (一)核心概念定義
        • (二)過擬合與欠擬合
      • 二、模型評估方法(數據集劃分策略)
        • (一)留出法
        • (二)k折交叉驗證法
        • (三)留一法
        • (四)自助法
      • 三、性能度量(模型評價標準)
        • (一)回歸任務的性能度量
        • (二)分類任務的性能度量

一、經驗誤差與過擬合

(一)核心概念定義
  • 誤差:樣本真實輸出與預測輸出之間的差異。
  • 誤差類型
    • 訓練(經驗)誤差:模型在訓練集上的誤差;
    • 測試誤差:模型在測試集上的誤差;
    • 泛化誤差:模型在除訓練集外所有新樣本上的誤差(反映模型對新數據的適應能力)。
  • 錯誤率:分錯樣本占總樣本的比例(是誤差的一種具體表現形式)。
(二)過擬合與欠擬合

在這里插入圖片描述

  • 過擬合

    • 定義:模型過度學習訓練樣本的細節(將訓練樣本的特有性質誤認為所有樣本的一般性質),導致泛化性能下降;
    • 舉例:模型誤以為“樹葉必須有鋸齒”,將無鋸齒的樹葉誤判為“不是樹葉”;
    • 解決方法:通過優化目標加正則項(限制模型復雜度)、早停(提前終止訓練)等方式緩解。
  • 欠擬合

    • 定義:模型未學好訓練樣本的一般性質,對數據的規律把握不足;
    • 舉例:模型誤以為“綠色的都是樹葉”,將綠色的非樹葉(如綠色果實)誤判為“是樹葉”;
    • 解決方法:對決策樹增加分支、神經網絡增加訓練輪數等(增強模型對數據的學習能力)。
  • 關鍵結論:僅追求訓練誤差最小化(如訓練集錯誤率為0)往往無法得到好模型,需平衡訓練誤差與泛化能力。

二、模型評估方法(數據集劃分策略)

模型評估的核心是通過合理劃分訓練集(用于訓練模型)和測試集(用于評估泛化能力),用測試誤差近似泛化誤差,且需保證訓練集與測試集互斥、分布一致。常見方法包括:

(一)留出法
  • 操作:將數據集直接劃分為互斥的訓練集S和測試集T;
  • 要點:
    • 保持數據分布一致性(如分層采樣,避免某類樣本集中在訓練集或測試集);
    • 通常多次隨機劃分并取平均值,減少偶然誤差;
    • 訓練集與測試集比例多為2:1~4:1(訓練集占比更高,保證模型有足夠數據學習)。
(二)k折交叉驗證法

在這里插入圖片描述

  • 操作:將數據集分層采樣劃分為k個大小相似的互斥子集,每次用k-1個子集的并集作為訓練集,剩余1個子集作為測試集,重復k次后取均值;
  • 特點:
    • 常用k=10(即10折交叉驗證),平衡評估準確性與計算成本;
    • 為減少劃分方式的影響,可重復p次(如“10次10折交叉驗證”),最終取p次結果的均值。
(三)留一法
  • 操作:當數據集包含m個樣本時,令k=m(即每個子集僅含1個樣本),每次用m-1個樣本訓練,1個樣本測試,重復m次取均值;
  • 優缺點:
    • 優點:不受隨機劃分影響,評估結果準確;
    • 缺點:當m較大時,計算開銷極大(需訓練m個模型),實用性有限。
(四)自助法
  • 操作:基于有放回采樣,從數據集D中采樣m次得到訓練集(部分樣本可能重復),未被采樣的樣本(約占1/3)作為測試集;
  • 適用場景:數據集較小時(解決訓練/測試集劃分困難問題);
  • 局限性:改變了原始數據分布,可能引入估計偏差,因此數據量充足時,優先選擇留出法或交叉驗證法。

三、性能度量(模型評價標準)

性能度量是衡量模型泛化能力的標準,需根據任務需求選擇,不同度量可能導致不同評判結果。

(一)回歸任務的性能度量
  • 均方誤差:最常用指標,計算預測值與真實值差值的平方的平均值,公式為:
    E(f;D)=1m∑i=1m(f(xi)?yi)2E(f ; D)=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2}E(f;D)=m1?i=1m?(f(xi?)?yi?)2
    其中,f(xi)f(x_i)f(xi?)為模型預測值,yiy_iyi?為真實值,m為樣本數。
(二)分類任務的性能度量
  1. 錯誤率與精度

    • 錯誤率:分錯樣本占總樣本的比例,公式為:
      E(f;D)=1m∑i=1mI(f(xi)≠yi)E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(x_{i}\right) \neq y_{i}\right)E(f;D)=m1?i=1m?I(f(xi?)=yi?)
    • 精度(正確率):分對樣本占總樣本的比例,公式為:
      acc(f;D)=1m∑i=1mI(f(xi)=yi)=1?E(f;D)acc(f ; D) =\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(x_{i}\right)=y_{i}\right) =1-E(f ; D)acc(f;D)=m1?i=1m?I(f(xi?)=yi?)=1?E(f;D)
      I(?)\mathbb{I}(\cdot)I(?)為指示函數,條件成立時取1,否則取0)。
  2. 查準率(P)與查全率(R)
    在這里插入圖片描述

    • 基于混淆矩陣(統計真實標記與預測結果的組合):
      • TP(真正例):真實為正例且預測為正例;
      • FN(假反例):真實為正例但預測為反例;
      • FP(假正例):真實為反例但預測為正例;
      • TN(真反例):真實為反例且預測為反例;
    • 查全率(召回率):所有真實正例中被正確預測的比例,公式為:
      R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP?
    • 查準率(精確率):所有預測為正例中真實為正例的比例,公式為:
      P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP?
    • 適用場景:信息檢索、Web搜索等(需權衡“找到的正例是否準確”和“是否找到所有正例”)。
  3. P-R曲線與平衡點
    在這里插入圖片描述

    • P-R曲線:按模型對正例的預測概率排序,逐個將樣本視為正例時,得到的查準率-查全率曲線(直觀反映模型在不同閾值下的P和R表現);
    • 平衡點:P-R曲線上查準率=查全率的點,用于比較交叉曲線的模型性能(平衡點越高,模型越好)。
  4. F1與Fβ度量

    • F1:查準率與查全率的調和平均,綜合兩者性能,公式為:
      F1=2×P×RP+R=2×TP樣例總數+TP?TNF1=\frac{2 × P × R}{P+R}=\frac{2 × TP}{樣例總數 +TP-TN}F1=P+R2×P×R?=樣例總數+TP?TN2×TP?
    • Fβ:更靈活的度量,通過β調整對P和R的偏重:
      Fβ=(1+β2)×P×R(β2×P)+RF_{\beta}=\frac{\left(1+\beta^{2}\right) × P × R}{\left(\beta^{2} × P\right)+R}Fβ?=(β2×P)+R(1+β2)×P×R?
      • β=1時為標準F1;
      • β>1時偏重查全率(如逃犯檢索,需盡可能找到所有逃犯);
      • β<1時偏重查準率(如商品推薦,需推薦的商品盡可能符合用戶需求)。

上一章:機器學習01——機器學習概述
下一章:機器學習03——線性模型
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98503.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98503.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98503.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 Django 與 Bootstrap 構建的現代化設備管理平臺

整體步驟概覽 創建項目和應用設計模型&#xff08;Model&#xff09; - 定義設備的數據結構配置用戶認證&#xff08;Auth&#xff09; - 使用 Django 自帶的強大用戶系統創建視圖&#xff08;View&#xff09; - 處理業務邏輯&#xff1a;登錄、列表、增刪改查編寫模板&#x…

微軟依舊穩定發揮,Windows 最新更新性能「開倒車」

微軟在前不久為Release Preview測試用戶推送了最新Windows11 25H2版本。按照慣例&#xff0c;正式版將于9月或者10月與咱們見面。雖然看起來是個跨版本的大更新&#xff0c;但是更新方式將服務堆棧更新&#xff08;SSU&#xff09;與最新累積更新&#xff08;LCU&#xff09;。…

一手實測,文心x1.1的升級很驚喜啊

一手實測&#xff0c;文心x1.1的升級很驚喜啊 前言 月9日&#xff0c;在 WAVE SUMMIT深度學習開發者大會上 百度發布了一個新的思考模型文心x1.1&#xff1a; X1 Turbo 升級為 X1.1 了。 文心4.5 Turbo 和 X1 Turbo 是2025年4月25日發布的&#xff0c;距今已經半年過去了&…

Flask 核心基礎:從 路由裝飾器 到 __name__ 變量 的底層邏輯解析

Flask 核心基礎&#xff1a;從路由裝飾器到 name 變量的底層邏輯解析 在使用 Flask 開發 Web 應用時&#xff0c;我們總會從 app Flask(__name__) 和 app.route("/") 這兩行代碼開始。看似簡單的語法背后&#xff0c;藏著 Python 裝飾器機制與 Flask 框架設計的核心…

中國AI云市場報告:阿里云份額達35.8%,高于2至4名總和

9月9日&#xff0c;國際權威市場調研機構英富曼&#xff08;Omdia&#xff09;發布《中國AI云市場&#xff0c;1H25》報告&#xff0c;報告顯示&#xff0c;2025年上半年&#xff0c;中國AI云市場規模達223億元&#xff0c;阿里云占比35.8%位列第一&#xff0c;市場份額高于2到…

鴻蒙Next開發指南:UIContext接口解析與全屏拉起元服務實戰

前言在鴻蒙應用開發過程中&#xff0c;我們經常會遇到需要獲取UI上下文實例或者在非UI上下文中調用UI相關方法的場景。隨著HarmonyOS NEXT的不斷發展&#xff0c;UIContext API為我們提供了更加優雅的解決方案。本文將詳細介紹如何使用UIContext中對應的接口獲取與實例綁定的對…

leaflet讀取mvt格式

如圖所示&#xff0c;是全國的數據&#xff0c;截圖是部分數據先安裝&#xff1a;npm install leaflet npm install leaflet.vectorgrid如果是其余的框架直接用就行&#xff1a;import * as L from leaflet; import leaflet.vectorgrid;我用的是angular,所以是ts中聲明&#xf…

OSG中交互(鼠標、鍵盤)處理

OpenSceneGraph (OSG) 中的交互處理,包括鼠標和鍵盤事件。 一、OSG 事件處理體系 OSG 使用一個基于訪問者模式的事件處理體系,核心類包括: osgGA::GUIEventHandler: 所有事件處理器的基類 osgViewer::Viewer: 查看器,管理事件隊列和分發 osgGA::EventQueue: 事件隊列…

微碩雙N-MOS管WST3392在汽車智能氛圍燈系統中的應用

汽車智能氛圍燈系統是現代車輛提升駕乘體驗的重要配置&#xff0c;其多通道LED的精密調光與控制需選用高性能、小體積的功率開關器件。微碩WINSOK的WST3392是一款雙N溝道MOS管&#xff0c;具有30V耐壓、3.7A連續電流和46mΩ的低導通電阻&#xff0c;特別適用于氛圍燈系統中的多…

深入 Kubernetes:從零到生產的工程實踐與原理洞察

&#x1f31f; Hello&#xff0c;我是蔣星熠Jaxonic&#xff01; &#x1f308; 在浩瀚無垠的技術宇宙中&#xff0c;我是一名執著的星際旅人&#xff0c;用代碼繪制探索的軌跡。 &#x1f680; 每一個算法都是我點燃的推進器&#xff0c;每一行代碼都是我航行的星圖。 &#x…

為何三折疊手機只有華為可以?看華為Mate XTs非凡大師就知道

9月4日&#xff0c;華為在深圳舉行華為Mate XTs非凡大師及全場景新品發布會&#xff0c;不同于過往手機發布會對芯片配置只字不提&#xff0c;此次發布會公開展示了華為Mate XTs非凡大師內部芯片配置——麒麟9020芯片&#xff0c;時隔四年&#xff0c;終于在發布會上看到芯片公…

TensorFlow 2.x 核心 API 與模型構建

TensorFlow 2.x 核心 API 與模型構建TensorFlow 是一個強大的開源機器學習庫&#xff0c;尤其在深度學習領域應用廣泛。TensorFlow 2.x 在易用性和效率方面做了大量改進&#xff0c;引入了Keras作為其高級API&#xff0c;使得模型構建和訓練更加直觀和便捷。本文將介紹 TensorF…

TENGJUN防水TYPE-C連接器:工業級防護,認證級可靠,賦能嚴苛場景連接

在工業控制、戶外電子、水下設備等對連接穩定性與防護性要求極致的場景中&#xff0c;TENGJUN防水TYPE-C連接器以“硬核性能全面認證”的雙重優勢&#xff0c;成為關鍵連接環節的信賴之選。從結構設計到認證標準&#xff0c;每一處細節都為應對復雜環境而生&#xff0c;重新定義…

【小呆的隨機振動力學筆記】概率論基礎

文章目錄0. 概率論基礎0.1 概率的初步認知0.2 隨機變量的分布0.3 隨機變量的數字特征0.3.1 隨機變量的期望算子0.3.2 隨機變量的矩0.4 隨機變量的特征函數0.5 高數基礎附錄A 典型分布0. 概率論基礎 \quad\quad在生活中或自然中&#xff0c;處處都存在隨機現象&#xff0c;比如每…

使用海康機器人相機SDK實現基本參數配置(C語言示例)

在機器視覺項目開發中&#xff0c;相機的初始化、參數讀取與設置是最基礎也是最關鍵的環節。本文基于海康機器人&#xff08;Hikrobot&#xff09;提供的MVS SDK&#xff0c;使用C語言實現了一個簡潔的控制程序&#xff0c;完成設備枚舉、連接以及常用參數的獲取與設置。 &…

【IoTDB】時序數據庫選型指南:為何IoTDB成為工業大數據場景的首選?

【作者主頁】Francek Chen 【專欄介紹】???大數據與數據庫應用??? 大數據是規模龐大、類型多樣且增長迅速的數據集合&#xff0c;需特殊技術處理分析以挖掘價值。數據庫作為數據管理的關鍵工具&#xff0c;具備高效存儲、精準查詢與安全維護能力。二者緊密結合&#xff0…

用計算思維“破解”復雜Excel考勤表的自動化之旅

在我們日常工作中&#xff0c;經常會遇到一些看似簡單卻極其繁瑣的任務。手動處理一份結構復雜的Excel考勤表&#xff0c;就是典型的例子。它充滿了合并單元格、不規則的布局和隱藏的格式陷阱。面對這樣的挑戰&#xff0c;我們是選擇“卷起袖子&#xff0c;日復一日地手動復制粘…

PAT 1006 Sign In and Sign Out

1006 Sign In and Sign Out分數 25作者 CHEN, Yue單位 浙江大學At the beginning of every day, the first person who signs in the computer room will unlock the door, and the last one who signs out will lock the door. Given the records of signing ins and outs, yo…

【git】首次clone的使用采用-b指定了分支,還使用了--depth=1 后續在這個基礎上拉取所有的分支代碼方法

要解決當前問題&#xff08;從淺克隆轉換為完整克隆并獲取所有分支&#xff09;&#xff0c;請按照以下步驟操作&#xff1a; 步驟 1&#xff1a;檢查當前遠程地址 首先確認遠程倉庫地址是否正確&#xff1a; git remote -v步驟 2&#xff1a;修改遠程配置以獲取所有分支 默認淺…

蘿卜切丁機 機構筆記

蘿卜切丁機_STEP_模型圖紙免費下載 – 懶石網 機械工程師設計手冊 1是傳送帶 2是曲柄滑塊機構&#xff1f; 擠壓動作