機器學習第十九講:交叉驗證 → 用五次模擬考試驗證真實水平

機器學習第十九講:交叉驗證 → 用五次模擬考試驗證真實水平

資料取自《零基礎學機器學習》。
查看總目錄:學習大綱

關于DeepSeek本地部署指南可以看下我之前寫的文章:DeepSeek R1本地與線上滿血版部署:超詳細手把手指南


交叉驗證是模型考試的防作弊系統,通過多次劃分考卷驗證真實能力[^8-2]。通過駕校考試案例詳解:

一、核心原理(駕照科目模擬考)

假設駕校有100名學員的考試數據,采用5折交叉驗證:

總數據集
分5份試卷
輪流出題
成績取平均

考試流程

  1. 將100人分5組(每組20人)
  2. 4組當題庫,1組當考題 → 五輪考試不重復 [參考材料3]
  3. 最終成績 = (88%+85%+90%+92%+87%)/5 = 88.4%

類比說明:就像高考前五套模擬卷覆蓋全部知識點,比單次考試更客觀[^3]

二、操作步驟(心臟病預測案例)

數據集:300例患者數據(200例患病,100例健康)

原始數據300例
拆成5份各60例
訓練集240例
模型1成績85%
驗證集60例
訓練集240例
模型2成績83%
驗證集60例
...
模型5成績88%

代碼實現

from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print("平均準確率:", scores.mean())  # 輸出:86.2%

關鍵優勢:避免因單次抽題偏差(如考題全是疑難病例)影響評估[^3]

三、分場景應用(不同考試模式對比)

| 驗證方式 | 特點 | 適用場景 | [參考材料3] |
|----------------|---------------------------|-----------------------|
| 簡單劃分驗證 | 快速但成績波動大 | 大數據集初步篩選 |
| 5折交叉驗證 | 均衡效率與準確性 | 中小數據集標準流程 |
| 10折交叉驗證 | 更精準但耗時增加10倍 | 精細調參研究 |

案例對比

  • 單次驗證成績:92%(可能抽到簡單題)
  • 5次交叉驗證:88.4%(反映真實水平)
  • 實際考試結果:86%(接近交叉驗證均值)[^2]

四、注意事項(防止無效驗證)

  1. 數據打亂:需先隨機排序,避免時間順序干擾 [參考材料3]
    from sklearn.utils import shuffle
    X, y = shuffle(X, y, random_state=0)
    
  2. 分層抽樣:保持正負樣本比例相同,如每組保持2:1病患健康比例[^3]
  3. 避免泄漏:預處理步驟(如標準化)應在每次訓練時重新計算[^5]

典型錯誤

錯誤流程
全數據標準化
后分割訓練集測試集
分數虛高
正確流程
先分割訓練測試
訓練集統計
應用到測試集

目錄:總目錄
上篇文章:機器學習第十八講:混淆矩陣 → 診斷模型在醫療檢查中的誤診情況
下篇文章:機器學習第二十講:網格搜索 → 像嘗試所有密碼組合找最佳解鎖方式


[2][3][^5]《零基礎學機器學習》第八章第三節驗證方法
[^8-2]《零基礎學機器學習》第八章第三節驗證方法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80768.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80768.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80768.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux面試題集合(6)

創建多級目錄或者同級目錄 mkdir -p 文件名/文件名/文件名 mkdir -p 文件名 文件名 文件名 Linux創建一個文件 touch 文件名 DOS命令創建文件 echo 內容>文件名(創建一個有內容的文件) echo >文件名(創建一個沒有內容的文件&#xff09…

Vue百日學習計劃Day46-48天詳細計劃-Gemini版

Day 46: <KeepAlive> - 組件緩存與優化 (~3 小時) 本日目標: 理解 <KeepAlive> 的作用&#xff0c;學會如何使用它來緩存組件實例&#xff0c;從而優化應用性能和用戶體驗。所需資源: Vue 3 官方文檔 (<KeepAlive>): https://cn.vuejs.org/guide/built-ins/…

SpringBean模塊(三)具有生命周期管理能力的類(1)AutowireCapableBeanFactory

一、介紹 1、簡介 AutowireCapableBeanFactory 是 Spring 框架中的一個接口&#xff0c;位于 org.springframework.beans.factory 包下&#xff0c;它提供了更底層的 Bean 實例化、依賴注入和生命周期管理能力&#xff0c;即使這些 Bean 沒有通過常規的 Component 或 XML 注冊…

Service Mesh

目錄 一、Service Mesh 的核心特點 二、Service Mesh 的典型架構 1. Sidecar 模式 2. 控制平面與數據平面分離 三、Service Mesh 解決的核心問題 四、典型應用場景 五、主流 Service Mesh 框架對比 六、挑戰與局限性 七、未來趨勢 總結 Istio 一、Istio 核心組件與…

黑馬Java基礎筆記-13常用查找算法

查找算法 基本查找(也叫順序查找&#xff0c;線性查找) 二分查找&#xff08;需要有序數據&#xff09; public static int binarySearch(int[] arr, int number){//1.定義兩個變量記錄要查找的范圍int min 0;int max arr.length - 1;//2.利用循環不斷的去找要查找的數據wh…

Go 語言 vs C+Lua(Skynet)游戲服務器方案對比分析

為啥挑這兩個呢&#xff1f;因為兩種技術分別對應CSP模型和Actor模型&#xff0c;都是經過時間檢驗的成熟且可靠的并發模型&#xff0c;問了很多地方&#xff0c;經過gpt整理得出如下報告。 從開發效率、運行性能、熱更新擴展、云部署與水平擴展能力、多類型游戲支持等五個維度…

LeetCode 925. 長按鍵入 java題解

雙指針。不會寫。 https://leetcode.cn/problems/long-pressed-name/description/ class Solution {public boolean isLongPressedName(String name, String typed) {int len1name.length();int len2typed.length();int i0,j0;while(i<len1&&j<len2){if(name.ch…

如何使用通義靈碼提高前端開發效率

工欲善其事&#xff0c;必先利其器。對于前端開發而言&#xff0c;使用VSCode已經能夠極大地提高前端的開發效率了。但有了AI加持后&#xff0c;前端開發的效率又更上一層樓了&#xff01; 本文采用的AI是通義靈碼插件提供的通義千問大模型&#xff0c;是目前AI性能榜第一梯隊…

【小明劍魔視頻Viggle AI模仿的核心算法組成】

Viggle AI 作為一款先進的生成式視頻AI工具&#xff0c;其核心技術棧融合了多項前沿算法。以下是深度解析其核心算法架構及實現原理&#xff1a; 一、核心算法組成 1. 運動控制生成&#xff08;Motion Control Generation&#xff09; 算法框架&#xff1a;基于擴散模型&…

解決Power BI Desktop導入Excel數據第一行不是列標題問題

選中第一行不是列標題的表→鼠標右鍵→選擇編輯查詢→進入Power Query界面→點擊“將第一行用作標題”→點擊左邊的“關閉并應用” 第一行就提升為標題了

對 Lambda 架構問題的深入理解

感謝 GPT&#xff0c;對很多問題的理解有機會更深。 大家攻擊 Lambda 架構&#xff0c;常說的一個點就是 “實時離線指標存在差異”。“實時離線指標存在差異”&#xff0c;是一個真實困擾運營方的問題嗎&#xff1f; 答案&#xff1a;是的&#xff0c;這是一個真實生活中的痛…

React中使用ahooks處理業務場景

// 從 ahooks 引入 useDynamicList 鉤子函數&#xff0c;用于管理動態列表數據&#xff08;增刪改&#xff09; import { useDynamicList } from ahooks;// 從 ant-design/icons 引入兩個圖標組件&#xff1a;減號圓圈圖標和加號圓圈圖標 import { MinusCircleOutlined, PlusCi…

藍橋杯2114 李白打酒加強版

問題描述 話說大詩人李白, 一生好飲。幸好他從不開車。 一天, 他提著酒顯, 從家里出來, 酒顯中有酒 2 斗。他邊走邊唱: 無事街上走&#xff0c;提顯去打酒。 逢店加一倍, 遇花喝一斗。 這一路上, 他一共遇到店 N 次, 遇到花 M 次。已知最后一次遇到的是花, 他正好把酒喝光了。…

小土堆pytorch--神經網路-卷積層池化層

神經網路-卷積層&池化層 一級目錄二級目錄三級目錄 1. 神經網路-卷積層2. 神經網路最大池化的應用 一級目錄 二級目錄 三級目錄 1. 神經網路-卷積層 在PyTorch中&#xff0c;torch.nn.Conv2d函數定義了一個二維卷積層&#xff0c;其常用參數包括&#xff1a; in_channel…

C++顯式聲明explicit

C顯示聲明explicit 在 C 中&#xff0c;explicit 關鍵字用于修飾單參數構造函數或多參數構造函數&#xff08;C11 起&#xff09;&#xff0c;其核心作用是禁止編譯器的隱式類型轉換。 一、必須加 explicit 的典型場景 1. 單參數構造函數 當構造函數只有一個參數時&#xff…

【springboot】HttpClient快速入門

介紹 HttpClient 是Apache Jakarta Common 下的子項目&#xff0c;可以用來提供高效的、最新的、功能豐富的支持 HTTP 協議的客戶端編程工具包&#xff0c;并且它支持 HTTP 協議最新的版本和建議 就是我們可以在java程序中使用HttpClient構造http請求&#xff0c;還可以發送h…

安全版4.5.8開啟審計后,hac+讀寫分離主備切換異常

文章目錄 環境BUG/漏洞編碼癥狀觸發條件解決方案 環境 系統平臺&#xff1a;UOS &#xff08;飛騰&#xff09; 版本&#xff1a;4.5.8 BUG/漏洞編碼 3043 癥狀 BUG安裝包&#xff1a; hgdb-see-4.5.8-db43858.aarch64.rpm 異常&#xff1a;hac集群一主兩備環境&#xff…

企業級 Go 多版本環境部署指南-Ubuntu CentOS Rocky全兼容實踐20250520

&#x1f6e0;? 企業級 Go 多版本環境部署指南-Ubuntu / CentOS / Rocky 全兼容實踐 兼顧 多版本管理、安全合規、最小權限原則與 CI/CD 可復現性&#xff0c;本指南以 Go 官方 toolchain 為主&#xff0c;結合 asdf 實現跨語言統一管理&#xff0c;并剔除已過時的 GVM。支持 …

Linux 的 TCP 網絡編程 -- 回顯服務器,翻譯服務器

目錄 1. 相關函數介紹 1.1 listen() 1.2 accept() 1.3 connect() 2. TCP 回顯服務器 2.1 Common.hpp 2.2 InetAddr.hpp 2.3 TcpClient.cc 2.4 TcpServer.hpp 2.5 TcpServer.cc 2.6 demo 測試 3. TCP 翻譯服務器 3.1 demo 測試 1. 相關函數介紹 其中一些函數在之前…

Unity3D仿星露谷物語開發46之種植/砍伐橡樹

1、目標 種植一棵橡樹&#xff0c;從種子變成大樹。 然后可以使用斧頭砍伐橡樹。 2、刪除totalGrowthDays字段 修改growthDays的含義&#xff0c;定義每個值為到達當前階段的累加天數。此時最后一個階段就是totalGrowthDays的含義。所以就可以刪除totalGrowthDays字段。 &…