【機器學習深度學習】模型微調時的4大基礎評估指標(1)

目錄

前言:基礎評估指標(從 “對與錯” 到 “準與全”)

一、基礎評估4大指標

二、類比理解

2.1 準確率(Accuracy):整體對的比例

2.2?精確率(Precision):你說是垃圾的,有多少真的是?

2.3?召回率(Recall):所有垃圾郵件中,你抓住了多少?

2.4?F1 分數(F1 Score):“精確率”和“召回率”的平衡點

小結

三、一個簡單的例子練練手

四、大典型業務場景指標側重


前言:基礎評估指標(從 “對與錯” 到 “準與全”)

在自然語言處理(NLP)或計算機視覺(CV)等任務中,模型微調(Fine-tuning)已成為遷移學習不可或缺的步驟。我們常說“調模型”,可問題是,調到什么程度才算調得好?核心就在于:如何評估微調后的模型是否達標

本文將系統梳理模型微調過程中的核心評估指標,幫助你科學判斷模型性能,避免“調不準、評不清”的尷尬局面。


一、基礎評估4大指標

微調模型后,第一步就是搞清楚“預測得準不準”。以下四類基礎指標,是所有監督學習任務的評估基石:

指標公式適用場景
準確率 Accuracy(TP + TN) / (TP + TN + FP + FN)類別均衡時反映整體正確性
精確率 PrecisionTP / (TP + FP)假正例代價高(如垃圾郵件)
召回率 RecallTP / (TP + FN)假負例代價高(如疾病漏診)
F1 分數 F1 Score2 × (P × R) / (P + R)平衡考慮“準”與“全”,適合類別不平衡場景

理解提示

  • TP:預測為正且實際為正

  • FP:預測為正但實際為負

  • FN:預測為負但實際為正

  • TN:預測為負且實際為負


二、類比理解

📦 假設你在做一個“垃圾郵件識別器”

你的模型要判斷每封郵件是否是垃圾郵件(正類),正常郵件是非垃圾郵件(負類)。

模型預測后你得到這樣的結果:

實際 \ 預測垃圾郵件(正類)正常郵件(負類)
垃圾郵件(正類)? 預測對了:TP? 漏掉了:FN
正常郵件(負類)? 誤判了:FP? 沒判斷是垃圾:TN
縮寫中文名稱含義(預測結果 vs 實際情況)舉例說明
TP真正例模型預測是垃圾郵件,實際也是垃圾郵件你說它是垃圾,它也確實是垃圾(預測對了)
FP假正例模型預測是垃圾郵件,但實際是正常郵件你誤把正常郵件當成垃圾郵件(誤判)
FN假負例模型預測是正常郵件,但實際是垃圾郵件你沒發現它是垃圾郵件(漏掉了)
TN真負例模型預測是正常郵件,實際也是正常郵件你說它是正常郵件,它也確實正常(預測對了)

?🧠 四個指標通俗解釋

2.1 準確率(Accuracy):整體對的比例

你總共判斷了多少封郵件?你猜對了多少?

📌 公式:

Accuracy = (TP + TN) / 總郵件數

?? 適合用在“垃圾郵件”和“正常郵件”數量差不多時。如果90%都是正常郵件,那模型哪怕啥都不做,只說“都是正常郵件”,準確率都能高達90% —— 所以不能總用它判斷。


2.2?精確率(Precision):你說是垃圾的,有多少真的是?

你標了10封垃圾郵件,結果只有6封真的是,其它4封是誤判的(誤傷),那么你的精確率是 60%。

📌 公式:

Precision = TP / (TP + FP)

?? 適合在“誤傷很嚴重”的場景,比如:

  • 正常郵件被誤判為垃圾(你可能錯過重要郵件)

  • 把好人當壞人(治安系統)


2.3?召回率(Recall):所有垃圾郵件中,你抓住了多少?

10封真實垃圾郵件你只識別出6封,那召回率是60%。還有4封你沒發現,被放進了收件箱(漏判)

📌 公式:

Recall = TP / (TP + FN)

?? 適合在“漏掉很嚴重”的場景,比如:

  • 癌癥診斷(不能漏掉任何患者)

  • 安檢(不能漏掉任何違禁物品)


2.4?F1 分數(F1 Score):“精確率”和“召回率”的平衡點

當你想又“抓得準”又“抓得全”,F1就是這個中間值。

?📌 公式:

F1 = 2 × (Precision × Recall) / (Precision + Recall)

? 適合 類別不平衡任務(比如只有1%的郵件是垃圾),因為準確率可能失真,而F1分數更真實反映模型在“正類”上的能力。


小結

🎯 一個表格總結四者:

指標問的問題更關注哪一類錯誤?舉例適用場景
Accuracy總體猜對了嗎?不區分分類均衡的數據
Precision說是“正”的,有多少是對的?少犯假正例(FP)垃圾郵件、司法錯判
Recall真正的“正”,你找到了多少?少漏真正例(FN)癌癥篩查、異常檢測
F1 Score精確率 vs 召回率的折中平衡兩者類別不平衡、重點關注正類

三、一個簡單的例子練練手

假設我們有 100 封郵件:

  • 實際有 20 封是垃圾(正類),80 封是正常(負類)

  • 模型預測了 25 封為垃圾,其中:

    • 真正是垃圾的有 15 封(TP)

    • 誤判的有 10 封(FP)

    • 漏掉的垃圾郵件有 5 封(FN)

    • 判斷為正常的 75 封中有 70 封真的是正常(TN)

我們來算一下四個指標:

  • Accuracy = (TP + TN) / 所有郵件 = (15 + 70) / 100 = 85%

  • Precision = TP / (TP + FP) = 15 / (15 + 10) = 60%

  • Recall = TP / (TP + FN) = 15 / (15 + 5) = 75%

  • F1 = 2 × (0.6 × 0.75) / (0.6 + 0.75) ≈ 66.7%


四、大典型業務場景指標側重

下面按 5?大典型業務場景 展開,說明為什么要偏重某一指標、具體怎么做權衡,并給出常見做法參考。讀完你就知道:面對不同任務,該把“注意力”放在 Accuracy、Precision、Recall 還是?F1 上。

場景類型錯誤成本特點首選指標為什么常見做法 & Tips
1. 類別基本均衡(情感三分類、貓狗二分類等)正反例數量相近,FP 與 FN 代價也差不多準確率?(Accuracy)既能直觀反映整體正確率,又不會被類別失衡“稀釋”- 仍需同時監控 P/R,防止模型“懶惰”- 若類別稍不平衡,可補充 Macro?F1
2. 假正例代價高(垃圾郵件、司法誤判、廣告點擊扣費)把正常樣本錯判為正樣本會直接傷害用戶或帶來損失精確率?(Precision)希望“凡是你說是正類的,基本都靠譜”- 通過升高閾值提高 Precision- 將 FP 加入損失函數權重- 提供手動復核流程來彌補召回下降
3. 假負例代價高(癌癥篩查、金融欺詐預警、危險品檢測)漏掉真實正樣本可能造成巨大風險召回率?(Recall)情愿多報幾個可復查,也不能漏掉關鍵正例- 降低閾值提升 Recall- 采用級聯模型:先高 Recall 粗篩→再高 Precision 精篩- 人工二審去除 FP
4. 類別極度不平衡(罕見缺陷檢測、少數客戶流失預測)正類稀少,Accuracy 失真,FP/FN 代價往往都高F1(宏或加權)同時關注“抓得全”與“抓得準”,避免單邊傾斜- 報告 Macro?F1 + per?class P/R- 采樣或代價敏感學習處理失衡- PR?Curve 找最佳閾值
5. 多標簽 / 大規模分類(文本多標簽、商品千分類)單條樣本可屬于多類,或類數特別多微平均 F1 或 Micro P/R把所有 TP/FP/FN 匯總,更能體現全局覆蓋- 業務看“能覆蓋多少標簽” → 看 Recall- 看“推薦列表質量” → 看 Precision@k- 別忘對長尾類別做 Macro?分析

?具體權衡與實踐建議

1、先問業務:錯哪一種更痛?

  • 如果“錯抓”比“漏掉”更痛 → 抓 Precision

  • 如果“漏掉”后果更嚴重 → 抓 Recall

  • 兩者都痛且樣本少 → 看?F1

2、多維監控不只單指標

  • 報告里同時列出 P、R、F1、支持數 (support)

  • 繪制 PR?Curve / ROC?Curve,方便運營或醫學專家選閾值

3、閾值調優是最簡單的杠桿

  • 二分類 softmax?/?sigmoid 輸出 → 調閾值直接移動 P、R

  • 訓練后根據驗證集或業務線下實驗(A/B)選點

4、代價敏感學習

  • 在損失函數里加權,把 FP 或 FN 的損失系數調高

  • 適用于極端不平衡或需定量衡量金錢/風險成本

5、把評估寫進持續集成

  • 每次微調都產出同一套指標 + 混淆矩陣 + 曲線

  • 用 TensorBoard/wandb 做曲線對比,避免“局部最優”假象

快速記憶口訣

“均衡看準率,誤傷看精確;漏檢看召回,兩難看 F1。”

只要先搞清“正類是誰、錯誤代價怎么量化”,再對號入座,你就能選對評估指標,給微調找準方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87749.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87749.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87749.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于 棧幀變化完整流程圖(函數嵌套)

一、什么是棧幀(Stack Frame) 當一個函數被調用時,會在棧上開辟一段空間,叫做 棧幀。 每個棧幀保存了: 函數的參數 返回地址(從哪里跳回來) 上一個棧幀的棧底指針(保存調用者的 E…

new與malloc[c++面試系列]

new與malloc的區別new順從c的思想,在堆區申請一個對象,因此它會調用對象的構造函數進行初始化,它也應該調用構造函數;malloc在堆區申請一塊空間,用于存放資源new無需指定對象大小,可以自動計算對象大小進行…

Go語言的sync.Once和sync.Cond

一.sync.OnceOnce(單次執行)用途:確保某個操作只執行一次(如初始化配置)核心方法:Do(f func()):保證 f只執行一次package mainimport ("fmt""sync" )var (config map[strin…

java整合itext pdf實現自定義PDF文件格式導出

springBoot結合itext pdf實現自定義PDF文件格式導出背景需求&#xff1a;使用PDF導出指定人員對應周次的打卡記錄&#xff0c;每周對應星期幾打卡過就打“√”。如下圖&#xff1a;1、導入依賴導入itextpdf依賴<!-- itex PDF --> <dependency><groupId>…

從0開始學習計算機視覺--Day07--神經網絡

當我們輸入的變量是一個比較大的向量&#xff08;比如有4096項&#xff09;&#xff0c;函數是求返回輸入的最大值&#xff0c;要求的權重矩陣的梯度就是4096 * 4096的大小&#xff0c;而實際上我們的輸入往往都不只有一個向量&#xff0c;那如果向量有一百個的話&#xff0c;是…

MySQL存儲過程全解析

1、存儲過程的概念 存儲過程是事先經過編譯并存儲在數據庫中的一段sql語句的集合&#xff0c;調用存儲過程可以簡化應用開發人員的很多工作&#xff0c;減少數據在數據庫和應用服務器之間的傳輸&#xff0c;對于提高數據處理效率是很有好處。 2、存儲過程的優點 存儲過程是通…

后端密碼加密:守護用戶數據的鋼鐵長城

&#x1f512;“系統被拖庫了&#xff01;” 這可能是開發者最恐懼的噩夢。而當用戶密碼以明文暴露時&#xff0c;災難將席卷每個用戶——密碼重用的慣性會讓黑客輕松攻破他們在其他平臺的賬戶。作為后端開發者&#xff0c;我們握有守護用戶安全的第一道鑰匙&#xff1a;科學的…

Flutter 3.29+使用isar構建失敗

執行命令&#xff1a;flutter build apk --release 報錯 Flutter assets will be downloaded from https://storage.flutter-io.cn. Make sure you trust this source!FAILURE: Build failed with an exception. …

SQL 轉 Java 實體類工具

拿到數據庫建表語句后怎么高效寫 Java 實體類&#xff1f;這款工具直接幫你全自動生成&#xff01; 作為一名后端 Java 工程師&#xff0c;你是不是也經歷過以下情況&#xff1a; ? 拿到一份完整的建表 SQL&#xff0c;卻要手動寫 Java Bean ? 字段幾十個&#xff0c;嵌套復…

創客匠人視角下:創始人 IP 打造與知識變現的深度耦合路徑

在知識經濟蓬勃發展的當下&#xff0c;創始人 IP 打造與知識變現的融合已成為行業破局關鍵。創客匠人作為深耕知識付費賽道多年的服務平臺&#xff0c;其創始人老蔣提出的 “土壤構建能力” 理論&#xff0c;為理解這一融合邏輯提供了獨特視角。從本質來看&#xff0c;創始人 I…

【網絡協議安全】任務13:ACL訪問控制列表

目錄 一、概念 1、前言 2、應用場景 3、ACL分類 基于ACL標識方法的劃分 基于對IPv4和IPv6支持情況的劃分 基于ACL規則定義方式的劃分 4、ACL的基本原理 ACL的組成 ACL的匹配機制 5、ACL常用匹配原則 6、ACL常用的匹配項 生效時間段 IP承載的協議類型 源/目的IP…

TensorFlow 安裝使用教程

一、TensorFlow 簡介 TensorFlow 是由 Google 開發的開源深度學習框架&#xff0c;支持數據流圖計算&#xff0c;可運行于 CPU/GPU/TPU。它被廣泛應用于語音識別、圖像處理、自然語言處理等多個 AI 領域。 二、安裝 TensorFlow 2.1 pip 安裝&#xff08;默認 CPU 版本&#x…

騰訊云認證考試報名 - TDSQL數據庫交付運維專家(TCCE MySQL版)

數據庫交付運維專家- 騰訊云TDSQL(MySQL版) 適合人群&#xff1a; 適合TDSQL(MySQL版)各組件擴縮容、運維、性能優化、故障解決、壓力測試等數據庫開發、運維、管理人員。 認證考試&#xff1a; 單選*40道多選*20道上機*20道 考試時長&#xff1a; 理論考試120分鐘,上機考試…

webUI平替應用,安裝簡單,功能齊全

前言 在安裝本地大模型后&#xff0c;我們都會為大模型安裝一個用戶界面&#xff0c;這樣就可以實現語音輸入&#xff0c;對話保存&#xff0c;微調&#xff0c;構建本地知識庫等高階功能。 目前最火的本地大模型UI&#xff0c;就是gihub上的webUI&#xff0c;但他不僅依賴較…

【Maven】Maven核心機制的 萬字 深度解析

Maven核心機制的萬字深度解析一、依賴管理機制全解&#xff08;工業級依賴治理方案&#xff09;1. 坐標體系的本質與設計哲學2. 依賴傳遞與仲裁算法的工程實現**沖突仲裁核心算法**企業級仲裁策略3. Scope作用域的類加載隔離原理4. 多級倉庫體系架構設計二、構建生命周期底層原…

暑期前端訓練day4

今天主要是有關周賽的&#xff0c;比賽的時候是用c寫的并且是 ak了&#xff0c;但是就是想用js再復盤一下&#xff0c;也不能只是圖一時之爽&#xff0c;如果是換在實際的場景里面我是不是只會用 c快速寫出來。 最近也要從js逐漸轉向ts&#xff0c;感覺Ts才是主旋律&#xff0c…

轉Go學習筆記(2)進階

前置&#xff1a;轉Go學習筆記1語法入門 目錄Golang進階groutine協程并發概念梳理創建goroutine語法channel實現goroutine之間通信channel與range、selectGoModulesGo Modules與GOPATHGo Modules模式用Go Modules初始化項目修改模塊的版本依賴關系Go Modules 版本號規范vendor …

無人機3控接力模式技術分析

一、運行方式 1. 接力控制流程 位置觸發切換&#xff1a;飛控中心實時監測無人機位置&#xff0c;當進入預設的切換路線&#xff08;如靠近下一個機庫或控制器覆蓋范圍&#xff09;時&#xff0c;觸發切換流程。 控制權請求與驗證&#xff1a; 當前控制器&#xff08…

Actor Critic對比PGValue-Based

目錄 回顧一下policy gradient&#xff1a; QAC算法&#xff1a; A2C- advantage actor critic 問題&#xff1a; 1. 為什么要結合起來&#xff0c;能解決什么問題&#xff1f; 1. 策略梯度 (PG) 的優勢與核心問題 2. 基于價值方法 (Value-Based) 的優勢與局限性 3. 潛…

buuctf-re

1.findKey 打開是C而且有點亂,所以找關鍵步驟有一個加密進去是不能反編譯的,有花指令, 這里有重復的部分把下面的NOP掉,重新定義函數’p’ 之后分析邏輯, // positive sp value has been detected, the output may be wrong! int __userpurge sub_40191F<eax>(int a1&l…