學習目標:理解分類問題的本質和評估方法,掌握邏輯回歸的數學原理和概率解釋,學會二分類和多分類問題的處理方法,熟練使用分類評估指標,理解過擬合和正則化的基本概念。
> 從第16章到第17章:從預測數值到判斷類別
在第16章中,我們學習了線性回歸,解決的是預測連續數值的問題——比如根據房屋特征預測房價。但在現實世界中,我們經常面臨的是另一類問題:分類判斷。比如:
- 這封郵件是垃圾郵件還是正常郵件?
- 這張圖片里是貓還是狗?
- 這個腫瘤是良性還是惡性?
- 這個用戶會不會點擊這個廣告?
這些問題的共同特點是:我們需要模型給出明確的類別判斷,而不是一個連續的數值。這就是分類問題的核心:將輸入數據映射到離散的類別標簽上。
想象你是一位醫生,需要根據患者的各項檢查指標來判斷疾病類型。你的大腦實際上在進行一個復雜的分類過程:收集癥狀特征,結合經驗知識,最終給出一個明確的診斷結果。邏輯回歸就是讓機器學會這種"智能判斷"的基礎算法。
為什么不能直接用線性回歸來做分類?如果用線性回歸預測"是否為垃圾郵件",模型可能輸出2.3或-0.8這樣的連續值,但我們需要的是"是"或"否"這樣的明確答案。邏輯回歸通過一個巧妙的數學變換,將線性回歸的連續輸出轉換為概率值,再進一步轉換為分類決策。