一、理論:明確線性回歸的核心邏輯
- 模型本質:線性回歸是通過屬性的線性組合實現預測的模型,核心目標是找到最優的直線(單變量)、平面(雙變量)或超平面(多變量),最小化預測值與真實值的誤差。其一般形式分為兩種,單變量為
f(x)=wx + b
,多變量則通過向量簡化為f(x)=w^T x + b
(其中w
為權重向量,b
為截距),直觀體現了 “屬性線性組合” 的核心思想。 - 核心概念區分:清晰理解了線性回歸的基礎定義與延伸概念,比如 “最小二乘法” 是基于均方誤差(對應歐氏距離)最小化的求解方法,核心是讓所有樣本到擬合線的歐氏距離之和最小;而 “參數估計” 則是通過計算
w
和b
,使誤差函數E(w,b)
(殘差平方和)最小的過程,二者共同構成了線性回歸 “建模 - 求解” 的理論基礎。
二、方法:掌握模型評估與參數求解
- 評估指標體系:學會用三類關鍵指標判斷模型擬合效果,各指標功能明確且互補:
- SSE/RSS(殘差平方和):直接計算所有樣本預測值與真實值差值的平方和,反映誤差總量,值越小誤差越小;
- MSE(均方誤差):對 SSE 取均值,消除樣本數量影響,更適合不同數據集間的誤差對比;
- R2(決定系數):通過 “1 - SSE/SST” 計算(SST 為總平方和),取值范圍在 0-1 之間,越接近 1 說明模型對數據的解釋能力越強,是判斷擬合效果最直觀的指標。
- 參數求解步驟:理解了最小二乘法求解
w
和b
的數學邏輯:先對誤差函數E(w,b)
分別求w
和b
的偏導,再令偏導數為 0,通過推導得出w
和b
的最優解公式(如單變量中w
與樣本x
、y
的均值相關,b
為y
均值減去w
與x
均值的乘積),這一過程讓我意識到線性回歸的 “最優解” 并非主觀選擇,而是基于數學推導的客觀結果。
三、實踐:落地模型應用與工具使用
- 工具操作要點:初步掌握了 Python 中
sklearn.linear_model.LinearRegression()
的核心參數與用法:fit_intercept
:控制模型是否包含截距b
,默認 True(即擬合y=wx+b
),若設為 False 則模型強制過原點(y=wx
),需根據數據特點選擇;normalize
:控制是否對數據歸一化,默認 False,當屬性量綱差異大時可開啟,避免量綱影響權重計算。
- 案例實踐認知:通過 “波士頓房價預測” 的課堂練習案例,理解了線性回歸的應用流程 —— 從數據準備、模型初始化與訓練(
fit
方法),到用模型預測(predict
方法),再用 MSE、R2 評估效果,形成了 “數據 - 模型 - 評估” 的完整實踐閉環,也體會到線性回歸在連續值預測(如房價、銷量)場景中的實用性。 - 自己又在課后實現了線性回歸計算糖尿病患者發病率,通過今天的學習成功完成了所有的功能,總而言之今天是收獲滿滿的一天。
四、總結與反思
線性回歸作為機器學習的 “入門模型”,其核心邏輯(線性組合、誤差最小化)是理解更復雜模型(如邏輯回歸、線性 SVM)的基礎。但同時也意識到其局限性:僅適用于數據呈線性關系的場景,若數據存在非線性關聯則擬合效果差,后續需進一步學習非線性模型(如多項式回歸)以應對更多場景。此次學習不僅掌握了線性回歸的知識,更培養了 “從理論推導到代碼實踐” 的思維,為后續機器學習學習奠定了扎實基礎。