一、線性回歸:從房價預測看懂 “連續值預測” 邏輯
線性回歸是深度學習的 “敲門磚”,它的核心思想是用線性關系擬合數據規律,解決連續值預測問題—— 比如根據房屋特征估算房價、根據溫度濕度預測降雨量等。
1. 從生活案例到數學模型
拿房價預測場景來說:看中一套房時,我們會收集它的特征(比如 7 間臥室、2 個車庫、花崗巖 countertops 等),再參考往年同類房屋的成交價,最終估算出合理出價。這個過程本質就是線性回歸的核心邏輯。
線性回歸的數學模型可表示為y = w?x + b。其中,x 是輸入特征向量(如臥室數、車庫面積等房屋屬性);w 是權重向量,代表每個特征對預測結果的 “影響力”(比如臥室數權重高,說明臥室多對房價提升更明顯);b 是偏置項,相當于線性關系的 “截距”,捕捉特征之外的基礎影響;y 則是預測的連續值(比如房價)。若處理批量數據,還可寫成矩陣形式y = Xw + b,其中 X 是包含多個樣本的特征矩陣,更適合計算機高效計算。
2. 線性回歸的神經網絡視角
線性回歸其實是最簡單的單層神經網絡:輸入層對應特征 x(如臥室數、車庫大小),每個特征是一個輸入神經元;輸出層對應預測值 y(如房價),只有 1 個輸出神經元;輸入層與輸出層是 “全連接”—— 每個輸入特征都通過權重 w 與輸出神經元相連,再疊加偏置 b 得到結果。
3. 如何訓練:從損失到優化
模型的 “學習過程”,本質是找到最優的 w 和 b,讓預測值 y 盡可能接近真實值。這需要損失函數與優化算法兩個核心工具。
(1)損失函數:量化 “預測誤差”
線性回歸常用平方損失(L2 損失),計算預測值與真實值的平方差,損失越小,模型預測越準。
(2)優化算法:尋找 “最優參數”
最經典的方法是梯度下降法,核心邏輯是 “跟著梯度反方向走,最快找到最小值”。梯度是由所有參數(w 和 b)的偏導數組成的向量,指向 “損失函數增加最快的方向”;每次沿梯度的反方向更新參數,逐步降低損失。
實際中更常用小批量隨機梯度下降(Mini-batch SGD) :隨機梯度下降(SGD)每次用 1 個樣本更新參數,速度快但波動大;小批量 SGD 每次用一小批樣本(比如 32 個、64 個)計算梯度,兼顧效率與穩定性。
(3)關鍵超參數:學習率與批量大小
學習率(η)是參數更新的 “步長”,太大容易越過最小值,太小則訓練太慢;批量大小需適中,太小浪費計算資源,太大則梯度估計不準,需根據硬件調整。
二、Softmax 回歸:從 “連續預測” 到 “多類分類”
當任務從 “預測房價” 變成 “識別手寫數字是 0-9 中的哪一個” 時,線性回歸就不夠用了 —— 這需要解決離散分類問題,而 Softmax 回歸正是為此設計的多類分類模型。
1. 回歸與分類:核心差異
回歸的輸出是連續數值,典型場景如房價預測、溫度預測;分類的輸出是離散類別,典型場景如手寫數字識別、ImageNet 自然對象分類(1000 類)、Kaggle 蛋白質圖像分類(28 類)、惡語評論分類(7 類)等。
2. Softmax 回歸的模型設計
Softmax 回歸在 linear 層基礎上增加了 “概率轉換”,核心是解決 “多類置信度” 問題。
(1)模型結構:全連接 + 多輸出
Softmax 回歸也是單層全連接神經網絡,但輸出層神經元數量等于類別數。輸入層對應樣本特征(比如圖像的像素值),輸出層每個神經元輸出對應類別的 “原始置信度”。比如 MNIST 手寫數字識別(10 類),輸出層就有 10 個神經元,分別對應數字 0-9 的置信度。
(2)Softmax 運算:把置信度變成概率
原始置信度可能為負、總和不為 1,無法直接作為概率。Softmax 運算通過兩步解決:用指數函數 exp (o?) 把置信度轉為 “非負值”,再除以所有類別的 exp 之和,得到 “和為 1 的概率分布”。例如,原始置信度 [1, -1, 2] 經 Softmax 運算后得到 [0.26, 0.04, 0.7],即預測為第 3 類的概率最高(70%)。
3. 損失函數:交叉熵更適合分類
線性回歸的平方損失不適合分類任務 —— 當模型對錯誤類別置信度很高時,平方損失的梯度會很 小,導致學習緩慢。此時需用交叉熵損失,專門衡量兩個概率分布的差異。它以真實標簽的概率分布(如 “真實是第 2 類” 則為 [0,1,0] 的獨熱編碼)和模型預測的概率分布為輸入,模型預測越偏離真實標簽,損失越大,梯度也越大,能快速 “懲罰” 錯誤預測。
三、總結:兩個基礎模型的核心脈絡
線性回歸與 Softmax 回歸共享深度學習的核心邏輯 ——“特征輸入→線性變換→損失量化→梯度優化”,但二者針對不同任務存在關鍵差異。
線性回歸聚焦于回歸任務,輸出連續值,輸出層只有 1 個神經元,核心運算為線性變換(w?x+b),常用平方損失函數;Softmax 回歸針對多類分類任務,輸出離散類別對應的概率分布,輸出層神經元數量等于類別數,核心運算為 “線性變換 + Softmax”,常用交叉熵損失函數。二者在優化算法上均以小批量 SGD 為主流選擇。
這兩個模型是深度學習的 “地基”:后續的多層神經網絡,本質是在它們的基礎上疊加更多線性層與激活函數;而復雜的圖像、NLP 任務,也都是從 “線性擬合” 或 “概率分類” 的邏輯延伸而來。吃透這兩個模型,才算真正邁入深度學習的大門~