深度學習入門基石：線性回歸與 Softmax 回歸精講

一、線性回歸：從房價預測看懂 “連續值預測” 邏輯
線性回歸是深度學習的 “敲門磚”，它的核心思想是用線性關系擬合數據規律，解決連續值預測問題—— 比如根據房屋特征估算房價、根據溫度濕度預測降雨量等。
1. 從生活案例到數學模型
拿房價預測場景來說：看中一套房時，我們會收集它的特征（比如 7 間臥室、2 個車庫、花崗巖 countertops 等），再參考往年同類房屋的成交價，最終估算出合理出價。這個過程本質就是線性回歸的核心邏輯。

線性回歸的數學模型可表示為y = w?x + b。其中，x 是輸入特征向量（如臥室數、車庫面積等房屋屬性）；w 是權重向量，代表每個特征對預測結果的 “影響力”（比如臥室數權重高，說明臥室多對房價提升更明顯）；b 是偏置項，相當于線性關系的 “截距”，捕捉特征之外的基礎影響；y 則是預測的連續值（比如房價）。若處理批量數據，還可寫成矩陣形式y = Xw + b，其中 X 是包含多個樣本的特征矩陣，更適合計算機高效計算。
2. 線性回歸的神經網絡視角
線性回歸其實是最簡單的單層神經網絡：輸入層對應特征 x（如臥室數、車庫大小），每個特征是一個輸入神經元；輸出層對應預測值 y（如房價），只有 1 個輸出神經元；輸入層與輸出層是 “全連接”—— 每個輸入特征都通過權重 w 與輸出神經元相連，再疊加偏置 b 得到結果。
3. 如何訓練：從損失到優化
模型的 “學習過程”，本質是找到最優的 w 和 b，讓預測值 y 盡可能接近真實值。這需要損失函數與優化算法兩個核心工具。
（1）損失函數：量化 “預測誤差”
線性回歸常用平方損失（L2 損失），計算預測值與真實值的平方差，損失越小，模型預測越準。
（2）優化算法：尋找 “最優參數”
最經典的方法是梯度下降法，核心邏輯是 “跟著梯度反方向走，最快找到最小值”。梯度是由所有參數（w 和 b）的偏導數組成的向量，指向 “損失函數增加最快的方向”；每次沿梯度的反方向更新參數，逐步降低損失。

實際中更常用小批量隨機梯度下降（Mini-batch SGD）：隨機梯度下降（SGD）每次用 1 個樣本更新參數，速度快但波動大；小批量 SGD 每次用一小批樣本（比如 32 個、64 個）計算梯度，兼顧效率與穩定性。
（3）關鍵超參數：學習率與批量大小
學習率（η）是參數更新的 “步長”，太大容易越過最小值，太小則訓練太慢；批量大小需適中，太小浪費計算資源，太大則梯度估計不準，需根據硬件調整。
二、Softmax 回歸：從 “連續預測” 到 “多類分類”
當任務從 “預測房價” 變成 “識別手寫數字是 0-9 中的哪一個” 時，線性回歸就不夠用了 —— 這需要解決離散分類問題，而 Softmax 回歸正是為此設計的多類分類模型。
1. 回歸與分類：核心差異
回歸的輸出是連續數值，典型場景如房價預測、溫度預測；分類的輸出是離散類別，典型場景如手寫數字識別、ImageNet 自然對象分類（1000 類）、Kaggle 蛋白質圖像分類（28 類）、惡語評論分類（7 類）等。
2. Softmax 回歸的模型設計
Softmax 回歸在 linear 層基礎上增加了 “概率轉換”，核心是解決 “多類置信度” 問題。
（1）模型結構：全連接 + 多輸出
Softmax 回歸也是單層全連接神經網絡，但輸出層神經元數量等于類別數。輸入層對應樣本特征（比如圖像的像素值），輸出層每個神經元輸出對應類別的 “原始置信度”。比如 MNIST 手寫數字識別（10 類），輸出層就有 10 個神經元，分別對應數字 0-9 的置信度。
（2）Softmax 運算：把置信度變成概率
原始置信度可能為負、總和不為 1，無法直接作為概率。Softmax 運算通過兩步解決：用指數函數 exp (o?) 把置信度轉為 “非負值”，再除以所有類別的 exp 之和，得到 “和為 1 的概率分布”。例如，原始置信度 [1, -1, 2] 經 Softmax 運算后得到 [0.26, 0.04, 0.7]，即預測為第 3 類的概率最高（70%）。
3. 損失函數：交叉熵更適合分類
線性回歸的平方損失不適合分類任務 —— 當模型對錯誤類別置信度很高時，平方損失的梯度會很小，導致學習緩慢。此時需用交叉熵損失，專門衡量兩個概率分布的差異。它以真實標簽的概率分布（如 “真實是第 2 類” 則為 [0,1,0] 的獨熱編碼）和模型預測的概率分布為輸入，模型預測越偏離真實標簽，損失越大，梯度也越大，能快速 “懲罰” 錯誤預測。
三、總結：兩個基礎模型的核心脈絡
線性回歸與 Softmax 回歸共享深度學習的核心邏輯 ——“特征輸入→線性變換→損失量化→梯度優化”，但二者針對不同任務存在關鍵差異。

線性回歸聚焦于回歸任務，輸出連續值，輸出層只有 1 個神經元，核心運算為線性變換（w?x+b），常用平方損失函數；Softmax 回歸針對多類分類任務，輸出離散類別對應的概率分布，輸出層神經元數量等于類別數，核心運算為 “線性變換 + Softmax”，常用交叉熵損失函數。二者在優化算法上均以小批量 SGD 為主流選擇。

這兩個模型是深度學習的 “地基”：后續的多層神經網絡，本質是在它們的基礎上疊加更多線性層與激活函數；而復雜的圖像、NLP 任務，也都是從 “線性擬合” 或 “概率分類” 的邏輯延伸而來。吃透這兩個模型，才算真正邁入深度學習的大門～

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/100474.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/100474.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/100474.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！