主題 | 1 | 2 |
---|---|---|
??核心模型?? | 線性回歸 → 神經網絡 | Softmax回歸 |
??解決問題?? | 回歸問題(預測連續值) | 分類問題(預測離散類別) |
??關鍵創新?? | 引入激活函數解決線性不可分問題 | 引入獨熱編碼和交叉熵損失解決分類問題 |
??優化算法?? | 梯度下降法 → 小批量隨機梯度下降(SGD) | 小批量隨機梯度下降(SGD) |
??核心概念?? | 損失函數(MSE)、學習率、Batch Size | 損失函數(交叉熵)、獨熱編碼、全連接層 |
1. 從線性回歸到神經網絡
??基礎??:神經網絡起源于線性回歸(
Y = W * X + B
),最簡單的神經網絡就是一個線性模型。??局限性??:純線性模型無法解決復雜(如異或)問題。
??解決方案??:引入??激活函數??(如ReLU),為模型加入非線性變換,使其能夠學習復雜模式。
2. 模型訓練的核心:損失函數與優化
??目標??:通過調整參數(W, B)來最小化??損失函數??。
??回歸問題??:使用??均方誤差(MSE)?? 損失函數。
??分類問題??:使用??交叉熵損失??函數。
??優化方法??:使用??梯度下降法??,通過計算梯度并沿反方向更新參數來最小化損失。
??實踐策略??:采用??小批量隨機梯度下降(SGD)??,這是一種權衡了計算效率和穩定性的常用方法。
3. 分類問題的特殊處理
??輸出表示??:使用??Softmax回歸??將輸出轉換為概率分布,所有類別概率之和為1。
??標簽表示??:使用??獨熱編碼??將類別標簽轉換為向量形式,避免模型產生錯誤的數值偏見。
4. 關鍵超參數
??學習率(Learning Rate)??:控制參數更新的步長,是最重要的超參數之一。
??批量大小(Batch Size)??:每次參數更新時使用的樣本數量,影響訓練速度和穩定性。
5. 網絡結構
??全連接層??:一種基本的神經網絡層,該層的每個神經元都與前一層的所有神經元相連。
??6. 核心模型與概念??
??線性回歸??
基礎形式:
Y = W * X + B
(權重W,偏置B)應用場景:預測連續值(如房價估計)
局限性:無法解決非線性問題(如異或問題)。
??神經網絡??
??激活函數??(如ReLU):引入非線性,使模型能學習復雜模式。
??全連接層??:每一層的神經元與前一層的所有神經元相連。
??Softmax回歸??
用于多類分類問題(如手寫數字識別、圖像分類)。
輸出為概率分布(非負,和為1),通過
exp
運算實現。示例:輸入
[1, -1, 2]
→ Softmax輸出[0.26, 0.04, 0.7]
。
??7. 模型訓練與優化??
??損失函數??
??回歸問題??:均方誤差(MSE/L2損失)、L1損失、Huber損失。
??分類問題??:交叉熵損失(比較預測概率分布與真實標簽)。
??優化算法??
??梯度下降法??:
核心思想:沿梯度反方向更新參數,逐步最小化損失函數。
??梯度??:指向函數值下降最快的方向,但不保證全局最優。
??隨機梯度下降(SGD)??:
每次隨機選取一個樣本計算梯度,高效但波動大。
??小批量隨機梯度下降(Mini-batch SGD)??:
折中方案:每次用一小批(Batch)數據計算梯度。
??超參數??:
??批量大小(Batch Size)??:過小浪費計算資源,過大降低收斂速度。
??學習率(Learning Rate)??:過大易震蕩,過小收斂慢。
8. 分類任務實踐??
??從回歸到分類的擴展??
回歸:輸出單個連續值(如房價)。
分類:輸出多個值(每類的置信度),通過Softmax轉為概率。
示例任務:
MNIST(10類手寫數字)、ImageNet(1000類物體)、Kaggle蛋白質圖像分類(28類)。
??獨熱編碼(One-Hot Encoding)??
將類別標簽轉為向量形式(如“貓”→
[1, 0, 0]
),避免數值偏見。