配套講解視頻,點擊下方名片獲取
20 世紀 90 年代,計算機已經能識別文本,但圖片識別很困難。比如銀行支票的手寫數字識別,傳統方法需要人工設計規則,費時費力且精度不高。
于是,Yann LeCun 及其團隊提出了 LeNet-5——一種可以自動從圖片中提取特征的卷積神經網絡。
1、LeNet-5 的總體思路
1.1 一個生活化比喻
想象你是一個驗鈔員:
- 拿到一張鈔票(輸入圖片)
- 先用放大鏡找細節(卷積層)
- 縮小視野,專注主要花紋(池化層)
- 再看更復雜的組合圖案(深層卷積)
- 大腦分析所有線索,判斷真假(全連接層 + 分類器)
1.2 模型的三大核心步驟 - 特征提取(卷積層 + 池化層)
- 特征組合(更深的卷積)
- 分類決策(全連接層 + Softmax)
暫時無法在飛書文檔外展示此內容
2、每一層的作用
2.1 C1 卷積層
- 目標:找到低級特征(邊緣、線條、簡單形狀)
- 操作:6 個 5×5 濾鏡,每個濾鏡學會不同的模式
- 類比:攝影師用不同濾鏡拍攝同一場景,捕捉不同細節
2.2 S2 平均池化層 - 目標:縮小圖像尺寸,保留主要信息,減少計算量
- 類比:看縮略圖——雖然小了,但主體還在
2.3 C3 卷積層 - 目標:組合前面的低級特征,形成高級特征(曲線、交叉)
- 特別之處:并不是所有輸入都連接到每個輸出,減少參數量
2.4 S4 平均池化層 - 同 S2,再次降維,減少計算量
2.5 C5 卷積層 - 卷積核大小等于輸入大小(5×5),所以每個卷積核看到整個輸入
- 相當于全連接,但參數更少
2.6 F6 全連接層 - 把提取到的特征重新組合,準備分類
- 輸出 84 個神經元,類似人腦做最后的綜合判斷
2.7 輸出層 - Softmax 輸出 10 個概率
- 最高概率對應最終分類結果
3、LeNet-5 的優點與局限
3.1 優點 - 特征自動提取
- 參數量小(~6 萬),對硬件要求低
- 思路清晰,是現代 CNN 的模板
3.2 局限 - 激活函數使用 Sigmoid/tanh,訓練容易梯度消失
- 只能處理小尺寸灰度圖像
- 池化方式是平均池化(現代更常用最大池化)
4、實戰項目
A285-lenets5模型實現手寫數字識別實時畫板手寫預測