LeNet-5：手寫數字識別經典CNN

配套講解視頻，點擊下方名片獲取

20 世紀 90 年代，計算機已經能識別文本，但圖片識別很困難。比如銀行支票的手寫數字識別，傳統方法需要人工設計規則，費時費力且精度不高。
于是，Yann LeCun 及其團隊提出了 LeNet-5——一種可以自動從圖片中提取特征的卷積神經網絡。
1、LeNet-5 的總體思路
1.1 一個生活化比喻
想象你是一個驗鈔員：

拿到一張鈔票（輸入圖片）
先用放大鏡找細節（卷積層）
縮小視野，專注主要花紋（池化層）
再看更復雜的組合圖案（深層卷積）
大腦分析所有線索，判斷真假（全連接層 + 分類器）
1.2 模型的三大核心步驟
特征提取（卷積層 + 池化層）
特征組合（更深的卷積）
分類決策（全連接層 + Softmax）

暫時無法在飛書文檔外展示此內容
2、每一層的作用
2.1 C1 卷積層

目標：找到低級特征（邊緣、線條、簡單形狀）
操作：6 個 5×5 濾鏡，每個濾鏡學會不同的模式
類比：攝影師用不同濾鏡拍攝同一場景，捕捉不同細節
2.2 S2 平均池化層
目標：縮小圖像尺寸，保留主要信息，減少計算量
類比：看縮略圖——雖然小了，但主體還在
2.3 C3 卷積層
目標：組合前面的低級特征，形成高級特征（曲線、交叉）
特別之處：并不是所有輸入都連接到每個輸出，減少參數量
2.4 S4 平均池化層
同 S2，再次降維，減少計算量
2.5 C5 卷積層
卷積核大小等于輸入大小（5×5），所以每個卷積核看到整個輸入
相當于全連接，但參數更少
2.6 F6 全連接層
把提取到的特征重新組合，準備分類
輸出 84 個神經元，類似人腦做最后的綜合判斷
2.7 輸出層
Softmax 輸出 10 個概率
最高概率對應最終分類結果
3、LeNet-5 的優點與局限
3.1 優點
特征自動提取
參數量小（~6 萬），對硬件要求低
思路清晰，是現代 CNN 的模板
3.2 局限
激活函數使用 Sigmoid/tanh，訓練容易梯度消失
只能處理小尺寸灰度圖像
池化方式是平均池化（現代更常用最大池化）

4、實戰項目

A285-lenets5模型實現手寫數字識別實時畫板手寫預測

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/98017.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/98017.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/98017.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！