配套筆記&講解視頻,點擊文末名片獲取
- 研究背景和動機
在 VGG 出現之前,圖像識別就像“盲人摸象”:
- 計算機看一張圖,只能憑感覺抓幾個零散的“特征點”,
- 結果忽好忽壞,時靈時不靈。
大家發現,如果把“看圖的流程”做得更深、更系統,準確率就能蹭蹭往上漲。于是“深一點的網絡”成了當時的香餑餑,但問題是: - 怎么深?
- 深了會不會崩?
牛津大學的 VGG 團隊(Visual Geometry Group)站出來說:
“我們不想玩花活,就想回答一個樸素的問題——
如果每一層都用最簡單、最統一的小積木,一直往上摞,會發生什么?”
他們把“小積木”定成: - 統一大小(3×3)
- 統一步長(一步一格)
- 統一“粘合劑”(池化層)
就像只用一種形狀的樂高方塊,卻硬要搭出摩天大樓。
他們想證明:
“簡單 + 深度” 可能比 “復雜 + 淺層” 更給力。
2、VGG16 的創新點
- 深層網絡結構(樓層更高的“特征大樓”)
- 可以把神經網絡想象成一棟大樓,每一層都在提取不同層次的圖像特征。
- AlexNet 就像一棟 8 層的樓,大體能看到物體的形狀。
- VGG16 把樓層加高到了 16 層,每一層都更細致地加工特征,能看出更復雜、更抽象的細節。
- 小卷積核堆疊(小放大鏡的組