1.概述
????????卷積神經網絡(CNN)是深度學習在計算機視覺領域的重要突破,專為處理網格狀數據(如圖像)設計,后也擴展到自然語言處理等領域。
????????它解決了全連接網絡處理大圖像時計算代價高、特征保留差的問題,核心是通過卷積層自動學習和提取圖像局部特征。
????????CNN 主要由三部分構成:卷積層負責提取局部特征;池化層降低運算量并增強特征;全連接層輸出最終結果。
1.1.使用場景
????????卷積神經網絡(CNN)的核心使用場景集中在處理網格狀數據(如圖像、視頻幀等)的任務中,主要包括:
- 圖像分類(如識別物體類別:貓 / 狗、交通標志等);
- 目標檢測(如定位圖像中物體位置:自動駕駛識別行人、車輛);
- 圖像分割(如像素級分類:醫學影像分割腫瘤、衛星圖像劃分區域);
- 人臉識別(如身份驗證、人臉解鎖);
- 醫學影像分析(如 X 光 / CT 病變檢測);
- 視頻分析(如動作識別、視頻內容分類)等。
- 也擴展到文本、音頻等領域(將其轉化為網格狀數據處理)。
1.2與傳統網絡的區別
????????左側是普通全連接神經網絡的結構(包含輸入層、隱藏層、輸出層,層間為全連接);
????????右側展示卷積神經網絡對帶有深度(depth)、高度(height)、寬度(width)維度的數據的處理流程,體現了卷積神經網絡與普通全連接網絡在結構和數據處理方式上的差異。
1.3全連接的局限性
? ? ? ? 全連接神經網絡不太適合處理圖像數據,特別是彩色圖..
1.3.1 參數量巨大
????????全連接結構計算量非常大,假設我們有1000×1000的輸入,如果隱藏層也是1000×1000大小的神經元,由于神經元和圖像每一個像素連接,則參數量會達到驚人的1000×1000×1000×1000,僅僅一層網絡就已經有10^12個參數。
1.3.2 表達能力太有限
????????全連接神經網絡的角色只是一個分類器,如果將整個圖片直接輸入網絡,不僅參數量大,也沒有利用好圖片中像素的空間特性,增加了學習難度,降低了學習效果。
1.4卷積思想
????????卷:從左往右,從上往下
????????積:乘積(對應位置相乘),求和
1.4.1 概念
????????Convolution,輸入信息與卷積核(濾波器,Filter)的乘積。核心是用小尺寸的卷積核提取輸入的局部特征。
1.4.2 局部連接
????????卷積核僅與輸入的局部區域連接,而非全連接。這一設計契合圖像的 “局部相關性”—— 空間距離距離越近的像素,相互影響越強;同時,局部連接也讓網絡能基于 “局部特征(如邊緣、角點)” 逐步構建更復雜的全局特征(如物體輪廓)。
局部連接可以更好地利用圖像中的結構信息,空間距離越相近的像素其相互影響越大。
根據局部特征完成目標的可辨識性。
1.4.3 權重共享
????????同一卷積核在整個輸入數據的不同位置上共享權重。例如,用一個卷積核提取 “豎直邊緣” 特征時,無論圖像的左上角還是右下角,只要存在豎直邊緣,都用這組相同的權重去檢測。這一機制大幅減少了參數量,同時讓網絡能將 “從局部區域學到的特征” 推廣到整個輸入,降低了學習難度。
圖像從一個局部區域學習到的信息應用到其他區域。
減少參數,降低學習難度。
總結
????????卷積神經網絡(CNN)是為突破全連接網絡處理圖像時 “參數量爆炸、空間特征丟失” 的局限而生的深度學習模型,憑借卷積層(局部連接 + 權重共享)、池化層、全連接層的核心結構,實現了 “參數高效性” 與 “空間特征表達能力” 的平衡。它不僅在圖像分類、目標檢測、醫學影像分析等計算機視覺任務中成為核心工具,還拓展到文本、音頻等多模態領域,成為處理網格狀及衍生結構數據的關鍵深度學習范式。