深度學習系統學習系列【7】之卷積神經網絡（CNN）

文章目錄

說明
卷積神經網絡概述(Convolutional Neural Network,CNN)
- 卷積神經網絡的應用
- - 圖像分類與識別
  - 圖像著色
  - 自然語言處理NLP
  - 卷積神經網絡的結構
  - 卷積神經網絡中的數據流動
- CNN與ANN的關系
卷積操作
- Padding 操作
- 滑動窗口卷積操作
- 網絡卷積層操作
- 矩陣快速卷積
- - Im2col算法
  - GEMM算法
CNN三大核心思想
- 核心思想概述
- 局部感知
- 權值共享
- 下采樣 Pooling

說明

文章屬于個人學習筆記內容，僅供學習和交流。
內容參考《深度學習原理與實踐》陳仲銘版和個人學習經歷和收獲而來。

卷積神經網絡概述(Convolutional Neural Network,CNN)

卷積神經網絡是計算機視覺天梯的基石。
卷積神經網絡可以利用多層網絡結構自動學習輸入數據的深層特征，不同層次的網絡可以學習到不同層次的特征。淺層網絡層感知區域較小，可以學習到輸入數據的局部域特征（如圖像物體的顏色、集合形狀）；深層網絡層具有較大的感知域，能夠學習輸入數據的抽象特征（如圖像物體屬性、輪廓特點、位置信息）。深層次抽象特征對圖像中物體的大小位置和方向等局部域特征敏感度較低，提高了物體的識別率。所以，卷積神經網絡常用于圖像處理領域。

卷積神經網絡的應用

在圖像處理任務上，卷積神經網絡可以用來識別位移、縮放及物體形態扭曲的二維圖形。CNN的網絡模型中的特征是通過訓練數據集進行圖像特征學習，無需顯式抽取特征；因為圖像上同一特征面上的神經元權值相同，CNN模型可以并行訓練，提高神經網絡的訓練效率。

圖像分類與識別

卷積神經網絡在圖像分類上一枝獨秀，其中手寫字體（HandWritten) 的識別率達到99.9%。國外眾多快遞公司已經開始應用卷積神經網絡模型識別快遞單上的手寫字體，盡最大可能地節約企業成本、提高自身的系統運作效率。
使用神經網絡可以對整體圖像進行目標識別。例如一張圖片中的多個類別：一只狗、一棟房子、一棵樹等。

圖像著色

圖像著色就是將灰度圖像回復彩色的過程。
使用改進的卷積神經網絡模型提取輸入圖像的特征及其上下文信息來對圖像進行著色。年代久遠的紀錄片可以真實還原當年的色彩，父母的老照片也終于可以還原出當年色彩艷麗的場景。

自然語言處理NLP

卷積神經網絡為圖像而生，但應用不限于圖像。
使用卷積神經網絡進行自然語言處理主要是針對語義分析和話題分類兩大任務。網絡模型共分為 4層，輸入層是一個表示句子的矩陣，每一行代表一個單詞向量，輸入層后接一個卷積層和Pooling 層，最后是 Softmax 分類器作為輸出層。該卷積神經網絡模型在各個自然語言處理的公共數據集上的表現都出色。

卷積神經網絡的結構

卷積神經網絡主要由輸入層、卷積層、下來樣層、全連接層、輸出層構成。
卷積神經網絡的簡單示例模型，該卷積神經網絡的網絡層從左到右分別為：輸入層、第一個卷積層、第一個下采樣層、第二個卷積層、第二個下采樣層、全連接層、輸出層。

假設上圖中的輸入圖像為灰度圖A，對應圖像矩陣表示為 $(1, w, h)$ ，1 為單通道，w和h對應輸入圖像的長和高。首先把灰度圖A作為輸入層，然后接一個卷積層。第一個卷積層對輸入的圖像進行卷積操作后，得到3個特征圖（Feature Map），每個特征圖對應一個卷積核，此時網絡模型中的數據存儲結構變成（3,w,h)。因此3個特征圖組成的矩陣也被稱為“特征矩陣”，3代表特征矩陣的深度。

卷積層操作產生多少個特征圖是自由設定的，也被稱為超參數（Hyper-Parameters)。

第一個卷積層后接的是下采樣層(Pooling層)，Pooling 層對輸入的 3 個特征圖（特征矩陣〉進行下來樣操作，得到3個更小的特征矩陣 $(3, w /2, h /2)$ 。接下來到第二個卷積層，卷積操作之后產生5個特征圖 $(5, w /2, h /2)$ 。然后再接一個Pooling 層，對 5 個特征圖進行下采樣操作，得到5個更小的特征圖 $(5, w /4, h /4)$ 。

一般對圖像進行下來樣操作得到的特征圖為輸入Pooling層特征圖的一半。

在第二個Pooling 層后面接的是兩個全連接層。第一個全連接層的每個神經元與上一層的 5 個特征圖中每個神經元（每個像素）進行全連接。下一個全連接層同樣與上一層的每個神經元進行全連接。
在整個網絡的最后一層是輸出層（Softmax 層〉，對全連接后的特征向量進行計算，得到分類評分值。與普通神經網絡類似，卷積神經網絡模型中的卷積核都是通過對輸入數據集經過梯度下降算法訓練得到的。

卷積神經網絡中的數據流動

該圖為上圖卷積神經網絡的數據流動圖。

輸入層（Input Layer）：假設輸入圖像為 $[1, 32, 32]$ 的彩色圖。
卷積層（Convolutinon Layer）：對輸入卷積層的圖像或者特征圖進行卷積操作，輸出卷積后的特征圖。第一個卷積層有3 個卷積核，因此卷積操作后得到的特征矩陣為 $[3, 32, 32]$ ，第二個卷積層有5個卷積核，同理卷積操作后得到的特征矩陣為 $[5, 32, 32]$ 。
下采樣層（Polling Layer）：Pooling 層對傳入的圖像在空間維度上進行下采樣操作（使輸入的特征圖長和寬均變為原來的一半），第一次卷積層后得到 $[3, 32, 32]$ 大小的特征矩陣作為Pooling 層的輸入，輸出口 $[3, 16, 16]$ 大小的特征矩陣，再經過第二個 Pooling 層后輸出
則變成 $[5, 8, 8]$ 大小的特征矩陣。
全連接層（Fully Connected Layer）：全連接層與普通神經網絡一樣，每個神經元都與輸入的所有神經元相互連接，然后經過激活函數進行計算。最后 Pooling 層得到 $[5, 8, 8]$ 的特征向量，即一共有 $5 \times 8 \times 8 = 320$ 個神經元，假設全連接層的神經元為 $100$ ，那么全連接產生 $320 \times 100 = 32000$ 條連接線，后面的全連接層與ANN 類似。
輸出層（Output Layer）：輸出層（分類層）會輸出每個類別的預測概率。例如，對于分類選項（雞扒、雞腿、雞翅），輸出可能是概率矩陣 [0.9, 0.1, 0]，系統會選擇概率最高的“雞扒”作為最終預測結果。

總結：卷積神經網絡模型逐層對圖像的每一個像素值進行計算，到最后經過卷積神經網絡模型后，輸出分類評分值。

CNN與ANN的關系

CNN與ANN內部實現原理都是由神經元模型組成的神經網絡。
人工神經網絡使用全排列的方式，神經元按照一維進行排列。卷積神經網絡每層神經元都是按照三維排列，每層有長、寬、高。長和寬表示輸入圖像矩陣的長度和寬度，高代表該層網絡的高度。

卷積神經網絡的網絡結構中，卷積層后接 $P oo l in g$ 層。輸入為 $4 \times 4$ 大小的圖像矩陣，卷積層參數為 $(p a dd in g = s am e, k er n e l = 2)$ ，卷積層后輸出特征矩陣大小為 $[2, 4, 4]$ 。（卷積層有n個卷積核對應輸出有n個特征圖）
假設卷積層輸入為一張4×4大小的圖像矩陣（對應輸入神經元有 16 (4×4）個〉，設定卷積核為2，經過卷積操作后產生2個4×4大小的特征圖（對應輸出特征神經元有32（2×4×4）個）。其中，卷積核大小為3×3（一個卷積核由9個神經元組合而成），即對應的權重參數連接線有18（2×3×3）條，輸入神經元與特征神經元連接線均帶有權值參數 $w_i$ 和偏置 $b_i$ ，而該權值參數則由卷積核組成。

卷積神經網絡的網絡模型的卷積層和全連接層中的權重參數經過梯度下降算法（SGD）進行訓練得到，最終使得卷積神經網絡計算出的分類概率能和訓練集中的圖像標簽吻合。

卷積操作

卷積操作就是圖像處理技術中的過濾操作，卷積核（ConvolutionKerne）又稱濾波器。卷積神經網絡的卷積核內容則是通過梯度下降算法 SGD)訓練得到。

Padding 操作

卷積操作時會造成在圖像邊界卷積造成圖像信息丟失的問題，Padding操作有助于解決邊界卷積問題。
Padding操作可以分為Same Padding、Valid Padding和自定義Padding 3種方法。
- Same Padding是根據卷積核大小，對輸入圖像矩陣進行邊界補充（一般填充零值），使得卷積后得到的特征矩陣與輸入矩陣大小一致。避免邊界信息被忽略，把邊界信息納入神經網絡的計算范圍內，否則隨著神經網絡層的深入，圖像邊緣信息的損失也會逐漸增大。
- Valid Padding實際上不需要進行Padding操作
- 自定義Padding生成的特征圖大小根據下式計算而來。
  $output_h=(input_h+2\times padding_h - kernel_h)/stride+1 \\ output_w=(intput_w+2\times padding_w - kernel_w)/stride+1 \\ output為輸出矩陣，input為輸入矩陣，padding為邊界填充數量 \\ kernel為卷積核大小，stride為步長大小，w為操作矩陣的寬，h為操作矩陣的長$

Padding操作的兩種主要方式，如圖（a）輸入 $5\times 5$ 的圖像矩陣。卷積核大小為 $3\times 3$ 。Same Padding方法設置padding參數為 $1$ ，使卷積的輸出與輸入矩陣大小一致。圖（b） $Va l i d P a dd in g$ 方法設置 $p a dd in g$ 參數為 $0$ ，使得輸出特征矩陣比輸入矩陣要小。

在這里插入圖片描述

一般默認卷積操作中使用 Same Padding 方法。通過對輸入圖像矩陣的邊緣填充零像素值，使得輸入的圖像經過卷積后得到的特征矩
陣大小與輸入的原圖大小一致。

滑動窗口卷積操作

卷積操作：原始輸入為一張圖像，通過一個卷積核在輸入圖像上進行滑動，對滑動窗口與卷積核進行數值運算后，卷積后輸出的為特征圖。
假設一個卷積核窗口在輸入圖像上滑動，滑動窗口每次移動的步長為 stride，那么每次滑動窗口后，把求得的值按照空間順序組成一個特征圖。該特征圖的邊長分別為：
$feature map_w = (img_w - kernel_w) / stride +1 \\ feature map_w =(img_w - kernel_h) / stride+1 \\ feature map為特征圖矩陣的大小，img為輸入圖像大小 \\ kernel為卷積核大小，stride為步長大小，w為矩陣的寬，h為矩陣的長。$

網絡卷積層操作

在第 $l$ 層網絡有 $C$ 個特征圖作為輸入，該卷積層有 $k$ 個卷積核，如何進行卷積操作產生 $k$ 個輸出特征矩陣？
假設在第 $l$ 層卷積層輸入為C個特征圖，即該層輸入C個矩陣，C個矩陣的大小均為 $\times H$ ，可以得到一個 $\times (W \times H)$ 的特征張量， $C$ 又稱為輸入矩陣的深度。該層設定有 $C o u t$ 個 $\times K$ 大小卷積核，在使用 $S am e P a dd in g$ 的情況下將會產生 $C o u t$ 個大小為 $\times H$ 的特征圖作為輸出，即可得到 $Cout \times (W \times H)$ 的特征張量作為輸出。

在這里插入圖片描述

多層卷積操作類似于神經元的基本求和公式 $z=\sum wx+b$ ，卷積神經網絡中 $w$ 對應單個卷積核， $x$ 為對應輸入矩陣的不同數據窗口， $b$ 為該卷積核的偏置。這相當于卷積核與一個個數據窗口相乘求和后(矩陣內積計算)，加上偏置b得到輸出結果。
$\begin{align*} z &=x_{11} \odot w_1+w_{21} \odot w_1+b \\ &=(x_{11}+x_{21}) \odot w_1+b \end{align*}$

矩陣快速卷積

卷積操作是在圖像中通過滑動窗口，逐像素進行矩陣計算，會耗費大量的計算資源去尋址和修改內存數據。可以轉化為矩陣后進行快速計算。矩陣操作能在計算機中快速運算并且方便移植到 GPU 中，在實際生產環境中可以通過兩步來完成卷積操作：

使用Image to column ( Im2col）算法把輸入圖像和卷積核轉換成為規定的矩陣排列方式。
使用GEMM算法對轉換后的兩個矩陣進行相乘，得到卷積結果。

Im2col算法

圖像的Im2col操作：假設輸入的圖像大小為 $\times H \times W$ （其中H為圖像的長， $W$ 為圖像的寬， $C$ 為圖像的深度）。卷積核的大小為 $\times K$ ，那么對應輸入圖像中一個卷積窗口可以表示為 $\times (K \times K)$ 的向量，即對輸入圖像中的某位置的數據按照卷積窗口進行從新排列，得到 $C\times (K \times K)$ 的特征向量。以步長為 $1 (s t r i d e = 1 ）$ 從輸入圖像的左上角開始對原圖進行特征轉換，最終得到特征圖大小為 $\times W)\times (C \times K \times K)$ 。
卷積核的Im2col操作：假設有 $C o u t$ 個卷積核，每個卷積核大小為 $C\times (K \times K)$ ，把卷積核進行矩陣變換，得到單個卷積核的尺寸為 $\times (K\times K)$ 。依此類推，最終得到 $Cout \times (C \times K \times K)$ 大小的過濾矩陣（Filter Matrix）。

代碼實現

import numpy as npdef get_im2col_indices(x_shape, field_height, field_width, padding=1, stride=1):# 解析輸入張量的形狀 (batch_size: 批次大小, channel: 通道數, height: 高度, width: 寬度)batch_size, channel, height, width = x_shape# 確保經過填充后的圖像尺寸可以被卷積核滑動整除，否則拋出異常assert (height + 2 * padding - field_height) % stride == 0assert (width + 2 * padding - field_width) % stride == 0# 計算輸出特征圖的高度和寬度out_height = int((height + 2 * padding - field_height) / stride + 1)  # 輸出高度out_width = int((width + 2 * padding - field_width) / stride + 1)    # 輸出寬度# 構建卷積核在垂直方向上的起始索引 i0i0 = np.repeat(np.arange(field_height), field_width)  # 每個高度索引重復 field_width 次i0 = np.tile(i0, channel)  # 在通道維度上復制 channel 次# 構建卷積核在垂直方向上的滑動步長索引 i1i1 = stride * np.repeat(np.arange(out_height), out_width)  # 每個 out_height 索引重復 out_width 次，并乘以步長# 構建卷積核在水平方向上的起始索引 j0j0 = np.tile(np.arange(field_width), field_height)  # 每個寬度索引循環 field_height 次# 構建卷積核在水平方向上的滑動步長索引 j1j1 = stride * np.tile(np.arange(out_width), out_height)  # 每個 out_width 索引循環 out_height 次，并乘以步長# 將 i0 和 i1 結合，生成所有可能的垂直索引位置i = i0.reshape(-1, 1) + i1.reshape(1, -1)# 將 j0 和 j1 結合，生成所有可能的水平索引位置j = j0.reshape(-1, 1) + j1.reshape(1, -1)# 構建通道索引 k，每個通道對應 field_height * field_width 個位置k = np.repeat(np.arange(channel), field_height * field_width).reshape(-1, 1)# 返回通道、垂直、水平索引三元組，用于后續提取圖像塊return k, i, jdef im2col_indices(x, field_height, field_width, padding=1, stride=1):# 獲取輸入張量的通道數 CC = x.shape[1]# 對輸入張量進行零填充，擴展其邊界，以便處理邊緣區域x_padded = np.pad(x, ((0, 0), (0, 0), (padding, padding), (padding, padding)), mode='constant')# 調用 get_im2col_indices 函數獲取所有需要提取的圖像塊的索引k, i, j = get_im2col_indices(x.shape, field_height, field_width, padding, stride)# 根據索引從填充后的輸入張量中提取圖像塊，并將其展平成二維矩陣cols = x_padded[:, k, i, j]# 調整矩陣形狀，使其適合后續的矩陣運算（如卷積轉換為矩陣乘法）cols = cols.transpose(1, 2, 0).reshape(C * field_height * field_width, -1)# 返回最終的圖像塊矩陣return cols

GEMM算法

一般矩陣乘法（General Matrix Matrix Multiply, GEMM）將由卷積核產生的過濾矩陣乘以原圖產生的特征圖矩陣（Feature Matrix）的轉置，得到大小為 $Cout \times (H \times W)$ 的輸出特征圖矩陣。
$\begin{align*} feature map &=Filter Matrix \cdot Feature Matrix^T \\ &=[(Cout\times (C \times H \times W))]^\ast [((C \times H \times W)\times(H \times W))] \\ &=Cout\times H \times W \end{align*}$
假設卷積核為 $2 \times 2$ 的矩陣，輸入原圖像Image為 $3 \times 3$ 的單通道矩陣。邊界擴展為0，滑動步長為1( $p a dd in g = 0, s t i d e = 1, c = 1, w = 3, h = 3, k = 2$ )。因此過濾矩陣的長寬w、 h均減少了1，經過Im2col變換后特征圖矩陣的大小為 $\times 2) \times (1 \times 2 \times 2)$
$\text{Image} = \begin{bmatrix}3 & 2 & 1 \\ 0 & 1 & 2 \\ 3 & 1 & 1\end{bmatrix} \Rightarrow \text{Feature Matrix} = \begin{bmatrix}3 & 2 & 0 & 1 \\ 2 & 1 & 1 & 2 \\ 0 & 1 & 1 & 3 \\ 1 & 2 & 1 & 1\end{bmatrix}$
假設有2個大小均為2×2 的卷積核A、 B $(co u t = 2, c = 1, k = 2)$ ，因此過濾矩陣大小為 $\times (1\times 2 \times 2)$
$\begin{bmatrix}0 & 1 \\ 1 & 2\end{bmatrix}, \quad B = \begin{bmatrix}2 & 1 \\ 1 & 3\end{bmatrix} \Rightarrow \text{Filter Matrix} = \begin{bmatrix}0 & 1 & 1 & 2 \\ 2 & 1 & 1 & 3\end{bmatrix}$
輸出的特征矩陣C為 $\text{Filter Matrix} \cdot \text{Feature Matrix}^T$
$\begin{aligned} C&= \begin{bmatrix}0 & 1 & 1 & 2 \\ 2 & 1 & 1 & 3\end{bmatrix} \times \begin{bmatrix}3 & 2 & 0 & 1 \\ 2 & 1 & 1 & 2 \\ 0 & 1 & 1 & 3 \\ 1 & 2 & 1 & 1\end{bmatrix} \\ &\Rightarrow \begin{bmatrix}\begin{bmatrix}0 & 1 \\ 1 & 2\end{bmatrix} & \begin{bmatrix}2 & 1 \\ 1 & 3\end{bmatrix}\end{bmatrix} \end{aligned}$
特征矩陣C中的 $\begin{bmatrix}0 & 1 \\ 1 & 2\end{bmatrix}$ 和 $\begin{bmatrix}2 & 1 \\ 1 & 3\end{bmatrix}$ 分別為輸出的兩個特征圖。

CNN三大核心思想

核心思想概述

卷積神經網絡的三個核心思想是局部感知、權值共享、下采樣技術。卷積神經網絡的三大核心思想使得卷積神經網絡能夠提取圖像物體的高維特征，感知圖像中更豐富的信息。同時，經過權值共享和下來樣操作，進一步減少網絡的參數，讓卷積神經網絡模型能夠在規定時間內和有限的內存硬件下完成計算。
卷積神經網絡能夠用自身獨特的方式避免傳統神經網絡所引起的問題，其優點如下：

局部感知：每一個神經元節點不再與下一層的所有神經元節點相連接（全連接的方式），只與下一層的部分神經元進行連接。
權值共享：一組連接可以共享同一個權重參數，或者多組連接共享同一個卷積核，不再是每條連接都有自己的權重。
下采樣 Pooling ：通過 Pooling 技術對輸入的數據進行下來樣壓縮操作，減少輸出節點。

卷積神經網絡通過局部感知和權值共享，保留像素間關聯信息，并且大大減少所需參數的數量。通過Pooling 技術，進一步縮減網絡參數數量，提高模型的魯棒性，讓模型可以持續地擴展深度，繼續增加隱層。因此“局部感知、權值共享、下來樣”被譽為卷積神經網絡的三大核心思想。

局部感知

圖像中的空間關系通常表現為局部像素聯系緊密，而遠距離像素相關性較弱。因此，無需全局感知，只需逐層提取局部信息。隨著網絡加深，圖像尺寸逐漸縮小，特征提取從局部到全局，最終綜合得到圖像的全局表征。
圖(a)展示了傳統全連接神經網絡，所有像素（每個像素對應一個神經元）與下一層的每個神經元相連，導致參數量巨大。而圖(b)展示了卷積神經網絡（CNN）的局部連接方式：每個隱層神經元僅與輸入圖像的局部區域（即感受野，對應卷積核大小）相連，顯著減少了網絡參數。這種稀疏連接方式既保留了空間局部性，又提升了計算效率。
由于每一層的輸入圖像和卷積核大小都不一樣，因此會產生不同的感知區域，向下擴展網絡的深度。另外，不同的感知區域能夠感知圖像中不同的紋理特征，從而隨著卷積網絡層的增加而獲得更高維的圖像特征。

權值共享

權值共享是 CNN 的核心機制之一，它通過復用卷積核參數，實現：
- ? 參數高效（減少冗余權重）：如果一個卷積核（如 C）在圖像的某個區域（如窗口 A）能檢測到某種紋理或邊緣特征，那么它在其他具有相似特征的區域（如窗口 B）同樣適用。因此，無需為每個位置訓練不同的卷積核，而是共享同一個卷積核，在整個圖像上滑動檢測相同模式的特征。
- ? 特征復用（同一模式在不同位置檢測）：使得一個卷積核的權重矩陣（如 3×3 或 5×5）在整個圖像上復用，極大減少參數量（例如，一個 3×3 卷積核僅需 9 個參數，而不是數百萬個）。
- ? 平移不變性（適應目標位置變化）：由于同一個卷積核檢測相同特征，無論目標出現在圖像的哪個位置（如邊緣、紋理、物體部分），網絡都能識別，從而增強模型對平移變化的魯棒性。

下采樣 Pooling

在卷積神經網絡中，輸入給卷積層的圖像可能很大，實際上并沒有必要對原圖進行操作，可以采用下采樣(Pooling)技術，對輸入的圖像進行壓縮，減少輸出的總像素。
Pooling技術的優勢：

減少過度擬合的可能性，當網絡中權重參數過多時，很容易在訓練階段造成過度擬合。
縮減圖像尺寸，減少計算量，提升計算速度。
進一步提取圖像高維的統計特征。

常用的Pooling方法有如下兩種：

最大池化（Max Pooling）：取Pooling 窗口的最大值作為Pooling 特征。
均值池化（Mean Pooling）：取Pooling 窗口的均值作為Pooling 特征。

Max Pooling代碼示例

import numpy as npdef max_pool_forward(x, pool_param):(N, C, H, W) = x.shape  # 獲取輸入矩陣的大小height = pool_param['height']  # Pooling 窗口高度width = pool_param['width']  # Pooling 窗口寬度stride = pool_param['stride']  # Pooling窗口滑動步長H_prime = 1 + (H - height) // stride  # 向下滑動的次數，也為 pooling 輸出的高度W_prime = 1 + (W - width) // stride  # 向右滑動的次數，也為 pooling 輸出的寬度out = np.zeros((N, C, H_prime, W_prime))  # 定義輸出矩陣# 遍歷 batchfor n in range(N):for h in range(H_prime):for w in range(W_prime):h1 = h * stride  # (h1, w1) 為 pooling 窗口左上角第一個點w1 = w * strideh2 = h * stride + heightw2 = w * stride + width  # (h2, w2) 為 pooling 窗口最后一個點window = x[n, :, h1:h2, w1:w2]  # 獲得當前 pooling 窗口win_l = window.reshape((C, height * width))out[n, :, h, w] = np.max(win_l, axis=1)return out# 測試
np.random.seed(8)
x = np.random.randint(5, size=(1, 1, 4, 4))  # 隨機產生一個 [1, 1, 4, 4] 的矩陣
pool_param = {'height': 2, 'width': 2, 'stride': 2}out = max_pool_forward(x, pool_param)
print("Input:\n", x)
print("Output:\n", out)

Input:[[[[3 4 1 1][2 0 3 0][0 4 1 3][2 3 4 1]]]]
Output:[[[[4. 3.][4. 4.]]]]

深度學習系統學習系列【7】之卷積神經網絡（CNN）

文章目錄

說明

卷積神經網絡概述(Convolutional Neural Network,CNN)

卷積神經網絡的應用

圖像分類與識別

圖像著色

自然語言處理NLP

卷積神經網絡的結構

卷積神經網絡中的數據流動

CNN與ANN的關系

卷積操作

Padding 操作

滑動窗口卷積操作

網絡卷積層操作

矩陣快速卷積

Im2col算法

GEMM算法

CNN三大核心思想

核心思想概述

局部感知

權值共享

下采樣 Pooling

相關文章