目錄
一、Transformer
(一)ViT:Transformer 引入計算機視覺的里程碑
(二)Swin-Transformer:借鑒卷積改進 ViT
(三)VAN:使用卷積模仿 ViT
(四)ConvNeXt:CNN 的文藝復興
二、CNN
三、MLP
(一)MLP-Mixer
(二)MetaFormer
一、Transformer
(一)ViT:Transformer 引入計算機視覺的里程碑
ViT(Vision Transformer)是將 Transformer 架構引入計算機視覺領域的開創性工作。它將圖像分割成固定大小的 patches,然后將這些 patches 展平并嵌入到一個序列中,類似于 NLP 中的詞嵌入。ViT 使用多頭自注意力機制來捕捉圖像不同部位之間的全局依賴關系,從而實現圖像分類等任務。
ViT 的主要步驟如下:
-
圖像分割:將圖像分割成多個非重疊的 patches。
-
嵌入:將每個 patch 映射到一個固定維度的向量。
-
位置編碼:將位置信息添加到嵌入向量中。
-
Transformer 編碼器:使用多層 Transformer 編碼器對序列進行處理。
-
分類頭:使用一個可學習的分類 token 來預測圖像類別。
ViT 的出現為計算機視覺領域帶來了新的思路,展示了 Transformer 架構在處理圖像數據方面的潛力。
(二)Swin-Transformer:借鑒卷積改進 ViT
Swin-Transformer 是對 ViT 的重要改進,它引入了局部窗口自注意力機制,類似于卷積神經網絡(CNN)中的局部感受野概念。Swin-Transformer 將圖像分割成多個不重疊的窗口,并在每個窗口內進行自注意力計算,從而減少了計算量并提高了模型的效率。
Swin-Transformer 的主要特點包括:
-
局部窗口自注意力:在每個窗口內計算自注意力,減少計算復雜度。
-
窗口間信息交互:通過合并和分割窗口來實現不同層次的信息交互。
-
層次化特征提取:采用層次化的結構,逐步提取圖像的多尺度特征。
Swin-Transformer 在保持 Transformer 的全局建模能力的同時,顯著提高了計算效率,使其在多種視覺任務中表現出色。
(三)VAN:使用卷積模仿 ViT
VAN(Vision Attention Network)是一種結合了卷積和 Transformer 的新型網絡架構。它通過使用卷積操作來提取局部特征,并利用 Transformer 的自注意力機制來捕捉全局信息。VAN 的設計旨在利用卷積的高效性和 Transformer 的強大建模能力。
VAN 的主要特點包括:
-
卷積特征提取:使用卷積層提取圖像的局部特征。
-
自注意力增強:在卷積特征的基礎上,添加自注意力模塊以捕捉全局信息。
-
輕量化設計:通過優化網絡結構,減少計算量和參數數量。
VAN 在圖像分類、目標檢測等任務中展現了良好的性能,證明了卷積和 Transformer 結合的有效性。
(四)ConvNeXt:CNN 的文藝復興
ConvNeXt 是對 CNN 架構的一次重新設計,旨在借鑒 Transformer 的成功經驗并結合 CNN 的優勢。ConvNeXt 通過引入一系列現代化的設計元素,如深度可分離卷積、殘差連接、注意力機制等,提升了 CNN 的性能和效率。
ConvNeXt 的主要特點包括:
-
深度可分離卷積:減少計算量和參數數量,提高模型效率。
-
殘差連接:促進信息流動,緩解梯度消失問題。
-
注意力機制:增強模型的全局建模能力。
ConvNeXt 在多個視覺基準測試中取得了與 Transformer 架構相媲美的性能,證明了 CNN 在現代視覺任務中的競爭力。
二、CNN
CNN(卷積神經網絡)是計算機視覺領域的傳統架構,它通過卷積層、池化層和全連接層來提取圖像的特征。CNN 的主要特點包括:
-
卷積層:使用卷積核提取圖像的局部特征。
-
池化層:對特征進行下采樣,減少計算量和參數數量。
-
全連接層:對特征進行分類或回歸。
盡管 Transformer 架構在近年來取得了顯著進展,但 CNN 仍然是許多視覺任務的首選架構,尤其是在實時性要求較高的場景中。
三、MLP
(一)MLP-Mixer
MLP-Mixer 是一種基于多層感知機(MLP)的新型架構,用于圖像識別任務。它通過使用兩個不同類型的 MLP 層(通道混合和空間混合)來捕獲圖像的全局信息。
MLP-Mixer 的主要特點包括:
-
通道混合:在通道維度上進行信息混合。
-
空間混合:在空間維度上進行信息混合。
MLP-Mixer 展示了在沒有卷積或自注意力機制的情況下,僅使用 MLP 也可以實現有效的圖像識別。
(二)MetaFormer
MetaFormer 是一種通用的 Transformer 架構,旨在為不同的視覺任務提供統一的解決方案。它通過引入元學習的思想,使模型能夠自適應地調整其結構和參數。
MetaFormer 的主要特點包括:
-
元學習:通過元學習算法優化模型的初始化和參數更新。
-
靈活架構:支持多種視覺任務,如圖像分類、目標檢測、語義分割等。
MetaFormer 為 Transformer 架構在計算機視覺領域的應用提供了新的思路和方法。
在圖片識別領域,Transformer 架構通過 ViT、Swin-Transformer 等模型引入了新的思路和方法。同時,CNN 架構也在不斷演進,ConvNeXt 等新型 CNN 架構展現了強大的競爭力。此外,MLP 架構在 MLP-Mixer 和 MetaFormer 等模型中也取得了顯著進展。這些架構的不斷創新和融合,為圖片識別技術的發展提供了強大的動力。未來,隨著研究的深入,我們可以期待更多高效、強大的圖片識別模型的出現。