1.MobileNet背景
2.MobileNet V1論文
3. MobileNett改進史
4. MobileNet模型結構
5. 特點(超詳細創新、優缺點及新知識點)
一、MobileNet背景
??隨著移動設備的普及,深度學習模型的應用場景逐漸擴展至移動端和嵌入式設備。然而,傳統的深度學習模型在計算和存儲資源上的需求較高,不適合在這些資源受限的設備上運行。因此,Google于2017年提出了MobileNet模型,旨在提供一種在性能不大幅降低的前提下,能夠顯著降低資源消耗的深度學習解決方案。
??MobileNet的核心目標是優化計算資源的使用,使其能夠在移動設備和嵌入式系統中高效運行。這一模型的出現,為圖像分類、目標檢測、圖像分割等任務提供了新的可能,尤其是在需要快速響應和低功耗的環境中。
二、MobileNet V1論文
論文名字 :MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
https://arxiv.org/abs/1704.04861原論文 V1網址
??提出了一類高效的模型,稱為 MobileNets,適用于移動和嵌入式視覺應用。MobileNets 基于一種簡化的架構,該架構使用深度可分離卷積來構建輕量級深度神經網絡。引入了兩個簡單的全局超參數,可以有效地在延遲和準確性之間進行權衡。這些超參數允許模型構建者根據問題的約束為其應用選擇合適大小的模型。在資源和準確性權衡方面進行了廣泛的實驗,與其他流行的 ImageNet 分類模型相比,它表現出了強大的性能。然后,展示了 MobileNets 在各種應用和用例中的有效性,包括對象檢測、細粒度分類、面部屬性和大規模地理定位。
MobileNetV2
論文標題:MobileNetV2: Inverted Residuals and Linear Bottlenecks
論文網址:https://arxiv.org/abs/1801.04381
MobileNetV4
論文標題:Searching for MobileNetV4: Cross-Stage Partial Networks for Next-Generation Mobile Vision Applications
論文網址:https://arxiv.org/abs/2404.10518
三、MobileNet改進史
??MobileNet系列至今已發展至V3版本,每一代都在不斷優化性能和效率。
1.MobileNet V1:
??首次引入了深度可分離卷積(Depthwise Separable Convolution)的概念。這種卷積方式將標準卷積分解為深度卷積和逐點卷積兩個步驟,顯著減少了計算量和模型大小。同時,V1還提供了可調的寬度乘子(width multiplier)和分辨率乘子(resolution multiplier),使用戶可以根據具體應用需求調整模型的大小和輸入圖像的分辨率。
2.MobileNet V2:
??在V1的基礎上,引入了倒殘差塊(Inverted Residual Block)和線性激活函數(Linear Activation)。這些改進使得V2在保持輕量級特性的同時,實現了更高的準確性和更低的延遲。倒殘差塊的設計有助于保留和增強特征信息,改善了模型在低資源環境中的表現。
3.MobileNet V3:
??進一步對V2進行了全面改進,采用了HardSwish激活函數、擠壓勵磁模塊(Squeeze-and-Excitation Block),以及MnasNet和NetAdapt等網絡架構搜索(NAS)技術。這些技術使得V3在保持高性能的同時,實現了更快的推理速度和更小的模型尺寸。
四、 MobileNet模型結構
??以V1為例,其網絡結構主要由標準卷積層、深度可分離卷積層、平均池化層和全連接層組成。
標準卷積層:通常位于網絡的首層,用于提取輸入圖像的低級特征。
深度可分離卷積層:是MobileNet的核心組件,由深度卷積和逐點卷積組成。深度卷積對每個輸入通道進行獨立卷積,逐點卷積則通過1x1卷積將各個通道的輸出合并。
平均池化層:用于降低特征圖的尺寸,減少計算量。
全連接層:位于網絡的末層,用于將特征圖映射到分類結果上。
??V2和V3在V1的基礎上進行了改進,引入了倒殘差塊、線性激活函數和NAS等技術,進一步提升了模型的性能和效率。
五、特點(超詳細創新、優缺點)
1.創新點:
??深度可分離卷積:MobileNet的核心創新點在于深度可分離卷積的引入。這種卷積方式將標準卷積分解為深度卷積和逐點卷積兩個步驟,顯著減少了計算量和模型大小。同時,它還能夠保留輸入特征的空間結構,使得模型在保持高性能的同時,實現了更高效的計算。
??殘差塊:V2引入的倒殘差塊設計,使得特征在經過深度卷積時能夠保留更多信息。這種結構首先通過一個1x1卷積將輸入特征映射擴展,然后使用深度可分離卷積進行特征提取,最后再通過1x1卷積將特征壓縮回原始維度。
??NAS技術:V3采用了MnasNet和NetAdapt等網絡架構搜索技術,自動尋找最優的網絡結構。這些技術使得V3在保持高性能的同時,實現了更快的推理速度和更小的模型尺寸。
2.優點:
高效性:MobileNet模型在計算效率和參數數量上都顯著減少,使其非常適合在手機等資源受限的設備上運行。
靈活性:用戶可以通過調整寬度乘子和分辨率乘子來定制模型的復雜度,以滿足不同應用場景的需求。
高性能:盡管MobileNet是輕量級模型,但在標準數據集(如ImageNet)上的表現仍然相對較好。它能夠達到與許多重型網絡相媲美的準確率。
3.缺點:
??相對較低的準確性:雖然MobileNet的性能在輕量級模型中表現良好,但與一些大型、重型模型(如ResNet或Inception)相比,其準確性通常較低。在某些復雜任務中,可能無法達到所需的性能。
??信息損失:深度可分離卷積雖然減少了參數和計算量,但也可能導致信息的損失。因為每個通道是獨立處理的,可能無法捕捉到跨通道的特征。
4.新知識點:
??寬度乘子和分辨率乘子:這兩個超參數允許用戶根據具體應用需求調整模型的大小和輸入圖像的分辨率,從而在準確率和效率之間找到平衡。
??NAS技術:網絡架構搜索技術能夠自動尋找最優的網絡結構,提高模型的性能和效率。
??HardSwish激活函數:V3采用的HardSwish激活函數相比傳統的ReLU激活函數,在某些情況下能夠改善模型的學習能力。