自監督學習在合成孔徑聲吶目標識別中的應用
BW Sheffield
美國巴拿馬城海軍水面作戰中心
1 引言
在自主水下航行器(AUVs)中應用計算機視覺面臨著獨特的挑戰,因為海洋環境往往條件不可預測且極為嚴苛。傳統計算機視覺研究主要依賴光學相機成像,而在光照不足、懸浮沉積物及水體渾濁的水下環境中難以適用。因此,聲吶成像,尤其是其衍生技術——合成孔徑聲吶(SAS),成為水下成像的首選。搭載SAS的AUV能夠掃描海底生成高分辨率圖像,其細節表現遠超其他類型的聲吶。然而,SAS圖像雖然細節豐富,但數據量巨大,給標注工作帶來了極大挑戰,而標注又是訓練深度神經網絡(DNN)不可或缺的一步。
與傳統機器學習方法相比,DNN因其能夠自主從數據中學習特征而受到廣泛關注,無需專家手工設計特征。然而,DNN的顯著限制在于其對大規模標注數據和強大計算資源的依賴。在SAS領域,不僅標注數據稀缺,且獲取難度遠高于傳統相機圖像。
近年來,隨著計算能力和數據量的增長,自監督學習(SSL)逐漸興起。SSL無需標簽即可讓模型從數據中學習特征,因而為解決SAS數據標注不足問題提供了潛在途徑。本研究旨在評估兩種主流SSL算法——MoCov2 [1] 和 BYOL [2],與經典監督學習模型ResNet18 [3]在二分類SAS圖像識別任務上的表現(如圖1所示)。SSL模型在真實世界SAS數據上進行預訓練,以學習有用特征,并與監督學習基準進行對比。