- 文獻名稱:《Underwater Optical and Acoustic Imaging: A Time for Fusion? A Brief Overview of the State-of-the-Art》
- 作者列表:Fausto Ferreira, Diogo Machado, Gabriele Ferri, Samantha Dugelay and John Potter
- 作者單位:北約科學技術組織(NATO Science and Technology Organization,STO)海事研究和實驗中心,位于意大利拉斯佩齊亞
- 發表會議:OCEANS 2016 MTS/IEEE Monterey
- 發表年份:2016年
- DOI鏈接:10.1109/OCEANS.2016.7761354
摘要
水下光學成像存在物理介質固有的一些缺點,如光衰減和渾濁。聲納雖然通常分辨率較低,但可以避免這些問題。在水下應用中結合使用視覺和聲納數據的做法還不普遍,但研究人員對這一課題的興趣與日俱增。不過,隨著最近更高分辨率聲納系統的出現,結合/融合兩種感知模式信息的方法可以改善水下成像,這對于自主導航、地圖繪制和物體識別等應用具有特殊的意義。在本文中,我們將對這些系統的技術現狀進行研究,并介紹文獻中最相關的方法。
I. 引言
光學和聲納系統已廣泛應用于水下領域,每種系統都可用于不同的應用領域,并因其各自的特點而適合不同的用途。然而,為了充分利用這兩種感知模式的特點,我們需要利用每種模式在不同場景中的優勢,同時考慮到它們可能影響其性能的特殊缺點。
基于視覺的傳感器在自主水下航行器中得到了廣泛的應用。光學傳感器的價值來自于其高精細度,其中還包括色彩信息。在環境監測或地質勘測(如珊瑚礁監測)等水下應用中,色彩信息至關重要 [1]。光學相機提供的高分辨率數據在拼接[2]、運動估計[3]、船體檢查[4]和考古調查[5]等應用中也非常重要。
然而,單目和雙目光學系統都依賴于獲得良好的跟蹤特征,這意味著需要一個具有足夠紋理的場景來提取這些特征。即使在有足夠紋理的場景中,光衰減和水的渾濁度也會嚴重影響光學傳感器的探測范圍和性能。照明系統可以緩解這些問題。但是,如果照明不均勻,它本身就會迅速成為光學圖像中的干擾因素,而且高質量的照明系統(成本、功率要求)也不適合許多應用。克服這一問題的一種方法是使用結構光來照亮成像區域[6],然而,這種系統還不夠緊湊,無法安裝在一些自主潛水器(AUV)上,這就限制了它們的使用。另一個問題是,在水下環境中,當靠近海床移動或使用機械臂執行搬運任務時,淤泥或沙子會揚起,影響光學傳感器的性能。
另外,聲納對這些問題更加魯棒,但一般來說,與光學攝像機相比,聲納的分辨率較低,而且不能提供色彩。不同的聲納能提供不同的海底和沉沒物體信息。例如,俯視多波束等剖面聲納可提供海底測深信息,而合成孔徑聲納、側掃聲納和前視聲納能產生類似圖像的數據。不過,它們與光學相機還是有一些區別的。這些聲納的成像模型意味著具有相關高度的物體會產生陰影,這有利有弊。例如,聲學陰影會因聲納視角的不同而大相徑庭。另一方面,許多算法都試圖通過觀察高光及其相關陰影來識別聲納圖像中的物體。與此同時,多徑反射也會造成偽影,不過可以通過使用適當配置的聲學系統來減少偽影。
光學相機的探測距離有限,需要靠近物體/環境,在理想條件下通常小于 20 米。聲納傳感器的探測距離可以更遠,不過必須在測距和分辨率之間做出權衡。例如,雖然某些聲納,如 BlueView P900(900kHz)的探測距離可達 100 米或更多(Reson SeaBat 工作在 200kHz 時的探測距離為 500 米),但其分辨率不足以識別物體。更高分辨率的聲納,如 Sound Metrics 公司的 DIDSON(頻率為 1.8 MHz)或最近的 ARIS(也是 Sound Metrics 公司,頻率為 3 MHz),都是專門為物體識別而開發的,它們提供的高分辨率數據(以毫米為單位)幾乎可以與光學相機相媲美,但傳感器必須靠近目標(通常小于 10 米)。
MHz范圍內的新系統現在提供了一定程度的細節,使得以前的商業系統難以實現的創新方法(即圖像拼接[7],導航[4],三維運動估計[8]和鏈式檢查[9])得以實現。
最近,市場上出現了第一批 COTS 高頻三維高分辨率聲納[10]-[12],這些類型的聲學相機可以直接對數據進行三維呈現。由于不再需要從二維視圖重建三維視圖,因此獲得場景的即時三維表示可能會縮短任務時間,從而有可能改進航行器的實時數據處理和決策。不過,必須強調的是,即使聲納系統的細節水平有了突破性的提高,但仍無法提供視覺系統所能提供的細節。
正如我們所概述的,這兩種傳感器模式都有其內在問題,這些問題在某些條件下會降低或提高其適用性。因此,融合光學和聲學相機數據是一種很有前途的方法,有望實現每種傳感器模式的最佳效果,并提高整體感知能力。然而,能夠解釋在哪些條件下使用兩種模式中的一種更好,或何時使用兩種模式融合的理論結果仍有待充分開發。這方面的例子并不多,而且都是為了解決特定的問題。盡管如此,在處理此類任務之前,找出這些例子并概述最新進展還是很有幫助的。
本文的結構如下: 第II節說明了一些數據融合的例子,以及融合聲學和光學數據作為平衡傳感器固有問題的一種方法的必要性。在第III節中,我們列舉了在水下環境中結合光學和聲學數據的一些最相關的科學工作。第IV部分總結了融合方式帶來的一些開放性課題。最后,第V部分得出一些結論并對未來工作提出建議。
II. 圖像融合實例
數據和算法融合已在許多領域和應用中使用,包括多傳感器和傳感器內部融合。例如,許多應用會融合基于相同數據的不同分類器的結果 [13]。對于多傳感器數據融合,可以在文獻中找到許多應用于機器人和其他領域的例子。除了 GPS 和慣性導航系統 (INS)、INS 和多普勒速度記錄儀 (DVL)、INS 和聲學定位系統等更傳統的導航數據融合方案之外,還有許多涉及成像傳感器的融合方案:激光和光學、聲學和光學、雷達和光學 [14]。有關水下自主導航的多傳感器數據融合的精彩綜述,可參閱 [15]。圍繞聲學和光學數據的融合,在許多不同的應用領域都有實例,從城市環境中的自動打斗探測[16]到可穿戴式心率監測器[17]或有機化合物探測[18]。其他應用包括武器定位 [19] 或醫學光聲成像 [20]。
在水下領域,結合聲學和光學數據的想法并不新鮮。早期的嘗試[21]使用鉛筆束(pencil beam)聲納和激光三角測量系統建立了一個架構,但沒有展現融合結果。創建有效的算法以探索光學和聲學傳感器模式的結合,收集每種模式的最佳數據,可以看作是水下環境數據收集的踏腳石。
A. 為什么融合光學和聲學數據?
之所以需要將聲學和光學數據結合起來,是因為每種傳感器都存在一些問題,而這些問題可以通過融合不同感知模式產生的數據加以解決。在水下環境中,這兩種信息可視為互補。在紋理和/或浮雕不突出的情況下,使用視覺和聲納數據可以提供更多的環境信息。在這種情況下,光學攝像機的工作范圍有限,受到光衰減和水濁度的限制。
眾所周知,光衰減限制了光學相機在沒有人工照明的情況下使用的深度。在使用人工照明時,由于其缺乏均勻性,在圖像處理中需要解決一系列新問題。水質渾濁是另一個無法避免的問題,其特征取決于環境的類型,有些地點的水質清澈,而其他地區則可能有渾水、海雪(大量懸浮顆粒集中在一起,會散射光線并造成視覺干擾)等。此外,在水下環境中執行操作任務時,泥沙可能會增加水的渾濁度。相比之下,聲納沒有光衰減問題,且受水體渾濁度的影響較小。由于聲波很容易穿透渾濁的水體,因此聲納可以在更高的范圍內工作。不足之處在于,聲納的分辨率通常低于光學傳感器,因為聲波的波長比光長(至少大 10^3 倍)。
本文的目的是簡要介紹目前最先進的相關方法。使每種傳感器模式適合使用和/或適合融合的操作條件并沒有得到很好的定義。大多數研究都是為了解決某個特定問題,并沒有建立一個通用的理論框架來確定何時使用某種傳感器或其他傳感器,或將它們進行融合。這里的目標是概述目前的技術水平,在未來的工作中,我們計劃致力于建立一個框架。
新型光聲系統有許多應用領域,如水下考古、港口檢查、船體檢查、石油和天然氣以及軍事領域。
III. 最新方法
光學和聲學數據的結合/融合可以在不同層次上、使用不同的傳感器進行。使用回聲測深儀和照相機可能是比較簡單的方法,如文獻[22]中介紹的將衛星收集到的光學數據與回聲測深儀收集到的聲學數據相融合以繪制珊瑚礁棲息地的工作,回聲探測儀獲得的信息被用來對衛星數據進行深度校正。同樣,文獻[23]中介紹的工作在后處理中將回聲探測儀和光學相機的數據關聯起來。在這兩種情況下,都沒有明確的特征匹配,事實上,兩篇論文都使用了結合光學和聲學數據的術語,而不是融合。
數據融合更為復雜,涉及傳感器間的直接融合或更高層次的數據融合(在特征層甚至分類層)。雖然關于傳感器間融合的研究很少[24],但在文獻中可以找到一些側重于高層數據融合的例子,并在下面的小節中進行介紹。
A. 聲學陣列與光學系統融合
待添加翻譯
B. 鉛筆束聲吶與光學系統融合
待添加翻譯
C. 多波束聲吶與光學系統融合
早期研究將高分辨率照片與低分辨率聲學測深數據相結合 [29]。后來,Sulzberger 等人[30] 提出了一項將磁傳感器、底視聲納和光學相機的數據融合到掃雷應用中的工作。雖然缺乏關于融合的詳細描述,但融合是在分類器層面上進行的,這意味著只將每個分類器的結果結合在一起,而沒有進行明確的特征匹配。
Hurtos [31] 是少數幾個解決了光學聲學外參標定問題的作者之一,這項工作的基礎是將剛性耦合的多波束聲納與照相機融合在一起。標定方法受光學-激光系統外參標定技術的啟發,并在三維場景重建的模擬環境中進行了測試,結果良好。為收集應用該技術所需的標定數據,需要移動多模態系統,以便在不同位置和方向上觀察傳統棋盤式平面目標,使目標同時出現在兩個視野中。作者對該系統進行了仿真測試,傳感器直接對準航行器下方的部分,并重建了 2.5D 海底。
Kunz [32]將俯視多波束和光學攝像機的數據融合在一起,將這兩種模式的導航信息納入姿勢圖中,從而估算出 AUV 的軌跡。關于導航問題,這兩種模式是互補的,因為它們不僅可以改進姿態圖估算,還能在不同條件下提供良好的反饋。此外,所提出的系統還能在多波束測深圖上疊加照片mosaic。
Inglis[33]介紹的三維混合地圖也是通過融合多波束下視聲納和立體光學相機而構建的。與 Kunz 一樣,作者在提議的 SLAM 框架中也使用了姿態圖。在這種情況下,光學模式也用于估算測深數據。全局地圖被劃分為網格單元。每個單元格都填充了一種傳感器模式的數據。為了選擇在每個單元格中使用的數據模式,Inglis考慮了一些指標,如異常值或單元格錯位,并用錯誤最少的數據模式填充。在所述設置中,雙目光學數據通常是首選。結合光學和聲學數據,Inglis 能夠繪制出比使用單一模式更一致的測深圖。
D. 側掃聲吶與光學系統融合
待添加翻譯
E. 前視聲吶與光學系統融合
Kalyan 等人的初步研究[35] 通過使用帶有 INS、機械掃描前視聲納和光學攝像機的自動潛航器,對光學攝像機和聲學攝像機的結合進行了研究。在該系統中,光學傳感器用于估計自身運動并生成池底的二維mosaic。前視聲納與慣性數據和順序掃描相結合,用于繪制測試環境的地圖。根據單個傳感器的性能,作者得出結論,未來將光學和聲學傳感器模式相結合,將提供更可靠的位置估計和更魯棒的水下導航。不過,沒有進行光學和聲學數據融合。
Hover 等人[36] 將聲學攝像機和光學攝像機的數據結合起來,改進了應用于船體檢測的基于 SLAM 的導航。在這種情況下,來自不同傳感器模式的特征并不相互匹配,而只是在各自的傳感器層面上匹配。
另一項結合光學和前視聲納信息的研究成果見 [37]。在這種情況下,光學數據和聲納數據都被用于目標跟蹤。每個傳感器估算出的目標位置被融合,但圖像本身沒有融合。同樣,這項工作也沒有進行顯式融合或外參標定。
而Negahdaripour 的研究側重于在特征層面顯式融合光學和聲學數據。該研究小組提出的幾種方法有助于我們探索前視聲納和光學攝像機的融合。這項多模態數據融合工作的目的是找到在水下使用高頻前視聲納進行三維重建的一致方法。在文獻[38]中,Negahdaripour 推導出了由光學攝像機和前視聲納組成的光聲系統的外極幾何和立體三角測量方程。這些方程通過仿真和室內水池中的平面網格光聲圖像進行了驗證。后來發現,在短距離和清澈水域中,該系統與傳統的光學立體系統相比精度類似[39]。然而,隨著濁度的增加和距離的拉遠,融合系統的精度要好于光學雙目系統,后者的精度迅速下降。
文獻[40]提出了一種對此類系統進行外參標定的方法,并使用合成數據和真實數據得出的結果驗證了理論接法,作者建議增加更多標定網格視圖,以進一步提高解決方案的準確性。Negahdaripour 在文獻 [41] 中使用視覺和前視聲納對水下航行器進行運動估計和目標定位。兩種傳感器模式跟蹤到的特征都是獨立解析的,沒有關聯。與只使用其中一種模式的方法相比,這種方法不僅改進了運動估計,還有助于克服單目視覺固有的尺度模糊性。這種方法還允許在更廣泛的能見度條件下進行三維估計。
最近,Babaee 等人[42] 提出了一種利用關聯的 DIDSON 和光學攝像機圖像,從遮擋表面法線進行三維物體重建的方法。為了解決多模態配準和匹配問題,作者使用了兩種模態下都更容易識別的物體表面輪廓。與目標距離相比,系統的基線可以忽略不計,利用這種配置,作者能夠重建物體。在濁度較高的情況下,所提出的方法可以生成比單純使用光學傳感器技術更好的物體三維模型。
最后,在文獻[43]中,同一作者使用了類似的遮擋輪廓配準方法,利用馬爾可夫隨機場(MRF)概率方法估計出三維密集距離圖。該距離圖可用于光學圖像去霧。作者將他們的方法與其他四種算法以及不同渾濁度下的圖像進行了比較。這項研究是一個很好的起點,有助于進行更定量、更精確的研究,將融合方法與不同的濁度水平聯系起來。
F. 三維聲吶相機與光學系統融合
待添加翻譯
IV. 待解決問題
在幾個尚未解決的研究課題中,我們確定了兩個需要進一步解決的主要課題:具體來說,就是光-聲外參標定和光-聲特征匹配。
A. 光-聲外參標定
為了提高數據融合的性能,需要對光-聲系統進行外參標定。盡管這是光學或純聲吶雙目立體系統的常見程序,但本綜述中介紹的一些工作并未進行校準。然而,擁有將特征從光學坐標系映射到聲納坐標系的旋轉矩陣和平移向量有助于在求解多模態特征關聯時利用外極幾何。遺憾的是,這種校準方法并不簡單,因為它必須考慮到每個傳感器的測距范圍有很大差異,而且目標的材料和形狀必須在兩個傳感器的數據中都易于識別。這些都是光-聲系統外參標定過程中需要處理的問題[24]。
B. 光-聲特征匹配
要確定最合適的特征類型和最合適的特征匹配算法,還需要做更多的工作。與更傳統的光學立體視覺一樣,使用光聲系統進行三維重建需要在兩種傳感器模式中識別相同的特征。視覺和聲納之間的特征匹配比較困難,因為每個傳感器的成像模型和分辨率不同,對同一特征的表現方式也不同。一般來說,光學(紋理)和聲學(距離)特征之間沒有對應關系。一些學者 [43] 通過使用兩種傳感器模式中都有的輪廓和邊緣等結構特征來解決匹配問題。其他人則使用ICP算法結合3D點云 [24] 或3D特征加工 [46]。其他工作則在不明確配準的情況下,利用數據的地理參照[22]、[34]疊加數據。在選擇最佳特征類型和特征匹配類型方面還需要做更多的工作。
V. 總結與結論
本文簡要概述了光學-聲學系統的最新發展。這些系統的出現是為了避免每種傳感模式固有的問題。通過結合光學和聲學系統,可以利用兩種傳感模式的優勢。此外,它們之間的互補性還能在多種情況下提高性能。這一發展之所以成為可能,主要得益于高分辨率聲納(包括剖面和成像)的技術進步。對這一課題的研究興趣與日俱增,多個研究小組正在這一新興領域開展工作。多波束下視聲納、前視聲納和三維聲納可與光學相機融合,以實現不同的目標。許多工作建議在后處理中通過簡單的數據疊加或三維點云配準將二維或三維數據結合起來。其他研究則將測深數據與光學數據相結合,用于導航目的。然而,很少有研究解決了標定光聲系統和關聯特征匹配的復雜問題。我們認為,實現光聲系統的正確校準對提高性能大有裨益。本文從最先進的技術中選取了一些實例,展示了廣泛的應用和方法。這一領域的研究正日趨成熟,但要使這一領域在水下界得到普及,還需要付出更多努力。最近的高分辨率成像聲納(包括三維聲納)開辟了未來的研究途徑,應能促進這一領域的發展。與此同時,理論研究仍然缺乏,作者未來的工作應在這一領域做出貢獻。