惡劣天氣下的車輛探測:多方關注 多模態融合方法

摘要

在自動駕駛汽車技術領域,多模式車輛檢測網絡(MVDNet)代表了一個重大的飛躍,特別是在具有挑戰性的天氣條件下。本文主要通過集成多頭關注層對MVDNet進行增強,旨在改進其性能。MVDNet模型中集成的多頭關注層是一個關鍵的改進,提高了網絡更有效地處理和融合多模態傳感器信息的能力。本文通過綜合測試驗證了MVDNet在多頭關注下的改進性能,其中包括來自Oxford Radar RobotCar的訓練數據集。結果清楚地表明,多頭MVDNet優于其他相關的傳統模型,特別是在平均精度方面(AP)的估計,在具有挑戰性的環境條件下。所提出的多頭MVDNet不僅對自動駕駛汽車檢測領域做出了重大貢獻,而且強調了復雜傳感器融合技術在克服環境限制方面的潛力。
關鍵詞:多頭注意力;MVDNet;傳感器融合;視覺變壓器;激光雷達;雷達;美國有線電視新聞網(CNN);R-CNN;自主駕駛;目標檢測;深度學習

介紹

自動駕駛汽車的出現代表了交通運輸發展的一個重要里程碑,它融合了人工智能、傳感器技術和機器學習,重新定義了移動性。該領域最初專注于提供基本的駕駛輔助,但現在已經迅速發展到能夠自主導航復雜環境的車輛。這一領域的成就包括復雜感知系統的集成、動態決策能力和在各種環境條件下的廣泛測試,推動了技術可能性的極限。隨著技術的不斷進步,這些技術的融合不僅旨在提高道路安全和效率,還將改變出行體驗。
在自動駕駛汽車技術的先進領域,核心目標是實現全自動駕駛(Level 5)。這一目標的核心是對物體檢測系統的要求[1],這對于確保車輛周圍物體的準確識別和定位至關重要,即使在霧、雨或雪等惡劣天氣條件下也是如此。現代自動駕駛汽車通常采用各種復雜的傳感器模式[2-4],例如雷達、激光雷達(光探測和測距)和攝像頭。這些傳感器通過融合它們的互補功能,共同增強了目標檢測能力。這種不同感官輸入的融合在減輕固有限制方面尤為重要。雖然多模態傳感器的融合是一個很有前途的進步,但大多數目標檢測方法,主要是結合激光雷達和相機數據[5-7],如圖1所示,表現出對能見度的顯著依賴。這種依賴充滿了挑戰,特別是在霧等惡劣天氣條件下[8],視覺傳感器的有效性受到嚴重損害[9]。雷達技術正在成為自動駕駛汽車傳感器套件的關鍵組成部分[12],特別是其在霧天條件下導航的有效性[2,3],在霧天條件下,許多傳感器(如激光雷達和攝像頭)往往無法提供預期的性能。雷達在這種情況下的優勢源于它對毫米波信號的使用。與形成霧、雨和雪的細顆粒不同,這些波長明顯更大[13],使雷達信號更容易穿透或繞過這些障礙物。盡管有這樣的優勢,雷達數據在當前自動駕駛數據集中的整合和探索仍然有限。這種限制主要是由于雷達數據的分散性質。最近,牛津雷達機器人汽車(ORR)數據集[11]引入了一種更精細的方法,實現了旋轉喇叭天線雷達系統。這種設計有助于實現360°的環境視圖和0.9°的精細方位角分辨率。
MVDNet是一種多模式深度融合模型,旨在解決霧天條件下車輛檢測的挑戰,這是自動駕駛技術進步的一個關鍵方面。MVDNet的體系結構分為兩個關鍵階段[10],提高了車輛檢測的準確性和可靠性。該模型的第一階段致力于從激光雷達和雷達數據中單獨生成初始建議。這種獨立的處理確保了每個傳感器模態的獨特特性得到充分利用。在MVDNet的第二階段和更高級階段,戰略性地實施了一種融合機制。該機制旨在整合從激光雷達和雷達傳感器提取的特征,通過3D卷積處理利用時間分析。該模型中的后期融合方法旨在將處理集中在關鍵區域,即感興趣區域(RoI)上,從而提高了提議生成的效率和傳感器數據集成的精度。
多頭注意機制被納入MVDNet,通過將注意過程劃分為多個部分或“頭部”來發揮作用,每個部分或“頭部”專注于輸入數據的不同方面。這種方法允許對不同的特征或維度進行并行分析[14],如空間關系或信號強度,使MVDNet能夠從輸入數據中提取更廣泛的信息或特征,而不是使用單一注意力機制,一次只關注數據的一個方面。在本文中,通過對不同數據段的關注分數的計算和比較,該機制動態確定了關注區域,保證了分析的全面細致,從而提高了MVDNet模型的算法的性能。

文獻綜述及相關著作

  1. 汽車傳感器
    隨著攝像頭、雷達和激光雷達等尖端傳感技術的引入,汽車行業發生了重大轉變,這些技術是自動駕駛和輔助駕駛系統進步的基礎。攝像頭通過為交通監控和車道識別等任務提供關鍵的視覺信息發揮著至關重要的作用,盡管它們的性能可能會在不理想的照明或不利的氣象條件下受到影響。相反,雷達傳感器通過使用無線電波來確定物體的距離和速度,在這些困難的條件下表現出優越的性能,從而證明了防撞和自適應巡航控制等功能的必要性。此外,LiDAR傳感器利用激光技術生成車輛周圍環境的復雜三維表示,這是自動駕駛框架內精確導航的關鍵因素,盡管成本上升和對特定氣候條件的敏感性帶來了挑戰[15]。這些傳感器的協同集成顯著提高了車輛的安全性和操作能力,代表了汽車技術在實現更先進、更可靠的運輸系統方面的顯著進步。

  2. 激光雷達
    激光雷達技術的功能是調度激光束,并確定這些光束從目標反射后返回所需的持續時間。雖然基本概念看起來很簡單,但執行起來很復雜,需要高精度的定時測量和低信噪比。激光雷達系統技術多樣,服務于多個行業,包括汽車、軍事、機器人、監視和地形測繪,采用機載激光掃描儀。每個領域都需要激光雷達系統的特定功能;例如,汽車行業尋求具有成本效益、快速和高分辨率的掃描儀。該領域的知名制造商,如Velodyne、Ibeo和Valeo,主要采用機械光束轉向、光學激光二極管發射脈沖和雪崩光電二極管進行檢測[9]。在圖2中展示了來自ORR數據集的Velodyne LiDAR掃描,該數據集已廣泛用于車輛檢測任務。盡管如此,最近的進展傾向于固態技術,為這些設備提供了更好的耐用性和更低的維護要求。
    在這里插入圖片描述
    與雷達技術相比,激光雷達技術以其優越的分辨率和在惡劣天氣條件下比相機表現更好的能力而聞名。這使得它在為車輛創建準確的環境模型方面非常有效[16]。然而,激光雷達系統也面臨著一系列挑戰,包括需要大量的計算資源和復雜的數據分析能力。此外,它們的性能還會受到各種環境因素的影響。先進功能和技術需求的復雜融合凸顯了激光雷達在推進車輛技術和提高環境感知精度方面的關鍵作用。

  3. 雷達
    雷達傳感器的采用正在顯著增長,特別是在旨在支持自動駕駛的系統中,如自適應駕駛輔助系統(ADAS)。這些系統通常利用雷達的功能,如自動制動和自適應巡航控制。雷達傳感器在增強基于攝像頭的系統、增強防撞、探測行人和騎自行車者等功能方面的作用越來越受到重視。在汽車領域使用的雷達技術中,調頻連續波(FMCW)雷達因其廣泛的應用而脫穎而出。它的流行歸因于幾個好處,包括其組件的可負擔性和信號分析的較低計算需求。
    在圖3中,展示了來自ORR數據集的FMCW雷達掃描,該掃描已廣泛用于車輛檢測任務。雷達技術的核心機制是基于無線電波的發射和接收,其功能類似于聲學回波。與聲音在洞穴中回響的方式類似,雷達系統發出的頻率波會被附近的物體反射。反射信號隨后被雷達系統捕獲并處理以確定目標的距離和方向。這種回波探測原理使雷達能夠精確地評估近處物體的位置和運動,在增強當代車輛安全和導航系統方面發揮著至關重要的作用。
    在這里插入圖片描述

  4. 多模態融合
    在汽車技術的動態領域,多模態傳感器融合的出現標志著一個重大突破。這種創新的方法綜合了來自各種傳感器的數據,包括攝像頭、激光雷達、雷達和超聲波,以增強車輛的認知和決策框架。多模態傳感器融合的本質在于對來自不同來源的數據進行合并和分析,以形成對車輛外部環境的連貫和精確的描述。攝像頭提供豐富的視覺線索,激光雷達提供精確的距離度量,雷達確保在惡劣天氣條件下的可靠性。這些不同數據流的整合為車輛提供了對周圍環境的全方位感知[17]。
    傳感器融合技術的主要好處是它有助于建立一個更可靠、更健壯的系統,如圖4所示。它解決了獨立傳感器的固有缺點,即使在特定傳感器類型受損時也能保證不間斷運行。這種特性在自動駕駛等對安全性和精度要求很高的應用中尤為重要。在高級駕駛輔助系統(ADAS)的范圍內,傳感器融合是必不可少的。它增強了自適應巡航控制、防撞和車道維護輔助等功能,從而提高了駕駛安全性和效率。合并后的數據有助于提高預測的準確性和對不斷變化的道路場景的適應性[18]。
    在這里插入圖片描述
    然而,傳感器融合的實現并非沒有挑戰。它需要大量的計算能力來處理實時環境中的各種數據輸入。實現跨不同傳感器模式的同步和校準是保持數據準確性完整性的必要條件。此外,集成這些系統所涉及的復雜性會影響車輛的整體設計和經濟方面。

  5. 評測指標
    在目標檢測領域,模型的評估主要依賴于四個關鍵指標:精度,召回率,平均精度(AP)和over Union(IoU)。
    精確度: 精度用于衡量模型識別正向實例的準確性,計算準確的正向檢測的比例。較高的精度分數表明,該模型的積極預測在很大程度上是可信的。在不正確的積極預測的影響相當大的情況下,這個指標尤其重要。精度由正確正向預測的總數除以正確正向和錯誤正向的總和來確定[19]。
    在這里插入圖片描述
    召回率: 召回評估模型正確識別所有真實正向實例的能力,反映了模型成功檢測到的實際正向實例的比例。表現出高回憶分數的模型在識別積極實例方面是有效的,從而減少了假反向的發生率。在忽視積極實例可能導致嚴重后果的領域中,這一指標至關重要。召回率的計算涉及真正向識別與真正向和假反向之和的比率[19]。
    在這里插入圖片描述
    平均精度: 平均精度(AP)作為目標檢測領域的一個關鍵指標出現,它提供了對模型在不同召回閾值上的性能的深入評估。它通過提供更廣泛的模型有效性衡量標準,克服了精確度或召回率等個體指標的限制。平均精度(AP)計算為精確率-召回率圖中曲線下的面積。這條曲線是通過繪制不同閾值設置下的精確率和召回率來創建的。在這里,精確度表示準確識別的積極實例與做出的積極預測總數的比率,而召回率表示準確識別的積極實例與總體實際積極實例的比率。
    對構成積極預測的閾值水平的調整會影響準確率和召回率指標,從而影響準確率-召回率曲線的形狀。AP的計算包括計算該曲線下的面積,面積越大表明目標檢測模型的性能增強。
    Intersection over Union (IoU): IoU是計算機視覺領域的一個關鍵指標,廣泛用于評估針對特定數據集的對象檢測和分割模型的準確性。它通過計算預測邊界框與地面真實邊界框的相交面積與并集面積的比值來度量預測邊界框與地面真實邊界框的重疊程度,如圖5所示。IoU分數表明模型在物體定位方面的準確性,IoU值越高,表示預測定位與實際物體位置之間的一致性越高。通常建立一個IoU閾值(例如0.5)來區分檢測結果是真正向還是假正向,從而促進對檢測準確性的標準化評估[20]。

  6. 相關工作
    在基于激光雷達的車輛檢測領域,技術可以分為兩類,它們都利用了激光雷達數據的固有特性。初始方法如下激光雷達數據作為點云,并利用專門為無組織點集開發的專門架構[22-24]。正如多個模型所證明的那樣,該方法允許從未處理的點云中直接學習[16,25]。PointRCNN[25]實現PointNet[22]提取不同的點特征,并在不同階段將這些特征組合起來進行目標檢測。PointPillars[16]利用PointNet將點云分割成“柱”并提取特征。然而,這些方法在從受環境條件影響的地點提取特征方面面臨困難。第二種方法是將LiDAR點云轉換成體素化形式,使其與傳統的圖像檢測方法兼容[26-28]。PIXOR[28]是一種根據高度將點云劃分成部分創建地圖的方法,便于體素數據與其他圖像形式的集成。
    霧和霾等大氣條件導致的數據質量下降導致了先進的視覺傳感器除霧方法的發展。然而,激光雷達數據的點云表現出稀疏性,使得典型的密集三維點云清理算法[29-31]在除霧方面效率低下。Heinzler等人[32]提出的基于CNN的霧去噪模型在該領域取得了進展,但不能完全解決霧引起的LiDAR數據可見性擔憂問題。
    DEF[2]開發了一種創新的融合探測器,集成了攝像頭、雷達和傳感器激光雷達數據。雖然DEF采用了一種創新的方法,但它的雷達和相機組件都受到有限角度視野的限制。RadarNet[33]代表了一個顯著的進步,通過CNN在特征提取階段的早期融合階段將稀疏雷達數據與LiDAR點云融合在一起。這種融合使物體檢測具有完整的360°視圖。同樣,LiRaNet[34]集成了雷達和LiDAR點云,在初始狀態下繪制道路地圖,更準確地預測車輛方向。MVDNet[10]專注于霧天條件下的魯棒性(穩定性)車輛檢測。為了實現這一目標,與LiRaNet和RadarNet中使用的雷達相比,MVDNet集成了分辨率更高的雷達,以增強從LiDAR點云獲得的信息,并采用了深度后期融合技術。正如這些進展所證明的那樣,利用多模態傳感器融合[6,7,17,35]提供了數據冗余,從而提高了檢測系統對傳感器噪聲和不利天氣環境造成的干擾的彈性。
    視覺深度學習(Vision transformer, ViT)采用變壓器架構,廣泛應用于自然語言處理,可以處理計算機視覺任務[36]。利用視覺變換中自注意的有效性,可以對圖像進行分類和目標檢測,該體系結構也取得了顯著的成功相比于CNN。另一種新的多流形多頭注意機制用于視覺轉換器(ViT),提高了圖像識別和分類的性能。該機制集成了三個獨立的流形[37],即歐幾里得流形、格拉斯曼流形和多頭對稱正定流形,作為自注意機制的替代方案,允許更深入地關注從圖像中提取復雜特征。

方法

多頭注意力MVDNet是基本MVDNet模型的高級變體,在MVDNet框架的融合網絡單元中特別納入了多頭注意力層。MVDNet模型的基本結構分為兩個不同的階段,如圖6所示。在初始階段,區域建議網絡(RPN)的任務是處理來自激光雷達和雷達傳感器的輸入,從傳感器數據中提取特征地圖,然后根據這些地圖生成建議。第二階段稱為區域融合網絡(RFN),負責融合和匯集從每個傳感器數據中提取的區域特定特征。
在這里插入圖片描述

  1. 區域建議網絡(RPN)
    在MVDNet架構中,如圖6所示,兩個獨立的特征提取器模塊用于激光雷達和雷達輸入信號,每個模塊共享相同的結構設計。與雷達相比,LiDAR部分包含的特征通道數量明顯更多,這一決定受到LiDAR輸入中存在的更大通道數量的影響。特征提取階段由四個卷積層組成,每個卷積層都有一個3 × 3的核,用于以相似的輸入分辨率進行初始特征提取。隨后,該過程涉及通過最大池化步驟對輸出進行下采樣。在進一步的步驟中,該模型采用轉置卷積層對特征映射進行升級。然后,通過跳過連接將這些升級樣本的輸出與更高分辨率的特征圖集成,如圖7所示。這種方法為激光雷達和雷達輸入提供了一組復合特征圖。
    在這里插入圖片描述
    該模型的建議生成階段在這些傳感器的集成特征圖上運行。考慮到移動車輛在多個傳感器幀中可能出現在不同位置的動態特性,本文采用的方法不同于基于單個幀的特征圖生成建議的傳統方法。相反,該模型將傳感器的所有可用幀的特征圖連接起來。然后,根據激光雷達和雷達傳感器的綜合信息生成提案。

  2. 區域融合網絡(RFN)
    MVDNet-RPN模塊生成建議,隨后由感興趣區域(RoI)池器使用,為每種傳感器類型創建特定于區域的特征。傳感器融合單元集成了來自激光雷達和雷達數據的特征張量。例如,當車輛完全被霧遮住,導致沒有LiDAR點時,LiDAR特征張量的權重被調整為不那么重要。相反,在雷達強度圖由于某些背景元素而呈現明顯峰值的情況下,該區域中相應的雷達特征張量被分配減少的權重。

  3. RFN中的多頭注意層
    在多頭注意的初始階段,輸入序列被投影到幾個子空間中。在圖8中,這些輸入序列(來自LiDAR和雷達的特征張量)通常是查詢(Q)、鍵(K)和值(V)。對于每個注意頭h,這些序列使用不同的可學習權矩陣進行線性變換。
    在這里插入圖片描述
    這里,W(hQ)、W(hK)和W(hV)分別是查詢、鍵和值的權重矩陣。每個頭部都有自己的一組這些矩陣,這使得模型能夠同時記錄輸入的各個部分。
    每個頭部通過執行縮放的點積注意力來計算注意力分數。該操作是對查詢和鍵之間兼容性的度量。
    在這里插入圖片描述
    比例因子√dk,由鍵的維數(dk)推導而來,用來緩解點積尺寸過大的問題。這樣做是為了避免在訓練過程中梯度消失的發生。計算每個頭部的注意力輸出后,將這些輸出連接起來,然后進行線性轉換。這一步將每個頭部捕獲的信息合并到單個輸出中。
    在這里插入圖片描述
    每個頭部輸出headH是注意函數的結果:
    在這里插入圖片描述
    然后將連接的結果乘以另一個可學習的權重矩陣W^0。
    在這里插入圖片描述

評估

  1. 訓練和數據集
    Oxford Radar RobotCar數據集由8862個樣本組成,分為兩部分——7071個樣本(占總樣本的80%)用于訓練,1791個樣本(占數據的20%)用于測試——確保兩組樣本之間沒有地理重疊。模型的訓練過程以0.01的學習率開始。在40K次迭代之后,這個速率系統地降低了0.1,訓練的總次數跨越了85K次迭代,從一個未訓練的狀態開始。為了訓練模型在霧天條件下準確工作,采用隨機方法將霧引入到ORR數據集樣本中的LiDAR點云中。霧模擬使用深度融合(deep fusion, DEF)[2]框架中的霧模型進行,在所用樣本內應用0.5概率。由于激光雷達技術對霧的固有敏感性,該干預措施專門針對激光雷達樣本,霧會降低能見度,從而顯著影響其性能。
    原始ORR數據的收集涉及使用配備了一個NavTech CTS350-X雷達,英國旺塔奇,位于屋頂中央。該雷達與位于蘇格蘭愛丁堡的兩臺名為Velodyne HDL-32E的激光雷達一起使用,聯合王國,其產出是合并的。在同步激光雷達數據和雷達數據方面,該方法與傳統的每次雷達掃描與最近一次激光雷達掃描的配對方法在時間上有所不同。相反,這個過程需要將所有內容連接起來激光雷達掃描(F = 5)發生在單次雷達掃描間隔內。Oxford radar RobotCar數據集包含8862個樣本,遵循用于合并激光雷達和雷達數據的同步策略,每個樣本封裝了分配給單個雷達掃描的持續時間內的5個激光雷達掃描集合。因此,所有8862個樣本的LiDAR掃描總數約為44,310次(計算方法為5次LiDAR掃描乘以8862個樣本),而雷達掃描總數為8862次,對應于每個樣本一次雷達掃描。對于給定的雷達幀及其并發的F = 5個LiDAR幀,如果第n個LiDAR幀中的一個點x位于區間[(n-1)/(F+1)π,(n+1)/(F+1)π]所定義的區域內,則包含該點x。

  2. 多頭數的選擇
    在多頭注意機制中,選擇最優的頭數是影響神經網絡結構性能的關鍵決策。增加注意頭的數量增強了模型從輸入數據中識別和整合復雜特征的能力,每個注意頭捕獲數據的一個不同方面,從而豐富了模型從不同角度的理解。
    在每個注意頭的上下文中,鍵、查詢和值向量的維數相對于模型的總維數按比例減少,并在現有的注意頭數量中平均分配。因此,較高的注意頭數會導致每個注意頭的尺寸減小,這可能會影響模型識別和處理復雜模式的能力。此外,計算需求隨著磁頭的增加而增加,因此需要仔細考慮可用的計算資源。在有計算限制的環境中,減少正面次數可能是明智的。或者,用額外的層來增強模型可能比僅僅增加人員數量更有效,因為更深的層可以增強特征提取的深度,而更多的頭可以擴大特征提取的范圍。
    為了使多頭注意機制發揮最佳作用,輸入的維數(包括鍵向量、查詢向量和值向量的維數)必須能被所選的頭數整除。這種可整除性確保了輸入的維度在每個頭部的均勻分布,從而允許一致的處理。因此,我們的架構設計考慮了人數,如2、4、7、14、21和49,與我們的基線模型輸入維度的可分割性標準保持一致。通過全面的實驗評估,我們的重點被精煉到評估4、7和14個頭部,以確定最適合我們模型的配置,在計算效率和捕獲廣泛數據見解的能力之間取得平衡。

  3. 結果
    在MVDNet模型的融合網絡單元內,通過考慮不同交集超過聯合閾值的平均精度(AP),選擇現有MVDNet模型中表現最優的注意層中頭的數量,對所提出的多頭注意層進行評估。這個分析包括將注意力層的正面數改為4、7和14。可以觀察到,當頭數設置為7時,性能達到最佳,如表1所示。因此,該配置被選擇用于在MVDNet的融合網絡,以提高其性能。
    在這里插入圖片描述
    作為某些迭代的示例,圖9顯示了多頭MVDNet和基本MVDNet在第一個歷元中所演示的損失率的比較分析。該圖提供了多頭車輛檢測網絡與經過多次迭代精心繪制的基線MVDNet之間損失度量的深入比較。這種并行分析在一個epoch內執行了超過1000次迭代,并揭示了每個網絡配置隨時間的執行情況。對比的目的是清楚地了解每個系統在檢測車輛方面的運行情況,重點是了解創新的多頭車輛檢測網絡與標準MVDNet之間的性能差異。通過檢查這些迭代中損失指標的變化,我們可以看到哪個網絡可能更有效或更高效,從而深入了解使用更復雜的網絡結構(如多頭車輛檢測網絡)進行車輛檢測任務的潛在好處。
    在這里插入圖片描述
    提出的多頭MVDNet在不同天氣條件下的性能進行了嚴格測試,特別是在霧天和晴朗的情況下進行了平均測試。在本文中,評估涉及對多頭MVDNet與幾個基準的比較研究:基線MVDNet、DEF激光雷達-雷達融合方法,以及僅依賴激光雷達或僅依賴雷達的系統。結果表明,該方法具有多頭效應MVDNet在不同IoU值(0.5、0.65和0.8)上的表現始終優于表2中提到的方法。
    在這里插入圖片描述
    表2中詳細的結果說明了所建議的多頭MVDNet在各種交叉超過聯合(IoU)閾值上的卓越性能。具體來說,在IoU閾值為0.5時,多頭MVDNet實現了令人印象深刻的平均精度(AP)為91.20%,較基線顯著改善2.05%與無自我注意機制的MVDNet變體(AP為88.19%)相比,MVDNet變體(AP為89.15%)增加了3.01%。這些發現如圖10所示,突出了多頭注意機制在車輛檢測精度方面帶來的增強。
    在這里插入圖片描述
    在更嚴格的IoU閾值0.65進一步檢查表明,多頭MVDNet不僅保持而且擴大了領先優勢,AP為88.90%。這標志著比基線MVDNet (AP為86.72%)提高2.18%,顯著優于雷達方法(AP為68.27%)和激光雷達配置(AP為80.72%)。圖11描述了多頭MVDNet的先進性能,即使在更高的檢測嚴格程度下,也顯示了它的魯棒性和卓越的精度。
    在最苛刻的IoU閾值為0.8時,所提出的模型繼續顯示其優勢,實現了74.10%的AP,比MVDNet的基準性能高出2.34% (AP為71.76%)。與DEF方法(AP為43.62%)和雷達設置(AP為43.25%)中觀察到的AP顯著下降相比,這一性能尤為顯著,強調了多頭MVDNet在嚴格精度要求下檢測車輛時保持準確性和可靠性的增強能力。
    在這里插入圖片描述

結論

multi-head MVDNet的實施標志著車輛檢測領域的重大進步,特別是在霧或雪等惡劣天氣條件下。多頭MVDNet模型建立在現有MVDNet框架的基礎上,通過后期融合提取的特征張量,利用激光雷達和雷達的互補優勢。新的MVDNet模型的一個關鍵改進是在其融合網絡中集成了多頭注意層。這一層取代了MVDNet中傳統的自注意機制,將注意過程分割成多個部分。通過對各種頭數量計數的廣泛實驗,使用七個頭的配置被認為是最有效的,因此成為多人注意的選擇設置。在檢查多頭MVDNet時ORR數據集具有高分辨率雷達和激光雷達數據的特點。實驗結果表明,多頭MVDNet在車輛檢測精度方面始終優于原始MVDNet、LiDAR-only和DEF模型。他們計劃通過試驗不同類型的注意力機制來進一步擴展該系統的功能。
此外,為了未來在自動駕駛汽車中的實時實現,本研究將探索采用雙階段計算策略,以現有的NVIDIA GTX 1080M GPU為基礎,用于擬議的多頭車輛檢測網絡。最初,網絡將繼續在該GPU上進行訓練,選擇該GPU是因為其經過驗證的計算效率,這對于確保模型的魯棒性和準確性至關重要。訓練成功后,該模型將部署在嵌入式邊緣計算平臺上,鏡像現有傳感器融合框架中使用的方法[38]。這種部署的目標是類似于邊緣計算機的平臺,將通過與車輛操作系統的直接接口,促進高效的實時處理和決策。這種高性能訓練和高效邊緣推理的戰略整合旨在為自動駕駛系統提供精確的環境解釋,這對于車輛在復雜場景下的即時響應至關重要。 實現這種雙階段計算方法確保了多頭車輛檢測網絡在自動駕駛汽車實際硬件中的實用性和可擴展性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13592.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13592.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13592.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

民國漫畫雜志《時代漫畫》第14期.PDF

時代漫畫14.PDF: https://url03.ctfile.com/f/1779803-1247458399-6732ac?p9586 (訪問密碼: 9586) 《時代漫畫》的雜志在1934年誕生了,截止1937年6月戰爭來臨被迫停刊共發行了39期。 ps:資源來源網絡!

java+ vue.js+uniapp一款基于云計算技術的企業級生產管理系統,云MES源碼 MES系統如何與ERP系統集成?

java vue.jsuniapp一款基于云計算技術的企業級生產管理系統,云MES源碼,MES系統如何與ERP系統集成? MES系統(制造執行系統)與ERP系統(企業資源規劃系統)的集成可以通過多種方式實現,這…

探索亞馬遜云科技技術課程:大模型平臺與提示工程的應用與優化

上方圖片源自亞馬遜云科技【生成式 AI 精英速成計劃】技術開發技能課程 前言 學習了亞馬遜云科技–技術開發技能課程 本課程分為三個部分,了解如何使用大模型平臺、如何訓練與部署大模型及生成式AI產品應用與開發,了解各類服務的優勢、功能、典型使用案…

蘋果MacOS系統使用微軟遠程桌面連接Windows電腦桌面詳細步驟

文章目錄 前言1. 測試本地局域網內遠程控制1.1 Windows打開遠程桌面1.2 局域網遠程控制windows 2. 測試Mac公網遠程控制windows2.1 在windows電腦上安裝cpolar2.2 Mac公網遠程windows 3. 配置公網固定TCP地址 前言 日常工作生活中,有時候會涉及到不同設備不同操作系…

Vue3實戰筆記(38)—粒子特效終章

文章目錄 前言一、怎樣使用官方提供的特效二、海葵特效總結 前言 官方還有很多漂亮的特效,但是vue3只有一個demo,例如我前面實現的兩個頁面就耗費了一些時間,今天記錄一下tsparticles官方內置的幾個特效的使用方法,一般這幾個就足…

微信小程序---小程序文檔配置(2)

一、小程序文檔配置 1、小程序的目錄結構 1.1、目錄結構 小程序包含一個描述整體程序的 app 和多個描述各自頁面的 page 一個小程序主體部分由三個文件組成,必須放在項目的根目錄 比如當前我們的《第一個小程序》項目根目錄下就存在這三個文件: 1…

新媒體運營十大能力,讓品牌聞達天下!

" 現在新媒體蓬勃發展,很多品牌都有新媒體運營這個崗位。新媒體運營好的話,可以提高公司品牌曝光、影響力。那新媒體運營具備什么能力,才能讓品牌知名度如虎添翼呢?" 信息收集能力 在移動互聯網時代,信息的…

單細胞分析(Signac): PBMC scATAC-seq 聚類

引言 在本教學指南中,我們將探討由10x Genomics公司提供的人類外周血單核細胞(PBMCs)的單細胞ATAC-seq數據集。 加載包 首先加載 Signac、Seurat 和我們將用于分析人類數據的其他一些包。 if (!requireNamespace("EnsDb.Hsapiens.v75&qu…

JVM嚴鎮濤版筆記【B站面試題】

前言 2023-06-19 18:49:33 出自B站 灰灰的Java面試 楓葉云鏈接:http://cloud.fynote.com/s/4976 JVM面試題大全 Lecturer :嚴鎮濤 1.為什么需要JVM,不要JVM可以嗎? 1.JVM可以幫助我們屏蔽底層的操作系統 一次編譯&#xff0c…

C語言 數組——計算最大值的函數實現

目錄 計算最大值 計算最大值的函數實現 應用實例:計算班級最高分?編輯?編輯 返回最大值所在的下標位置 返回最大值下標位置的函數實現?編輯 一個綜合應用實例——青歌賽選手評分?編輯?編輯?編輯?編輯?編輯 計算最大值 計算最大值的函數實現 應用實例&…

音視頻開發4-補充 FFmpeg 開發環境搭建 -- 在windows 上重新build ffmpeg

本節的目的是在windows 上 編譯 ffmpeg 源碼,這樣做的目的是:在工作中可以根據工作的實際內容裁剪 ffmpeg,或者改動 ffmpeg 的源碼。 第一步 :下載, 安裝,配置 ,運行 msys64 下載 下載地址&…

【paper】基于分布式采樣的多機器人編隊導航信念傳播模型預測控制

Distributed Sampling-Based Model Predictive Control via Belief Propagation for Multi-Robot Formation NavigationRAL 2024.4Chao Jiang 美國 University of Wyoming 預備知識 馬爾可夫隨機場(Markov Random Field, MRF) 馬爾可夫隨機場&#xff…

【Linux】使用AddressSanitizer分析內存非法使用問題

文章目錄 1 為什么需要AddressSanitizer?2 如何使用AddressSanitizer3 AddressSanitizer的原理4 總結 1 為什么需要AddressSanitizer? Valgrind是比較常用的內存問題定位工具,既然已經有了Valgrind,為什么還需要AddressSanitizer…

java 通過 microsoft graph 調用outlook(三)

這次會添加一個Reply接口&#xff0c; 并且使用6.10.0版本 直接上代碼 一&#xff0c; POM <!-- office 365 --><dependency><groupId>com.microsoft.graph</groupId><artifactId>microsoft-graph</artifactId><version>6.1…

域內 dcsync 權限維持

一、原理 DCSync 是域滲透中經常會用到的技術&#xff0c;其被整合在了 Mimikatz 中。在 DCSync 功能出現之前&#xff0c;要想獲得域用戶的哈希&#xff0c;需要登錄域控制器&#xff0c;在域控制器上執行代碼才能獲得域用戶的哈希。 Mimikatz的DCSync 功能&#xff1a; 該…

java8總結

java8總結 java8新特性總結1. 行為參數化2. lambda表達式2.1 函數式接口2.2 函數描述符 3. Stream API3.1 付諸實踐 java8新特性總結 行為參數化lambda表達式Stream Api 1. 行為參數化 定義&#xff1a;行為參數化&#xff0c;就是一個方法接受多個不同的行為作為參數&#x…

harmony 文件上傳

圖片上傳 1&#xff0c; 獲取文件&#xff0c;這里指的是圖片 在鴻蒙內部有一個API pick選擇器&#xff0c;實現文件保存和文件選擇的功能&#xff0c; 使用pick對象創建PhotoViewPicker實例 傳入必要的參數&#xff0c;如選擇圖片的數量&#xff0c;和彈出窗口的位置&#xf…

【機器學習】前沿探索,如何讓前端開發更加搞笑

在當今數字化時代&#xff0c;機器學習的崛起為前端開發帶來了巨大的機遇和挑戰。隨著人工智能和數據科學的不斷進步&#xff0c;前端工程師不再局限于傳統的界面設計和交互體驗&#xff0c;而是開始探索如何將機器學習技術融入到他們的工作中&#xff0c;以創造更加智能、個性…

面了一個程序員,因為6休1拒絕了我

人一輩子賴以生存下去的主要就考慮三件事&#xff0c;職業&#xff0c;事業&#xff0c;副業&#xff0c;有其1-2都是很不錯的。如果還沒到40歲&#xff0c;那不妨提前想下自己可能遇到的一些情況&#xff0c;提前做一些準備&#xff0c;未雨綢繆些。 今年整體就業大環境也一般…

【手寫大跟堆詳解】

文章目錄 大跟堆介紹大跟堆的結構大跟堆的應用場景大跟堆的代碼實現 大跟堆介紹 大根堆&#xff08;Max Heap&#xff09;是一種特殊的二叉樹結構&#xff0c;它滿足以下兩個條件&#xff1a; 1.完全二叉樹&#xff1a;大根堆是一棵完全二叉樹&#xff0c;即除了最后一層外&am…