51c自動駕駛~合集17

我自己的原文哦~? ???https://blog.51cto.com/whaosoft/13793157

#匯聚感知、定位、規劃控制的自動駕駛系統

自動駕駛技術在應用到車輛上之后可以通過提高吞吐量來緩解道路擁堵，通過消除人為錯誤來提高道路安全性，并減輕駕駛員的駕駛負擔，從而提高工作效率和休息時間等諸多好處。在過去的30年間，隨著傳感器和技術的進步使得必要硬件的規模和價格不斷減小，在工業界和學術界對于自動駕駛汽車技術的研究力度穩步加大，目前已經取得了諸多的實質性進步。

因此，本文旨在概述自動駕駛汽車軟件系統領域的最新發展。本文回顧了自動駕駛汽車軟件的基本組成部分，并討論了各個領域的最新發展。自動駕駛汽車軟件系統的核心能力大致可分為三類，即感知、規劃和控制，這些能力與車輛與環境的交互如下圖所示。此外，可以利用車對車 (V2V) 通信，通過車輛協作進一步改善感知以及規劃領域。

自動駕駛汽車軟件和硬件的基本組成部分

通過上圖可以看出，自動駕駛汽車的軟件主要包括感知，規劃和控制三個大方向。

感知：感知是指自主系統從環境中收集信息和提取相關知識的能力。環境感知是指發展對環境的情境理解，例如障礙物的位置、道路標志以及標記的檢測以及根據語義對數據進行分類。定位是指自動駕駛汽車確定其相對于環境的位置的能力。
規劃：規劃是指為了實現自動駕駛汽車更高階的目標而做出有目的的決策的過程，通常是將車輛從起始位置帶到目標位置，同時避開障礙物并優化設計的啟發式方法。
控制：控制能力是指自動駕駛汽車執行由更高級別流程生成的計劃動作的能力。

文章鏈接：??https://www.mdpi.com/2075-1702/5/1/6??

感知部分

環境感知

環境感知是自動駕駛汽車的一項基本功能，它為汽車提供有關駕駛環境的重要信息，包括可自由駕駛區域和周圍障礙物的位置、速度，甚至未來狀態的預測。一般而言自動駕駛汽車上都會配置激光雷達、攝像頭、毫米波雷達、超聲波雷達等信息采集傳感器來實現更高效、準確的周圍環境感知。無論采用哪種傳感器，感知任務的兩個關鍵要素是路面提取和道路物體檢測。

激光雷達傳感器

激光雷達是一種光檢測和測距設備，它以精心設計的模式每秒發送數百萬個光脈沖。借助其旋轉軸，它能夠創建環境的動態三維地圖。激光雷達是大多數現有自動駕駛汽車物體檢測的核心。下圖顯示了3D激光雷達的理想檢測結果，所有移動物體均被識別。

3D激光雷達檢測到所有移動物體的理想檢測結果

在真實場景中，激光雷達返回的點從來都不是完美的。處理激光雷達點的困難在于掃描點稀疏、缺失點和無組織的模式。周圍環境也給感知帶來了更多挑戰，因為表面可能是任意和不穩定的。有時甚至很難從掃描點的可視化中感知到有用的信息。激光雷達的輸出是從物體反射回來的稀疏3D點，每個點代表物體相對于激光雷達的3D位置。點的三種主要表示形式通常包括點云、特征和網格。因此，很多學術界的算法都在研究如何實現對于點云特征的更準確表達。

為了要感知3D點云信息，通常涉及兩個步驟：分割和分類。有些可能包括第三步，即在時間維度上的積分，以提高準確性和一致性。點云的分割是將點進行聚類的過程，而分類是識別分割的點群的類別，例如自行車、汽車、行人、路面等。3D點云分割算法可分為五類：基于邊緣、基于區域、基于屬性、基于模型和基于圖的各類算法。但隨著如今技術的快速發展和迭代，又出現了基于深度學習算法的類別。

在進行點云的分割之后，每個點云簇需要分類為不同的對象類別。每個點云簇中嵌入的信息主要來自空間關系和點的激光雷達強度，這在對象識別中的用途非常有限。因此，大多數算法將通過一些融合機制來實現視覺檢測問題。

視覺

自動駕駛汽車環境感知中的視覺系統通常涉及道路檢測和道路物體檢測。道路檢測也包括兩類：車道線標記檢測和路面檢測。

車道線標記檢測：車道線標記檢測是識別道路上的車道線標記并估計車輛相對于檢測到車道線的姿態。這條信息可以作為車輛位置反饋給車輛控制系統。近年來，人們在這個領域進行了大量的研究工作，并取得了較為不錯的成績。
路面檢測：路面檢測可告知自動駕駛汽車可在不發生碰撞的情況下行駛的自由空間位置。這是任何在線路徑規劃和控制操作的先決條件。一般來說，方法可分為三類：基于特征、線索的檢測、基于特征、線索的學習和深度學習。

對這部分感興趣的讀者可以在論文原文的第2.1.2小節中找到相關的學術論文和研究成果。

傳感器融合

不同的傳感器各有優缺點。需要傳感器融合技術才能充分利用每個傳感器的優勢。在自動駕駛汽車環境感知方面，激光雷達能夠進行3D 測量，并且不受環境照明的影響，但它提供的物體外觀信息很少；相反，攝像頭能夠提供豐富的外觀數據，其中包含有關物體的更多細節，但其性能在不同照明條件下并不一致；此外，攝像頭不會隱式提供3D信息。考慮到上述的問題，目前基于工業界和學術界對于各類傳感器融合算法開展了大量的研究并且取得了諸多出色的研究進展。相關的學術論文及研究成果可以詳見論文原文的第2.1.3小節。

定位

定位是確定自車姿態并測量其自身運動的問題。這是實現自動駕駛的基本能力之一。然而，確定車輛的準確姿態（位置和方向）通常很困難，因此定位問題通常被表述為姿態估計問題。估計自車姿態的問題通常可以分為兩個子問題，即姿態固定問題和航位推算問題。在姿態固定問題中，測量值與姿態通過代數或者超越方程相關聯。姿態固定需要能夠根據姿態（例如地圖）預測測量值。在航位推算問題中，狀態與觀察值通過一組微分方程相關聯，并且必須將這些方程積分才能導航。在這種情況下，傳感器測量值不一定可以從給定的姿態推斷出來。從這個意義上講，姿態固定和航位推算相輔相成。

在定位問題上目前也有諸多的解決方案，定位車輛的最流行方法之一是衛星導航系統和慣性導航系統的融合。衛星導航系統，如GPS可以定期定位車輛的全球位置。它們的精度可以從幾十米到幾毫米不等，具體取決于信號強度和所用設備的質量。慣性導航系統使用加速度計、陀螺儀和信號處理技術來估計車輛的姿態，不需要外部基礎設施。然而，如果不添加其他傳感器，慣性導航系統的啟動可能會很困難，并且誤差會隨著時間的推移而無限增長。有關于其它相關的定位解決方案可以閱讀論文中第2.2節相關的技術細節。

規劃部分

早期的自動駕駛汽車通常只是半自動駕駛，因為它們的設計功能通常僅限于執行車道跟蹤、自適應巡航控制和一些其他基本功能。隨著自動駕駛規劃技術的快速發展，更全面的規劃框架可以使自動駕駛汽車處理各種復雜的城市駕駛場景。任務規劃（或路線規劃）考慮的是高級的目標，例如接送任務的分配以及應走哪條路來完成任務。行為規劃做出臨時決策，以便與其他交通智能體正確交互并遵守規則限制，從而生成局部目標，例如，變道、超車或通過交叉路口。運動規劃（或局部規劃）生成適當的路徑或者動作集以實現局部目標，最典型的目標是到達目標區域同時避免與障礙物碰撞。接下來，我們對此分別進行介紹。

任務規劃

任務規劃通常通過對反映道路或者路徑網絡連通性的有向圖網絡進行圖形搜索來執行。Dijkstra算法或者A*算法等算法都是任務規劃中的經典算法，感興趣的讀者也可以看下針對路線規劃為主的綜述性論文。

行為規劃

行為規劃器負責做出決策，以確保車輛遵守任何規定的道路規則，并以常規、安全的方式與其他交通智能體進行交互，同時沿著任務規劃器規定的路線逐步前進。這可以通過結合本地目標設定、虛擬障礙物放置、可駕駛區域邊界調整或者區域啟發式成本調整來實現。

運動規劃

運動規劃是一個非常廣泛的研究領域，應用于移動機器人和操縱臂，應用范圍廣泛，包括制造、醫療、應急響應、安全監視、農業和運輸。在自動駕駛汽車這一研究領域，運動規劃是指決定一系列動作以達到指定目標的過程，通常同時避免與障礙物發生碰撞。運動規劃器通常根據其計算效率和完整性進行比較和評估。計算效率是指過程運行時間以及它如何根據配置空間的維數進行擴展。如果算法在有限的時間內終止，當存在解決方案時始終返回解決方案，否則指示不存在解決方案，則認為該算法是完整的。

運動規劃的核心思想是通過將連續空間模型轉換為離散模型，目前常用的一般是如下兩類轉換方法：

組合規劃方法：組合規劃器旨在通過構建一個離散表示來找到完整的解決方案，該方法準確地表示原始問題，但其特點是對于特殊情況求解器具有方便的屬性。
基于采樣的方法：基于采樣的方法依賴于連續空間的隨機采樣，以及可行軌跡圖（也稱為樹或路線圖）的生成，其中通過檢查節點和連接這些節點的邊的碰撞來驗證可行性。理想情況下，生成的路線圖應提供所有無障礙空間的良好覆蓋和連通性。然后使用路線圖上的路徑來構建原始運動規劃問題的解決方案。

但是，在日常的自動駕駛汽車行駛過程中，許多操作環境并非靜態的，因此無法預先知道。在城市環境中，行人以及周圍的汽車會移動，道路會因施工或事故清理而繞行和封閉，視野也會經常受阻。自動駕駛汽車必須不斷感知環境中的新變化，并能夠在考慮多種不確定性的同時做出反應。不確定性來自感知傳感器的精度、定位精度、環境變化和控制策略的執行，因此在實際的應用過程中，如何實現準確、舒適和高效的規劃依舊是非常重要的挑戰。

控制

自主系統的執行能力（通常也稱為運動控制）是將意圖轉化為行動的過程；其主要目的是通過向硬件級別提供必要的輸入來執行計劃的意圖，從而產生所需的運動。控制器從力和能量的角度映射現實世界中的交互，而自主系統中的認知導航和規劃算法通常與車輛相對于其環境的速度和位置有關。控制系統內部的測量可用于確定系統運行情況，因此控制器可以做出反應以消除干擾并將系統的動態改變為所需狀態。系統模型可用于更詳細地描述所需的運動，這對于令人滿意的運動執行至關重要。

反饋控制是許多應用中最常見的控制器結構。反饋控制使用測量的系統響應并主動補償與期望行為的任何偏差。反饋控制可以減少參數變化、建模錯誤以及不必要的干擾的負面影響。反饋控制還可以修改系統的瞬態行為以及測量噪聲的影響。然而，在控制器中僅使用反饋項可能會受到一些限制。僅反饋控制器的第一個重要限制是它對錯誤的響應延遲，因為它只在錯誤發生時才做出響應。純反饋控制器還存在耦合響應的問題，因為對干擾、建模誤差和測量噪聲的響應都是由同一機制計算的。有關于控制相關的更多研究和解決方案可以參考論文中的第四節內容。

結論

近年來，隨著自動駕駛技術的快速發展和迭代，各個自動駕駛系統的子模塊也取得了日新月異的發展，本文就針對自動駕駛系統中的感知、規劃和控制等軟件系統進行了較為詳細的總結和歸納，以幫助自動駕駛領域的從業者進行更好的學習。

#單目深度估計的擴散模型

原標題：Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

論文鏈接：https://arxiv.org/pdf/2407.16698

代碼鏈接：https://github.com/fabiotosi92/Diffusion4RobustDepth

作者單位：博洛尼亞大學

論文思路：

本文提出了一種新穎的方法，旨在解決單張圖像深度估計任務中由挑戰性、分布外數據帶來的復雜性。首先，從那些由于沒有不利因素而便于深度預測的圖像開始，本文系統地生成包含全面挑戰和相關深度信息的用戶定義場景。這是通過利用具有深度感知控制的最前沿文本到圖像擴散模型實現的，這些模型以生成高質量圖像內容而著稱，同時保持生成圖像與源圖像之間的3D結構一致性。隨后，通過一種自蒸餾協議對任何單目深度網絡進行微調，該協議考慮到使用本文策略生成的圖像及其在簡單、無挑戰場景中的深度預測。針對本文的目的設計的基準測試實驗展示了本文提案的有效性和多功能性。?

主要貢獻：

本文率先使用擴散模型作為一種新穎的解決方案，解決單張圖像深度估計中的挑戰，特別是涉及惡劣天氣條件和非朗伯面(non-Lambertian surfaces)場景的情況。
通過蒸餾擴散模型的知識，本文的方法提高了現有單目深度估計模型的魯棒性，尤其是在具有挑戰性的分布外環境中。
本文的方法同時應對惡劣天氣和非朗伯面挑戰，展示了在實現與依賴額外訓練信息的專門解決方案（如[18, 27]）相媲美的結果的同時，解決多個挑戰性場景的潛力。

論文設計：

單目深度估計作為計算機視覺中的關鍵任務，由于深度學習技術的最新突破而取得了顯著進展。這在多個領域有著廣泛的應用，從增強機器人技術和增強現實到提高自動駕駛的安全性和精確度，特別是在由于資源或空間限制而無法依賴多張圖像進行深度估計的情況下。然而，盡管單目深度估計在實際應用中具有優勢，但它面臨著從單張圖像推斷深度的挑戰，這一問題被公認為具有不良設定和嚴重欠約束的特性。通常，解決這一挑戰的方法包括通過監督方法[9, 15, 46, 61, 93, 98, 101]訓練單目深度網絡，使用主動傳感器的標注數據，或利用在訓練時使用立體圖像對[29]或單目視頻序列[112]的自監督技術。

最先進的模型，如DPT [69]和較新的Depth Anything [96]，結合了大量數據集的見解，每個數據集的深度標注使用不同的技術提取。這種廣泛的訓練協議使這些模型能夠在廣泛的現實場景中表現出色。然而，必須強調的是，即使這些模型在許多設置中表現優異，當處理遠離訓練期間觀察到的分布的數據時，仍面臨顯著挑戰，例如惡劣條件（如雨天和夜間）或具有非朗伯表面的物體。這些挑戰主要源于缺乏用于魯棒模型訓練的高質量標注數據，以及現有基于視覺的深度提取技術和主動傳感器（如LiDAR、ToF、Kinect等）的局限性，這些技術在復雜環境中（如雨、雪或具有特定反射特性的材料）表現不佳。因此，在這些情況下的深度估計往往不可靠，對依賴準確3D信息的后續應用產生嚴重影響。通常，當前的方法傾向于獨立解決這些挑戰。有些方法專注于解決光照不足和惡劣天氣的問題 [26, 27, 91]，而另一些則處理非朗伯表面的問題 [18]。這些分散的方法突顯了需要一種統一的方法——一個能夠同時處理所有不利場景的單一框架，提供更魯棒和通用的解決方案。

在這項工作中，本文引入了最初為圖像合成設計的擴散模型[20, 44]，作為一種開創性的策略，以應對那些位于通常用于訓練深度估計模型的數據分布長尾部分的圖像所帶來的嚴峻挑戰。

基于具有多模態控制的文本到圖像擴散模型的原理[56, 106]，本文旨在創建一個多樣化的高度逼真的場景集合，這些場景準確復制特定參考環境的3D結構，但有意地加入了各種不利因素。重要的是，這些條件完全是任意的，可以根據特定應用的需求通過用戶定義的文本提示進行定制。

更具體地說，本文的方法首先選擇那些最初描繪沒有與不利條件相關的復雜性的場景圖像。這些樣本可以從現有的現實世界數據集[17, 28, 57]中獲取，通過自定義集合收集，甚至可以使用生成模型[2, 59]生成。對于預選的圖像，本文采用任何現成的單目深度估計網絡來提供場景的初始3D表示。重要的是，這樣的模型可以在不同的大規模數據集上進行預訓練，或者根據應用需求定制到特定領域。

隨后，本文應用文本到圖像擴散模型，將最初簡單的圖像轉化為更復雜的圖像，同時保持相同的基礎3D場景結構（即深度）。在結合復雜和簡單圖像后，用于3D數據生成的預訓練深度網絡進入微調階段。在此階段，本文將模型暴露于組合數據集，提供具有挑戰性的訓練圖像及其在初始步驟中獲得的相應深度圖。這一微調過程提升了單目網絡推斷深度的能力，使其能夠更好地處理不利環境，如圖1所示。

圖1：框架結果。從上到下分別為：源圖像、原始Depth Anything [96]的深度預測，以及本文微調版本的結果。開發板商城天皓智聯上有視覺設備哦支持AI相關~大模型相關也可用 aiot自動駕駛也可以哦

本節概述了本文的框架，如圖2所示，旨在改善在不利環境下的單目深度估計。假設在一個領域中不存在同時描繪簡單和復雜條件的圖像，本文的方法使用具有深度感知控制的擴散模型將簡單樣本轉換為復雜樣本。隨后，本文通過自蒸餾和使用生成數據的尺度和偏移不變損失來微調預訓練的單目深度網絡。

圖2：方法概述。左側：圖像生成和自蒸餾。擴散蒸餾數據（上）：簡單圖像（）和文本提示（）輸入到條件擴散模型中生成不利場景（）。深度標簽蒸餾（下）：預訓練網絡從簡單圖像（）估計深度（）。使用（）對進行微調，采用尺度和偏移不變損失。右側：微調后的網絡在測試中處理從簡單到復雜場景的多樣化輸入。

圖3：生成圖像——天氣條件。(a-b)：來自KITTI 2015 [54]的RGB圖像和深度圖。(c-f)：由擴散模型[56]生成的圖像，這些圖像由(b)中的深度圖和每個子圖中指示的文本提示條件生成。

圖4：生成圖像——ToM對象。從上到下分別為：來自Stable Diffusion [2]的簡單場景，來自Depth Anything [96]的深度圖，使用[56]生成的轉換場景。?

實驗結果：

圖5：定性結果。從上到下分別為：RGB圖像、原始模型預測的深度圖以及使用本文方法微調版本預測的深度圖。

總結：

本文引入了一種開創性的單目深度估計訓練范式，該范式利用擴散模型來應對分布外場景。通過將簡單樣本轉換為復雜樣本，本文生成了捕捉現實世界挑戰的多樣化數據。本文的微調協議增強了現有深度網絡的魯棒性和泛化能力，使其能夠在不需要特定域數據的情況下處理惡劣天氣和非朗伯表面。跨多個數據集和最先進架構的廣泛實驗表明了本文方法的有效性和多功能性。

#自動駕駛行車&泊車~從原理到實踐?

自動駕駛的兩大基礎任務：行車&泊車

說起智能駕駛最核心的功能，無疑是行車和泊車。行車功能幾乎占據了智能駕駛99%的時間，日常使用最多的自適應巡航控制（ACC）、車道居中控制（LCC）、自動變道輔助（ALC）、高速領航駕駛輔助（NOA）等等都屬于行車的范疇。泊車功能相對簡單一些，主要是低速場景的車位泊入及泊出，包含低速遙控泊車（RPA）、記憶泊車（HPA）和代客泊車（AVP）。

行車泊車功能的實現包括感知、預測、規劃等多個任務，而評價智駕功能安全性及舒適度的決定因素在于規劃控制。規劃控制作為整個自動駕駛/機器人算法流程中最下游的模塊，直接影響司機和乘客的乘車體驗，更直接一點：轉彎加減速是否絲滑、行車軌跡規劃是否符合人類駕駛習慣、車位泊入是否順暢等等。

雖然特斯拉FSD V12之后，國內各大新勢力都在攻堅端到端。但據了解，國內端到端落地尚不明朗，很多公司的端到端雖然已經對外聲稱上車，但效果相比于rule-based方案，仍然有較大差異。很多公司仍在demo階段，還不敢投入主戰場。直接使用模型輸出的規劃結果，不出意外的話會不停地『畫龍』，安全性根本無法保障，因此仍然需要傳統規控兜底。特別是對安全性要求更高的L4，傳統規控仍然占據主導地位，短時間內想要替換比較困難。?

業內主流的決策規劃框架

規劃控制發展至今，行業也衍生出很多的決策規劃框架，目前主要有以下三大類：

路徑速度解耦的決策規劃框架；
時空聯合的決策規劃框架；
數據驅動的決策規劃框架。

據了解，業內絕大多數公司采用的都是路徑速度解耦的決策規劃框架。并且這種方法的上限也是很高的，不少公司都基于該框架實現了無人化的操作。而這種框架最具代表性的方法便是百度Apollo EM Planner，像地平線、大疆、華為、Momenta等諸多主流自動駕駛和芯片公司都有Apollo的影子或基于此直接進行二次開發。

自動駕駛領域為了縮短開發周期，減少框架穩定性的驗證，一般會基于優秀的開源框架進行二次開發，比如ROS、Apollo等，重復造輪子對快節奏的自動駕駛行業不是很可取。

而Apollo從2017年4月發布1.0到2023年12月的9.0，已經走過了7個年頭。作為最成熟的開源框架影響了無數的自動駕駛從業者，開源Apollo框架集成了很多實用的算法，工程架構完備且方便遷移使用，所以很多初創公司更是直接基于Apollo框架開發產品，可以說Apollo推動了自動駕駛行業的快速發展，這一點百度真的很有遠見。

因此，對于剛入門決策規劃的小白來說，Apollo決策規劃框架是最合適的入門學習內容；對正在找工作和已經工作的同學來說，Apollo也是面試和開發繞不開的點。

從學習/工程角度來說：Apollo框架工程性強，C++代碼規范，集成了眾多優秀的算法實現。
從面試角度角度來說：對于大部分基礎問題, 幾乎都可以從Apollo開源代碼里找到答案！
從就業角度來說：百度的招聘直接明確的標明"熟悉開源Apollo"優先。如果你學過 Apollo, 絕對是一個很大的加分項。

決策規劃的難點在哪里？

整體來說，規劃控制相比于感知對理論知識的要求較高。目前業界主流的行車規劃EM Planner、泊車規劃Hybrid A*。且量產部署均是基于C++開發優化。這段時間有很多小伙伴咨詢行車&泊車決策規劃的相關問題，市面上已有的鞠策規劃相關學習資料質量參差不齊

#MambaST

一種即插即用的跨光譜時空融合器，用于高效行人檢測

論文標題：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一種即插即用的跨光譜時空融合器，用于高效行人檢測
論文會議：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
論文作者：Xiangbo Gao等?

1.寫在前面

行人檢測是自動駕駛等應用中的一項重要任務，然而在低照明場景（如夜間），可見光（RGB）攝像頭難以單獨檢測到行人，因此跨光譜融合方法顯得尤為重要，利用熱成像和可見光攝像頭的互補信息提升檢測效果。此外，行人視頻數據中的順序運動信息也強調了結合空間和時間信息的重要性，以提高檢測性能。雖然多模態融合和時空建模已取得一定進展，但跨光譜時空融合仍有待進一步研究。已有的方法主要集中在單幀的跨光譜空間融合，或多幀單模態輸入。針對這一問題，本文提出了一種名為MambaST架構，基于狀態空間模型（Mamba），首次結合了跨光譜的空間和時間信息，提出了多頭層次化分塊和聚合（MHHPA）模塊，用于層次化時空特征提取。實驗結果表明，MambaST在檢測性能和模型效率上有顯著提升，同時所需的模型參數和計算資源更少。?

相關工作總結

跨模態融合方法

多模態傳感器數據提供了互補信息，常見的跨模態傳感器組合包括RGB-thermal、RGB-LiDAR和RGB-Depth傳感器，特別是在低光照環境下，熱成像攝像頭因其在各種光照和環境條件下能夠提供詳細的灰度圖像而成為一種重要的融合傳感器。?

Mamba 和 Vision Mamba 的基礎

Mamba 是一種用于序列建模的狀態空間模型（SSM），其最初應用于一維序列數據。隨后，研究人員將其擴展到二維圖像數據，用于視覺任務。這些擴展版本（如 VMamba 和 Vision Mamba）通過將圖像劃分為路徑序列或加入位置嵌入，展示了Mamba架構在圖像特征提取方面的潛力。盡管已有研究使用Mamba進行多模態融合，但這些工作主要集中在單幀融合上，未能推廣到多時序序列。?

時序融合

為了進行時間融合，已有的方法包括3D卷積、自適應2D卷積和Transformer等，但這些方法通常無法處理多模態輸入。其他方法則集中在單幀跨光譜空間融合，無法直接適應時間融合。在本文中，我們提出了一種擴展Mamba架構的方法，通過遞歸連接幀間的特征值，實現時序序列的融合。?

2.方法論詳細總結

模型架構概述

多頭層次化分塊和聚合（MHHPA）

為了同時提取RGB和熱成像特征圖中的細粒度和粗粒度信息，本文提出了一種新的多頭層次化分塊和聚合（MHHPA）結構。現有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前對其進行分塊和標記，這樣可以有效減少時間復雜度，但可能導致潛在的信息丟失，削弱模型提取細粒度信息的能力。相反，直接平展特征圖用于融合的方法（如一些熱成像-RGB融合工作）則可能引入噪聲，特別是對于小物體的特征表示。因此，MHHPA模塊通過層次化結構同時提取細粒度和粗粒度信息，并將它們結合在一起，從而平衡了信息提取的精細度和噪聲去除。?

順序感知的拼接和平展（OCF）

為了在多光譜特征圖的平展過程中保持空間連續性，本文提出了順序感知的拼接和平展（OCF）過程。對于每一幀在時間 t 的特征圖，OCF過程將來自RGB和熱成像特征圖的像素交替拼接，并按順序平展，從而確保在平展表示中保持多光譜數據的結構完整性和空間關系。

OCF的具體公式如下：?

用于時間融合的遞歸結構

本文在MHHPA模塊的基礎上引入了遞歸結構，通過在時間幀之間建立遞歸連接，實現了時序序列的融合。基于Mamba的轉換函數公式：

這一遞歸結構通過時間上的連接，有效地結合了時空信息，顯著提升了行人檢測的性能。?

3.實驗結果詳細總結

數據集和評價指標

我們在KAIST多光譜行人檢測基準數據集上評估了所提出的MambaST方法。訓練使用的是、清理后的標注數據集，包括41個視頻序列，總計7,601對圖像。測試則在25個視頻序列中的2,252對圖像上進行。

我們在KAIST基準數據集中提供了兩個設置下的評估結果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”設置包括高度超過55像素且未遮擋或部分遮擋的行人，而“合理小尺寸”設置包括高度在50到75像素之間的行人。兩種設置都使用日志平均錯失率（LAMR）作為評價指標，LAMR值越低，性能越好。我們還報告了召回率，較高的召回率表示較低的假陰性率。此外，為評估算法效率，我們報告了推理過程中的模型參數數量和GFLOPs值，參數和GFLOPs值越低，意味著處理圖像序列所需的計算資源越少，效率越高。?

實現細節

與其他跨模態融合方法的比較

我們將所提出的MambaST融合模塊與RGB單模態和熱成像單模態方法進行了比較，還包括基本特征加法策略和跨模態融合Transformer（CFT）。在基本特征加法策略中，RGB和熱成像特征簡單相加，所得特征圖在模態間進行廣播，這作為基線比較。對于更高級的跨模態融合方法，我們比較了CFT，這是一種頂級的跨模態融合方法。由于原始CFT模型僅適用于單幀，為了實現時間融合，我們實現了三個CFT的變體進行全面比較：1）CFT模型，原始CFT逐幀應用；2）T-CFT模型，通過拼接所有時間步的特征圖整合時間信息；3）D-CFT模型，這是一種變體，使用可變形注意力替代Transformer中的標準自注意力，以更高效地處理時間數據。?

小目標檢測的評估

根據KAIST基準設置，將高度在50到75像素之間的行人視為小尺寸目標。實驗結果表明，MambaST在所有設置中表現優異，尤其是在小尺寸目標檢測中，顯著提高了準確率和召回率。?

效率評估

我們評估了推理過程中所需的參數數量、GFLOPs值以及延遲時間。相比于其他方法，MambaST在達到更好檢測性能的同時，所需參數數量和GFLOPs值最低，并且具有相對較低的推理延遲。?

與當前最先進方法的比較

我們將MambaST與KAIST數據集上的最先進的融合方法進行了比較。實驗結果表明，MambaST在夜間場景下的檢測性能最為優異，并且隨著輸入幀數的增加，檢測性能進一步提升。?

消融研究

我們進行了多組消融研究，評估不同參數選擇的效果。首先，我們測試了MHHPA塊中不同分塊尺寸的數量。實驗結果表明，在第一個MHHPA塊中使用四個分塊尺寸，并在隨后的塊中省略分塊操作，能夠在合理和合理小尺寸設置下實現最低的LAMR。其次，我們評估了順序感知拼接和平展模塊（OCF）的影響，發現引入OCF進一步提高了檢測性能。最后，我們測試了不同幀數（）的影響，實驗表明使用更多幀數能進一步提升模型性能，證明了Mamba模型在處理長序列上的優勢。?

4.可視化結果

#自動駕駛CornerCase變小Case

數據的收集、標注和整理過程既耗時又昂貴是自動駕駛技術發展不得不面對的問題。結合世界模型、擴散模型，來生成高質量的訓練數據，為自動駕駛系統提供了更加真實和復雜的模擬環境。這種方法不僅降低了對真實世界數據集的依賴，還顯著提高了數據生成的效率和多樣性，為自動駕駛系統提供了更豐富的訓練樣本，使自動駕駛系統能夠更好地適應各種復雜的交通場景，有助于提升其泛化能力和魯棒性。

具體來說，近年來研究者多聚焦于如何讓各種生成式技術各顯神通，提升仿真各環節的“能力上限”。如：

1）基于世界模型生成高質量的駕駛視頻和駕駛策略，在仿真環境中模擬各種復雜場景，提升系統的魯棒性；

2）通過整合大語言模型，可以生成多視圖的自動駕駛視頻，充分考慮交通流、道路狀況、行人行為等多種因素，實現定制化的交通模擬；

3）從原始傳感器數據中提取特征，并生成自動駕駛的規劃結果，實現生成式端到端自動駕駛……

4）加強自動駕駛系統的局部語義表示和圖像推理能力，使得自動駕駛系統能夠更好地理解交通場景中的語義信息，如交通標志、行人意圖等，從而提升決策制定的準確性和安全性。

來看一些典型成果的分析。

DetDiffusion：協同生成模型和感知模型，以增強數據生成和感知

??https://arxiv.org/abs/2403.13304??

DetDiffusion是一個結合了生成模型和感知模型的框架，旨在提高數據生成和感知的性能。DetDiffusion的目標是通過感知信息增強圖像生成質量，并促進下游感知任務的性能。模型通過在生成過程中提取和利用感知屬性（Perception-Aware Attribute, P.A. Attr）來定制數據增強。感知屬性為一種特殊的標記，通過預訓練的檢測器（如Faster R-CNN或YOLO系列）從圖像中提取對象屬性，屬性包括類別、位置和檢測難度，這些屬性被設計為特殊的標記，以幫助擴散模型生成與感知模型訓練目標更一致的圖像。此外，模型通過分割引入了感知損失（Perception-Aware Loss, P.A. Loss），從而提高了質量和可控性。感知損失是一種新穎的損失函數，利用來自分割頭的豐富視覺特征，以實現更精細的圖像重建。它結合了掩碼損失（mask loss）和dice損失，特別針對感知增強進行優化。

DetDiffusion的編碼器使用預訓練的Vector Quantized Variational AutoEncoder (VQ-VAE)，將原始圖像編碼到潛在空間。文本編碼器使用預訓練的CLIP模型將文本條件編碼。然后連接一個包含不同尺寸的resnet和transformer網絡的UNet，用于生成過程，并通過交叉注意力機制整合條件變量。模型還基于UNet中間特征的分割模塊引入分割頭，用于生成對象掩碼，與標簽真實值結合以增強可控性。訓練時，首先利用感知屬性作為條件輸入，通過感知損失進行監督，生成高質量的圖像。然后通過優化模型的高維特征空間，使用感知信息進行更準確的圖像合成。

結果顯示，DetDiffusion在圖像質量和與布局的一致性方面超越了現有的圖像（L2I）模型，并且在目標檢測任務中表現出色，顯著提高了檢測器的訓練性能。生成的圖像與真實圖像在視覺上高度一致，展現了模型在圖像生成方面的高保真度和準確性。

DriveDreamer：邁向真實世界的自動駕駛世界模型

??https://arxiv.org/abs/2309.09777??

DriveDreamer是一個為自動駕駛設計的現實世界驅動的世界模型，它能夠生成高質量的駕駛視頻和駕駛策略。DriveDreamer利用擴散模型（diffusion model）來構建對復雜環境的全面表示，它采用兩階段訓練流程，首先讓模型理解結構化交通約束，然后賦予模型預測未來狀態的能力。第一階段訓練Auto-DM（Autonomous-driving Diffusion Model），用于模擬和理解真實世界駕駛視頻。該階段以結構化交通信息作為條件輸入，包括高清地圖（HDMap）和3D盒子（3D box），使用時間注意力層（temporal attention layers）增強生成視頻幀的一致性。第二階段訓練ActionFormer，它是用于基于駕駛動作預測未來的交通結構條件。具體為利用門控循環單元（GRU）迭代預測未來的隱藏狀態，這些狀態隨后被解碼成未來的交通結構條件。

DriveDreamer模型包括一個條件編碼器，用于嵌入不同的條件輸入，如參考圖像、HDMap、3D盒子和動作。然后通過擴散步驟估計噪聲并生成與輸入噪聲的損失，以優化Auto-DM。最后通過交叉注意力促進文本輸入與視覺信號之間的特征交互，使文本描述能夠影響生成的駕駛場景屬性。訓練時通過文本提示動態調整生成視頻的風格，例如天氣和一天中的時間。還可以通過編碼歷史駕駛動作和Auto-DM提取的多尺度潛在特征，生成合理的未來駕駛動作。DriveDreamer還可以擴展到多視圖圖像/視頻生成，使用視圖注意力層來保持生成內容的一致性。

DriveDreamer模型的創新之處在于其對真實世界駕駛場景的深入理解，引入了Auto-DM和兩階段訓練流程，以及能夠生成與交通約束高度一致的駕駛視頻和基于歷史觀察的合理駕駛策略。這為自動駕駛的實際應用提供了一個強大的工具，特別是在提高駕駛安全性和效率方面。

DriveDreamer-2：LLM增強的世界模型，用于多樣化的駕駛視頻生成

??https://arxiv.org/abs/2403.06845??

DriveDreamer-2是一個根據用戶描述生成用戶自定義的駕駛視頻，增強了生成視頻的多樣性和定制化能力。它在DriveDreamer的基礎上進行了增強，并整合了大型語言模型（LLM）。DriveDreamer-2首先集成了一個大型語言模型（LLM）接口，用于將用戶的查詢轉換成代理軌跡（agent trajectories）。然后通過HDMap生成器基于軌跡生成遵守交通規則的高清地圖（HDMap），作為視頻生成的背景條件。文章引入一個統一多視圖模型（UniMVM），用于在DriveDreamer框架內生成多視圖駕駛視頻，統一了視角內和視角間的一致性。通過調整掩碼（mask），UniMVM能夠實現基于初始幀、前視視頻輸入以及無需圖像輸入的視頻生成。

模型能夠實現定制化交通模擬，即利用構建的功能庫對大型語言模型進行微調，使其能夠基于用戶文本輸入生成代理軌跡。并且，HDMap生成器使用擴散模型來模擬道路結構，將之前生成的代理軌跡作為條件輸入。DriveDreamer-2能夠生成高質量的駕駛視頻，其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分數分別為11.2和55.7，相比之前的方法有顯著提升。總體來說，DriveDreamer-2的主要貢獻在于：（1）它提出了一個使用文本提示生成多樣化交通條件的交通模擬管道。（2）引入UniMVM框架提升了生成視頻中的時間和空間連貫性。（3）通過大量實驗驗證了DriveDreamer-2生成多樣化定制化視頻的能力，并且提升了下游任務的性能。

GenAD：生成式端到端自動駕駛

??https://arxiv.org/abs/2402.11502??

文章介紹了一個名為GenAD（Generative End-to-End Autonomous Driving）的框架，旨在通過生成模型直接從原始傳感器數據中生成自動駕駛的規劃結果，實現生成式端到端自動駕駛（Generative End-to-End Autonomous Driving）。本文探索了端到端自動駕駛的新范式，其中關鍵是如何根據過去的場景演變預測自我汽車和周圍環境，將自動駕駛轉變為生成建模問題。文章提出了一個以實例為中心的場景表示（Instance-Centric Scene Representation），首先使用一個場景標記器（scene tokenizer）將周圍場景轉換為具有地圖意識的實例令牌（map-aware instance tokens）。然后通過背景網絡提取圖像特征，并將它們轉換到3D鳥瞰圖（BEV）空間。最后使用交叉注意力（cross-attention）和自注意力（self-attention）機制來細化地圖和代理（agent）令牌，同時整合實例和地圖信息。然后，使用變分自編碼器（VAE）學習將真實軌跡映射到高斯分布的潛在空間，以模擬軌跡的不確定性和結構化先驗，以進行軌跡先驗建模（Trajectory Prior Modeling）。最后，為實現潛在未來軌跡生成（Latent Future Trajectory Generation），采用門控循環單元（GRU）對潛在空間中的實例進行自回歸建模，以生成更有效的未來軌跡。

GenAD框架將自動駕駛視為一個生成問題，通過在結構化潛在軌跡空間中采樣，并使用學習到的時間模型來生成未來場景，同時執行運動預測和規劃。在訓練階段，使用實例分布和真實軌跡分布之間的Kullback-Leibler散度損失來強制分布匹配。在推理階段，丟棄未來軌跡編碼器，根據實例令牌的條件在潛在空間中采樣，并使用學習到的時間模型生成未來軌跡。在nuScenes基準測試中進行了廣泛的實驗，證明了GenAD在基于視覺的端到端自動駕駛中取得了最先進的性能，并且具有高效率。

MagicDrive：具有多種 3D 幾何控制的街景生成功能

??https://arxiv.org/abs/2310.02601??

文章介紹了一個名為MAGICDRIVE的框架，它是一個用于生成多視角街道視圖圖像和視頻的模型，這些圖像和視頻可以捕捉精細的3D幾何細節和各種場景描述。該框架通過定制的編碼策略，實現了對相機姿勢、道路地圖、3D邊界框和文本描述的精確控制。為了實現多樣化的3D幾何控制，模型需要理解不同相機姿勢（Camera Pose）下的視圖，包括內部參數（如焦距）和外部參數（如相機在世界坐標系中的位置和旋轉）。模型以道路地圖作為背景條件，提供了道路的二維網格格式信息，包括道路、人行道、交通標志等。3D邊界框（3D Bounding Boxes）用于表示場景中對象的位置和尺寸，包括車輛、行人等，每個邊界框由其8個角點的坐標定義。

通過定制編碼策略提供多樣化的 3D 幾何控制，包括：（1）場景級編碼（Scene-level Encoding）：使用模板構建文本提示，并利用預訓練的CLIP文本編碼器處理文本描述。（2）3D邊界框編碼（3D Bounding Box Encoding）：使用交叉注意力機制對每個邊界框進行編碼，包括類別標簽和邊界框位置。（3）道路地圖編碼（Road Map Encoding）：使用額外的編碼器分支來處理道路地圖信息，實現視圖轉換和與3D邊界框的協同。此外，為了保持不同相機視角之間的一致性，MAGICDRIVE引入了一個交叉視角注意力模塊（Cross-View Attention Module）。該模塊允許目標視圖從其相鄰的左側和右側視圖中獲取信息，并通過注意力機制進行信息聚合。在訓練時，使用分類器自由引導（Classifier-Free Guidance, CFG）來加強條件引導的影響，簡化了在訓練中丟棄條件的策略。

實驗結果顯示，MAGICDRIVE在生成現實感強、與3D注釋高度一致的街道視圖方面表現出色，可以顯著提高BEV分割和3D目標檢測任務的性能。MAGICDRIVE框架通過其定制的編碼策略和交叉視角注意力模塊，實現了對街道視圖生成的精確控制，同時保持了多視角之間的一致性，為自動駕駛領域的3D感知任務提供了強大的數據支持。

CarDreamer：基于世界模型的自動駕駛開源學習平臺

??https://arxiv.org/abs/2405.09111??

CarDreamer是一個為自動駕駛開發和評估基于世界模型（World Model, WM）的強化學習（Reinforcement Learning, RL）算法的開源學習平臺。CarDreamer的架構包括三個主要部分：內置任務、任務開發套件和世界模型背骨：（1）世界模型Backbone（World Model Backbone）：集成了最先進的世界模型，如DreamerV2、DreamerV3和Planning2Explore，使用戶能夠輕松地再現RL算法的性能。這些模型通過標準的Gym接口與其他組件解耦和通信。（2）內置任務（Built-in Tasks）：提供了一系列高度可配置的駕駛任務，這些任務與Gym接口兼容，并配備了經驗優化的獎勵函數。任務包括變道、超車等，允許在難度、可觀察性、觀察模態和車輛意圖交流方面進行廣泛定制。（3）任務開發套件（Task Development Suite）：通過API提供了一系列功能，包括API驅動的車輛生成和交通流控制，以及模塊化的觀察者（Observer）用于輕松收集多模態數據。此外，還有一個可視化服務器，允許用戶通過瀏覽器實時追蹤代理駕駛視頻和性能指標。

使用DreamerV3作為模型Backbone，在CarDreamer中的不同任務上進行訓練和評估。實驗結果展示了在不同駕駛任務中WM的性能。文章評估了在不同觀察模態（BEV、相機、激光雷達）下，世界模型預測未來狀態的能力。實驗結果表明，無論觀察模態如何，世界模型都能準確預測未來。此外，CarDreamer允許車輛之間進行不同程度的通信，包括視野共享和意圖共享。實驗結果表明，通信可以顯著提高交通的安全性和效率。