最近將類人的推理能力融入到端到端自動駕駛系統中已經成為了一個前沿的研究領域。其中,基于視覺語言模型的方法已經吸引了來自工業界和學術界的廣泛關注。
現有的VLM訓練范式嚴重依賴帶有自由格式的文本標注數據集,如圖1(a)所示。雖然這些描述能夠捕捉豐富的語義信息,但由于兩種結構不同但是表達相近的句子會增加模型在學習任務中的復雜性和計算開銷,導致模型無法專注核心的推理任務。此外,由于語言描述中還會存在冗余的信息,這對于自動駕駛系統的下游決策過程帶來不必要的認知負荷。
圖1:不同VLM算法模型訓練范式比較??【深藍AI】編譯
此外,現有的一些基準模型通常依賴于大規模的語言模型,這些模型通常包含超過70億個參數,甚至更多以實現多模態對齊和推理。雖然超大參數VLM可能在各種基準測試中取得不錯的性能,但同時存在高昂的計算成本、內存消耗和推理延遲等問題。
針對上述提到的相關問題,本文提出了一個結構化、簡潔的數據集NuScenes-S,其源自于NuScenes數據集。此外,本文提出了一種緊湊的VLM基線模型,稱之為FastDrive,專門為小規模參數的端到端自動駕駛方案而設計。FastDrive 通過采用思維鏈式過程來模擬人類駕駛員的推理策略,執行場景理解、感知、預測和決策任務,從而實現與端到端自動駕駛框架的有效結合。
本文的主要貢獻如下:
●?本文引入一個結構化的數據集,該數據集關注與駕駛決策密切相關的關鍵要素,從而消除冗余信息,解決自由格式文本注釋中同義表達的局限性,并提高推理效率
●?本文提出了一個具有0.9B參數的緊湊型VLM基線模型,它模仿人類駕駛員的推理策略,并實現了與端到端自動駕駛框架的有效對齊
●?本文針對NuScenes-S和FastDrive進行了全面的評估和廣泛的實驗。結果證明所提出的數據集和模型的有效性,并在NuScenes-S數據集上取得了具有競爭力的性能
場景描述
本文提出的NuScenes-S數據集中的場景描述旨在提供更全面的駕駛場景視圖,解決許多現有數據集中經常被忽視或表示不足的問題。NuScenes-S中的場景描述結構清晰、簡潔,包含以下關鍵元素:天氣、交通狀況、駕駛區域、交通燈、交通標志、道路狀況、車道線、時間。其相關的具體細節如下所示
●?天氣:天氣條件包含晴天、雨天、雪天、霧天以及多云
●?交通狀況:交通狀況包括低、中等
●?駕駛區域:駕駛區域包括交叉路口、樞紐、環島、住宅區、人行橫道、停車場
●?交通燈:交通燈包括綠燈、紅燈和黃燈
●?交通標志:交通標志包括速度限制、停車、讓行、禁止停車、禁止調頭、禁止左轉、禁止右轉、禁止超車、單行線
●?道路狀況:道路狀況包括光滑、粗糙、潮濕、結冰,施工
●?車道線:車道線包括右轉、左轉、直行、直行右轉、直行左轉、掉頭、左轉調頭、右轉調頭
●?時間:時間包括白天和夜間
感知和預測
識別一些關鍵目標并預測其未來的狀態對于駕駛員的決策至關重要。NuScenes-S數據集中的感知和預測任務結構如下: 目標:攝像頭、2D邊界框,未來狀態。
●?相機視角:相機視角包括前向、前左、前右、后向、后左、后右
●?2D邊界框:2D邊界框包含兩個對角線的坐標
●?未來狀態:未來狀態包括直行、左轉、右轉、輕微左轉、輕微右轉、停止、怠速
決策
根據感知和預測任務做出決策是駕駛員安全駕駛的最后也是關鍵的一步。NuScenes-S數據集中的決策任務結構如下:決策:橫向移動、縱向移動
●?橫向移動:橫向移動包括左轉、右轉、輕微左轉、輕微右轉、直行
●?縱向移動:加速、減速、巡航、怠速
數據集的構建
數據集的整體構建過程如圖2所示。具體來說,在場景描述方面,本文首先通過GPT和人工對場景信息進行標注,然后比較GPT和人工標注的結果,找出差異,并由人工標注對標注進行細化。在感知和預測任務中,本文首先定義一些規則來提取關鍵目標,然后使用VLM和人工同步對關鍵目標進行標注。最后,基于規則和人工注釋對決策任務進行注釋,以獲得初始注釋,然后由人工注釋通過比較優化進一步完善。
圖2:NuScenes-S數據集的整體構建過程??【深藍AI】編譯
最后得到的NuScene-S數據集的樣例如圖3所示。
圖3:NuScenes-S數據集用例示意圖??【深藍AI】編譯
本文提出的FastDrive算法模型的整體網絡結構如圖4所示。通過網絡結構圖可以看出,其整體遵循"ViT-Adapter-LLM"的架構范式。
圖4:FastDrive端到端算法模型的整體網絡結構圖??【深藍AI】編譯
視覺編碼器模塊
視覺編碼器的主干網絡是Vision Transformer,提取輸入環視圖像的視覺特征,并利用多層感知機投影到LLM的特征空間。本文還引入了可選的TokenPacker模塊減少標記的數量,進而提高推理速度。
LLM代理
本文中的LLM在FastDrive算法模型中起到大腦的角色,并且選用的是Qwen2.5。它以視覺編碼器的視覺特征和結構化語言指令作為輸入,生成場景描述,識別關鍵物體,預測其未來狀態,并以思維鏈的方式做出駕駛決策。
本文的實驗在NuScenes-S數據集上進行,該數據集包含了102K個問答對。整個數據集被拆分成了84K個訓練問答對和18K個測試問答對。評估指標包括語言指標、平均精度、召回率和決策準確率。
圖5展示了本文的算法模型在場景理解方面的性能。實驗結果表明,FastDrive在結構化基準數據集上取得了有競爭力的性能。
圖5:在NuScenes-S數據上的場景理解性能??【深藍AI】編譯
圖6展示了不同算法模型在感知、預測以及決策任務上的性能對比,實驗結果可以看出,FastDrive在預測和決策規劃任務上實現了最佳的性能。
圖6:在NuScenes-S數據集上感知、預測、決策任務性能??【深藍AI】編譯
此外,本文也進行了相關的消融實驗來驗證提出的場景標注的有效性,如圖7所示。
圖7:場景標注對于駕駛決策的消融實驗??【深藍AI】編譯
本文為了更加直觀的展示消融實驗的效果,將模型的預測內容進行了可視化輸出,如圖8所示。
圖8:消融實驗部分的樣例說明??【深藍AI】編譯
本文引入了一個結構化的自動駕駛基準數據集NuScenes-S,它在感知、預測和決策任務中遵循類人的推理過程。此外,本文還提出了FastDrive,一個用于端到端的自動駕駛模型,在NuScenes-S數據集上取得了具有競爭力的性能,推理速度更快,參數更少。