多模態大語言模型(MLLMs)的發展推動了基于 LLM 的自動駕駛研究,以利用其強大的推理能力。然而,利用多模態大語言模型(MLLMs)強大的推理能力來改進planning具有挑戰性,因為這需要超越二維推理的完整三維情境感知能力。因為這不單單需要 2D 推理還需要完整的 3D 場景感知能力。為了解決這一挑戰,我們的工作提出了 OmniDrive,這是一個全面的框架,旨在
實現智能體模型與三維駕駛任務之間的強對齊
。我們的框架從一個新穎的 3D 多模態大語言模型(MLLM)架構 開始,該架構利用稀疏查詢
(sparse queries)將視覺表示提升并壓縮到三維空間,然后再將其輸入到大語言模型(LLM)中。這種基于查詢的表示方法使我們能夠聯合編碼動態物體(如車輛、行人)和靜態地圖元素(如交通車道),從而為三維空間中的感知-動作對齊提供一個簡化的世界模型。此外,我們提出了一個新的基準測試,包含全面的視覺問答(VQA)任務,涵蓋場景描述、交通規則理解、三維定