OmniDrive(1): 論文解讀

在這里插入圖片描述

多模態大語言模型（MLLMs）的發展推動了基于 LLM 的自動駕駛研究，以利用其強大的推理能力。然而，利用多模態大語言模型（MLLMs）強大的推理能力來改進planning具有挑戰性，因為這需要超越二維推理的完整三維情境感知能力。因為這不單單需要 2D 推理還需要完整的 3D 場景感知能力。為了解決這一挑戰，我們的工作提出了 OmniDrive，這是一個全面的框架，旨在實現智能體模型與三維駕駛任務之間的強對齊。我們的框架從一個新穎的 3D 多模態大語言模型（MLLM）架構開始，該架構利用稀疏查詢（sparse queries）將視覺表示提升并壓縮到三維空間，然后再將其輸入到大語言模型（LLM）中。這種基于查詢的表示方法使我們能夠聯合編碼動態物體（如車輛、行人）和靜態地圖元素（如交通車道），從而為三維空間中的感知-動作對齊提供一個簡化的世界模型。此外，我們提出了一個新的基準測試，包含全面的視覺問答（VQA）任務，涵蓋場景描述、交通規則理解、三維定

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/71658.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/71658.shtml
英文地址，請注明出處：http://en.pswp.cn/web/71658.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！