當視覺(Vision)、語言(Language)和行動(Action)三大能力在一個模型中融合,自動駕駛的未來將走向何方?
近日,來自麥吉爾大學、清華大學、小米公司和威斯康辛麥迪遜的研究團隊聯合發布了全球首篇針對自動駕駛領域的視覺-語言-行動(Vision-Language-Action, VLA)模型的全面綜述。這篇題為
《A Survey on Vision-Language-Action Models for Autonomous Driving》
的論文,系統性地梳理了VLA在自動駕駛(VLA4AD)領域的前沿進展,深入剖析了其架構演進、核心技術與未來挑戰。論文GitHub倉庫已同步上線,收錄了超過20個代表性模型和相關數據集。
paper:https://arxiv.org/abs/2506.24044
GitHub: https://github.com/JohnsonJiang1996/Awesome-VLA4AD