【智駕中的大模型 -1】自動駕駛場景中的大模型

1. 前言

我們知道,大模型現在很火爆,尤其是 deepseek 風靡全球后,大模型毫無疑問成為為中國新質生產力的代表。百度創始人李彥宏也說:“2025 年可能會成為 AI 智能體爆發的元年”。

隨著科技的飛速發展,大模型的影響力日益凸顯。它不僅在數據處理和分析方面展現出了強大的能力,還為各個領域帶來了前所未有的創新機遇。在眾多應用場景中,智能駕駛無疑是備受矚目的一個領域。

智能駕駛作為未來交通的重要發展方向,具有巨大的潛力和市場需求。大模型的出現,為智能駕駛的發展注入了強大的動力。它可以通過對大量駕駛數據的學習和分析,實現更加精準的環境感知、路徑規劃和決策控制。例如,大模型可以實時識別道路上的障礙物、交通標志和其他車輛,預測潛在的危險情況,并及時做出相應的駕駛決策,從而提高駕駛的安全性和舒適性。

在這樣的一種大趨勢下,筆者將針對智能駕駛場景,講一講大模型的應用前景以及存在的瓶頸!!!

2.自動駕駛中的大模型

自動駕駛領域的大模型主要涵蓋 感知(Perception)、決策(Decision-making)和控制(Control) 等多個方面,那么可以應用于自動駕駛中的大模型可以分為;

2.1 感知層(Perception)

感知層主要依賴 計算機視覺**(CV)和多模態大模型(MMML)**,處理攝像頭、雷達、激光雷達等傳感器數據。

2.1.1 計算機視覺模型

1.Tesla Vision(特斯拉)

Tesla Vision 是 特斯拉(Tesla) 開發的一套基于純視覺(Camera-only)的自動駕駛感知系統,完全放棄了激光雷達(LiDAR)和毫米波雷達(Radar),僅依靠攝像頭和 AI 算法進行環境感知。該系統用于 Tesla Autopilot 和 FSD**(Full Self-Driving)**,目前在 FSD V12 版本中已經實現端到端 Transformer 訓練。

Tesla Vision 具有以下核心特點:

  • 純視覺(Camera-only)感知:自 2021 年起,特斯拉宣布移除毫米波雷達,完全依靠攝像頭。8 個攝像頭覆蓋 360° 視角,包括前、后、側方攝像頭。
  • 基于 Transformer 的端到端 AI**:Tesla Vision 早期使用卷積神經網絡(CNN)**進行目標檢測、分割和軌跡預測。 FSD V12 采用 端到端 Transformer 模型,用 BEV(Bird’s Eye View)+ 視頻 Transformer 進行感知。利用神經網絡自動標注駕駛數據,大規模訓練 AI 駕駛模型。BEVFormer / Occupancy Network 將 2D 視覺數據轉化為 3D 環境模型,提高自動駕駛感知能力。
  • **端到端學習(End-to-End Learning):**早期 FSD 采用模塊化架構(Perception → Planning → Control),FSD V12 采用端到端神經網絡,直接學習駕駛行為,無需手工編寫規則。

Tesla Vision 的工作原理:

  • 感知(Perception):通過 8 個攝像頭輸入視頻流。采用 Transformer 處理時序數據,形成 BEV(俯視圖)Occupancy Network 預測周圍動態環境(車輛、行人、紅綠燈等)。
  • 規劃(Planning):FSD V12 直接通過 Transformer 計算駕駛路徑,無需手工編碼。AI 學習人類駕駛行為,進行轉向、加速、剎車等決策。
  • 控制(Control):車輛根據 AI 計算的軌跡執行駕駛動作。特斯拉自研 AI 芯片 Dojo 提供超大規模計算能力。
2.多模態大模型

在自動駕駛領域,多模態大模型(Multimodal Large Models, MML)能夠融合多個傳感器數據(如攝像頭、激光雷達、毫米波雷達、IMU 等)來提升感知、決策和控制能力。以下是當前主流的多模態大模型:

BEVFusion

BEVFusion 融合激光雷達 + 攝像頭數據,提升 3D 目標檢測能力。嚴格來說,BEVFusion 本身并不算一個典型的大模型(LLM 級別的超大參數模型),但它可以被視為自動駕駛中的大模型趨勢之一,特別是在感知層的多模態融合方向。目前主流的 BEVFusion 主要用于 3D 目標檢測,并非大語言模型(LLM)那樣的百億、千億級參數模型。例如,Waymo、Tesla 的 BEV 模型參數量遠低于 GPT-4 級別的 AI 大模型。而且任務范圍局限于感知,主要用于將 2D 視覺(RGB 圖像)和 3D 激光雷達(LiDAR 點云)融合,輸出鳥瞰圖(BEV)用于目標檢測、占用網絡等。不直接涉及自動駕駛的決策和控制,不像 Tesla FSD V12 那樣實現端到端駕駛。

雖然 BEVFusion 不是超大參數模型,但它具備大模型的一些核心特征:

  • 多模態(Multimodal)融合:融合 RGB 視覺 + LiDAR + Radar,類似 GPT-4V(圖像+文本)這種多模態 AI 方向。
  • Transformer 結構:新一代 BEVFusion 開始采用 BEVFormer(Transformer 結構),可擴展成更大規模的計算模型。
  • 大規模數據驅動:需要超大規模的數據集(如 Waymo Open Dataset、Tesla 數據庫)進行訓練,符合大模型訓練模式。
Segment Anything Model (SAM)(Meta)+ DINO(自監督學習)

SAM 是由 Meta AI 發布的一種通用圖像分割模型,可以對任何圖像中的任何物體進行分割,而無需特定的數據集進行微調。DINO(基于 Vision Transformer 的自監督學習方法) 由 Facebook AI(現 Meta AI)提出,能夠在無監督情況下學習圖像表示,廣泛用于物體檢測、跟蹤和語義分割。SAM 和 DINO 結合后,可以極大提升自動駕駛中的 感知精度、泛化能力和數據效率。其結合方式可以總結為:

  • DINO 作為自監督學習特征提取器,提供高質量的視覺表示。
  • SAM 作為通用分割工具,利用 DINO 提供的特征進行高精度分割。
  • 結合 BEVFusion、Occupancy Network,增強 3D 語義感知。

其在自動駕駛中的應用可以是:

  • 無監督 3D 語義分割:DINO 預訓練提取高質量視覺特征,SAM 進行目標分割,提高語義理解能力。
  • BEV 視角感知(鳥瞰圖增強):DINO 適應跨尺度檢測,SAM 用于 BEV 視角的動態目標分割。
  • 動態物體跟蹤:結合 SAM 的強大分割能力,可更精準跟蹤行人、騎行者等。

2.2 規劃與決策(Decision-making & Planning)

這一層面涉及強化學習、端到端 Transformer 以及大語言模型(LLM)用于自動駕駛策略決策

2.2.1 強化學習與決策模型

自動駕駛的決策層需要處理復雜的動態環境,包括車輛行駛策略、避障、變道、紅綠燈響應等。強化學習(RL, Reinforcement Learning)和決策大模型(LLM, Large Decision Models)已成為關鍵技術,能夠學習人類駕駛員的策略并在不同交通場景下進行智能決策。其基本框架為馬爾可夫決策過程(MDP),主要的強化學習方法有:

在這里插入圖片描述

其應用實例有:

  • Waymo & Tesla:采用 DDPG/PPO 進行端到端駕駛策略優化
  • Uber ATG:使用 DQN 進行交通信號識別和決策

2.2.2 端到端 Transformer

端到端(End-to-End, E2E)Transformer 在自動駕駛中融合感知、預測、規劃,實現端到端學習,擺脫傳統模塊化架構的局限。Tesla FSD V12 采用 Vision Transformer(ViT)+ GPT 進行端到端自動駕駛,而 GriT(Grid Transformer) 則專注于端到端路徑規劃,提供更高效的軌跡優化。

1.Vision Transformer (ViT) + GPT

Tesla FSD V12 采用 Vision Transformer (ViT) + GPT 結構,實現端到端駕駛控制,直接從攝像頭輸入生成方向盤轉角、油門、剎車等控制信號。詳細見前文。

2.GriT( Grid Transformer)

GriT(Grid Transformer) 是一種基于 Transformer 的路徑規劃模型,能夠在復雜環境下進行高效軌跡規劃。其核心思想為**:**

  • 采用 柵格(Grid-based)方法 進行端到端軌跡預測。
  • 適用于 動態環境,如城市道路、高速公路、交叉路口等。
  • 結合 Transformer 結構進行全局路徑優化,避免局部最優問題。

GriT 主要結構為:

輸入(多模態信息)

  • 攝像頭(前視 & 側視)、LiDAR 點云(可選)、HD 地圖信息。

  • 目標檢測(行人、車輛、紅綠燈)。

  • 車輛當前狀態(速度、加速度、方向等)。

    Transformer 編碼(Grid-based Representation)

  • 采用 柵格化(Grid-based Representation),將環境信息編碼為網格結構。

  • 使用 Self-Attention 計算,學習全局路徑規劃策略。

    軌跡預測 & 規劃

  • 通過 Transformer 計算最優駕駛軌跡。

  • 適應不同交通狀況(紅綠燈、變道、避障等)。

GriT 在自動駕駛中的應用

復雜路口決策

  • GriT 能夠預測多個可能路徑,并選擇最優軌跡,避免碰撞。

    動態避障

  • 高速公路、城市駕駛場景下,實時避讓前方障礙物或慢速車輛。

    路徑全局優化

  • 傳統路徑規劃方法(如 A*、Dijkstra)易陷入局部最優,而 GriT 通過 Transformer 提高全局規劃能力。

發展趨勢

ViT + GPT 端到端感知 & 規劃進一步優化

  • 結合更多傳感器數據(如雷達)提升安全性。

  • 提高自監督學習能力,減少數據標注需求。

    GriT 結合 BEV,提升軌跡規劃能力

未來 GriT 可能與 BEV 結合,提高 3D 規劃能力。

提高對動態環境的適應性,優化駕駛策略。

多智能體 Transformer 強化學習

  • 未來可訓練多車輛協同駕駛,提高車隊自動駕駛能力。

結合 RL(強化學習)優化自動駕駛策略。

2.3 控制層(Control)

控制層是自動駕駛的核心模塊之一,負責將感知和規劃結果轉換為具體的車輛控制指令(方向盤、油門、剎車)。近年來,大模型(如 Transformer、RL-based Policy Network)正在革新自動駕駛控制層,使其更智能、更平滑、更適應復雜環境。

  • DeepMind MuZero:無模型強化學習框架,可用于動態駕駛控制優化。
  • Nvidia Drive Orin / Thor:專用 AI 芯片結合 Transformer 網絡,用于高精度自動駕駛控制。

2.4 端到端自動駕駛大模型

部分大模型實現了從感知到控制的端到端學習:

  • OpenPilot(Comma.ai):開源自動駕駛系統,基于 Transformer 訓練的行為克隆模型。
  • DriveGPT(類似 AutoGPT 的自動駕駛 LLM):將 LLM 應用于駕駛策略。

2.4 端到端自動駕駛大模型*

部分大模型實現了從感知到控制的端到端學習:

  • OpenPilot(Comma.ai):開源自動駕駛系統,基于 Transformer 訓練的行為克隆模型。
  • DriveGPT(類似 AutoGPT 的自動駕駛 LLM):將 LLM 應用于駕駛策略。

目前,特斯拉 FSD V12 是最先進的端到端 Transformer 自動駕駛大模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/76988.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/76988.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/76988.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

個人博客系統后端 - 注冊登錄功能實現指南

一、功能概述 個人博客系統的注冊登錄功能包括: 用戶注冊:新用戶可以通過提供用戶名、密碼、郵箱等信息創建賬號用戶登錄:已注冊用戶可以通過用戶名和密碼進行身份驗證,獲取JWT令牌身份驗證:使用JWT令牌訪問需要認證…

投行交易與風控系統的消費側冪等架構設計與實戰

1.背景和痛點 1.1 資金操作敏感性場景 核心需求: 交易唯一性:資金類操作必須保證全局唯一執行計算原子性:風控指標計算需具備事務性特征審計追溯:所有操作需保留完整冪等軌跡 1.2 業務損失統計 二、技術挑戰與架構設計 2.1 分…

odoo-046 視圖顯示的 name 數據庫中存儲的不一樣

文章目錄 一、問題由來二、排查經過1. 問 deepseek2. 驗證3. 新問題 三、 總結四、補充(翻譯模型 ir.translation 中 src 和 value 字段詳解) 一、問題由來 客戶有多個公司,使用多個數據庫。他們有時需要同步不同數據庫之間的數據的需求。在…

充電寶項目:規則引擎Drools學習

文章目錄 規則引擎 Drools1 問題2 規則引擎概述2.1 規則引擎2.2 使用規則引擎的優勢2.3 規則引擎應用場景2.4 Drools介紹 3 Drools入門案例3.1 創建springboot項目 引入依賴3.2 添加Drools配置類3.4 創建實體類Order3.5 orderScore.drl3.6 編寫測試類 4 Drools基礎語法4.1 規則…

HTML、CSS 和 JavaScript 常見用法及使用規范

一、HTML 深度剖析 1. 文檔類型聲明 HTML 文檔開頭的 <!DOCTYPE html> 聲明告知瀏覽器當前文檔使用的是 HTML5 標準。它是文檔的重要元信息&#xff0c;能確保瀏覽器以標準模式渲染頁面&#xff0c;避免怪異模式下的兼容性問題。 2. 元數據標簽 <meta> 標簽&am…

基于CNN+ViT的蔬果圖像分類實驗

本文只是做一個簡單融合的實驗&#xff0c;沒有任何新穎&#xff0c;大家看看就行了。 1.數據集 本文所采用的數據集為Fruit-360 果蔬圖像數據集&#xff0c;該數據集由 Horea Mure?an 等人整理并發布于 GitHub&#xff08;項目地址&#xff1a;Horea94/Fruit-Images-Datase…

Ubuntu24.04安裝libgl1-mesa-glx 報錯,軟件包缺失

在 Ubuntu 24.04 系統中&#xff0c;您遇到的 libgl1-mesa-glx 軟件包缺失問題可能是由于該包在最新的 Ubuntu 版本中被重命名為 libglx-mesa0。以下是針對該問題的詳細解決方案&#xff1a; 1. 問題原因分析 包名稱變更&#xff1a;在 Ubuntu 24.04 中&#xff0c;libgl1-me…

webpack vite

? 1、webpack webpack打包工具&#xff08;重點在于配置和使用&#xff0c;原理并不高優。只在開發環境應用&#xff0c;不在線上環境運行&#xff09;&#xff0c;壓縮整合代碼&#xff0c;讓網頁加載更快。 前端代碼為什么要進行構建和打包&#xff1f; 體積更好&#x…

如何在爬蟲中合理使用海外代理?在爬蟲中合理使用海外ip

我們都知道&#xff0c;爬蟲工作就是在各類網頁中游走&#xff0c;快速而高效地采集數據。然而如果目標網站分布在多個國家或者存在區域性限制&#xff0c;那靠普通的網絡訪問可能會帶來諸多阻礙。而這時&#xff0c;“海外代理”儼然成了爬蟲工程師們的得力幫手&#xff01; …

數據倉庫分層存儲設計:平衡存儲成本與查詢效率

數據倉庫分層存儲不僅是一個技術問題,更是一種藝術:如何在有限的資源下,讓數據既能快速響應查詢,又能以最低的成本存儲? 目錄 一、什么是數據倉庫分層存儲? 二、分層存儲的體系架構 1. 數據源層(ODS,Operational Data Store) 2. 數據倉庫層(DW,Data Warehouse)…

YOLO學習筆記 | 基于YOLOv8的植物病害檢測系統

以下是基于YOLOv8的植物病害檢測系統完整技術文檔,包含原理分析、數學公式推導及代碼實現框架。 基于YOLOv8的智能植物病害檢測系統研究 摘要 針對傳統植物病害檢測方法存在的效率低、泛化性差等問題,本研究提出一種基于改進YOLOv8算法的智能檢測系統。通過設計輕量化特征提…

高級語言調用C接口(二)回調函數(4)Python

前面2篇分別說了java和c#調用C接口&#xff0c;參數為回調函數&#xff0c;回調函數中參數是結構體指針。 接下來說下python的調用方法。 from ctypes import * import sysclass stPayResult(Structure):_pack_ 4 # 根據實際C結構體的對齊方式設置&#xff08;常見值為1,4,…

springboot啟動動態定時任務

1.自定義定時任務線程池 package com.x.devicetcpserver.global.tcp.tcpscheduler;import org.springframework.boot.context.properties.EnableConfigurationProperties; import org.springframework.context.annotation.Bean; import org.springframework.context.annotatio…

pytorch框架認識--手寫數字識別

手寫數字是機器學習中非常經典的案例&#xff0c;本文將通過pytorch框架&#xff0c;利用神經網絡來實現手寫數字識別 pytorch中提供了手寫數字的數據集&#xff0c;我們可以直接從pytorch中下載 MNIST中包含70000張手寫數字圖像&#xff1a;60000張用于訓練&#xff0c;10000…

WPF 使用依賴注入后關閉窗口程序不結束

原因是在ViewModel中在構造函數中注入了Window 對象&#xff0c;即使沒有使用&#xff0c;主窗口關閉程序不會退出&#xff0c;即使 ViewModel 是 AddTransient 注入的。 解決方法&#xff1a;不使用構造函數注入Window&#xff0c;通過GetService獲取Window 通過注入對象調用…

用戶管理(添加和刪除,查詢信息,切換用戶,查看登錄用戶,用戶組,配置文件)

目錄 添加和刪除用戶 查詢用戶信息 切換用戶 查看當前的操作用戶是誰 查看首次登錄的用戶是誰 用戶組&#xff08;對屬于同個角色的用戶統一管理&#xff09; 新增組 刪除組 添加用戶的同時&#xff0c;指定組 修改用戶的組 組的配置文件&#xff08;/etc/group&…

PyTorch學習-小土堆教程

網絡搭建torch.nn.Module 卷積操作 torch.nn.functional.conv2d(input, weight, biasNone, stride1, padding0, dilation1, groups1) 神經網絡-卷積層

MVCC詳細介紹及面試題

目錄 1.什么是mvcc&#xff1f; 2.問題引入 3. MVCC實現原理&#xff1f; 3.1 隱藏字段 3.2 undo log 日志 3.2.1 undo log版本鏈 3.3 readview 3.3.1 當前讀 ?編輯 3.3.2 快照讀 3.3.3 ReadView中4個核心字段 3.3.4 版本數據鏈訪問的規則&#xff08;了解&#x…

企業級Active Directory架構設計與運維管理白皮書

企業級Active Directory架構設計與運維管理白皮書 第一章 多域架構設計與信任管理 1.1 企業域架構拓撲設計 1.1.1 林架構設計規范 林根域規劃原則&#xff1a; 采用三段式域名結構&#xff08;如corp.enterprise.com&#xff09;&#xff0c;避免使用不相關的頂級域名架構主…

android11 DevicePolicyManager淺析

目錄 &#x1f4d8; 簡單定義 &#x1f4d8;應用啟用設備管理者 &#x1f4c2; 文件位置 &#x1f9e0; DevicePolicyManager 功能分類舉例 &#x1f6e1;? 1. 安全策略控制 &#x1f4f7; 2. 控制硬件功能 &#x1f9f0; 3. 應用管理 &#x1f512; 4. 用戶管理 &am…