VLM-E2E：通過多模態駕駛員注意融合增強端到端自動駕駛

25年2月來自香港科大廣州分校、理想汽車和廈門大學的論文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。

人類駕駛員能夠利用豐富的注意語義，熟練地應對復雜場景，但當前的自動駕駛系統難以復制這種能力，因為它們在將 2D 觀測值轉換為 3D 空間時經常會丟失關鍵的語義信息。從這個意義上說，這阻礙了它們在動態和復雜環境中的有效部署。利用視覺-語言模型 (VLM) 卓越的場景理解和推理能力，VLM-E2E，使用 VLM 通過提供注意線索來增強訓練。該方法將文本表示集成到鳥瞰圖 (BEV) 特征中以進行語義監督，這使模型能夠學習更豐富的特征表示，明確捕捉駕駛員的注意語義。通過關注注意語義，VLM-E2E 更好地與類似人類的駕駛行為保持一致，這對于在動態和復雜的環境中導航至關重要。此外，引入一種 BEV-Text 可學習加權融合策略來解決融合多模態信息時模態重要性不平衡的問題。這種方法動態地平衡 BEV 和文本特征的貢獻，確保有效利用視覺和文本模態的互補信息。通過明確解決多模態融合中的不平衡問題，該方法有助于更全面、更穩健地表示駕駛環境。

VLM-E2E 如圖所示：

請添加圖片描述

近年來，自動駕駛取得令人矚目的進展[1]–[3]，在感知[4]–[6]、運動預測[7]–[9]和規劃[10]，[11]等關鍵領域。這些發展為實現更準確、更安全的駕駛決策奠定堅實的基礎。其中，端到端 (E2E) 自動駕駛已成為一種變革性范例，它利用大規模數據來展示規劃能力。通過將原始傳感器輸入直接映射到駕駛動作，E2E 方法繞過手工制作中間模塊的需求，從而實現更靈活、更可擴展的解決方案。然而，盡管取得這些進步，傳統的端到端自動駕駛方法主要直接預測未來軌跡或控制信號，而沒有明確考慮駕駛員對交通動態和導航提示等關鍵信息的注意。 E2E 系統在復雜和模糊場景中經常表現不佳，因為它們對高級語義和上下文線索（如交通規則、駕駛員注意力和動態交互）的推理能力有限。相比之下，人類駕駛員依靠注意決策過程，其中對周圍交通環境和導航指導的注意都起著關鍵作用 [12]–[14]。例如，當接近十字路口時，人類駕駛員自然會優先考慮交通信號、行人運動和車道標記，并根據不斷變化的場景動態調整他們的注意。

這一限制促使視覺-語言模型 (VLM) [15]–[18] 集成到自動駕駛框架中。VLM 在龐大的多模態數據集上進行訓練，擅長需要高級語義推理的任務，例如解釋復雜場景、預測動態交互和生成上下文描述。它們能夠利用常識知識，因此特別適合解決自動駕駛中的挑戰，例如理解交通規則、識別弱勢道路使用者以及在模糊場景中做出安全決策。通過生成關鍵駕駛線索的文本描述，VLM 可以明確捕獲與人類駕駛員注意相符的興趣區域并確定其優先級。這種能力使決策更像人類，特別是在注意至關重要的安全關鍵場景中。

本文提出 VLM-E2E，框架如圖所示。輸入的場景信息包括多視角圖像序列、GT、操控和用戶提示。正面圖像、操控和用戶提示，被輸入到基于 VLM 的文本標注生成（TAG）模塊，以生成描述性文本標注，而多視角圖像則由視覺編碼層處理以產生 BEV 特征。然后，這些文本標注被傳遞到文本交互引導模塊（TIGM），在那里使用預訓練的 CLIP 模型將它們編碼為文本特征。隨后，將 BEV 和文本特征融合以支持下游任務，例如感知、預測和決策。

請添加圖片描述

基于 VLM 的文本注釋生成

文本注釋：上圖描述從視覺輸入中提取駕駛員注意信息的流程，利用預訓練 VLM 的推理能力。語義注釋提取過程可以表述如下：

T = BLIP_2(P, I_front) (1)

此過程的目標是利用特定于任務的提示以及實時視覺輸入從 BLIP-2 中提取可操作和注意信息。這種方法不僅強調了行人、交通信號和動態障礙物等關鍵元素，而且還過濾掉不相關的場景細節，確保輸出直接支持駕駛決策。

工作中采用視覺語言模型 BLIP-2 [25]，該模型能夠對視覺上下文進行復雜的推理，以生成精確且與上下文相關的描述。該模型解釋由提示引導的視覺場景并輸出文本描述。該方法通過提供駕駛員注意注釋來增強數據集的豐富性，從而提高下游駕駛模型的理解和決策能力。

在確定視覺輸入時遇到挑戰。也就是說，從可以覆蓋自車 360 度的多個攝像頭中選擇正確的圖像。考慮到要捕捉駕駛時的駕駛員注意語義，前視圖圖像通常包含大多數駕駛任務所需的最相關信息。全視圖圖像包含更多影響系統決策的干擾信息，因此選擇僅使用前視圖圖像來提取注意信息。此外，考慮到自車及其周圍環境處于動態運動中以及大型模型固有的幻覺問題，用 GT 和機動來細化動態目標的注釋。

文本交互引導模塊

駕駛員注意的文本描述，保留豐富的視覺語義線索。它與主要表示 3D 幾何信息的 BEV 特征相輔相成。因此，BEV-Text 融合，從 BEV 角度全面理解場景。

文本編碼器：給定一個文本輸入 T，該文本輸入提供語義特征來指導 BEV-Text 融合網絡，實現指定的融合結果，文本交互指導架構中的文本編碼器和嵌入，負責將此輸入轉換為文本嵌入。在各種 VLM 中，采用 CLIP [26]，因為它具有輕量級架構和高效的文本特征提取功能。與其他 VLM 相比，CLIP 在計算上要求較低，并且生成的文本嵌入具有相對較小的特征維度 77，這顯著提高后續 BEV-Text 特征融合的效率。從 CLIP 中凍結文本編碼器以保持其一致性并利用其預訓練知識。這個過程可以正式表示為：

f_t = CLIP_e(T) (2)

在不同但語義相似的文本中，提取的特征應該在簡化的歐幾里得空間中接近。進一步利用MLP F_m^i 挖掘這種連接，進一步映射文本語義信息與語義參數，得到：

γ_m = F_m¹ (f_t), β_m = F_m^2 (f_t) (3)

2）BEV-Text Fusion：在語義交互引導模塊中，語義參數通過特征調制與融合特征 s_t 進行交互，從而達到引導的效果。特征調制包括尺度縮放和偏差控制，分別從兩個角度對特征進行調整。特別地，受[58]的啟發，使用殘差連接來降低網絡擬合的難度。為簡單起見，可以將其描述為：

x_t = (1 + γ_m) ⊙ s_t + β_m (4)

基于視覺的端到端模型

空間時間 BEV 感知：在該框架中，BEV 表示由多攝像頭圖像構建而成。時間 t 時輸入的多攝像頭圖像 {I_t¹, · · · , I_tⁿ}, n = 6 首先通過共享主干網絡 EfficientNet-b4 [59] 以提取高維特征圖。對??于時間 t 時的每個攝像頭圖像 k，得到其編碼器特征 e^k_t 和深度估計 d^k_t，C 表示特征通道數，D 表示離散深度值數，(H_e, W_e) 表示空間特征大小。隱深度估計用于推斷每個像素的深度信息，從而可以構建 3D 特征體。由于深度值是估計的，因此取特征與深度估計的外積。

e?_t^k =e_t^k ? d_t^k (5)

然后，為了將 2D 透視特征轉換為 3D 空間，用特征提升模塊。該模塊使用相機內參和外參將 2D 特征投影到 3D 體素空間中。然后，通過沿垂直軸聚合特征以形成 BEV 視圖特征 b_t，將 3D 特征體折疊為 2D BEV 表征，(H, W) 表示 BEV 特征的空間大小。這是通過基于注意聚合實現的，它保留最顯著的特征，同時保持空間一致性。生成的 BEV 圖提供場景的自上而下的視圖，封裝幾何和語義信息。

除了上面描述的 BEV 構建流水線之外，還進一步結合時間建模來增強對場景的動態理解。具體來說，給定當前時間戳 t 及其 h 個歷史 BEV 特征 {b_t?h, · · · , b_t?1, b_t}，首先使用時間對齊模塊將歷史特征與當前幀的坐標系對齊。此過程利用相鄰幀之間的相對變換和旋轉矩陣 M_t?i→t。然后將過去的 BEV 特征 b_t?i 進行空間變換為：

?b_t?i = W(b_t?i, M_t?i→t), i = 1,2 (6)

隨后，將 h 個幀中對齊的 BEV 特征連接起來以形成時空輸入 ?b = [?b_t?h,···,?b_t?1,?b_t]。為了捕獲動態場景中的長期依賴關系，使用時空變換模塊 F_s。

s_t = F_s(?b_t?h,··· ,?b_t?1,?b_t) (7)

F_s 是一個具有跨幀自注意的時空卷積單元。時空 BEV 表征明確地模擬場景的靜態和動態演變，使 BEV 表示能夠同時編碼幾何結構和時間連續性。

語義占用預測：未來預測模型是一個卷積門控循環單元網絡，以當前狀態 s_t 和訓練期間從未來分布中采樣的潛變量 η_t 作為輸入，或以當前分布 P 作為推理。它遞歸地預測未來狀態 (y_t+1 , · · · , y_t+l)，其中 l 表示預測范圍。

為了對多模態未來軌跡中固有的不確定性進行建模，采用受 [60] 啟發的條件變分框架。當前分布 P(z|x_t) 僅以當前狀態 x_t 為條件。未來分布 P_f (z|x_t, y_t+1:t+l) 會通過真實未來觀測 (y_t+1 , · · · , y_t+l ) 進行增強。該分布被參數化為對角高斯分布，具有可學習的均值 μ 和方差 σ^2，M 是潛維度。

P(z|x_t) = N(μ_pres, σ_press^2), (8)
P_f(z|x_t, y_t+1:t+l) = N(μ_fut, σ_fut^2) (9)

在訓練階段，為了確保預測與觀察的未來一致，同時保留多模態多樣性，從 P_f (z|x_t, y_t+1:t+l) 中抽取 η_t，然后優化模式-覆蓋的 KL 散度損失。

L_KL = D_KL(Pf (z|x_t, y_t+1:t+F )||P (z|x_t)) (10)

這鼓勵 P(z|x_t) 包含 P_f 中編碼的所有可能未來。在推理階段，未來軌跡是通過從當前分布 η_t ～ P(z|x_t) 中采樣生成的，其中每個樣本 η_t 代表一個不同的未來假設。

這種概率公式使模型能夠生成多樣化但物理上合理的未來，同時保持時間一致性，這對于處理無保護左轉或行人交互等模糊場景至關重要。
融合特征 x_t 由多任務解碼器 D_p 處理，以生成實例-覺察的分割掩碼和運動預測。解碼器輸出四個關鍵預測：語義分割、實例中心性、實例偏移和未來實例流，它們共同實現強大的實例檢測、分割和跟蹤。語義分割頭，通過卷積分類器預測逐像素語義類別。這提供對場景布局和目標類別的深入理解。對于實例分割，采用混合中心偏移公式 [61]。實例中心頭，輸出熱圖 H_t，指示實例中心的可能性。在訓練期間，應用高斯核來抑制模糊區域并專注于高置信度中心。實例偏移頭，預測矢量場 O_t，其中每個矢量指向其對應的實例中心。在推理時，通過對 H_t 進行非最大抑制（NMS）提取實例中心。未來實例流頭，預測位移矢量場 F_t，其編碼動態智體在未來范圍 l 的運動。該流場用于跨時間步傳播實例中心，確保時間一致性。具體而言，檢測的實例中心 {c^t_i} 通過 c?_i^t+1 = c_i^t + F_t(c_i^t) 流扭曲（warped）到 t + 1。然后使用匈牙利算法 [62] 將扭曲的中心 {c?_i^t+1} 與 t+1 時檢測的中心 c_j^t+1 進行匹配，該算法基于成對 IoU 求解最優分配。這種基于流的匹配，即使在遮擋或突然的運動變化下也能實現穩健的跨幀關聯。

注意力引導的未來規劃

所提出的運動規劃器主要目標是生成確保安全、舒適和高效實現目標的軌跡。為了實現這一目標，使用一個運動規劃器，它可以生成一組運動學上可行的軌跡，每個軌跡都使用學習的評分函數進行評估，靈感來自 [43]、[63]–[65]。

評分函數包含一個概率動態占用場，這對于編碼潛動作的安全性至關重要。該領域通過懲罰進入已占用區域或過于靠近這些區域的軌跡來鼓勵謹慎的駕駛行為，從而與周圍的障礙物保持安全距離。此外，利用在線地圖中的概率層來得到評分函數。這些層提供重要信息，確保自動駕駛汽車 (SDV) 保持在可駕駛區域內、靠近車道中心并朝正確的方向行駛。特別是在不確定的地區，當占用率和道路結構不太可預測時，規劃器會格外小心謹慎駕駛。此外，規劃器確保車輛朝著輸入高級命令指定的目標前進，無論是繼續前進、轉彎還是導航其他操作。

規劃器并行評估所有采樣的軌跡。每條軌跡 τ 都基于評分函數 f 進行評估，該函數考慮多個輸入因素，包括地圖 M、占用率 O 和運動 V。軌跡選擇過程公式如下：

τ^? = argminf_τ(τ, M, O, V, w) (11)

評分函數根據多個標準評估每條軌跡，例如避開障礙物的安全性、保持平穩運動等乘坐舒適度以及在高級命令的指導下朝著目標前進。通過結合這些因素，運動規劃器可以有效地選擇最能滿足所有安全性、舒適性和進度標準的軌跡，確保 SDV 以有效和謹慎的方式在復雜環境中行駛。

運動規劃器的輸出是車輛狀態序列，它定義 SDV 在規劃范圍內的期望運動。在規劃過程的每次迭代中，都會生成一組候選軌跡并使用 (11) 中描述的成本函數進行評估。運動規劃器的輸出是車輛狀態序列，它定義 SDV 在規劃范圍內的期望運動。然后選擇成本最低的軌跡進行執行。

為了確保實時性能，采樣軌跡集必須保持足夠小。但是，該集合還必須代表各種可能的操縱和動作，以避免侵入障礙物。為了達到這種平衡，采用一種了解車道結構的采樣策略，確保采樣軌跡有效捕捉各種駕駛行為，同時保持計算可行性。

特別是，遵循 [66]、[67] 中提出的軌跡采樣方法，其中軌跡是通過將縱向運動與相對于特定車道（例如當前 SDV 車道或相鄰車道）的橫向偏差相結合來生成的。這種方法允許規劃器采樣遵循基于車道駕駛原則的軌跡，同時結合橫向運動的變化。這些變化使運動規劃器能夠處理各種各樣的交通場景。

為了確保規劃的軌跡符合駕駛員對交通規則和路線的注意，使用動態整合交通規則的時間細化模塊。利用編碼器的前視攝像頭特征 e_front，初始化基于 GRU 的細化網絡以迭代調整最初選擇的軌跡。前視特征，明確編碼交通規則語義，使模型能夠在紅燈處停止或通過綠燈。循環架構，確保軌跡點之間的平穩過渡，從而減輕突然的轉向或加速變化。

在 nuScenes 數據集 [68] 上評估方法，這是一個大規模自動駕駛基準，包含 1,000 個不同的駕駛場景，每個場景持續 20 秒，注釋頻率為 2Hz。該數據集具有一個 360° 多攝像頭裝置，由六個同步攝像頭（前、前左、前右、后、后左、后右）組成，視野重疊最小。為每一幀提供精確的攝像頭內外參，以確保準確的空間對齊。

BEV 占用標簽 {y_t+1 , · · · , y_t+l } 是通過將動態智體的 3D 邊框投影到 BEV 平面上生成的，從而創建時空占用網格。所有標簽都使用 GT 未來自我運動轉換為自我車輛的參考系，確保跨幀的時間一致性。

模型利用過去 1.0 秒的時間背景信息來預測 2.0 秒范圍內的未來軌跡。在 nuScenes 數據集中，這對應于過去背景的 3 幀和未來的 4 幀，以 2 Hz 的頻率運行。

在每個過去的時間步長中，該模型處理 6 張攝像機圖像，每張圖像的分辨率為 224 × 480 像素。BEV 空間面積為 100m×100m，x 和 y 方向的像素分辨率均為 50cm。這會產生一個空間尺寸為 200 × 200 像素的 BEV 視頻。

使用 Adam 優化器進行訓練，恒定學習率為 2.0 × 10?3 。該模型訓練 20 個epochs，批次大小為 6，分布在 4 個 Tesla A6000 GPU 上。為了優化內存使用并加速計算，采用混合精度訓練。此外，模型和 ST-P3 都是在沒有深度圖指導的情況下進行訓練的，以確保公平的比較，并強調方法在利用語義和注意線索來提高性能方面的有效性。