51c自動駕駛~合集58

我自己的原文哦~? ? ??https://blog.51cto.com/whaosoft/13967107

#CCA-Attention

全局池化+局部保留，CCA-Attention為LLM長文本建模帶來突破性進展

琶洲實驗室、華南理工大學聯合推出關鍵上下文感知注意力機制（CCA-Attention），實現超長文本的高效上下文建模。在 128K 超長序列上下文建模任務中，CCA-Attention 的推理速度是標準自注意力機制的 7.9 倍，同時鍵值緩存（KV Cache）顯存占用減少 93%，性能全面優于現有高效注意力方法。

論文標題：Core Context Aware Transformers for Long Context Language Modeling

論文鏈接：https://arxiv.org/pdf/2412.12465

代碼鏈接：https://github.com/chenyaofo/CCA-Attention

發布時間：2024年12月17日

該成果已被 ICML 2025 接收，最早于 2024 年 12 月 17 日提交至 ArXiv，早于 DeepSeek NSA 和 Kimi MoBA 公開。CCA-Attention 不僅速度快、資源占用低，更在上下文建模的精準度和效率上樹立了新標桿，為長文本處理注入全新動力。

引言

近期研究 [1, 2, 3] 發現，LLMs 中的大多數層的注意力權重主要集中在少數 token 上，表現出顯著的稀疏性（見圖 1）。這一發現啟示我們可以借助這種稀疏特性，降低注意力機制的計算復雜度。

圖 1：?LLaMA2-7B 模型中注意力權重的可視化，陰影越深表示注意力權重越高。最后一個 token 僅對上下文少數幾個 token 有著較高的注意力權重，即注意力權重具有顯著的稀疏性。

現有稀疏注意力方法 [5, 6, 7] 通常通過預定義的稀疏模式來降低計算成本。然而，在問答任務中，關鍵信息可能分布在上下文的不同位置，模型需要能夠訪問任意位置的信息，作者稱這一特性為「可達性」。已有方法往往忽視了保持 token 之間可達性的重要性，可能導致信息傳遞受限，從而影響模型在長序列和復雜任務中的表現。

為解決這一問題，作者提出了一種即插即用的高效長文本上下文建模方法——關鍵上下文感知注意力機制（CCA-Attention），其特點如下：

高效長文本建模：?通過全局池化注意力與局部保留注意力的協同設計，在顯著降低計算量的同時保持對長距離依賴的建模能力。
線性計算復雜度：通過引入 core token 聚焦關鍵上下文，大幅提高計算效率。?
可即插即用集成：無需修改模型結構和從頭訓練，可以輕松集成到預訓練的 LLM 中，僅需少量微調即可實現性能優化。

對比 DeepSeek 發布的 NSA [8] 需引入額外的壓縮模塊并從頭訓練 LLMs，CCA-Attention 無需引入額外參數和修改模型結構，可以無縫替換現有 LLMs 中的標準自注意力模塊。對比月之暗面發布的 MoBA [9] 通過門控機制丟棄不相關塊，CCA-Attention 通過動態聚合關鍵上下文為核心 token 的方式，在降低計算量的同時，確保所有 token 的信息交互，保留了完整的全局建模能力。

CCA-Attention：革新性的解決方案

圖 2：?CCA-Attention 示意圖

全局感知池化：降低計算維度的智慧之舉

標準自注意力計算量隨序列長度呈平方級增長，長序列處理計算開銷極大。大量研究發現注意力權重的分布并不均勻，絕大部分注意力權重被分配給了少數重要 token，其余部分貢獻有限，屬于冗余上下文。

受此啟發，作者提出全局感知池化模塊。具體而言，將輸入序列

，分成互不重疊的

個組，g 為分組大小。對于第?i?組

，使用該組最后一個 token?

?的 query 向量與組內所有 token 的 key 向量計算重要性分數，并獲得該組核心

：

其中，

是第?i?組

的最后一個 token 對應的 query 向量，

是第?i?組的 key 矩陣，

和

是可學習的參數。將各組 core token 拼接起來得到 core token 序列

。

為減少冗余，作者使用 core token 序列

代替原始 token 進行注意力計算，將維度從

降至

，從而降低了計算和存儲復雜度。通過 core token 序列計算得到的鍵值矩陣表示為：

其中?

和

是可學習參數。

局部保留模塊：捕捉局部依賴的關鍵

盡管全局感知池化模塊能有效捕捉長距離依賴，但由于其壓縮特性，可能會忽略細粒度的局部上下文，而這些局部語義對于語言建模同樣至關重要。為此，作者進一步提出局部保留模塊（Locality-preserving Module），為全局模塊提供有效互補信息。

具體來說，該模塊會確保每個 token 都能至少關注前面?w?個原始 token，以此來捕捉局部上下文信息，保留連續性語義信息：

為了應對生成過程中標記數量難以維持為組大小 g 的整數倍的問題，作者將局部窗口大小設置為

，確保注意力窗口與組大小對齊，避免信息遺漏；

?是原始 token 序列經過線性變換后的鍵值矩陣。

局部保留模塊與全局池化模塊共享線性變換參數

，不會引入額外參數開銷。在實際推理中，局部模塊提供精細語義支持，彌補全局壓縮帶來的信息損失，共同構成完整的上下文建模體系。

全局-局部模塊可微融合：打造全面可達性的橋梁

全局感知池化模塊和局部保留模塊在計算時都只涉及部分 token，導致注意力的可達性有限。為解決這個問題，作者采用全局-局部模塊可微融合策略。具體而言，該策略將兩種注意力模塊中的鍵值矩陣進行組合，形成統一的鍵矩陣

和值矩陣

。由此，CCA-Attention 的最終輸出表示為：

其中，每個位置的輸出計算表達式如下：

基于 Triton 的底層加速：提升效率的強大動力

為了在訓練、預填充、解碼期間實現 FlashAttention 級別的加速，作者基于 Triton 實現了硬件對齊的 CCA-Attention 內核。作者借鑒 FlashAttention 的設計思路，利用 Triton 進行底層算子融合，將全局池化注意力和局部保留注意力整合為一個獨立且緩存友好的算子，有效消除冗余計算，并原生支持 KV 緩存技術，進一步提升訓練、預填充、解碼階段的計算效率。相比標準自注意力機制，CCA-Attention 在計算復雜度和 KV 緩存內存占用方面具有顯著優勢，從而在整體上實現了更快的運行速度與更高的內存利用效率。

實驗結果

實驗設置

作者將 CCA-Attention 應用于 LLaMA2-7B-32K 和 LLaMA2-7B-80K 模型，并在 SlimPajama 數據集上微調 1,000 步。對比方法包括 StreamingLLM、LM-Infinite 和 MInference 等高效注意力方法。評估指標涵蓋 LongBench 基準測試和多文檔問答準確匹配得分（EM Score）等，全面衡量模型在長文本任務中的性能表現。

長序列語言建模

在 LongBench-E 基準測試中，CCA-LLM 取得了最高的平均得分。以 LLaMA2-7B-32K 模型為例，其得分顯著優于 LM-Infinite 和 MInference；在 LLaMA2-7B-80K 模型上，CCA-Attention 依然表現出色，平均分數與標準自注意力相當，同時推理延遲和顯存占用大幅降低，展現出更強的長序列處理效率優勢。

表 1：?長序列語言建模實驗

長文檔問答任務

在多文檔問答任務的 EM Score 評估中，CCA-LLM 在不同序列長度下均展現出優異的表現，且其性能優勢隨著上下文長度的增加而愈加明顯。在處理超長上下文（如 64K 和 128K）任務時，CCA-LLM 的 EM 得分超越了標準自注意力機制，同時推理速度也顯著提升——在 128K 上下文長度下，推理速度達到標準自注意力方法的 7.9 倍，展現出其在高效長文本建模方面的突出優勢。

表 2：?長文檔問答實驗

計算和存儲效率對比

相比標準自注意力及其他高效注意力方法（如 MInference），CCA-Attention 在推理速度與內存占用方面展現出顯著優勢。不同于 MInference 等僅關注預填充（prefilling）階段加速的方法，CCA-Attention 能夠同時優化預填充和解碼（decoding）兩個階段，實現端到端的全流程高效推理。

在 64K 上下文長度下，CCA-Attention 的推理速度達到標準自注意力的 5.7 倍，KV Cache 顯存占用也大幅降低；在 128K 上下文任務中，推理速度提升更是達到 7.9 倍，同時 KV Cache 顯存使用減少高達 93%，充分體現了其在長序列建模中的高效性與實用性。

圖 3：?內存與計算效率對比

總結

作者提出了一種面向長序列建模的關鍵上下文感知注意力機制（CCA-Attention）。相比標準自注意力，在保持模型性能的前提下，CCA-Attention 顯著降低了計算開銷。

該方法由兩個互補模塊構成：

全局感知池化模塊：基于輸入 token 的重要性提取核心 token（core token），用于后續注意力計算，從而高效捕捉全局粗粒度的信息；
局部保留模塊：聚焦于鄰近 token 的細粒度上下文信息，作為對全局池化模塊的有效補充。

實驗結果表明，CCA-Attention 在多種長文本任務中表現出色，同時顯著提升了計算效率，具備良好的實用性與可集成性。

#Segment Policy Optimization (SPO)?

大模型強化學習新突破——SPO新范式助力大模型推理能力提升！

當前，強化學習（RL）在提升大語言模型（LLM）推理能力方面展現出巨大潛力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分證明了 RL 在增強 LLM 復雜推理能力方面的有效性。

然而，要實現有效的強化學習，需要解決一個根本性的挑戰，即信用分配問題（credit assignment）：在大語言模型的場景下，如何將整個序列（LLM 的回復）最終的評估結果，歸因到序列中具體的決策動作（token）上。

這一問題的困難在于獎勵信號非常稀疏 — 只能在序列結束時才能獲得明確的成功或失敗反饋。

當前主要方法

在強化學習中，通常采用優勢值估計（advantage estimation）的方法來解決信用分配問題。目前針對大語言模型的強化學習方法主要分為兩類，它們之間的區別在于優勢值估計的粒度不同。

粗粒度的軌跡級 (trajectory-level) 方法，如 DeepSeek R1 使用的 GRPO，只根據最終的獎勵為整個序列計算一個優勢值。這種方法雖然高效但反饋信號過于粗糙，LLM 無法對錯誤回答中正確的部分進行獎勵，也無法對正確回答中冗余的部分進行懲罰。

另一種極端是細粒度的 token 級（token-level）方法，如經典的 PPO。這類方法為每個 token 估計優勢值，需要依賴額外的 critic 模型來預測每個 token 的狀態價值（V 值）。然而，在大語言模型的強化學習任務中，不同 prompt 對應的軌跡分布差異很大，而且在訓練過程中每個 prompt 采樣出來的模型回復數量非常有限，critic 模型難以訓練好，造成 token 級的優勢值估計誤差很大。

新的 SPO 框架

為突破這一瓶頸，來自中科院軟件所和香港城市大學的的研究團隊創新性提出了 Segment Policy Optimization (SPO) 框架。

論文題目：Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

作者：Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu

鏈接：https://arxiv.org/abs/2505.23564

代碼鏈接：https://github.com/AIFrameResearch/SPO?

SPO 使用了一種中等粒度的段級（segment-level）優勢值估計方式。它不像軌跡級方法只在最后一步計算優勢，也不像 token 級方法每步都計算優勢，而是將生成的序列劃分為若干相連的段，計算每個段的優勢值。

這種段級的優勢值估計方式具有幾個明顯的優勢：

(1) 更優的信用分配：相比軌跡級方法，段級方法能夠提供更局部化的優勢反饋，讓模型能夠獎勵錯誤回答中仍然有價值的部分，同時也能懲罰正確回答中冗余和無效的片段。

(2) 更準確的優勢值估計：相比 token 級方法，段級方法所需的估計點數量更少，從而能夠有效利用蒙特卡洛（Monte Carlo, MC）采樣得到更加準確且無偏的優勢值估計，而無需再依賴額外且不穩定的 critic 模型。

(3) 更靈活、更易調整：段級的劃分方式可以任意定義，并不要求語義上的完整性，因此可以靈活地在 token 級與軌跡級之間自由調整粒度，并且可以適應不同的任務和應用場景。

SPO 框架主要包含三個核心部分：(1) 靈活的段級劃分策略；(2) 基于蒙特卡洛采樣的段級優勢值估計；(3) 利用段級優勢值進行策略優化。

這種模塊化的設計使框架具備高度的靈活性，不同的部分可以有不同的實現策略，以適用不同的應用場景。

該團隊進一步針對不同的推理場景提出 SPO 框架的兩個具體實例：對于短的思維鏈（chain-of-thought, CoT）場景，提出了 SPO-chain，該方法使用基于切分點（cutpoint-based）的段劃分和鏈式優勢值估計；對于長 CoT 場景，提出極大提升 MC 采樣效率的樹形結構優勢值估計方法。

此外，該團隊還提出了一種 token 概率掩碼（token probability-mask）策略優化方法，選擇性的對段內的低概率 token 計算損失而非段內的所有 token。作者認為這些 token 是模型推理軌跡可能發生分叉的地方，是段級優勢值產生的主要原因。這種方法可以用于 SPO-chain 和 SPO-tree，從而進一步強化信用分配。

框架及核心技術

SPO 框架主要圍繞以下三個具有挑戰性的問題進行設計：(1) 如何將生成的序列劃分為多個段？(2) 如何準確且高效地估計每個段對應的優勢值？(3) 如何利用段級優勢值來更新策略？SPO 的三個核心模塊分別解答上面三個問題，每個模塊包含多種可選策略，來適用于不同的場景：?

1. 段劃分 (Segment Partition):

a) 基于切分點的段劃分 (Cutpoint-based Partition): 為短思維鏈場景設計，將段劃分點放置在狀態值（V 值）更有可能發生變化的地方。根據 token 概率動態確定段邊界，優先在模型 “猶豫” 或可能改變推理路徑的關鍵點（cutpoints）進行劃分，使信用分配更精確。比如，在下圖例子中，標記為紅色的 token 是關鍵點，而標記為藍色的豎杠是分段結果。

b) 固定 token 數量段劃分 (Fixed Token Count Partition): 將序列劃分為固定長度的段，便于樹形結構的組織和優勢值估計，為 SPO-tree 設計。

2. 段級優勢值估計（Segment Advantage Estimation）：

a) 鏈式優勢值估計 (Chain-based) 方法：在短思維鏈場景下，MC 采樣的成本不高，該團隊采用一種直接的段級優勢值估計方式，獨立估計每個段邊界的狀態值（V 值），然后計算段級優勢值。以下公式展示了鏈式優勢值的估計方法。

b) 樹形優勢值估計 (Tree-based): 在長思維鏈場景下，MC 估計的代價很高，團隊提出了一種高效的樹形估計方法：將采樣軌跡組織成樹形結構，通過自底向上的獎勵聚合計算狀態價值（V 值），同一個父節點的子節點形成一個組，在組內計算每個段的優勢值。這種方式將用于 V 值估計的樣本同時用于策略優化，極大提高了樣本效率。以下公式展示了樹形優勢值估計方法。

3. 基于段級優勢值 token 概率掩碼策略優化（Policy Optimization Using Segment Advantages with Token Probability-mask）：

在得到段級優勢值以后，為了進一步提高信用分配，團隊創新性地提出?token 概率掩碼策略優化方法，在策略更新僅將段級優勢值分配給該段內的低概率（關鍵）token，而非所有 token。這種方法能更精確地將獎勵 / 懲罰賦予關鍵的決策點，提升學習效率和效果。下面分別展示了 SPO-chain 和 SPO-tree 的優化目標。

a) SPO-chain 優化目標：

b) SPO-tree 優化目標：

對比基線方法

如下圖所示，在短思維鏈場景，使用 RhoMath1.1B 作為基座模型，使用 GSM8K 訓練集進行訓練，對比各種訓練算法，使用 SPO 訓練得到的模型測試集正確率更高。

對于長思維鏈場景，如下圖所示，使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座模型，使用 MATH 數據集進行訓練，在相同的訓練時間下，測試集正確率比 GRPO 更高。

下表展示了在長思維鏈場景下的更多對比結果：與同期基于相同基座模型（DeepSeek-R1-Distill-Qwen-1.5B）并使用 GRPO 方法訓練得到的模型（DeepScaleR、STILL-3）相比，盡管 SPO 僅使用 MATH 數據集且僅使用 4K 的最大上下文長度進行訓練，SPO-tree 在各個上下文長度評測下表現優秀。值得注意的是，盡管 DeepScaleR 在 32K 上下文長度評測下表現最佳，但它在較短上下文長度（2K 與 4K）下卻表現最差，甚至不及原始基座模型。這表明，GRPO 訓練方法可能未有效優化模型的 token 效率，導致輸出存在較多冗余，從而在上下文長度有限的情形下出現正確率下降的問題。

分段粒度的影響

通過實驗發現，很細的粒度 (int2，每個兩個切分點進行分段)，相比于中等粒度 (int5)，僅有微小提升，但是過粗的粒度 (int100)，相比于中等粒度 (int5)，正確率下降很大。證明了 SPO 采用中等粒度優勢值的有效性。

段劃分方式的影響

實驗表明，在短思維鏈場景下，采用提出的基于切分點的段劃分方式效果最好，優于采用換行符進行劃分（VinePPO）以及固定 token 數量劃分（Fixed-token-count）。

Token 概率掩碼消融

實驗表明，將 token 概率掩碼去除會導致 SPO-chain 正確率下降，更值得注意的是：將 token 概率掩碼應用到 GRPO 上，會讓其正確率有明顯上升。

不同樹結構的影響

實驗表明，更小的樹結構在早期正確率更高，可能因為更快掃過更多的數據樣本。然而隨著訓練的進行，更大的樹結構會有更好的正確率，因為更大的樹結構對于段級優勢值的估計更加準確。

總結

該工作提出了一種基于中間粒度段級優勢值的 RL 訓練框架 SPO，在 token 級和軌跡級之間更好的平衡，具有比軌跡級更好的信用分配，同時僅需要少量優勢值估計點，可以使用有效無偏的 MC 方式進行估計，不需要額外的 critic 模型。

文章同時提出了 SPO 的兩個實例，為短思維鏈場景設計的 SPO-chain 以及為長思維鏈場景設計的 SPO-tree，通過實驗證明了 SPO 框架和兩個實例的有效性。

#從量產角度談談BEV感知

LSS和Transformer如何選擇？1 前言人工智能技術的蓬勃發展已經引起了各行各業的技術革命，而智能駕駛技術，作為AI落地歷程的一大里程碑，已經成為近年產業界和學術界關注的重點。經過了智駕技術的數年沿革，BEV（Bird's Eye View）已成為了其感知系統的一種基本范式。基于BEV的相關技術給了車輛“上帝視角”的全局感知能力，不僅打破了多模態數據融合的壁壘，更讓智駕系統實現了從“被動拼接”到“主動認知”的躍遷。下面，本文將對應用于智駕的視覺BEV感知方案發展情況做簡要綜述，并從硬件架構設計的角度分析高效部署BEV面臨的挑戰。?

2 BEV是什么？我們為什么需要BEV？

自動駕駛向L3+的持續演進，驅動著任務應用場景更加廣泛和復雜。從較簡單的ACC、LCC到更為復雜的APA、NOA，智能駕駛算法的發展態勢更加趨向于大算力、多模態。

本質上，基于神經網絡的智駕方案與其他很多CV領域的AI算法一樣，也是一個通過對“圖像”（這里我們暫且把Radar、Lidar也稱為一種“圖”）的分析處理來得到理想輸出的單一解問題。一套傳統的自動駕駛系統完成工作主要經過三步：通過面向外部世界的傳感器獲得各種信息，結合自車運行態的數據實現動作決策，最終控制車輛實現轉向制動等實際操作。現如今隨著行業任務需求的發展，單傳感器已經很難完成任務，為了應對更加復雜的駕駛場景和任務，也為了保證智駕系統管理下的車輛安全性，多攝像頭甚至Lidar的加入已經成為了客觀趨勢，而這種多模態的輸入一定程度上更優于人類司機單一視角，在感知部分已基本實現了完備性。

圖1 ADAS系統中傳感器部署示例（圖源：[14]）

但同時，就算已經有不同種類足夠多數量的輸入，如何將這么多的輸入利用起來呢？以環視多攝像頭的輸入為例，如圖2所示，對于車身周圍兩個不同位置的攝像頭，其拍到的路況信息在現實世界的幾何位置上大部分是不會重疊的，也就是說，我們在感知處理時無法通過把某個輸入映射到另一個輸入相應位置的形式實現特征圖的導出（這通常是單攝像頭多模態融合問題的常用處理策略）。因此最直觀的方法就是使用一種“能放的下所有位置的特征圖”，那么BEV就應運而生了。

圖2 車身環視攝像頭作用域示例

BEV主要用于在智駕系統中解決感知問題，其實際上是指以俯視視角構建的中間特征圖，感知部分的神經網絡輸入多攝像頭圖像或Lidar點云，輸出映射到一個固定寬高的俯視網格上，每一個輸入都有其對于BEV圖的映射關系，就實現了對多模態輸入信息的有效表征。通過BEV，多加的傳感器就實現了應用意義。綜合來看，以BEV作為感知方案的優勢有以下幾點：

統一的特征圖形式：多攝像頭圖像、Lidar圖像可以統一在BEV空間投影，消除透視畸變帶來的距離估計誤差，有利于多模態場景下scalable。
便于時序建模：BEV特征圖可作為時間序列的載體，更好支持實際智駕場景中多幀視頻流的輸入，支持長時序運動預測。
決策友好性：俯視視角與規劃控制模塊的思考維度天然對齊，簡化下游任務處理。

圖3 BEVFormer中的camera輸入和其在BEV視角實現的識別任務?

3 視覺BEV：從LSS到Transformer

BEV感知是一個較為寬泛的領域，其網絡輸入主要有點云和視覺圖像兩種，傳感器不同，所對應的算法網絡結構思想也是完全不同的。這部分我們將討論視覺感知的經典算法，通過了解BEV感知算法的基本框架，對其運算方式的特異性進行分析。

首先，從任務端到端的角度來看，如圖4，BEV感知任務的對應網絡實現主要分為三大部分：前端的特征提取網絡，用于將相機輸入圖片處理為特征圖，通常使用SwinT或ResNet等成熟的特征提取方法；中間的視角轉換模塊（VTM，View Transformation Module），用于將Camera域的特征圖轉換到俯視角度下的BEV特征圖，也是模型中最為復雜的部分；后端的task head，根據具體的任務場景要求處理BEV特征圖，實現諸如識別、分割、軌跡規劃等后端任務，這一部分也同樣可以使用成熟的替換插件。對于前后端的部分，卷積和Transformer的硬件實現方案已經基本成熟，因此，如果想要設計一款高吞吐的BEV感知處理器，最為需要關注的就是如何高效實現VTM。

圖4 BEVDet[7]的網絡各部分

算法上，對于VTM的實現方法已經有了兩種基本范式，我們這里延續[3]的命名法：

Forward Projection：以LSS（Lift Splat Shoot）為代表，通過對每張圖的深度進行估計，以此得到camera中某位置特征點映射到俯視角度的直接映射關系，通過投影和BEV pooling的方式將其映射到網格上。
Backward Projection：以BEVFormer為代表，通過Attention機制構建BEV網格特征與特征圖之間的相互關系，以此得到dense的BEV特征圖。

針對這兩種方案的算法結構介紹相信論壇里的帖子已經有了很詳細的講解，因此這里我們不再贅述，只以一個硬件架構設計者的角度簡要分析這兩種算法中有趣的部分。?

LSS

LSS是NVIDIA在2020 ECCV上發布的BEV感知算法，實現較早也較簡單，其VTM部分利用深度估計結合相機內外參矩陣進行幾何映射實現，是即插即用的設計。由于LSS的深度估計部分并不精確，且很難應用具體場景中的時序信息，因此現在并不在各大刷分網站上居于SOTA地位，但仍不失為一種容易部署的，較為輕量化的經典VTM方案。

Splat pooling導致隨機存取

從算法本身角度上，LSS中實際用于Camera到BEV的視角轉換的部分是Splat。在該步驟中，先要通過內外參矩陣的運算得到轉換矩陣，矩陣中存放著輸入視錐點云（通過前序的深度估計得到）中某像素位置某深度的點對應在BEV坐標下的位置，接下來LSS通過該映射關系矩陣從對應視錐中取相應坐標的點，并將其放置到BEV對應網格點上，并采用pillar pooling的trick加速這一得到BEV特征的過程（當然，這種算法編程上的trick在專用硬件的構建中意義不大）。

這一過程并不涉及對運算的需求，但需要在單次處理中對整個視錐點云中的點做Gather/Scatter的操作，且每次讀取的數據并不能重用，對于硬件帶寬提出了很高的需求。而這種隨機讀寫操作的方式取決于相機內外參，因此常常是設備特異的，很難利用常規并行計算硬件，如NPU、GPU等在運算陣列上的優勢。針對這一問題，算法界也提出了一些改進方案，如[4]利用矩陣運算完成VTM，以避開帶寬受限的Splat操作。

圖5 LSS流程：輸入圖像→視錐點云→BEV?

Transformer

BEV+Transformer的范式首先由Tesla AI Day中首先提出，基于其純視覺方案實現，現如今已經成為部署最廣落地應用最多的BEV感知方案。當然，現在Tesla力推端到端且并未開源，我們并不知道其如何得到BEV，但該范式仍被國內各大廠家follow，transformer（或者說是attention）方案現在仍是最穩定的BEV感知方案之一。

BEVFormer[2]在2022 ECCV上被發布，其采用了Deformable DETR中的attention方案，實現了類似Tesla的BEV感知效果，使得視覺BEV方案的精度有了大幅提高（基于原始的純視覺實現，BEVFormer近幾個月新發布了多模態的版本[5]）。目前，BEVFormer已經作為一項經典的BEV實現算法，在地平線[6]、NVIDIA等一眾硬件上實現了部署。其提出的attention機制也可以單獨作為backbone被直接應用在其他網絡上。下面，我們以BEVFormer為例，對BEV+Transformer范式進行分析。

多層Transformer架構導致大算力需求

首先，相比于LSS直接映射的單層設計，BEVFormer方案中采用堆疊Attention層的方法進行BEV特征的提取。每個子模塊包含兩個不同機制的Attention層：1. Temporal self attention：相鄰幀的BEV特征之間做Attention，用于融合前后幀之間的時序信息；2. Spatial cross attention：當前幀BEV特征維度上做Attention，用于整合空間信息；由于BEV的特征維度很高（如典型值：BEVFormer_tiny為50×50×256），多層Attention的VTM設計會極大提高網絡需要的硬件計算量和存儲參數量的需求，例如對于BEVFormer-S預計每幀需要1.3T的算力，單網絡對于車載SoC的算力需求是非常大的。

圖6 BEV+Transformer架構工作流

特殊算子Deformable Attention

其次，對于BEV感知的優化點，集中在如何簡單高效地從原始2D特征中篩選處理特征到新的3D維度上。BEVFormer在此采用的方案是Deformable DETR中采用的Deformable attention，在具體計算過程中，該方案需要使用grid_sample算子，雙線性插值的方法從Value矩陣中根據坐標取值并賦以權重，不同于傳統Self-attention機制對于全局做Attention，這一方案優勢是可以極大減少對大Tensor的處理計算量，缺點是無重用的隨機存取過程同樣導致對于硬件帶寬的需求。

另外，在實際的智駕場景中，由于自車運行狀態變化會導致輸入參數變化，時序Attention中的旋轉角、空間Attention中的mask等是要進行動態運算的，這也就給硬件部署的支持造成了額外的壓力。

圖7 Deformable Attention?

BEV in nuScenes

nuScenes是一個大規模自動駕駛公開數據集，由Motional團隊于2019年發布，其中包含3D目標識別、多傳感器融合、軌跡預測等算法的開環訓練和驗證數據集。nuScenes現已成為智駕算法的一大跑分平臺，業內各大公司、研究機構均常用其檢驗自家算法的運行情況，其上的網絡情況一定程度上也能表征某任務主流SOTA網絡形態的發展趨勢。

以3D目標識別任務為例，截至數據整理的2024年12月，其上已有不少視覺BEV方案實現了SOTA的效果，例如：HoP[8]對于BEV網絡的時序信息整合方案進行了優化，生成偽BEV，且可以直接整合進現有的BEV backbone中；VCD[9]在訓練中加入了Lidar信息進行輔助蒸餾；VideoBEV[10]關注長時間序列的BEV時序信息處理等等。現在的BEV識別算法也更傾向于對VTM部分進行優化，大多采用Attention的方案，更關注于充分利用Attention優勢對于時序信息做更好的處理，或者引入更多的監督信息以規避純視覺方案在推理狀態下缺乏信息的弊端。?

現有的硬件BEV解決方案

目前，硬件領域公開論文中對于BEV感知的討論并不多，其中值得follow的有清華在2024年CICC、JSSC[11]上發布的工作，其核心關注點主要在特殊映射算子和大算力需求兩方面。

這項工作的內容更多傾向于是將視覺BEV作為點云3D感知硬件的拓展，文章采用了BEVFusion[12]作為驗證算法，將點云和圖像兩個不同域的輸入統一到了一個BEV的表征框架下。文章主要關注的算子中，對于點云部分，其提取了SCONV作為基本算子，而視覺部分則對于LSS mapping進行了實現。為了實現SCONV和LSS中的動態映射，該工作采用了可重構CAM陣列進行index的存儲，實現了算法感知的CAM調度方案進行加速。并且設計了可拓展的chip-level拓撲以在單芯片算力不足的情況下實現大規模BEV算法的部署。

對于業界的實際應用上，由于BEV的相關算法往往存在大批量的高帶寬索引操作或與Attention機制相關的element-wise算子，這與傳統意義的并行計算硬件很難兼容。各家對于這種形式運算的直接支持并不是太好，因此更傾向于采用軟硬件協同優化的方式進行規避。例如采用MatrixVT[4]、FastBEV[13]等兼容性好的，或通過修改算法的方式實現BEVFormer。現在的智駕應用場景也對算法復雜度提出了更高的需求，因此，車載芯片的發展趨勢更傾向于大算力，且可能需要涵蓋座艙和智駕兩方面的AI運算需求，例如地平線的J6算力最高560T，NV的Thor預期算力甚至達2000T。

圖8 MatrixVT（下）采用矩陣運算替代復雜的LSS pooling（上）?

5 總結與展望

隨著近年智駕技術的飛速發展，BEV+Transformer范式已經成為了視覺3D感知的一個經過實踐檢驗的“標準解”。其相關應用的算子獨特性和運算復雜性也已經對智駕相關的硬件提出了更高的要求。受AI智駕方案本身的限制，其在車端的部署某種程度上可以說已經超越了邊緣側的一般需求，更傾向于要求大算力甚至分布式調度。BEV感知在實踐中很有效，但算法過“大”，這也逼迫著算法和硬件設計者去做特殊算子的設計，而這在某種程度上又提高了對帶寬和專用硬件的需求，可以說，不僅僅是BEV感知，很多AI相關的算法與硬件就是在這種trade-off中前進的。

而對于視覺BEV感知方面（1）如何解決BEV映射問題和（2）大算力大存儲帶寬需求問題，已經成為當前BEV+Transformer硬件SoC架構和設計的兩個重要難點。

誠然，跟隨著Tesla這一行業風向標，目前工業界智駕SOTA或已由BEV、Occupancy等顯式環境建模技術，逐步過渡到端到端神經架構（這類“黑箱”系統通過海量數據驅動，直接從傳感器輸入映射到控制信號，以追求更高的場景泛化性與決策流暢性）。然而，BEV框架仍展現出不可替代的工程實踐價值與可解釋性優勢，尤其在對安全性要求嚴苛的自動駕駛領域。?

參考文獻

[1] Philion, Jonah, and Sanja Fidler. "Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV 16. Springer International Publishing, 2020.

[2]Li, Z., et al. "BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv 2022." arXiv preprint arXiv:2203.17270.

[3] Li, Zhiqi, et al. "Fb-bev: Bev representation from forward-backward view transformations." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[4] Zhou, Hongyu, et al. "Matrixvt: Efficient multi-camera to bev transformation for 3d perception." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Li, Zhiqi, et al. "Bevformer: learning bird's-eye-view representation from lidar-camera via spatiotemporal transformers." IEEE Transactions on Pattern Analysis and Machine Intelligence (2024).

[6] 地平線 3D 目標檢測 Bevformer 參考算法 V2.0

[7] Huang, Junjie, et al. "Bevdet: High-performance multi-camera 3d object detection in bird-eye-view." arXiv preprint arXiv:2112.11790 (2021).

[8] Zong, Zhuofan, et al. "Temporal enhanced training of multi-view 3d object detector via historical object prediction." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[9] Huang, Linyan, et al. "Leveraging vision-centric multi-modal expertise for 3d object detection." Advances in Neural Information Processing Systems 36 (2023): 38504-38519.

[10] Han, Chunrui, et al. "Exploring recurrent long-term temporal fusion for multi-view 3d perception." IEEE Robotics and Automation Letters (2024).

[11] Feng, Xiaoyu, et al. "A Scalable BEV Perception Processor for Image/Point Cloud Fusion Applications Using CAM-Based Universal Mapping Unit." IEEE Journal of Solid-State Circuits (2024).

[12] Liu, Zhijian, et al. "Bevfusion: Multi-task multi-sensor fusion with unified bird's-eye view representation." 2023 IEEE international conference on robotics and automation (ICRA). IEEE, 2023.

[13] Huang, Bin, et al. "Fast-BEV: Towards real-time on-vehicle bird's-eye view perception." arXiv preprint arXiv:2301.07870 (2023).

[14] ADAS系統傳感器應該如何布置_adas 傳感器-CSDN博客

#新的端到端閉環仿真系統終于用上了

隨著神經場景表征的發展，之前出現了一些方法嘗試用神經輻射場重建街道場景，像Block-NeRF 。但是它無法處理街道上的動態車輛，而這是自動駕駛環境仿真中的關鍵方面。最近一些方法提出將動態駕駛場景表示為由前景移動汽車和靜態背景組成的組合神經表示。為了處理動態汽車，這些方法利用跟蹤的車輛姿態來建立觀察空間和規范空間之間的映射，在那里他們使用 NeRF 網絡來模擬汽車的幾何形狀和外觀。雖然這些方法產生了合理的結果，但它們仍然局限于高訓練成本和低渲染速度。基于這些前述工作，浙大提出了Street Gaussians。筆者有幸參與了公司新一代閉環仿真系統的開發，花了幾個月的時間，終于把基于Street Gaussians的算法落地。今天就分享下自己的一些看法~

下圖是在Waymo數據集上的渲染結果。street gaussians的方法在訓練半小時內以 135 FPS的速度產生高質量的分辨率為1066×1600渲染視角。這兩個基于NeRF的方法存在訓練和渲染成本高的問題。

以前的方法通常面臨訓練和渲染速度慢以及車輛姿態跟蹤不準確的挑戰。給定從城市街道場景中的移動車輛捕獲的一系列圖像，street gaussians的目標是開發一個能夠生成逼真圖像以進行視圖合成的高效模型。為了實現這一目標，street gaussians基于3DGS，提出了一種新穎的場景表示，專門用于建模動態街道場景。

動態城市街道場景表示為一組基于點的背景和前景物體，具有可優化的跟蹤車輛姿勢。每個點都分配有一個 3D 高斯，包括位置、不透明度和由旋轉和縮放組成的協方差，以表示幾何形狀。為了表示外觀，street gaussians為每個背景點分配一個球面諧波模型，而前景點與動態球面諧波模型相關聯。顯式的基于點的表示允許輕松組合單獨的模型，從而實現高質量圖像和語義圖的實時渲染（如果在訓練期間提供 2D 語義信息），以及分解前景對象來進行場景編輯。

Street Gaussians用單獨的神經點云表示靜態背景和每個移動車輛對象。

接下來，我將首先介紹它的背景模型，詳細說明與對象模型共享的幾個常見屬性。隨后，我將深入講解它的動態物體模型設計。

背景模型表示為世界坐標系中的一組點。每個點都分配有一個 3D 高斯，來表示連續場景的幾何形狀和顏色。高斯參數由協方差矩陣 Σb 和位置向量 μb ∈ R3組成。為了避免優化過程中出現無效值，每個協方差矩陣進一步簡化為縮放矩陣 Sb 和旋轉矩陣 Rb，其中 Sb 以其對角線元素為特征，Rb 轉換為單位四元數。協方差矩陣 Σb 可以從 Sb 和 Rb 中恢復。

除了位置和協方差矩陣之外，每個高斯還被分配一個不透明度值和一組球面諧波系數來表示場景幾何和外觀。為了獲得與視圖相關的顏色，球面諧波系數進一步乘以從視圖方向投影的球面諧波基函數。為了表示3D語義信息，每個點都添加了一個語義的概率。

對于物體模型，考慮一個包含 N 個移動前景物體車輛的場景。每個物體都用一組可優化的跟蹤車輛姿態和點云表示，其中每個點都分配有一個 3D 高斯、語義概率和動態外觀模型。物體和背景的高斯屬性相似，不透明度 αo 和比例矩陣 So 具有相同的含義。然而，它們的位置、旋轉和外觀模型與背景模型不同。位置 μo 和旋轉 Ro 在物體局部坐標系中定義。為了將它們轉換為世界坐標系（背景的坐標系），我們引入了物體跟蹤姿勢的定義。具體而言，車輛的跟蹤姿勢定義為一組旋轉矩陣 {Rt} Nt t=1 和平移向量 {Tt} Nt t=1，其中 Nt 表示幀數。轉換可以定義為：xxx。

其中 μw 和 Rw 分別是世界坐標系中相應物體的高斯分布的位置和旋轉。經過變換后，物體的協方差矩陣 Σw 可以通過前面的公式和 Rw 以及 So 得到。需要注意的是，street gaussians還發現現成跟蹤器的跟蹤車輛姿態有很多噪聲。為了解決這個問題，street gaussians將跟蹤車輛姿態視為可學習的參數。

但是僅用球諧函數系數表示物體外觀不足以對移動車輛的外觀進行建模，因為移動車輛的外觀受其在全局坐標系場景中的位置影響。一種直接的解決方案是使用單獨的球諧函數來建模每個時間點的物體。但是，這種建模會顯著增加存儲成本。相反，street gaussians引入 4D 球諧函數模型，用一組傅里葉變換系數 f ∈ R k 替換每個 SH 系數 zm,l，其中 k 是傅里葉系數的數量。給定時間點t，通過執行逆離散傅里葉變換來得到渲染特征：xxx。

利用所提出的模型，street gaussians將時間信息編碼到外觀中，而無需高存儲成本。物體模型的語義表示與背景的語義表示不同。主要區別在于，物體模型的語義是一個可學習的一維標量，它表示來自跟蹤器的車輛語義類別。

4D球諧函數的效果。第一行顯示輸入的序列圖像，展示不同的外觀。第二行演示了利用所提出的4D球諧函數對渲染結果的影響。如果沒有4D球諧函數，則可以觀察到明顯的偽影。

3D Gaussian 中使用的 SfM 點云適用于以物體為中心的場景。然而，它不能為具有許多觀察不足或無紋理區域的城市街道場景提供良好的初始化。street gaussians使用自車捕獲的聚合 LiDAR 點云作為初始化。LiDAR 點云的顏色是通過投影到相應的圖像平面并搜索像素值獲得的。為了初始化物體模型，street gaussians首先收集 3D 邊界框內的聚合點并將它們轉換為局部坐標系。對于 LiDAR 點少于 2K 的對象，street gaussians改為在 3D 邊界框內隨機采樣 8K 點作為初始化。對于背景模型，street gaussians對剩余的點云執行體素下采樣并過濾掉訓練相機不可見的點，并且結合 SfM 點云來彌補 LiDAR 在大面積上的有限覆蓋范圍。

#DiffVLA

π0如何用于自動駕駛：CVPR'25端到端亞軍方案解讀

🏆?亮眼成果：博世中國研究院與清華大學AIR團隊的最新研究?DiffVLA，首次將通用機器人控制框架π0的"視覺-語言-動作"范式，成功改造為適應自動駕駛嚴苛要求的專用系統。該成果在Autonomous Grand Challenge 2025的navsim-v2 public leaderboard中，DiffVLA以45.0 EPDMS的優異成績，展現了在真實與合成復雜場景下的強大魯棒性與泛化能力。無論是無責碰撞率（95.71%階段一，81.27%階段二）、可行駛區域合規性（99.29%階段一，88.84%階段二），還是車道保持與舒適性指標，DiffVLA均表現出色！傳統端到端自動駕駛方法常受限于昂貴的BEV計算、動作多樣性不足及復雜場景決策次優等問題。DiffVLA通過稀疏表示、擴散模型與VLM的深度融合，突破這些瓶頸，為自動駕駛的閉環性能樹立了新標桿。

論文鏈接：https://arxiv.org/abs/2505.19381

架構傳承：通用機器人控制的自動駕駛進化

π0證明了生成式VLA（Vision-Language-Action）框架在通用機器人控制的潛力，而DiffVLA首次實現了該范式在動態交通場景中的安全落地。 “如果說π0是‘會思考的機器人’，DiffVLA則是‘懂交規的老司機’：它繼承了前者的多模態理解能力，但每一步決策都戴著安全的鐐銬跳舞。”

改造難點?：

挑戰1：語言指令與物理世界的割裂?：通用機器人環境下的“避開障礙物”指令 → 生成機械臂繞行動作",生成無視人類體感的車速與偏移量的自由軌跡。
挑戰2：開放環境與規則約束的沖突：π0依賴純視覺特征感知世界，這種開放環境下的“自由探索”邏輯，在交通系統中引發事故造成致命事故。
挑戰3：生成模型的動作風險失控?在π0框架中，擴散模型生成的機械臂軌跡即使存在抖動（如±5cm偏移），也僅導致抓取失敗；但自動駕駛在高對抗場景中，同等自由度的軌跡擴散會引發致命橫擺

核心創新點：

通用機器人領域的的應用和自動駕駛領域的應用人有巨大的gap，為了將我們將從π0架構運用到自動駕駛領域，我們對編碼器、解碼器、數據、損失函數四大支柱展在自動駕駛領域的應用開深度剖析和深度改進，揭示從通用機器人智能體到自動駕駛智能體的底層邏輯。

Encoder模塊：我們采用了VLM Encoder 以及Perception Encoder模塊，利用多視角圖像與基礎導航指令生成高級駕駛決策（減速，避讓，繞行，變道），全面捕捉交通場景的顯式與隱式特征，提升障礙物理解與道路結構分析能力，為后續擴散規劃提供精準語義引導，減少語言指令和物理世界的割裂，降低生成模型的動作風險失控。
Decoder模塊：采用截斷擴散策略與多模態錨點設計，優化多模態駕駛行為建模，顯著提升復雜場景下的決策能力。
訓練數據：和π0 采用類似策略，在pre-training階段使用大規模數據對Encoder模塊進行pre-training. 在post fine-tuning階段采用了更多難例采樣對action模型進行軌跡優化。
Loss：我們的方案中為了更加直接的生成軌跡使用了diffusion policy 并對軌跡進行L2的監督，其中?表示對軌跡點的reconstruction loss, BCE則是對于軌跡類別的交叉熵損失。?

總體架構

端到端自動駕駛已成為一個重要且快速發展的研究領域。得益于大量人類駕駛示范數據的可用性，從大規模數據集中學習類人駕駛策略具有巨大潛力。現有方法如UniAD、VAD 以傳感器數據為輸入，通過單一可優化模型回歸單模軌跡。進一步探索稀疏表示，提出對稱稀疏感知模塊和平行運動規劃器。然而，這些方法忽略了駕駛行為的內在不確定性和多模態特性。利用生成領域的強大擴散概念，方法能夠建模多模態動作分布。通過錨定高斯分布設計加速擴散過程。將VLM與端到端模型結合，提高軌跡規劃精度。

盡管現有方法在nuScenes、navsim-v1、nuPlan等知名基準測試上表現穩健，但在閉環評估中實現魯棒性能并超越記錄狀態仍是一大挑戰。本文重新審視稀疏性、擴散和VLM的概念，提出了一種更全面的方法，并在閉環評估中驗證了其性能。我們的框架采用Encoder-Decoder架構，分為三個關鍵組件：VLM Encoder、稀疏-密集混合Perception Encoder和基于擴散的Planner Decoder。我們在navsim-v2數據集上訓練和評估我們的方法，該數據集通過引入反應性背景交通參與者和逼真的合成多視角相機圖像，提供了全面的閉環魯棒性和泛化能力評估。我們的方法在navsim v2競賽的私有測試集上取得了45.0的EPDMS評分。

Encoder

π0 采用多模態Transformer統一處理RGB圖像與語言指令, 實時融合視覺特征與文本語義。我們認為這個方案具有非常好的基礎架構優勢，但是對于自動駕駛的更復雜場景，更多元的規則約束，在π0的VLM Encoder架構中我們額外在encoder部分引入了Perception Encoder增強模型對環境的基礎理解更好利用encoder進一步對場景結構進行細化。具體而言，我們引入了兩個并行兩大Encoder模塊， VLM Encoder 以及 Perception Encoder：

VLM Encoder: ?為實現自動駕駛場景中多模態信息的有效處理和融合，我們提出VLM命令引導模塊。該模塊基于Senna-VLM框架[7]，利用多圖像編碼策略和多視角提示機制實現高效、全面的場景理解。Senna-VLM架構包括四個主要組件：視覺編碼器、駕駛視覺適配器、文本編碼器和大型語言模型（LLM）。視覺編碼器處理來自Navsim [13]的多視角圖像序列，提取圖像特征。駕駛視覺適配器進一步編碼和壓縮這些特征，生成圖像令牌，其中為圖像數量，為每張圖像的令牌數，為LLM的特征維度，和分別為圖像高度和寬度。文本編碼器將用戶指令和導航命令編碼為文本令牌，其中為文本令牌數。圖像和文本令牌隨后輸入大型語言模型，生成高層次駕駛決策。在我們的實現中，視覺編碼器采用CLIP的ViT-L/14 [14]，LLM為Vicuna-v1.5-7B [15]。我們遵循標準Senna-VLM配置，處理所有車載相機傳感器的圖像。VLM命令引導模塊生成高層次規劃決策，分解為橫向控制（例如換道、轉彎）和縱向控制（例如加速、剎車）。這些決策通過單熱編碼機制編碼，并與外部駕駛信號（如導航指令）整合。生成的命令通過命令編碼器模塊處理，為下游基于擴散的規劃過程提供語義指導。

Perception Encoder：為了實現對結構化場景的更好理解，我們的encoder模塊包含稀疏感知模塊和密集感知模塊。稀疏感知模塊采用的采樣策略進行3D物體檢測和在線地圖生成，而密集模塊利用[11]的BEV特征投影方法生成BEV特征空間。稀疏模塊輸出3D邊界框和地圖向量，密集模塊生成BEV特征向量，兩者均被整合到后續軌跡頭部。這兩個模塊的目的是同時利用代理和環境的隱式特征以及顯式的物體和地圖信息，克服僅使用基于投影或采樣的方法構建BEV特征空間的局限性。顯式3D邊界框包含姿態、尺寸、航向角和速度等標準信息。地圖向量以每個元素20個地圖點表示。顯式物體和地圖信息通過多層感知機（MLP）編碼生成嵌入。對于隱式分支，BEV網格大小設為128×128，覆蓋以自我坐標系為中心的64×64米感知范圍。我們聚合同30個代理和一個自車的信息，為后續軌跡擴散過程提供隱式指導。此外，顯式物體和地圖輸出使規劃器能夠執行碰撞檢測和可行駛區域檢查，增強了基于特征的軌跡選擇。感知模塊的訓練分為兩個階段。稀疏分支使用3D物體和地圖元素的檢測損失進行訓練。隨后，密集分支與軌跡頭部一同訓練，在稀疏分支訓練完成后進行。所有感知分支均采用VoV-99骨干網絡。?

Decoder

π0 采用了基于score based的生成式模型作為軌跡生成方式，以前綴動作序列為條件自回歸預測下一步操作（如關節扭矩或末端位移）。在自動駕駛運行場景更復雜，同事我們考慮到自動駕駛的軌跡預測其實是可以進行分層分解的。人類開車時首先受到high level的信息影響，比如我需要去哪里，下個路口左轉還是右轉，其次關注周圍環境，如果環境復雜則需要降低車速增加注意力，最后是確保車輛遵守車道以及防止和其他車輛發生碰撞。的受到人開車的認知行為規范的啟發，我門設計了分層的Transformer對上游的Encoder的信息進行分層輸入接入Diffusion Decoder網絡。同樣為了進一步使模型獲得更好的多樣性，我們使用了diffusion，就diffuison policy而言，我們使用了截斷擴散策略，其去噪過程不再從標準高斯分布開始，而是從一個錨定高斯分布（anchored Gaussian distribution）開始。為了讓模型能夠學習如何從錨定高斯分布去噪到目標駕駛策略，我們在訓練階段截斷了擴散調度（diffusion schedule），僅向錨點添加少量的高斯噪聲。用更“接近真實軌跡”的錨點來替代完全隨機的起點，從而降低訓練和推理過程中的復雜度，并提升生成的軌跡質量。?

Data

π0 采用了pre-training+post fine-tuning的方式，其中pre-training階段最重要的就是diversity，用了一個10000小時規模的數據集訓練，其中數據集大部分是自采的（采集方式下一節介紹），僅9.1% 是開源的（Open-emb-x, droid 等），并且其中普遍都是比較復雜的符合任務，所以實質上包含的任務更多。在post fine-tuning階段數據的要點是動作質量高，即動作要完成地一致且高效。我們采取了和π0類似的策略，同樣進行了pre-training和post fine-tuning部分。其中VLM Encoder模塊的pre-training使用了一個大規模自動駕駛預訓練數據集driveX，Perception Encoder模塊則在nuplan數據集上進行大規模預訓練。但是我們發現大規模的高質量數據進行訓練并不能教會模型如何克服復雜場景下的行為決策問題，因為即使在navsim數據集下具有挑戰性的駕駛場景任然使稀少的。為此在post fine-tuning過程中，我們除了主要對關注對軌跡精度的優化以及困難場景的訓練，為此我們從openscene以及nuplan數據集中額外挑選了一部分難例添加到數據集中。?

Loss

π0 采用了Score base的生成式模型，其中連續動作預測使用flow matching loss監督。形式上講，其對數據分布??進行建模其中，，，，，，,對應于未來動作的ation chunk（就是連續的動作塊，一個塊代表當下的動作。

我們的方案中為了更加直接的生成軌跡使用了diffusion policy 并對軌跡進行L2的監督，其中?表示對軌跡點的reconstruction loss, BCE則是對于軌跡類別的交叉熵損失。

實驗結果

可視化

結論和展望

盡管相比于π0，DiffVLA在自動駕駛領域取得了顯著進展，以下方向仍需深入探索：

VLM輕量化與實時部署：當前VLM的計算開銷難以滿足車載平臺嚴苛的延時與能效約束。未來需探索模型壓縮（知識蒸餾、稀疏量化）、硬件感知編譯（Transformer算子加速）及車-云協同推理架構，以實現VLM在嵌入式芯片的高效部署。
LLM驅動的閉環決策范式革新：DiffVLA中VLM僅提供開環語義指令，尚未參與實時控制閉環。亟需研究LLM在決策-規劃-控制層級的深度耦合機制
安全與評估體系升級：設計動態安全邊界（如形式化驗證模塊過濾風險指令，對抗樣本防御機制)，構建融合物理約束與語言描述的閉環評測基準，并引入VLM決策合理性量化指標

#Waymo S4-Driver

告別監督，海量無標注數據解鎖3D時空推理能力~

雖然端到端自動駕駛，近兩年被炒的火熱，但是其實探索端到端自動駕駛的歷史可以追溯到20世紀80年代。當時的運動規劃模型直接根據原始傳感器輸入預測控制信號，不過由于魯棒性的問題，早期的一些嘗試，在復雜的城市環境難以泛化。最近風靡一時的多模態大語言模型（MLLMs）恰好具有強大的泛化能力，將這兩者結合，似乎成了勢不可擋的趨勢。然而，將MLLMs直接應用于端到端運動規劃很難發揮其強大的視覺理解和推理能力，因為運動規劃和MLLM預訓練任務之間存在顯著差異，導致規劃性能較差。

為了縮小這一差距，如圖1b所示，以往的方法使用多任務學習，將多種感知和預測任務納入訓練和推理中，或者采用監督感知預訓練，利用預訓練的自動駕駛感知模型作為視覺token。然而，人類標注成為了這兩種策略的瓶頸。相比之下，純自監督方法雖然能夠直接從傳感器輸入學習并利用大量未標注的駕駛數據，但通常表現不如現有的最先進方法。

論文題目: S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation

論文鏈接：https://arxiv.org/pdf/2505.24139

首先，作者確定了以下兩個主要障礙：

非最優的表達形式：MLLMs通常為2D圖像平面中的任務設計。這種圖像空間表示限制了它們從多視圖圖像組合中進行3D推理的能力。
數據規模有限：盡管nuScenes是端到端規劃非常廣泛的數據集，但它也僅包含不到1k個序列，缺乏駕駛行為的多樣性。這種有限的規模導致在微調具有十億參數規模的MLLMs時出現嚴重的過擬合問題。

在本文中，作者提出了S4-Driver，這是一個簡單而有效的可擴展自監督運動規劃方法，具有時空視覺表示。基于通用多模態大語言模型，作者直接從相機圖像預測自身車輛的航點，消除了對中間感知和預測任務的需求，從而促進了利用大量未標注駕駛數據進行模型預訓練的規模化（圖1a）。為了解決非最優的表達形式的障礙，作者提出了一種新穎的稀疏體積表示，能夠聚合來自多視圖和多幀圖像的視覺信息，提升了模型在運動規劃上的3D時空推理能力，并無損的保留了MLLMs預訓練視覺嵌入中的世界知識。

其次，為了嚴格評估法并提供足夠的訓練數據，作者還利用了大規模的WOMD-Planning-ADE benchmark，并結合了內部相機傳感器數據。該 benchmark 大約比nuScenes大100倍，因此它可以作為一個更全面的基準。?

相關工作?

多模態大語言模型 (MLLMs)

多模態大語言模型（MLLMs）同時包含語言和圖像模態，以往的研究主要集中在將強大的大型語言模型（LLMs）與先進的圖像編碼器（例如LLaVA、PaLI、PaliGemma以及InstructBLIP）進行整合。通過指令微調或多模態微調，這些模型在多模態理解和推理方面展現出了不錯的性能。當前的發展趨勢是利用越來越大的多模態數據集來進一步提升它們在復雜感知和泛化任務中的能力。然而，盡管這些模型具有諸多優勢，但它們在3D空間推理方面仍存在局限性，這給它們在自動駕駛領域的應用帶來了一些挑戰。?

端到端自動駕駛

為了減少傳統的感知、預測、規劃的各模塊間的信息丟失和誤差累積，端到端駕駛系統利用統一的模型直接從原始傳感器輸入預測自身車輛未來的航點或控制信號。盡管這些系統優先考慮規劃，但它們通常仍會整合感知和預測模塊，還是需要對每個模塊進行明確的監督。盡管一些早期的工作已經探索了無需任何中間任務的純運動規劃，但由于建模能力有限，它們在復雜的城市場景中表現不佳。?

自動駕駛中的 MLLMs

大型模型的卓越推理和泛化能力正是自動駕駛領域應用需要的能力。一些研究將駕駛場景轉化為大型語言模型的文本提示，或者直接用視覺語言模型處理相機圖像。然而，它們的潛力受到現有benchmark數據量的限制，僅允許進行部分微調。同時，閉環模擬器在為端到端任務提供逼真的傳感器數據方面也面臨挑戰。因此，多任務聯合微調或思維鏈推理（CoT）被廣泛采用，來簡化推理過程。另一種思路，一些工作整合了預訓練的感知模型，以提取鳥瞰圖特征，并將其作為視覺token發送給語言模型。最近，EMMA利用強大的Gemini進行自監督運動規劃。此外，它們還開發了一組訓練任務，包括運動規劃、3D目標檢測和道路元素識別，以及用于軌跡生成的一些推理過程。相比之下，作者的工作專注于在無需額外人類標簽的情況下增強自監督運動規劃。?

具體工作?

Vanilla PaLI as Planner

端到端運動規劃模型根據多視圖相機圖像??和高級行為指令??來確定自身車輛的未來軌跡?。未來軌跡包括自身車輛在鳥瞰圖坐標系中每個未來時刻的位置，即?。高級行為指令可以理解為導航系統，對于蔚來軌跡的規劃是非常重要的，至少要知道車往哪里開。此外，自身車輛的歷史狀態??對于獲得平滑且可行的規劃結果也很重要，其中作者將歷史位置、速度和加速度視為?，即

其中??就是規劃模型。作者將自身車輛的歷史狀態和高級指令作為文本提示提供給模型。位置、速度和加速度直接以兩位小數的浮點數表示。預測的未來軌跡隨后從模型解碼的文本輸出中提取。在沒有前面的感知和預測任務的情況下，以自監督方式微調的原始 PaLI 在運動規劃中的表現還可以，但并不理想（見圖 3）。

Hierarchical Planning with Meta-Decision

直接輸出未來軌跡而不進行任何推理對于 MLLMs 來說，是一個具有挑戰的任務。為了解決這個問題，作者借鑒了鏈式思考（Chain-of-Thought, CoT）的靈感，采用了一種從粗到細的思路，采用分層規劃方法，從語義決策到數值規劃。

作者首先給模型提供一個關于未來加速度狀態??的估計的prompt，有效地將運動規劃任務分解為兩個步驟：

作者定義??包括四個元決策：保持靜止、保持速度、加速和減速。與以往在基于 VLM 的規劃中需要人類標注進行訓練的 CoT 應用不同(例如 DriveVLM 中的場景分析)，作者將這些元決策作為“free lunch”引入其中，以簡化運動規劃過程，而無需任何額外的標注。基于未來自身車輛速度和加速度的啟發式規則生成真實決策。圖 3 展示了這種簡單的設計在規劃性能上帶來了的較大改進。?

Scene Representation in 3D Space

高質量的運動規劃需要對周圍 3D 場景有一個穩健的理解，包括靜態和動態元素。雖然傳統上是通過單獨的感知和預測模塊來實現的，但作者的自監督端到端框架依賴于 MLLM 來隱式地學習這種理解，而無需明確的監督。然而，盡管具有強大的 2D 推理能力，MLLMs 在 3D 空間推理方面存在困難。?

3D Visual Representation with Dense Volumes

為了克服上述限制，作者借鑒了以往成功的感知任務的經驗，采用3D體積表示。MLLM的視覺編碼器提取多視圖特征圖，其中是視圖的數量。作者基于多視圖圖像特征構建一個以自身車輛為中心的3D特征體積。為了避免引入的模塊過于復雜，破壞預訓練MLLM并使后續多模態編碼器 - 解碼器與視覺特征錯位，作者采用了一種輕量級的投影方法，類似于SimpleBEV，對于3D體積中的每個體素，作者將它的坐標投影到每個視角視圖，得到對應的2D坐標。然后作者在這些投影位置從每個視圖中雙線性采樣局部特征。最后，體素的特征表示計算為所有視圖中局部語義特征的平均值，其中體素投影在圖像范圍內。這個過程有效地整合了3D空間信息，同時保持了與后續多模態編碼器 - 解碼器的兼容性。

這種簡單高效的投影策略確保了3D體積特征與原始多視圖特征具有相似的分布。這種相似性有助于無縫整合到MLLM的后續多模態編碼器 - 解碼器中。如圖3所示，這種3D體積表示在運動規劃性能上有所提升。另外，作者發現使用全連接層減少軸以獲得鳥瞰圖表示會略微降低性能，因為這種降維操作可能會給場景表示帶來一些歧義。?

Sparse Volume Representation

盡管3D體積表示有效地捕捉了空間信息，但周圍的3D空間大部分是空的。另外，對于運動規劃來說，遠離道路的物體（如建筑物和樹木）的詳細信息并不那么重要。基于此，作者提出了一種稀疏體積表示，以減少體素的數量，在給定的內存限制下實現更高的分辨率，并提高效率。為了確定每個場景中有用的體積及其位置和語義，作者為每個體積坐標定義了一個門控值。為了獲得這個門控值，作者從多視圖圖像特征開始，通過一個全連接（FC）層降低其維度：

然后作者從構建一個降低維度的體積特征。較小的通道數允許更大的體積分辨率，并且足以表明體積是否與運動規劃相關。之后，通過一個小型的MLP模塊從中得出門控值：

因此，作者可以輕松地選擇個體積（），使其門控值最大，坐標為。由于作者無法獲得真實占據狀態，作者提出隱式地學習門控值。作者假設門控值較小的區域應該是空的或與規劃無關。對于這些空白空間，作者分配一個可學習的特征。作者期望模型可以通過在每個3D位置權衡語義特征和這個空白特征來學習門控值，因此作者為選定的稀疏體積獲取特征：

其中是具有較大門控值的選定體積。當稀疏體積特征被輸入到后續的多模態編碼器中時，它們顯著提升了規劃性能（見圖3）。?

Local Feature Aggregation in 3D Space

由于缺乏深度信息，上述過程會導致沿每個相機光線的重復體積特征。這種空間歧義可以通過3D局部操作（如卷積或可變形注意力）來緩解，所以，作者通過定制自注意力來注入一些相對位置偏差，如下所示：

給定個稀疏體積，其坐標為，距離矩陣是每對稀疏體積沿軸的距離，即。偏差通過函數計算，其中被劃分為多個bins，并通過、、映射到每個bin的可學習偏差值。作者還對具有1維位置的文本標記之間應用了單獨的偏差。這種相對位置偏差優雅地將局部歸納偏差插入到預訓練的全局自注意力模塊中，幾乎不需要額外成本。這可以促進3D空間中局部信息的聚合，增強了場景理解和空間推理能力，性能提升的收益可見圖3。?

Multi-frame Temporal Fusion

多幀輸入組合有助于補償相機圖像中缺乏深度信息的問題。作者將稀疏體積表示擴展到聚合多幀時間信息，通過納入T幀歷史圖像，時間間隔為0.5秒。給定總共T+1幀的圖像，分別對每幀應用上述公式來獲得多視圖圖像特征，其中，。在進行自身運動補償后，作者基于當前自身車輛坐標和每幀圖像特征構建門控特征體積。將多幀體積特征沿通道維度拼接以生成門控值。

作者根據門控值選擇M個體積。分別從每幀圖像特征圖中獲取體積特征，，然后通過全連接層將它們融合為具有時間感知能力的稀疏體積特征。

如圖3所示，時間融合通過促進對環境的理解，有助于提升運動規劃性能。?

Voting for Planning via Multi-Decoding

MLLMs傾向于為運動規劃中的比較簡單的行為分配高置信度，比如直接保持靜止。為了緩解這種偏差，作者聚合多個輸出，并通過投票獲得最終的規劃輸出。作者采用核采樣（nucleus sampling）來為自身車輛生成K條未來軌跡，記為。它們通過簡單平均來產生唯一的規劃結果，如下所示：

這種無權重平均方法減輕了MLLM對簡單行為的偏好。如圖3所示，這種簡單的多解碼聚合方法也帶來了顯著的性能提升。?

Scaling to Large-scale Raw Driving Logs

自監督訓練使得作者提出的S4-Driver能夠擴展到大規模駕駛logs，無需人工標注。為了發揮基于MLLM的規劃器的潛力，作者在內部數據集上對模型進行預訓練。圖3中的結果表明，由于大規模預訓練，S4-Driver在具有挑戰性的尾部行為上取得了顯著的性能提升。?

Waymo Open Motion Dataset for Planning

為了大規模訓練和評估具有大型模型的規劃算法，作者基于WOMD數據集設計了一個WOMD-Planning-ADE基準。

該數據集包含10.3萬個真實世界的駕駛場景，涵蓋了多樣化城市和郊區場景。這些場景進一步被劃分為9秒樣本，包含1秒歷史和8秒未來。為了端到端規劃評估，除了每個樣本中自身車輛的軌跡作為真值外，該數據集中還有以下關鍵項目：

相機數據：大多數端到端規劃方法依賴于相機圖像作為模型輸入。在作者的數據集中，每個幀包含由八個多視圖相機捕獲的圖像。
高級行為指令：像導航系統一樣，端到端規劃系統也需要導航信號來指示行駛方向。作者考慮了六個高級行為指令（見圖4），即直行、左轉、右轉、左轉調頭等。這些指令可以覆蓋現實世界中的多樣化駕駛情況，例如“直行右轉”描述了駛離高速公路的情況。作者根據長期未來軌跡來決定行為指令，而不是僅僅考慮最后一步的位置，這樣可以處理低速或停車的情況。
評估指標：駕駛場景中數據分布的不平衡是不可避免的。例如，在WOMD-Planning-ADE基準測試中，直行和停車占所有樣本的70%以上，如圖5所示。在這種情況下，作者認為當前廣泛使用的樣本平均位移誤差和碰撞率無法全面反映運動規劃算法的性能，因為具有挑戰性但頻率較低的行為（如轉彎）被簡單的直行移動場景所淹沒。因此，作者提出了類似預測中的mAP指標的行為指標。例如，作者將行為平均位移誤差表示為bADE，定義如下：

其中是特定行為的ADE指標。具體來說，種行為被考慮在內——包括六個高級指令（見圖4）和一個額外的停車行為。

實驗及結論實驗細節模型和微調：作者的模型基于預訓練的 PaLI3-5B 模型構建，該模型包括一個 ViT-G（2B）視覺編碼器和一個 3B 的多模態編碼器 - 解碼器。作者凍結了 ViT 編碼器，僅對插入的模塊和多模態編碼器 - 解碼器進行微調。

數據集：作者在 nuScenes 和上述 WOMD-Planning-ADE 基準測試上評估 S4-Driver。?

主要結果及對比

nuScenes 數據集：表 2 顯示，S4-Driver 顯著優于所有先前的算法。與現有方法不同，S4-Driver 不需要任何感知預訓練或人類標注。這種自監督特性使得 S4-Driver 能夠利用所有可獲取的原始軌跡數據。

WOMD-Planning-ADE 基準測試：在表 3 中，作者主要將 S4-Driver 與原始 PaLI3-5B 基線和模塊化算法 MotionLM 進行了比較。與原始 PaLI3-5B 相比，樣本指標和行為指標之間存在顯著差距。為了對比，作者還將最新運動預測算法 MotionLM（內部增強的復現版本）適應于規劃任務，僅預測自身車輛的未來軌跡，并將高級指令注入模型中。因為它使用了高質量的對象、軌跡和道路圖信號作為模型輸入，所以直接與作者的端到端方法進行比較并不公平。然而，如表 3 所示，即使 S4-Driver 僅使用原始相機圖像作為輸入，與 MotionLM 相比，S4-Driver 仍然取得了有利的性能，尤其是在行為指標方面。

一些分析

定性結果：圖 6 可視化了在多樣化場景中的規劃結果。作者提出的 S4-Driver 能夠根據交通燈和道路車道確定未來自身行為，可以應對不同的光照條件。

元決策可靠性：圖 7 展示了在 WOMDPlanning-ADE 驗證集上元決策預測的準確性。在所有行為中，模型提供了可靠的元決策估計。在沒有任何人類標注的情況下，這一初步預測可以簡化數值運動規劃的推導。

稀疏體積分布：作者在圖 8 中可視化了沿 x 軸和 y 軸的自監督學習稀疏體積的分布。從后到前，稀疏體積集中在前面區域。從左到右，稀疏體積覆蓋了所有區域，因為存在轉彎場景，但大多數體積集中在中間區域。這些分布與人類駕駛經驗一致。?

消融實驗

MLLM 輸入：在表 5 中，作者分別對比分析了相機圖像和歷史自身狀態的作用。作者假設 WOMD-Planning-ADE 涵蓋了更多多樣化的駕駛場景，包括許多比較大的速度和方向變化，這使得傳感器數據變得重要。這也展示了 WOMDPlanning-ADE 在全面評估方面的優勢。表 5 還顯示，如果沒有 MLLM 預訓練，隨機初始化的模型無法收斂。說明：盡管領域不同，S4Driver 仍可從大規模 MLLM 在一般任務上的預訓練中受益。

MLLM 能力：除了在其他部分中使用的 PaLI3-5B 外，作者還針對運動規劃使用了 PaLI2-3B。如表 4 所示，基于 PaLI2-3B 的 S4Driver 表現明顯不如基于 PaLI3-5B 的 S4Driver。作者在 WOMD-Planning-ADE 上進行了兩個不同規模的訓練數據實驗，即 20k（nuScenes 規模）對比 400k（完整 WOMD-Planning-ADE）。在有足夠的訓練數據時，差距尤為明顯。這也證明了在大規模數據集上進行實驗的必要性，這可以充分發揮強大 MLLMs 的潛力。

稀疏體積分辨率：表 6 顯示了具有相同數量的稀疏體積（M = 6000）的不同稀疏體積分辨率的結果。與圖 3 一致，低分辨率導致相對較差的性能，因為它限制了 3D 空間推理的精度。有趣的是，沿 z 軸的更高分辨率并不一定能提高模型性能，因為運動規劃主要在 xy 平面上工作，而太低的稀疏比率往往會使優化不穩定。?

結論和展望

本文介紹了 S4-Driver，這是一個利用多模態大語言模型（MLLMs）用于自動駕駛的可擴展自監督運動規劃框架。為了增強 MLLMs 中的 3D 推理能力，作者提出了一種新穎的稀疏體積表示，通過聚合多視圖和多幀圖像輸入，實現了有幫助的時空推理。此外，作者還為大規模 WOMD-Planning-ADE 基準設計了行為指標，用于做全面評估。S4-Driver 不需要任何人為標注的情況下，在 nuScenes 和 WOMD-Planning-ADE 基準測試中均取得了最先進的性能。這證明了自監督學習在端到端自動駕駛中的潛力。

未來的工作將持續探索應用其他強大的 MLLM 架構。將作者的大規模自監督學習方法與針對小規模標記數據的監督微調相結合，可能會進一步提升系統的性能和可解釋性。

#Plan-R1

將安全且可行的軌跡規劃作為語言建模

?論文鏈接：??https://arxiv.org/pdf/2505.17659??

摘要

本文介紹了Plan-R1：將安全且可行的軌跡規劃作為語言建模。安全且可行的軌跡規劃對于現實世界自動駕駛系統是至關重要的。然而，現有的基于學習的規劃方法往往依賴于專家演示，這不僅缺乏顯式的安全感知，還有可能從次優的人類駕駛數據中繼承不安全的行為，例如超速。受到大型語言模型成功的啟發，本文提出了Plan-R1，這是一種新的兩階段軌跡規劃框架，它將軌跡規劃作為順序預測任務，并且由顯式的規劃原則（例如，安全性、舒適度和交通規則合規性）來引導。在第一階段中，本文通過專家數據的下一個運動token預測來訓練自回歸軌跡預測器。在第二階段中，本文設計了基于規則的獎勵（例如，避障、速度限制），并且使用一種強化學習策略組相對策略優化（GRPO）來微調模型，使其預測結果與這些規劃原則保持一致。在nuPlan基準上的實驗表明，本文所提出的Plan-R1顯著提高了規劃的安全性和可行性，從而實現了最先進的性能。

主要貢獻

本文的主要貢獻總結如下：

1）本文提出了一種新的視角，將軌跡規劃問題轉化為原則對齊的序列預測任務，實現了行為學習和規劃原則對齊的解耦；

2）本文引入了Plan-R1，這是一種兩階段軌跡規劃框架，它將自回歸預訓練與強化學習微調相結合，以符合規劃原則；

3）本文設計了一組可解釋的、基于規則的獎勵函數來捕獲基本的規劃原則（而沒有依賴偏好數據進行微調），包括但不限于可行駛區域合規性、避障、速度限制合規性和駕駛舒適性；

4）本文所提出的Plan-R1顯著提高了規劃軌跡的安全性和可行性，在nuPlan基準上實現了SOTA性能，特別是在反應式閉環仿真環境中優于現有的規劃器。

論文圖片和表格

總結

本項工作引入了Plan-R1，這是一種用于安全且可行軌跡規劃的新型兩階段框架。受到LLMs成功應用的啟發，本文將軌跡規劃問題重新表述為原則對齊的順序生成任務，將行為學習與規劃原則對齊解耦。具體而言，本文首先預訓練一個自回歸模型來捕獲專家演示的多模態分布，然后通過由可解釋的、基于規則的獎勵引導的強化學習來微調自車策略。在nuPlan基準上的實驗表明，Plan-R1實現了SOTA性能，特別是在反應式仿真中。本文實驗結果突出了通過強化學習使規劃軌跡與安全且可行的目標保持一致的有效性。

#Navigation is nearly done??

導航 vs. 空間智能兩面觀

Navigation is nearly done？空間智能是 AI 發展北極星？——我們到底應該怎么看待當前 AI 模型在空間理解、推理、想象、執行方面的進展和預期。

VLA 是否是xx大模型終極形態？——大語言模型到底在機器人任務中帶來了什么，而又解決不了什么。

本文對上述問題，就導航這一機器人領域核心下游任務做各維度兩面觀的簡要分析。

“兩面觀”的立意也是希望在這個充滿希望又有些浮躁的 AI 快速發展時代，提醒自己多換個角度看看，例如 scaling 很重要，但相信 scaling 遠不是一切。

結構化固定場景中建圖-目標定位-路徑規劃接近解決了，導航找到某個類別等基礎目標指令的問題接近解決了。

動態場景、根據復雜指令導航、陌生環境導航遠未被解決，大模型空間智能的各方面能力仍有巨大空間。

大模型為復雜指令理解和感知的 Sim2Real 帶來了重要基礎，但解決不了復雜任務如操作的底層技能控制問題。

基于上述觀察，我們基于純仿真場景合成一批高質量數據，訓練了一個可在樓層/建筑范圍、實現超長程指令跟隨、零樣本泛化的雙系統導航大模型。High-level 規劃上：讓大模型在理解復雜指令的同時，以同構的流式推理范式靈活處理上下文并學會如何執行；Low-level 執行上：讓策略網絡在仿真中同時學習軌跡生成和軌跡評估，可以在動態雜亂場景中無需建圖，即可避障到達目標點。更重要的是，這樣一套架構和訓練范式使得跨本體（人形、輪式、四足）、零樣本（拿到任意場景開箱即用）泛化變為可能。

附相關工作傳送門，歡迎 star 和提出寶貴意見：
論文：StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling (Coming Soon)
項目：https://streamvln.github.io/
ps: 代碼隨后連同雙系統進展一同 release。

純仿真數據訓練 StreamVLN 在實驗室環境等各種真實環境中直接部署效果（無微調、全自主）

論文：https://arxiv.org/abs/2505.08712
項目：https://wzcai99.github.io/navigation-diffusion-policy.github.io/
代碼：https://github.com/wzcai99/NavDP?9

純仿真數據訓練 NavDP 在實驗室環境等各種真實環境中直接部署效果（無微調、全自主）

預期兩面觀：聊聊各種“餅”和“暴論”

作為一個從之前做計算機視覺（當時研究自動駕駛中三維感知問題）轉到當前xx智能領域的研究人員，深知一些基礎的三維感知范式已經被充分探究：不管是基于 LiDAR 點云的檢測分割框架，還是基于 BEV 的純視覺感知規劃一體化架構，都在自動駕駛這樣一個充滿數據、快速迭代的領域內快速演進收斂。轉向室內和通用場景后，最直觀感受就是這領域缺高質量數據、缺基礎模型、缺好的基準，于是開始了重要但又枯燥的基建期，有了 EmbodiedScan/MMScan 的初始數據、PointLLM/LLaVA-3D 的初始模型、最近做的一些比如 MMSI-Bench 等空間推理基準。在這種大背景下，有時自己也會產生片刻的疑問，難道這領域就只剩下 scaling 需要做了嗎？此時，看著大模型們在 MMSI-Bench 等 benchmark 上和人類遠遠的距離，看著機器人簡單一條指令都找不到北，又堅定：應該不是搞搞數據就能解決的事。

圖1：MMSI-Bench leaderboard

坦率地講，“Navigation is nearly done”和“空間智能的重要和挑戰性”就代表著這樣一類問題的兩面性。一方面，在固定環境中，傳統的建圖-定位-規劃方案十分成熟；簡單找某類物體的指令通過一些 learning-based 的方法也可以表現得很好；看起來這個領域真的只剩工程和落地了，至少只剩下 scaling 數據了。另一方面，大模型在空間理解推理方面似乎顯得一竅不通，三維大模型領域刷點刷的飛起，但沒有一個真正落地和使用的。問題到底出在哪？

Navigation is nearly done?

很早開始做導航的時候就在內部或外部被很多朋友問到 Jitendra Malik 的此番言論，大家笑稱需要準備一份詳盡的 rebuttal :) 為此，我專門找了下這段話出處，詳細了解了此番“暴論”的上下文。

圖2：Jitendra Malik “暴論”現場

簡單來說，Jitendra 作為一個也算是視覺跨界過來的學者，在5年左右探索這個領域的時間里，在三大核心任務上有諸多的嘗試探索：Locomotion，Navigation，Manipulation。在展示了四足/人形泛化行走、任意目標導航（GOAT: GO to Any Thing）和靈巧手操作三個 demo 后，Jitendra 本人和聽眾一致認為最接近解決的是導航任務。

圖3：GOAT Demo gif

在此放上 GOAT 的展示 demo，結合它能夠實現的效果以及這樣的上下文背景下，毫無疑問，我也完全認同導航是最接近解決的那一個。就像 Jitendra 自己說的，導航這個機器人任務在某種程度上是最像計算機視覺的，畢竟我們在自動駕駛里也早已遇見了 planning 這個問題（那個背景下大家常提 perception, prediction, planning）。而相比自動駕駛，顯然核心區別就像 EmbodiedScan 當時分析的，語義更豐富、在密閉空間可能建圖和感知結合更為重要，因此問題變為——這個復雜語義理解和感知的問題解決了嗎？

像上面 GOAT demo 展示的，通過一個系統的解決方案其實面向簡單語義的導航問題已經被解得比較好了，比如找一類物體，甚至是給語言、圖像等各種模態的目標，它都可以比較好完成；同樣，假設我們有一個十分準確的語義地圖，路徑規劃和走過去簡直是太“小兒科”的事情（雖然這里面也還有一些定位的工程優化問題）。從這個視角看，顯然 Navigation is nearly done，剩下的就是上述復雜語義理解和感知的問題。

PS：同樣的問題在操作則非常不同。操作里的執行涉及不同的夾爪和構型，需要執行的行為也涉及不同的力控和運動軌跡，而當前比較多 benchmark 關注的都是桌面上的操作問題，因此涉及到的感知問題甚至相對較少，甚至有時可以說相對容易。雖然這里面涉及的精細感知、推理、工具使用也還有巨大空間，但顯然和導航是完全不同的情況。而這些問題的解決顯然需要依賴大量的機器人數據，當前這部分數據的嚴重匱乏也就引發了上述“Manipulation has a long way to go”的觀點。

空間智能（Spatial Intelligence）很難實現么？還有多遠？

在解耦了導航這個任務之后，我們發現問題最終轉移到了復雜語義理解和感知，如果還有別的問題那也是這部分和下游行為的映射/對齊如何實現。于是自然而然到了第二個問題，現在的大模型是否具備比較好的語義理解和感知能力了呢？顯然，二維不是太大的問題。因此，給定一個基于視頻就能執行的指令，導航大模型通常能做的還不錯，后面我們會介紹這方面一個初步嘗試；然而，大模型的原生空間理解能力仍然十分缺乏，通過下述簡單的例子就能測試出來：

Q: When I took the second image, where was the black door in relation to me?
Options: 
A: Behind me, B: On my left, C: In front of me, D: On my right
測試效果：
A: To determine the position of the black door in relation to you when you took the second image, let us analyze the images step by step:
1. First Image Analysis:- The black door is visible on the left side of the image.- The staircase is on the right side of the image.- The framed artwork is on the right wall.
2. Second Image Analysis:- The living room and kitchen area are visible.- The staircase is not visible in this image.- The framed artwork is still visible on the left wall.
Given that the staircase is not visible in the second image and the framed artwork is on the left wall, it suggests that you have moved further into the living room area.
The black door, which was on the left side in the first image, would now be behind you as you face the kitchen area. （錯誤的推理）
Therefore, the black door is: A: Behind me

圖4：MMSI-Bench 中目前大模型難以處理的例子

這其中涉及很多方面的問題，包括我們前期做的各種數據、模型的基礎嘗試，以及遠沒有解決的：3D 模態如何加入和對齊，如何在有限的數據下訓練模型的空間理解和推理能力，這其中是否需要把理解和想象的訓練加進來，以及如何將這些能力最終應用到導航這種下游任務上。好的一點是目前我們看到社區已經都開始關注這方面，但同時也可以看到各種現有方案都有數據、對齊、訓練等各種方面的問題，這個方向仍然有不小的研究空間。從這個角度講，廣義導航這個任務還遠沒有達到接近解決的狀態。?

VLA 是否是終極方案？

最后簡單提一下這個可能已經被業內外各種人士討論過的問題。雖然 VLA 的定義當今也已經被不可避免地擴大，假設用一個我個人認為相對寬松的定義方式，即 VLA 是指基于多模態大模型微調實現行為輸出（無需強求 VLA 三種模態的對齊），我認為在短期內還是必需的。就像上述說的，它是目前解決xx任務中涉及復雜語義理解和識別的最佳方法和不二選擇，同時可以使得xx大模型的“Sim2Real”更容易實現（基于大模型通用泛化先驗+仿真合成的機器人數據實現 Sim2Real）。但同時，它解決不了一些復雜的底層控制問題，那些問題的解決需要新的數據、新的網絡、新的訓練方式，并最終和多模態大模型實現良好融合，才能到達我們最終的目的地。?

方法兩面觀：導航的 High-level 和 Low-level

談了很多觀點，再簡單介紹下我們基于上述認知最近做的一些嘗試。從最早大家提“大小腦”，以及上面關于高層理解規劃和底層控制之間的分析，眾所周知現在很多機構都會推進雙系統的實現方案。同樣，我們也基于這套思路從去年開始推進兩方面的研究，這篇文章先簡單介紹兩部分各自的階段性進展，不久的未來再系統性介紹整體的情況。?

High-level: LLM 先驗+純仿真數據實現流式 VLA Sim2Real

在開始做導航大模型之前，也關注到了領域內一些大面上的進展和問題，例如：VLN 和 Object Goal 早些就有了 Habitat 那些 benchmark，但一直都在仿真里玩，沒人做到真機，刷點也略顯隨機，都是各種隱藏 trick 的堆疊；后來有了大模型后這兩年有了一些初步泛化到真實場景的不錯的進展，比如 NaVid 和 NaVILA 等，但總感覺實現得像一個“A”而不是“VLA”。

細品后發覺這個也和多模態大模型早期的進展有關，早些時候多模態大模型特別是視頻大模型的工作很多也是先解決單輪圖文交互，直到近一年才出現一些研究在線多輪交互的工作去處理長視頻理解和長時記憶。類似的，大家在剛開始用多模態 encoder 解決導航問題時還是每步收集前面所有 video 重新提特征、單步推理，因此基于不同的視頻幀采樣也自然而然丟失了很多信息；同樣的問題在 EmbodiedScan/LLaVA-3D 的實現中也同樣存在；而操作的 VLA 里面甚至是基于單幀圖像和指令在進行推理。

于是很自然想嘗試下做個優雅同構的流式 VLA。雖然當前大模型的長上下文已經卷出了新高度，但不可避免長程導航任務里視頻的輸入還是帶來了很多信息冗余，并且持續加長的視覺輸入如果不做任何壓縮也難以處理。因此我們設計了 SlowFast Context Modeling，即 Long-term Memory 會有時空兩維度 token pruning，而近距離的 tokens 則自然作為 Short-term Context 用于推理，所有歷史 tokens 通過 KV-Cache 可以高效復用，由此實現了 VLA 的流式版本。優雅的好處也是非常自然，再也不用切分各種導航片段訓練了，直接一個長程 VLA 序列喂進去，模型既能處理夠長序列，又能在線推理，還有一定長時記憶。

圖5：StreamVLN 的雙軌上下文流處理設計

稍微提下其中的時空 token pruning。除了常用的時間維度上采樣之外，我們也曾想過把 3D 表征更好加進來。但就像之前提及，加進來 3D 表征并實現很好對齊并不是一件容易的事：加多了設計會難以對齊，加少了又沒什么太大用。加上當前 VLN 的這些指令大多都是基于視頻理解就能較好解決的問題，我們先基于空間做了進一步的 pruning 初步提升了 Long-term Memory 中 token 的有效性，而至于剩下的，則需要更復雜空間推理的導航問題定義和基礎模型的范式突破。

圖6：StreamVLN 的時空剪枝設計

訓練方面也相對簡單，我們收集了導航常用的一些演示數據、結合 DAgger 增強的數據和部分多模態圖文數據，在一個相對合適的配比下完成了純合成導航數據+多模態數據的混合訓練。得益于多模態大模型基礎具備的開放世界感知和復雜指令理解能力，這個只用合成導航數據訓練的大模型也具備良好的真實世界泛化能力，詳見實驗結果。

圖7：StreamVLN 的數據配方

由此我們初步得到了一個具備不錯泛化性的流式導航 VLA 模型。但同時需要關注到，這樣一個模型的訓練雖然簡單，但在動作空間仍然延續之前工作采用了離散的動作空間（類似直行、向左前/右前之類的選項）且只是局部的動作輸出，本質上雖然能理解復雜語義，但輸出并非一個 long-horizon 的推理/規劃目標，而后者是通常大家理解雙系統中 System2 應當給予 System1 的輸入。這部分如何實現就是另外一個故事了，且留一個懸念做下回分解。?

Low-level: Sim2Real 學習軌跡生成/選擇實現無需建圖動態避障

下面再簡單介紹下早些就 release 的 low-level 這邊的一些進展。其實在 VLN 和近期大模型這些工作出來之前，原本面向狹義的導航任務，社區中有相當一部分人比較關注近距離導航的一些問題，涉及的目標模態也有二維/三維點、圖像、語言等，基于 learning 端到端訓練的也有 ViPlanner、NoMad 這些優秀的工作，整體這部分研究其實也和自動駕駛所謂 FSD 重點關注的事情更加接近。

結合上面的大背景，當我們有了 High-level 負責復雜語義理解和規劃的大模型后，low-level 部分其實主要也就是做兩件事：(1) 執行輸入的規劃、到達目標點；(2) 動態避障。而這兩者又和典型的控制問題有種類似的感覺，前者涉及到定位等自身狀態認知，后者則涉及更多環境幾何估計和路徑規劃。在靜態環境中，這個問題其實并不困難，通過簡單的建圖+路徑規劃就能實現，在我們后續的實驗比較中也發現其實傳統方法在陌生的靜態環境中也有很好的性能。然而面向動態場景，SLAM 常常會出現問題從而影響上述方法的適用性。

于是借鑒 locomotion 中 Sim2Real 的成功經驗，我們也在仿真環境中構造了一批數據嘗試解決這一問題。簡化模型和假設的同時，發現由此帶來了相比傳統方法在實時性以及涌現出的動態避障方面的一些能力，并且初步實現了跨本體、跨場景的部署，相信很快也能作為機器人可以打包出廠的一部分能力。

具體來講，相比真機數據，在仿真環境中合成數據可以天然拿到全局地圖和幾何信息，由此我們可以 (1) 通過傳統運控方法生成一批平滑且安全的軌跡，用于訓練模型生成軌跡的能力；(2) 基于全局地圖（具體采用 ESDF 表示）和機器人位置給出不同軌跡的安全性指標，用于訓練模型選擇最優軌跡的能力。由此，我們可以讓機器人在仿真環境中基于局部、有限的第一視角和歷史觀察，學習到視野外具備一定全局觀的軌跡規劃能力，從而用最少的觀察（無需很多相機）和模塊（無需建圖定位）實現魯棒的真機部署效果。

圖8：NavDP 主體思想示意圖

想法很簡單，模型實現也比較簡單：用一個 transformer 堆疊的 diffusion policy 只要 100M 的參數就能訓出想要的這兩方面能力。同時伴隨數據特別是場景上的 scale up，現在這個模型也在逐漸變好；相應利用仿真環境構造的測試環境也大大節省了真機評測的負擔，提升了整體迭代效率。之前推文提到過的 15k 條軌跡數據/臺天的生成效率也真正讓這個任務的數據不再是瓶頸問題，這些進展也更進一步強化了我們對于 Sim2Real 的信心。?

基準和實驗結果

最后象征性放一些為了論文完整性的數值結果，細節的消融實驗等可以移步論文具體了解。

常規性量化基準測試

首先是常規性的一些量化基準測試，這往往是之前計算機視覺工作的重頭戲，不過鑒于當前xx基準能評測出的東西有限在這里相對弱化介紹一下，最后再針對這個領域實驗和評測的問題做些簡單討論。

圖9：StreamVLN 在 VLN-CE R2R 和 RxR 上測試結果

StreamVLN 主要在 VLN-CE 的 R2R 和 RxR 評測上做了些比較，受益于高效的訓練和推理架構，整體大概 1500 GPU hours 實現了一版目前評測上領先的水平。這部分整體迭代下來的核心感受還是數據和細節比較重要，后面總結時會再詳細提及一下。

圖10：NavDP 在 NoGoal 和 PointGoal 上測試結果

NavDP 則是在自己搭建的仿真環境中先做了不同本體的測試。無論在 NoGoal 純避障情況下還是 PointGoal 設置下，NavDP 都還是展現出了比較明顯領先的效果。值得一提的是，傳統方法比較中我們也嘗試實現了一版高飛老師經典的 EgoPlanner，可以看出 NavDP 除了一些固有可以實時處理動態避障情況的優勢外，在仿真靜態環境中的評測也體現出了一定優勢。另外，Real2Sim 場景測試是對應到實驗室六樓環境下的結果，這部分是比較有意思的初步嘗試，最早想的是用 GS 做重建是否能實現一個和真機測試更加對齊的評測結果。不過目前迭代下來感覺還是仿真測試場景的多樣性比較重要，也請大家繼續關注后續我們的相關進展。?

開放場景測試：“是騾子是馬，拉出來溜溜”

Jitendra 在報告中還提到一個觀點我記得比較有意思。他提到剛進入這個領域的時候曾經試圖猛烈構建 benchmark，想讓這個領域像計算機視覺一樣可以快速迭代。后來發現一方面這個事情很難，另一方面其實只要對自己的實驗結果“be honest”，很多進展也可以推動。因此我們也對這兩個算法做了比較多的真機測試，其中優化了很多部署和工程細節，但整體確實感受到這些模型泛化的還不錯，也有一定領先性，后面也會提到誠邀產學界的合作伙伴們一同測試使用，我們相信有更多的反饋才能更好地推動這個領域的發展。首先，StreamVLN 的主要特點其實是會發現它的長程指令跟隨能力比較出眾，特別是中間有一些參照物能夠給足指示的情況下，比如下面這個例子做了一個比較有趣的測試游戲（之所以叫游戲是因為顯然大家不太會這么給指令，但確實體現了它在很大空間范圍內的長程指令跟隨能力）：

圖11: 樓層范圍超長指令跟隨能力測試游戲

另外一些常規指令的測試我們也拉它到商場里、草地上、室外公園、石子地等各種場景測試了一番，也都體現了比較好的泛化性，這還要得益于多模態大模型比較強的感知理解基底，不然純靠仿真是遠遠不能實現這些能力的。這有點類似于 RL 在有了預訓練之后逐漸就 work 了，Sim2Real 可能也是如此。

圖12：StreamVLN 優秀的零樣本場景泛化能力

最后我們也測試了其視覺推理能力和問答能力，也都有較好的先驗保留。總體上述 demo 的拍攝都還比較順利，根據拍攝同學們的反饋目前這些類似的例子都還是能實現零樣本泛化有 50% 左右成功率，這也和仿真里目前的測試成功率相對比較接近，某種程度上確實可以說是實現了 Sim2Real。 NavDP 則專注測試其在密集障礙物、動態避障方面的能力極限，像下面兩個例子能比較好展示這方面能力：

圖13：NavDP 密集障礙物和動態避障能力

另外就是其真正通過一個策略網絡一套參數實現了跨本體能力（“一腦多形”），以及自主探索/長時導航能力：

圖14：NavDP 跨本體部署 & 自主探索/長時導航能力

這部分在測試時我們也發現再往后推進可能重點在于如何實現更敏捷地避障和更精準的目標導航。當前測試比較困難的一個例子是在密集木樁環境中，整體能實現以 1m/s 80% 左右成功率，雖然能夠滿足大部分日常需求，但也仍有改進空間。?

落地/致謝兩面觀：研究 & 工程

這半年多首次探索算法上真機的過程中深刻體會到了工程的力量。能夠實現上述模型效果離不開組里同學們每個人的不同貢獻：從數據生成就開始充滿著工程優化問題，例如如何利用傳統規控和優化方法讓生成的軌跡不貼墻且平滑；到模型訓練，如何配比數據和調參；再到工程部署，如何打通云上/端側推理最終實現真機部署測試，如何做模型加速優化，甚至細到換一個 realsense 通過讓視覺模糊少一點從而提升真機部署效果。總之相信未來大模型和xx的成功都離不開這種系統級實現能力，也歡迎希望研究成果落地的研究員/博士生和希望接觸最前沿算法的工程師加入實驗室，共同搞一些大新聞~

#數據閉環的核心

靜態元素自動標注方案分享4D標注之靜態元素?自輕圖方案成為業內共識以來，業內很多公司都在鋪開人力推進輕圖算法量產。從整個算法落地的流程上看，首先需要依賴一定的標注數據訓練模型，推進云端模型訓練進而生產自動化輕圖數據，進而在反哺車端模型更新，通過迭代的方式泛化車端模型。車端模型一般是時序6v輸入的，只能感知局部區域，而云端模型需要做全場景的靜態元素標注。

首先我們先回答一個問題：傳統2D圖像靜態元素標注有什么缺陷？

以往2D空間標注，需要每個時間戳下都需要再圖像上進行標注，模型做語義分割+深度預測。這樣非常耗時費力，需要大量的重復工作。實際上我們只需要重建出3D靜態場景，在重建3D場景中靜態元素只需標注一次。

基于此，業內開始重視基于重建圖或者說3D場景的靜態元素標注。

現有的方法，會先將3D場景轉換為BEV視圖，這樣不會損失路面上的靜態元素信息，但是整個BEV視圖非常大，不適合模型直接訓練使用。因此實際中會根據自車位姿滑動窗口截取局部地面重建圖，再去訓練云端的自動標注大模型，這是和車端模型最大的區別。總結來說，云端的pipeline主要有以下幾個步驟：

輸入3D重建結果
裁剪+轉換為bev圖
根據自車位姿滑動窗口截取局部地面重建圖
利用maptr模型輸出矢量車道線
局部矢量地圖拼接refine?

自動標注難在哪里？

自動駕駛數據閉環中的4D自動標注（即3D空間+時間維度的動態標注）難點主要體現在以下幾個方面：

時空一致性要求極高：需在連續幀中精準追蹤動態目標（如車輛、行人）的運動軌跡，確保跨幀標注的連貫性，而復雜場景下的遮擋、形變或交互行為易導致標注斷裂；
多模態數據融合復雜：需同步融合激光雷達、相機、雷達等多源傳感器的時空數據，解決坐標對齊、語義統一和時延補償問題；
動態場景泛化難度大：交通參與者的行為不確定性（如突然變道、急剎）及環境干擾（光照變化、惡劣天氣）顯著增加標注模型的適應性挑戰；
標注效率與成本矛盾：高精度4D自動標注依賴人工校驗，但海量數據導致標注周期長、成本高，而自動化算法面對復雜場景仍然精度不足；
量產場景泛化要求高：自動駕駛量產算法功能驗證可行后，下一步就需要推進場景泛化，不同城市、道路、天氣、交通狀況的數據如何挖掘，又如何保證標注算法的性能，仍然是當前業內量產的痛點；

#PM-Loss

即插即用！PM-Loss顯著改善前饋3DGS質量~
?

全新訓練損失

新視角合成（Novel View Synthesis, NVS）是計算機視覺和圖形學中長期研究的課題，近年來隨著神經渲染技術的進步，尤其是3D高斯潑濺（3D Gaussian Splatting, 3DGS）的發展，這一領域受到越來越多的關注。雖然NVS模型的輸入和輸出都是2D圖像，但其核心目標是恢復場景的3D結構。因此，平滑且精確的幾何表示對于生成高質量的新視角至關重要，這也促使了一系列研究致力于通過學習更準確、更一致的幾何表示來提升視覺質量。

盡管3DGS模型具有超快的渲染速度，但為未見過的場景重建它們需要耗時的逐場景優化過程，這限制了其在實際應用中的可用性。這一挑戰推動了前饋式3DGS方法的發展，這也是我們工作的主要關注點。與通過優化幾何來提升視覺質量的逐場景調優方法不同，前饋式3DGS模型通常在幾何質量上有所不足，盡管在提升外觀表現方面取得了顯著進展。核心問題在于前饋方法所使用的表示方式——它們依賴于深度圖。大多數前饋模型預測深度圖，然后將其反投影以形成3D高斯分布。由于深度圖在物體邊界附近往往存在不連續性，直接反投影會將這些偽影傳遞到3D表示中，導致幾何質量下降。

近年來，3D重建領域出現了一種新的研究方向，采用稱為“點圖”（pointmap）的表示方法。與深度圖在相機空間中表示標量值不同，點圖在世界空間中編碼一組3D點，能夠更平滑、更準確地建模幾何。此外，點圖通過神經網絡直接回歸的方式簡化了傳統的多視角立體（Multi-View Stereo, MVS）流程。這些優勢使得點圖方法在3D重建任務中取得了顯著成功。

點圖在基于回歸的3D重建中的成功啟發我們將其作為強先驗，以減少基于深度圖的前饋式3DGS中的偽影。然而，這一思路并非直接可行，因為點圖隱式編碼了粗略的相機位姿，而前饋式3DGS在顯式提供精確位姿時表現最佳，這使得有效利用幾何先驗變得具有挑戰性。現有的在無位姿設定下采用點圖先驗的方法要么依賴于特定數據集（如ScanNet），要么需要耗時的測試時位姿對齊，這都限制了實際應用。雖然可以通過嵌入相機位姿來調整點圖模型，但這種方法需要昂貴的重新訓練，且無法提升場景細節的質量。

本文介紹一種新方法，通過將點圖先驗轉化為簡單而有效的訓練損失，將其幾何知識遷移到前饋式3DGS中。與先前方法不同，我們的PM-Loss[1]是即插即用的，完全避免了位姿問題。具體而言，PM-Loss利用大規模3D重建模型（如Fast3R、VGGT）預測的全局點圖作為偽真值，指導從預測深度反投影的點云學習。這種監督要求源點和目標點處于同一空間，并且能夠高效計算。對于前者，我們發現Umeyama算法可以利用深度圖與點圖之間的一一對應關系高效對齊兩個點云；對于后者，我們使用Chamfer損失直接在3D空間中進行正則化，相比2D空間的正則化能顯著提升幾何質量。通過從預訓練的3D重建模型中提取點圖所嵌入的幾何先驗，我們的方法能夠緩解由反投影深度引起的不連續性，并顯著提升前饋式3DGS模型的3D點云質量和渲染新視角的效果。

為了驗證PM-Loss的有效性，我們在兩個代表性前饋式3DGS模型（MVSplat和DepthSplat）和兩個大規模數據集（RealEstate10K和DL3DV-10K）上進行了實驗。結果表明，PM-Loss在所有評估指標上均提升了3D高斯分布和渲染新視角的質量。廣泛的消融實驗和分析進一步驗證了我們的架構設計選擇，以及PM-Loss在內存和運行效率上的優勢。由于其即插即用、高效且有效的特性，我們相信PM-Loss將在未來前饋式3DGS的訓練中發揮重要作用。

項目鏈接：https://aim-uofa.github.io/PMLoss/

主要貢獻包括以下三點：

我們揭示了一個未被充分探討但關鍵的問題，即深度不連續性導致前饋式3DGS模型預測的3D高斯分布質量較低。
我們提出了一種新的訓練損失PM-Loss，通過利用預訓練3D重建模型生成的點圖幾何先驗來提升3D高斯分布的質量。
在現有前饋式3DGS模型和兩個大規模數據集上的廣泛實驗證明了PM-Loss在提升3D高斯分布和渲染新視角質量方面的有效性。?

具體方法

我們的目標是訓練一個神經網絡，使其能夠直接從一張或多張輸入圖像預測出3D高斯潑濺（3DGS）模型，用于新視角合成，從而避免逐場景優化的需求。為了提升預測的3D高斯分布的質量，我們提出了一種新穎的點圖損失（PointMap Loss, PM-Loss），用于對預測的3D結構進行正則化。PM-Loss利用點圖——一種通過預訓練的視覺Transformer從輸入圖像回歸得到的結構化2D到3D表示——為幾何學習提供圖像對齊的監督。我們首先介紹必要的背景知識，然后詳細描述PM-Loss的設計。?

背景?

前饋式3D高斯潑濺

該方法旨在通過單次前向傳播，從一張或多張輸入圖像直接重建一組3D高斯分布。其通用架構采用編碼器-解碼器結構：首先，編碼器網絡處理輸入圖像以提取高級特征；這些特征隨后通常與相機位姿信息以及其他輔助信息通過融合模塊結合；接著，高斯頭部網絡預測N個3D高斯分布的參數，包括均值（中心點）、協方差（通常用尺度和旋轉表示）、不透明度以及顏色（或球諧系數）。

在典型的前饋式3DGS流程中，高斯均值通過反投影預測的深度圖得到。具體來說，對于輸入圖像中的每個像素，預測一個深度值，并結合相機內參矩陣和相機到世界的變換矩陣，計算對應高斯中心的3D位置。盡管這種方法高效，但由于深度圖在物體邊界處存在固有的不連續性，反投影后會導致高斯分布破碎或錯位，從而降低3D場景表示的幾何質量，并進一步影響新視角合成的效果。?

點圖回歸

點圖是一種結構化的3D表示，其中輸入2D圖像的每個像素關聯一個世界坐標系中的3D點。與僅提供每像素Z值的深度圖不同，點圖直接表示完整的3D坐標（XYZ）。點圖通常通過預訓練的深度神經網絡（如基于視覺Transformer的架構）從圖像中以回歸方式生成。

給定一個點圖回歸模型，對于每張輸入圖像及其相機位姿，該模型輸出一組3D點。這些逐圖像的點圖被聚合形成全局參考點云，從而提供密集的3D幾何先驗，供我們的PM-Loss利用。?

PM-Loss

為了應對前饋式3DGS中的幾何不準確性問題，現有方法（如DepthSplat）通常引入單目深度先驗。然而，這些先驗通常在2D圖像空間中進行監督，可能無法有效轉化為一致的3D幾何。相反，我們主張直接在3D空間中對幾何學習進行正則化。

給定一批輸入圖像，前饋式3DGS模型直接預測一組3D高斯中心。我們將這些預測的中心點集合記為X_3DGS，其中每個點代表世界坐標系中一個3D高斯的中心。為了指導模型學習準確且一致的幾何，我們引入了一種基于預訓練點圖回歸模型的3D監督信號。該模型為每個像素預測一個3D點，形成參考點云X_PM。?

高效點云對齊

盡管X_3DGS和X_PM都表示世界坐標系中的場景3D結構，但直接使用X_PM監督X_3DGS并非易事。實際上，這兩個點云可能由于尺度、旋轉或平移的差異而錯位——這些差異源于位姿不準確或生成X_PM的預訓練模型所使用的隱式坐標系。如果不解決這些差異，逐點監督可能會引入誤導性梯度。因此，精確對齊對于有效從X_PM中提取幾何先驗并注入X_3DGS至關重要。

傳統的對齊方法（如迭代最近點算法，ICP）計算成本高昂，尤其對于密集點云，難以集成到訓練循環中。然而，在我們的設定中，高斯中心X_3DGS（來自逐像素深度預測）和點圖輸出X_PM與輸入圖像像素存在一一對應的關系。這種自然對應性允許我們使用Umeyama算法——一種閉式且高效的解決方案——來估計兩個點集之間的最優相似變換（尺度、旋轉和平移）。

給定N個對應點，Umeyama算法通過最小化目標函數來估計最優尺度因子、旋轉矩陣和平移向量。估計出的變換隨后應用于原始點圖X_PM中的每個點，得到對齊后的點圖X_PM'，從而在一致的坐標系中計算提出的監督損失。?

單向Chamfer損失

給定對齊后的點云X_3DGS和X_PM'，我們將PM-Loss定義為從X_3DGS到X_PM'的單向Chamfer距離。這種形式確保對于X_3DGS中的每個點，我們都能高效地找到其在X_PM'中的最近鄰，從而提供可靠的幾何監督。

PM-Loss的設計核心在于在3D空間中重新計算最近鄰以進行監督，而非直接依賴自然的一對一像素對應關系（后者會退化為深度損失）。這一設計使得監督對位姿錯位和預測噪聲更具魯棒性。我們通過消融實驗驗證了這一點，并在表格中報告了定量結果。?

實驗效果?

總結一下

我們提出了 PM-Loss，一種簡單而有效的訓練損失，它利用點圖的幾何先驗來改進前饋式 3DGS。通過使用全局點圖作為偽真值在 3D 空間中進行正則化，PM-Loss 緩解了物體邊界附近由深度引起的不連續性，從而顯著提高了幾何和渲染質量。我們的 PM-Loss 可以無縫集成到現有的訓練流程中，并且不會引入推理開銷。在多個主干網絡和大規模數據集上的廣泛實驗和分析證明了其廣泛的適用性和高效性。我們相信 PM-Loss 為訓練更魯棒、更準確的前饋式 3DGS 模型提供了一種實用的解決方案。

局限性：PM-Loss 的有效性受限于預訓練點圖模型的質量，因為點圖中的錯誤可能通過我們的損失傳播到前饋式 3DGS 模型中。利用未來 3D 重建進展中更強大的點圖模型是一個有前景的方向。?

參考

[1] Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

#GeoDrive

新一代世界模型！顯式注入空間結構信息，問鼎SOTA（北大&理想）

由北京大學、伯克利人工智能研究院（BAIR）與理想汽車（Li Auto）聯合出品，GeoDrive 是一款面向自動駕駛的新一代世界模型系統。針對現有方法普遍依賴二維建模、缺乏三維空間感知，從而導致軌跡不合理、動態交互失真的問題，GeoDrive 首創性地將三維點云渲染過程納入生成范式，在每一幀生成中顯式注入空間結構信息，顯著提升了模型的空間一致性與可控性。

🚘 GeoDrive 的三項關鍵技術創新：

1?? 幾何驅動的時序條件生成系統以單幀 RGB 圖像為輸入，借助 MonST3R 網絡精準估計點云和相機位姿；結合用戶提供的軌跡信息，逐幀進行投影生成，構建具有三維一致性的條件序列，確保場景結構連貫真實。

2?? 動態編輯模塊：突破靜態渲染局限通過融合 2D 邊界框注釋，GeoDrive 支持對可移動物體的靈活位置調整，解決傳統渲染中“場景凍結”的假設；在訓練階段顯著提升多車交互場景的動態合理性和模擬真實度。

3?? 結構增強的視頻擴散生成架構將渲染生成的條件序列與噪聲特征拼接輸入凍結的 Video Diffusion Transformer（DiT），在保持光學生成質量的同時，引入結構上下文以增強三維幾何保真度，實現內容與物理一致性的統一。

論文鏈接：https://arxiv.org/abs/2505.22421

世界模型的最新進展徹底改變了動態環境的仿真，使系統能夠預見未來狀態并評估潛在動作。在自動駕駛中，這些能力有助于車輛預測其他道路使用者的行為、進行風險感知規劃、加速仿真中的訓練，并適應新場景，從而提高安全性與可靠性。當前的方法在保持魯棒的 3D 幾何一致性或處理遮擋時存在缺陷，這在自動駕駛任務的安全評估中至關重要。為了解決這些問題，本文提出了 GeoDrive，該方法將魯棒的 3D 幾何條件顯式地整合到駕駛世界模型中，以增強空間理解能力和動作可控性。具體來說，我們首先從輸入幀中提取 3D 表示，然后基于用戶指定的自車軌跡獲得其 2D 渲染結果。為了實現動態建模，我們在訓練過程中提出了一種動態編輯模塊，通過編輯車輛的位置來增強渲染效果。大量實驗表明，我們的方法在動作準確性和 3D 空間感知方面顯著優于現有模型，實現了更加真實、可適應和可靠的場景建模，從而提高了自動駕駛的安全性。此外，我們的模型能夠泛化到新的軌跡，并提供交互式的場景編輯功能，例如目標編輯和目標軌跡控制。

自動駕駛世界模型通過模擬三維動態環境，使以下關鍵能力成為可能：軌跡一致的視角合成、符合物理規律的運動預測，以及安全感知的場景重建和生成。特別是，生成視頻模型已成為自運動預測和動態場景重建的有效工具。它們能夠合成忠實于軌跡的視覺序列，這對于開發能夠預見環境交互同時保持物理合理性的自主系統至關重要。

盡管取得了這些進展，但大多數現有方法由于依賴于二維空間優化，缺乏足夠的三維幾何感知能力。這一缺陷導致在新視角下出現結構性不連貫現象，以及物理上不合理的物體交互，這在密集交通中的避障等安全關鍵任務中尤其有害。此外，現有方法通常依賴密集標注（例如高精地圖序列和三維邊界框軌跡）來實現可控性，只能重復預設動作，而無法理解車輛動力學。

一種更靈活的方法是從單張（或少量）圖像中推斷動態先驗信息，并以期望的自車軌跡為條件。然而，當前基于數值相機參數進行微調的方法缺乏對三維幾何結構的理解，從而影響了其動作可控性和一致性。

一個可靠的駕駛世界模型應滿足三個標準：

靜態基礎設施與動態代理之間具有嚴格的時空一致性；
對自車軌跡具有三維可控性；
對非自車代理的運動模式施加運動學約束。

我們通過一個混合神經-幾何框架實現了這些需求，該框架顯式地在整個生成序列中強制執行三維幾何一致性。首先，我們從單目輸入中構建三維結構先驗，然后沿著用戶指定的相機軌跡進行投影渲染，以生成基于幾何條件的引導信號。我們進一步采用級聯視頻擴散模型，通過三維注意力去噪機制細化這些投影，在優化光度質量的同時提高幾何保真度。對于動態目標，我們引入了一個物理引導編輯模塊，該模塊在明確的運動約束下變換代理外觀，以確保物理上合理的交互。

我們的實驗表明，GeoDrive顯著提升了可控駕駛世界模型的性能。具體而言，我們的方法改善了自車動作的可控性，將軌跡跟蹤誤差降低了 42%，相較于 Vista模型。此外，我們在視頻質量指標方面也取得了顯著提升，包括 LPIPS、PSNR、SSIM、FID 和 FVD。此外，我們的模型能夠有效泛化到新的視角合成任務，在生成視頻質量上超越了 StreetGaussian。除了軌跡控制外，GeoDrive 還提供了交互式場景編輯功能，如動態目標插入、替換和運動控制。此外，通過整合實時視覺輸入與預測建模，我們增強了視覺語言模型的決策過程，提供了一個交互式仿真環境，使路徑規劃更加安全和高效。?

相關工作回顧

自動駕駛世界模型
世界模型已成為使智能體能夠在復雜動態環境中預見和行動的基石，在自動駕駛領域提出了獨特的挑戰，包括大視野、高度動態的場景以及對魯棒泛化能力的需求。近年來的研究探索了多種用于未來預測的生成框架，利用點云、占據網格和圖像等表示方法。

基于點云的方法利用激光雷達捕捉到的詳細幾何信息來預測未來狀態，并實現空間幾何和動態交互的精確建模。基于占據網格的方法進一步將環境離散化為體素網格，以更細粒度和幾何一致性的方式建模場景演變。

基于圖像的世界模型因其傳感器靈活性和數據可訪問性而展現出更大的擴展潛力。它們通常利用強大的生成模型來捕捉真實世界環境的復雜視覺動態，使其在感知和規劃任務中特別有價值。

盡管現有的生成模型（如 DriveDreamer和 DrivingDiffusion）通過依賴密集標注（例如高精地圖序列和長期的 3D 邊界框軌跡）實現了準確的場景控制，但它們只能重復預設動作，而無法真正理解車輛動力學。一種更靈活的方法是直接從單張（或少量）圖像中推斷動態先驗信息，同時結合所需的自車軌跡進行條件設定。最近的系統如 Vista、Terra和 GAIA 1&2通過將原始數值控制向量直接注入生成主干網絡，實現了基于動作的生成。然而，由于控制向量并未顯式地與視覺潛在空間對齊，導致生成的動作信號較弱，常常導致控制不穩定，需要更大的訓練數據集才能收斂。

相比之下，我們的方法將動作命令作為視覺條件輸入進行渲染，這與生成潛在空間自然對齊，從而提供了更強的控制信號，并顯著提高了生成結果的穩定性和可靠性。

視頻生成的條件控制
擴散生成模型已經從文本到圖像系統演變為完全多模態的引擎，能夠按需合成整個視頻序列。在這個過程中，研究重點穩步轉向條件生成——為用戶提供明確的控制手段來引導輸出。ControlNet、T2I-Adapter 和 GLIGEN等里程碑首次將條件信號嵌入文本到圖像的流程中；后續研究將其擴展到視頻領域，允許使用 RGB 關鍵幀、深度圖、目標軌跡或語義掩碼進行控制。然而，6 自由度相機路徑的控制仍然困難。基于 LoRA 的粗略運動類別、數值矩陣條件、深度變形方案和 Plücker 坐標編碼各有不足——要么控制不精確，要么覆蓋域有限，或者從數字到像素的映射間接。

規劃器和安全模塊需要幀級別的精度，因此諸如 DriveDreamer和DrivingDiffusion等生成器依賴密集的高清地圖序列和長期的 3D 框軌跡來鎖定場景到預定路線。其他系統如 Vista、GAIA 1&2 將控制向量直接注入主干特征，但數值命令與視覺特征之間的不匹配削弱了信息，減緩了優化過程，并經常產生漂移。在本工作中，我們提出使用顯式的視覺條件來進行精確的自車軌跡控制。?

算法詳解

給定一個初始參考圖像??和自車軌跡?，我們的框架合成遵循輸入軌跡的真實感未來幀。我們利用參考圖像中的 3D 幾何信息來指導世界建模。首先，我們重建一個 3D 表示，然后沿著用戶指定的軌跡渲染視頻序列，并處理動態目標。渲染的視頻提供幾何引導，用于生成時空一致、符合輸入軌跡的視頻。圖 2 展示了整個訓練流程。

從參考圖像中提取 3D 表示

為了利用 3D 信息進行 3D 一致的生成，我們首先從單張輸入圖像??構建一個 3D 表示。我們采用 MonST3R，這是一個現成的密集立體模型，能夠同時預測 3D 幾何和相機姿態，與我們的訓練范式相匹配。在推理過程中，我們復制參考圖像以滿足 MonST3R 的跨視圖匹配需求。

給定 RGB 幀?，MonST3R 通過幀間的跨視圖特征匹配預測每個像素的 3D 坐標??和置信度得分?：

其中??表示第??個參考幀中像素??在度量空間中的位置，?表示重建的可靠性。通過對??設置閾值?（通常為?），第??個參考幀的彩色點云為：

為了對抗序列中有效匹配與無效匹配之間的不平衡，置信圖??使用 focal loss 進行訓練。此外，為了將靜態場景幾何與移動物體分離，MonST3R 使用了一個基于 Transformer 的解耦模塊。該模塊處理參考幀的初始特征（通過跨視圖上下文增強），并將它們分為靜態和動態兩部分。解耦模塊使用可學習的提示 token 來分割注意力圖：靜態 token 關注大平面區域，動態 token 關注緊湊且運動豐富的區域。通過排除動態對應關系，我們獲得了一個魯棒的相機姿態估計：

其中??表示透視投影算子，僅使用靜態特征匹配進行計算。

相比傳統的 Structure-from-Motion，這種策略在動態城市場景中減少了 38% 的姿態誤差。最終得到的點云??將作為我們的幾何支架。?

帶動態編輯的 3D 視頻渲染

為了實現精確的輸入軌跡跟隨，我們的模型渲染了一段視頻作為生成過程的視覺引導。我們使用標準的投影幾何技術，將參考點云??投影到每個用戶提供的相機配置??上。每個 3D 點??經過剛體變換進入相機坐標系?，然后使用相機內參矩陣??進行透視投影，得到圖像坐標：

我們只考慮深度范圍在??米內的有效投影，并使用 z-buffering 處理遮擋，最終生成每個相機位置的渲染視圖?。

靜態渲染的局限性：由于我們只使用第一幀的點云，渲染的場景在整個序列中保持靜態。這與真實的自動駕駛場景存在顯著差異，因為在真實場景中車輛和其他動態目標始終在移動。靜態渲染無法捕捉區分自動駕駛數據集與傳統靜態場景的動態本質。

動態編輯：為了解決這一限制，我們提出動態編輯，以生成具有靜態背景和移動車輛的渲染結果?。具體來說，當用戶提供場景中移動車輛的一系列 2D 邊界框信息時，我們動態調整它們的位置，以在渲染中創建運動的錯覺。這種方法不僅在生成過程中引導自車軌跡，還控制場景中其他車輛的運動。圖 3 展示了這一過程。這種設計顯著減少了靜態渲染與真實動態場景之間的差異，同時實現了對其他車輛的靈活控制——這是現有方法如 Vista和 GAIA所不具備的能力。?

雙分支控制以實現時空一致性

雖然基于點云的渲染準確地保留了視圖之間的幾何關系，但它在視覺質量方面仍存在一些問題。渲染的視圖通常包含大量遮擋、因傳感器覆蓋有限而缺失的區域，以及相比真實相機圖像降低的視覺保真度。為了提升質量，我們采用了一個潛視頻擴散模型來細化投影視圖，同時通過特定的條件設置保持 3D 結構保真度。

在此基礎上，我們進一步優化了將上下文特征集成到預訓練擴散Transformer（DiT）中的方式，借鑒了 VideoPainter提出的方法。然而，我們引入了針對特定需求的關鍵區別。我們使用動態渲染來捕捉時間與上下文細節，為生成過程提供更適應性的表示。設??表示我們修改后的 DiT 主干層??的特征輸出，其中??表示通過 VAE 編碼器??得到的動態渲染潛變量，?是時間步??的噪聲潛變量。

這些渲染結果通過一個輕量級的條件編碼器處理，該編碼器提取關鍵背景線索，而不重復主干架構的大部分結構。將條件編碼器的特征集成到凍結的 DiT 中的方式如下：

其中??表示處理噪聲潛變量??和渲染潛變量??拼接輸入的條件編碼器，?表示 DiT 主干中的總層數。?是一個可學習的線性變換，初始化為零，以防止訓練初期出現噪聲崩潰。這些提取的特征以結構化方式選擇性融合進凍結的 DiT，確保只有相關的上下文信息引導生成過程。最終視頻序列通過凍結的 VAE 解碼器??解碼為?。?

實驗結果

結論

我們提出了 GeoDrive，這是一種用于自動駕駛的視頻擴散世界模型，通過顯式的米級軌跡控制和直接的視覺條件輸入增強了動作可控性和空間準確性。我們的方法重建了三維場景，沿著期望的軌跡進行渲染，并使用視頻擴散優化輸出。評估表明，我們的模型在視覺真實感和動作一致性方面顯著優于現有模型，支持諸如非自車視角生成和場景編輯等應用，從而設定了新的基準。

然而，我們的性能依賴于 MonST3R 對深度和姿態估計的準確性，僅依靠圖像和軌跡輸入進行世界預測仍具有挑戰性。未來的工作將探索結合文本條件和 VLA 理解以進一步提高真實感和一致性。

#車道線論文

Maptr v1/LaneGAP/Maptr v2/Map QR

高清地圖（HD Map）對于自動駕駛非常重要，它提供了關于駕駛環境的詳細信息，如車道標記、人行橫道和道路邊界等。傳統的高清地圖通常通過基于SLAM（即時定位與地圖構建）的方法離線構建，這些方法主要的缺點如下

成本高，有相關資質的公司少
更新不及時，路況可能隨時變化
容易與自車位置信息不一致，產生誤差。

所以實時的地圖生成成為了研究的重點，下面主要介紹幾篇這個方向上的經典論文。?

MapTR v1

過去傳統車道線檢測算法一般是基于分割，得到一系列散點，再利用模型進行后處理，將散點組成不同的車道線，通常需要聚類，匹配等算法，這個過程后處理一般比較重，往往需要2-3個全職的工程師維護這個過程，還伴隨著很多的超參數，通常需要很大的維護量。

MapTR最大的貢獻就是由模型直接出分割散點，變成了模型直接出車道線，減少了中間的后處理過程。?

創新點

等價排列建模->解決GT歧義問題；
分層查詢嵌入機制->更好的學習GT，先匹配車道線，再匹配車道線里面的點，降低學習難度；?

等價排列建模

MapTR的核心在于將車道線離散化成點集(論文中取的20個點)，如點(p1，p2,...p20)，用來表征一條完整的車道線，這樣產生了兩個問題

車道線（Polyline）：它是開放形狀的元素，可以從任意一端開始定義，這樣會產生兩種等價的排列方式。對于沒有方向的車道線，p1->p20是正確的GT，p20->p1也應該是正確的GT，解不唯一；
行人過道（Polygon）：它是閉合形狀的元素，每個點都可以作為起點，并且多邊形可以沿順時針或逆時針方向排列，這會導致多個等價的排列組合。

等價排序建模的核心思想是：對于每個地圖元素，不強制使用唯一的排列順序，而是允許所有等價排列。通過這種方式，模型可以在學習過程中處理不同排列方式的點集，而不會引入不必要的歧義。

等價排序建模

等價排序建模?

作用與效果

穩定的學習過程：由于不再強制模型使用唯一的排列，模型在訓練過程中對點集排列方式的選擇更加靈活，能夠適應不同形狀的地圖元素，避免了不必要的學習難度。
顯著的性能提升：通過消除排列歧義，MapTR 在實驗中表現出比使用固定排列的模型更高的性能。例如，文章提到使用等價排序建模后，模型的 mAP 提高了 5.9%，對行人過道的 AP 提升了 11.9%。?

分層查詢嵌入機制

在自動駕駛場景中，構建矢量化高清地圖需要同時關注地圖元素的整體結構（如行人過道的輪廓、車道線的走向）以及組成這些結構的精確點集（例如每個地圖元素的關鍵點）。傳統方法往往處理不夠高效，或是只能逐步預測點集（如使用自回歸解碼器的逐點生成方法），導致推理速度較慢。

為了解決這一問題，MapTR 提出了一個分層查詢嵌入機制，能夠通過分層的方式同時處理實例級別和點級別的信息，提升了效率和準確性。

分層查詢嵌入機制將地圖元素的表示分為兩層：

實例級別查詢（Instance-level Queries）：用于表示每個地圖元素的整體結構。
點級別查詢（Point-level Queries）：用于表示組成地圖元素的各個點的信息。

這兩類查詢結合起來，能夠有效編碼一個地圖元素的全局信息和局部細節。具體的公式化如下：

分層查詢嵌入機制

分層查詢嵌入機制?

LaneGAP

Lane Graph as Path：https://arxiv.org/pdf/2303.08815?

主要貢獻：

提出了一種基于路徑的車道圖建模方式：與傳統的像素或片段級別的車道建模不同，作者提出了一種基于路徑（Path-wise）的建模方式。該方法通過保持車道的連續性，更好地捕捉了道路拓撲結構，為自動駕駛中的軌跡規劃提供了更有效的信息。
LaneGAP框架的設計：作者提出了一個名為LaneGAP的在線車道圖構建方法。LaneGAP框架是端到端的，通過車載傳感器（如攝像頭和激光雷達）輸入數據來學習路徑，然后通過Path2Graph算法將路徑恢復成完整的車道圖。該方法保持了車道的連續性，并編碼了交通信息，以便為后續的規劃任務提供指導。
設計了新的圖形評估指標：為了公平地比較不同建模方法，作者提出了一個新的圖形中心評估指標，稱為TOPO metric，專門評估車道圖的連接性、方向性及其在交叉口等復雜區域的處理情況。該指標與不同的建模方法（像素級、片段級和路徑級）兼容。
實驗驗證了路徑級建模的優越性：作者通過在多個數據集（包括nuScenes和Argoverse2）上的定量和定性實驗，證明了LaneGAP方法在精度和推理速度上優于現有的基于像素和片段的車道圖建模方法。此外，LaneGAP還在OpenLane-V2數據集上擊敗了最新的片段建模方法TopoNet，在mIoU指標上提升了1.6，進一步證明了路徑級建模的有效性。?

基于路徑的車道圖建模方式

傳統的車道圖構建方法大致可以分為像素級（Pixel-wise）和片段級（Piece-wise）兩類：

像素級方法(Pixel-wise Modeling)：

流程：首先通過鳥瞰圖視角（BEV）的像素級特征圖來預測車道的分割圖和方向圖。然后，通過一些啟發式的后處理步驟（如細化算法）從分割圖中提取車道的骨架，最后將這些細化后的像素骨架連接成車道圖。
優點：這種方法可以直接處理圖像的每一個像素，適用于簡單的車道環境，在某些場景下可以得到較高分辨率的結果。
缺點：由于像素級方法依賴于復雜的后處理步驟，這些步驟非常耗時，且在處理復雜路口或拓撲結構時容易失效（如連接點丟失、骨架不完整）。此外，生成的車道容易出現破碎和不連續的現象。

片段級方法(Piece-wise Modeling):
流程：車道首先被劃分為多個小段（例如在車道分叉點或匯合點處進行分割），然后預測這些車道片段之間的連接關系。最后，基于這些片段和它們之間的連接關系，通過后處理步驟（Piece2Graph算法）將它們拼接成完整的車道圖。
優點：這種方法試圖捕捉車道的拓撲結構，特別是在處理交叉路口時，它可以通過片段連接的方式構建較為復雜的車道圖。
缺點：該方法的核心問題是車道片段之間的連接預測困難，特別是在復雜的道路環境中，片段容易丟失，導致片段間的連接性不好。由此生成的車道圖通常是不完整或碎片化的，車道連續性難以保證。
基于路徑的建模方式（Path-wise Modeling）
高效的圖構建：由于不需要復雜的后處理步驟（如像素細化或片段連接），路徑建模方法可以更快地生成車道圖，同時減少了不連續性或連接失敗的問題。
適用于復雜場景：路徑級方法特別適合處理復雜的路口和車道拓撲，因為它通過完整路徑的方式捕捉了交通流動的連續性。
流程：首先，車道圖通過一個新的算法Graph2Path被分解為一系列連續的路徑，而不是分割成小的片段。然后，通過路徑檢測模型來檢測完整的路徑，并通過Path2Graph算法將這些路徑還原為完整的車道圖。
優點：保持車道的連續性：這種方法能夠保持車道的全局連續性，不像像素級和片段級方法那樣容易破碎或丟失片段。
缺點：路徑級建模的挑戰在于精確檢測完整路徑的難度，特別是在復雜的交通場景或環境不確定時，可能會對路徑的檢測提出更高要求。

三種車道線建模方式對比

總結?

MapTR v2

算法結構圖

算法結構圖?

主要貢獻：

解耦自注意力機制：大大降低了內存消耗并帶來了收益，為了降低計算和內存成本，MapTRv2引入了分離的自注意力機制，在實例維度和點維度上分別進行注意力計算，顯著減少了內存消耗，同時提高了性能。
一對多匹配：在訓練過程中，除了基本的單一匹配外，MapTRv2還引入了一對多匹配分支，增加正樣本比例，進一步提高了模型的學習效率。
輔助loss：對透視圖和鳥瞰圖都采用了輔助稠密監督，顯著提高了性能。
拓展到中心線學習：MapTRv2將MapTR擴展到中心線建模和學習，這對于下游運動規劃非常重要。
支持3D車道線檢測：將框架擴展到3D地圖構建(會議版本學習2D地圖)，并在Argoverse2數據集上提供額外的實驗。?

1.解耦自注意力機制

在標準自注意力機制中，計算復雜度是?，如下圖1所示：

其中

?是實例查詢（instance queries）的數量；
?是每個實例中點查詢（point queries）的數量。

通過解耦自注意力機制，計算復雜度降低為?，如下圖3所示。

解耦自注意力機制

解耦自注意力機制?

2.一對多匹配（One-to-Many Matching）

是為了加速訓練收斂而引入的一種技術。在這種機制下，通過為每個真實的地圖元素分配多個預測元素，可以提高正樣本的比例，從而提高模型訓練的效率。

在標準的一對一匹配（One-to-One Matching)中，每個真實地圖元素（Ground Truth, GT）被分配給一個預測元素。這種方法雖然有效，但在實際訓練過程中，由于數據稀疏，正樣本的數量較少，導致模型收斂較慢。為了增加正樣本數量，加速模型的收斂過程，作者引入了一對多匹配機制。

一對多匹配的核心思想是為每個真實的地圖元素生成多個預測元素，并通過與多個預測結果進行匹配，增加正樣本的比例。這種方式在Transformer架構中非常適合，因為模型可以并行地處理大量查詢（queries）。?

具體實現

第一步：使用一對一匹配組進行標準的匈牙利匹配，生成一對一的匹配結果。
第二步：將真實地圖元素重復 K 次，形成一對多匹配組，并對這些副本與預測實例進行匹配。
第三步：使用一對一和一對多匹配的結果計算總損失，并優化模型。

一對多匹配通過為每個真實地圖元素生成多個預測副本，增加了正樣本的比例，從而加快了模型的訓練收斂。這種技術特別適合于在線地圖構建任務中，因為它能夠顯著提高模型的訓練效率，同時保持甚至提升模型的性能。?

輔助loss

本文提出了三種輔助損失，分別是：

深度預測損失（Depth Prediction Loss）
鳥瞰圖分割損失（BEV Segmentation Loss）
透視視圖分割損失（PV Segmentation Loss）

輔助loss

輔助loss?

剝離分析結果

Map QR

《Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction》2024 ECCV

??https://arxiv.org/pdf/2402.17430???

主要貢獻：

創新的查詢設計：提出了散射-聚合查詢（Scatter-and-Gather Query），將查詢顯式地分為內容部分和位置部分。不同于傳統方法對每個點分別進行位置預測，MapQR通過實例查詢一次性預測多個點位置，利用位置信息加強對地圖實例的構建。降低了運算復雜度。
性能提升：在多個在線地圖構建基準數據集（如nuScenes和Argoverse 2）上，MapQR在保持高效的同時，達到了最佳的平均精度（mAP），超越了現有的最新方法。?

散射-聚集查詢機制（Scatter-and-Gather Query）

查詢類型的區別

MapTR：每個點查詢只負責預測一個位置，它們獨立于其他點進行信息探測和預測。雖然所有點最后被組合成一個完整的地圖元素，但點查詢之間沒有共享信息，導致每個點的內容信息較為分散，缺乏全局性。
MapQR（SGQ）：散射-聚合查詢通過實例查詢將整個地圖元素的點信息統一管理，所有點共享相同的內容信息但具有不同的位置信息。這種設計確保了地圖元素的全局一致性，使得預測的每個點可以更好地捕捉到整個地圖元素的特性。

計算復雜度的區別

MapTR：由于MapTR使用獨立的點查詢，計算自注意力（Self-Attention）的復雜度是，其中 N 是地圖元素的數量，n 是每個元素中的點數量。隨著查詢數量的增加，計算復雜度會大幅上升。
MapQR（SGQ）：散射-聚合查詢的設計減少了點查詢的數量，僅需對實例查詢進行自注意力計算，計算復雜度為。因此，相比MapTR，SGQ在處理大規模查詢時更加高效，計算成本和內存消耗更低。

位置信息建模的區別

MapTR：位置信息是通過每個點的查詢獨立學習的。這種方式容易導致同一個地圖元素內的不同點預測出現不一致的情況，尤其在復雜幾何結構中，點預測可能會缺乏整體性。
MapQR（SGQ）：SGQ通過參考點（Reference Points）顯式建模位置信息，所有子查詢的位置信息由這些參考點生成并嵌入。這種位置信息的顯式建模不僅提升了每個點的準確性，還確保了整個地圖元素的幾何形狀更加完整和準確。

1.實例查詢的定義

每個地圖元素（如車道線、道路邊界）被一個實例查詢（Instance Query,）表示。這個查詢包含：

內容信息（Content Information）：用于描述地圖元素的幾何和語義屬性。
位置信息（Positional Information）：用于定位地圖元素的具體點位。

2. 散射操作（Scatter Operation）

在散射階段，實例查詢被復制為多個子查詢 qscai,，這些子查詢共享相同的內容信息，但具有不同的位置信息：

其中：

i表示第 i個地圖元素。
j表示第 j 個點位。
n是地圖元素中的點的數量。

3. 位置嵌入（Positional Embedding）

每個子查詢?通過參考點（Reference Points,）生成位置信息。位置信息是通過參考點的坐標（,）生成并嵌入查詢中：

其中：

PE(x)是位置信息x的正弦嵌入。
LP是線性變換，用于對位置嵌入進一步處理。

4. 信息交互（Cross-Attention）

散射的子查詢?和輸入特征圖（BEV特征圖，）進行交互，提取位置信息相關的特征：

5. 聚合操作（Gather Operation）

在聚合階段，散射的子查詢被重新聚合成一個完整的實例查詢。通過將所有子查詢的結果拼接，并通過MLP進行處理：

其中：

concat 是將所有子查詢的結果拼接。
MLP 是多層感知機，用于聚合子查詢。

6. 完整計算流程

完整的散射-聚合查詢過程可以表示為：

與其他方法比較

與其他方案比較

#GVPO

港科技GVPO：理解GRPO，超越GRPO

TL;DR: 我們提出了GVPO，優勢:(1)唯一最優解恰好是KL約束的reward最大化最優解(2)支持多樣化采樣分布，避免on-policy和重要性采樣帶來的各種問題

隨著Deepseek的火爆，其中用到的強化學習算法GRPO也引起了廣泛關注。GRPO通過對每一個prompt多次采樣，避免了額外訓練value model的開銷。盡管如此，實踐中復現GRPO經常表現出訓練不穩定、效果表現不佳等癥狀。為此我們提出了GVPO(Group Variance Policy Optimization), 可以無縫適配現有GRPO框架并取得更好的表現、更穩定的訓練并支持更豐富的數據來源。

動機

受到DPO的啟發，我們也希望在GRPO場景(每個prompt多次采樣)下利用KL約束的reward最大化

的解析解形式：

然而這里有一個問題在于公式里的Z(x)是對所有可能y的期望，在實踐中難以計算。為此，我們發現當一個prompt內所有采樣的梯度系數加和為0時，Z(x)可以被消掉。

GVPO

受此啟發，我們提出了GVPO：

我們證明GVPO具有非常好的物理性質。具體來說

第一步是因為??可以被消掉。第二步是因為?。第三步是因為?。

由此可見，GVPO 居然本質是一個 MSE loss！(喜) 其中??是 MSE 的預測值，?是 MSE 的真實值。

理論保證

基于這個變形，我們很容易（注意到.jpg）證明GVPO的理論最優解恰好是KL約束的reward最大化的最優解，即,?。。

這個定理保證了GVPO實踐中的有效性和穩定性。

上式中??是依慣例從要對齊的 policy??中采樣，在實踐中即??或?。我們接下來可以證明，GVPO 支持從更廣泛的分布中采樣，且依然保持最優解性質。

在實踐中由softmax decoding的policy都滿足這個定理的要求。這意味著，GVPO支持非常廣泛的采樣分布：

GVPO支持非常廣泛的采樣分布

接下來我們正式展示GVPO的算法流程：

注意到GVPO的每個step中，對齊的都是上一個step的policy。我們還證明了，GVPO在n步結束后，依然能夠對齊最初的policy:

定理3可以保證GVPO的每一步更新都是穩定的（因為具有一個大約束?），且最終優化可以“走得更遠”（最終對齊的是?）。

除此之外，文章中還證明了采樣得到的loss是??的無偏一致估計量，進一步保證了算法的性能。

與DPO的比較

GVPO與DPO一樣，都利用到了KL約束的reward最大化的解析解。DPO是利用BT模型，兩兩相減消去了不可計算的?。而GVPO則是利用了?? 的性質而適用于多response的情況。這兩個算法利用解析解帶來了兩個好處： ?（1）保證了算法優化過程的穩定性，?不會過分偏離?? （2）將一個同時有policy??和reward??的復雜優化，簡化成了只有reward??和??的簡單優化。

除此之外，GVPO和DPO相比還有一個重要的理論優勢。DPO其實不一定具有唯一的最優解，換句話說KL約束的reward最大化的解可能只是DPO眾多最優解中的一個。這源于DPO依賴的BT模型的內生缺陷。這個問題會導致，優化DPO目標不一定會隨之優化我們真實想要的目標（即KL約束的reward最大化）。而GVPO則由定理1證明了其唯一解的性質。

與GRPO及Policy Gradient Methods比較

我們先比較GVPO與其余算法的結構相似性。為了簡潔我們在這一節假設=1。我們將展開并稍作變換可以得到其在梯度上等價于

可以發現GVPO的loss里一共有三項：

GVPO里隱含的正則項

我們進一步比較GVPO和Policy Gradient Methods更深層次的區別。實踐中，Policy Gradient Methods為了保證更新的穩定性，會在最大化reward的過程中使用KL散度的懲罰限制偏離的程度，即：

這帶來一個問題，即必須從當前的policy中采樣，帶來低采樣效率的問題。作為一種解決方式，可以引入重要性采樣：

重要性采用使得可以從之前的policy中采樣。然而其中帶來了重要性采樣系數

，當和差別較大時會帶來梯度爆炸或者梯度消失等問題。PPO和GRPO等算法在實踐中采用了clip技術，強制限制重要性采樣系數不要過大或過小。但因此，clip會導致無偏性消失并帶來各種各樣的問題。

作為對比，GVPO就沒有這些問題，因為GVPO從一開始就不需要on- policy采樣。將上述Policy Gradient Methods內減去一個常數可以得到：

作為對比，GVPO的梯度是：

由此可見帶KL約束的Policy Gradient Methods其實是GVPO當?=?的一種特例！這也體現出GVPO能將采樣分布解耦帶來的優勢：一方面避免了on-policy樣本利用率低的缺點，另一方面也避免了現有off-policy方法的重要性采樣帶來的缺點。

總結

本文的封面概括了GVPO的核心內容：

藍色部分。我們從梯度權重w出發設計了GVPO loss，通過與policy gradient對比，體現了GVPO具有采樣豐富性的優勢。
紅色部分。GVPO可以表示成真實reward和隱式reward的MSE形式。從MSE形式可以進一步推導出GVPO理論唯一最優解的優良性質。
黃色部分。通過拆解GVPO loss，可以從正則項的角度說明GVPO的穩定性。

此外，GVPO的實現十分簡單，文章中展示了在verl框架下如何只修改幾行代碼實現GVPO。

這篇論文的標題是:?GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

arxiv鏈接：GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

#RoboRefer

面向機器人空間推理參照的三維感知視覺語言模型~

在機器人與三維物理世界的交互中，空間指代表達（Spatial Referring）是實現智能操控的核心能力。機器人需要理解如"抓取位于最左側杯子標志面正前方的蘋果"這類包含復雜空間約束的指令，并在動態場景中定位目標位置。盡管預訓練視覺語言模型(VLMs)已展現出強大的跨模態理解能力，但現有方法在處理三維場景時仍存在兩大局限：一是缺乏對深度信息的有效整合，二是難以應對多步空間推理任務。

當前多數研究集中于單步空間理解，如識別物體的相對位置或距離，但對"先定位最近的桌子，再將蘋果沿原行列對齊放置"這類需要多階段推理的任務支持不足。此外，現有模型在處理三維輸入時面臨兩難：要么依賴昂貴的多視圖三維重建導致模態差異，要么將深度作為RGB類似輸入處理，造成模態干擾。同時，缺乏大規模多步推理數據集和專用評估基準，嚴重制約了模型在復雜空間任務中的發展。?

核心方法與模型設計?

RoboRefer架構創新

RoboRefer作為首個支持三維感知與多步推理的VLM，其架構設計突破傳統模型局限：

雙模態獨立編碼器
采用分離的RGB和深度編碼器，避免共享編碼器導致的模態干擾。深度編碼器基于SigLIP模型初始化，專門處理深度圖中的距離、遠近關系等三維線索，在保留RGB編碼器預訓練能力的同時，增強三維空間感知精度。這種設計確保深度信息不會干擾RGB分支的視覺理解，同時通過獨立優化提升三維線索的提取能力。

SFT+RFT兩階段訓練

監督微調(SFT)：首先通過深度對齊訓練投影層，將深度特征映射至語言空間，確保深度模態與語言空間的語義一致性；再利用RefSpatial數據集聯合優化RGB和深度分支，提升單步空間理解能力。這一階段著重讓模型掌握基礎的空間感知能力。
強化微調(RFT)：引入組相對策略優化(GRPO)，設計度量敏感的過程獎勵函數，引導模型分解復雜任務為有序推理步驟。通過強化學習，模型能夠學習如何將多步空間推理任務拆解為可處理的中間步驟，逐步提升推理能力。

點預測任務formulation
將空間指認轉化為圖像空間的2D點預測(x,y)，相比傳統邊界框方法更適合機器人操控。該設計可自然映射至三維坐標，支持導航、抓取等下游任務，為機器人的精準操作提供了基礎。?

RefSpatial數據集與基準構建

為支撐模型訓練與評估，研究團隊構建了：

大規模多源數據集RefSpatial

規模：250萬樣本，2000萬問答對，較之前數據集翻倍，為模型訓練提供了充足的數據支撐。
多樣性：包含31種空間關系（如前后、遠近、旋轉角度），支持最多5步推理過程，覆蓋了機器人在實際應用中可能遇到的各種空間關系場景。
數據來源：

2D網絡圖像：通過偽三維場景圖生成空間概念，幫助模型建立初步的空間認知。
3Dxx視頻：從CA-1M提取精細室內空間關系，提升模型對真實室內環境的理解。
模擬場景：使用Infinigen生成可控推理數據，便于設計復雜的多步推理任務。

多步推理基準RefSpatial-Bench
包含200張真實場景圖像，70%樣本需3-5步推理，標注有精確掩碼。其中77個樣本包含訓練中未見的空間關系組合，專門測試模型泛化能力，填補了多步空間推理評估的空白。?

強化學習與獎勵機制設計

在RFT階段，通過四類獎勵函數引導推理過程，確保模型能夠逐步優化推理步驟：

結果獎勵

格式獎勵(R_OF)：要求推理步驟遵循"感知類型"格式，確保輸出結構化，便于模型學習正確的推理流程和表達方式。
點L1獎勵(R_P)：預測點與真實點距離<50像素時獲滿分，量化定位精度，直接衡量模型的空間定位能力。

過程獎勵

精度獎勵(R_Acc)：對關鍵步驟的位置(L1距離)、方向(余弦相似度>0.8)、尺寸(±15%誤差)進行度量，確保模型在每一步推理中都能保持較高的精度。
流程獎勵(R_PF)：強制中間結果包含感知類型標注，如"Position: (0.341, 0.610)"，幫助模型明確推理過程中的每一步操作和目標。

組合獎勵函數為?，通過組內獎勵歸一化計算相對優勢，避免梯度偏差，使模型能夠在訓練過程中不斷優化推理策略。?

實驗結果與性能分析?

單步空間理解能力

在CV-Bench、BLINK等基準測試中，RoboRefer-SFT展現出顯著優勢，證明了其在基礎空間感知任務上的強大能力：

深度信息增益：使用RGB-D輸入時，3D深度任務準確率提升7.33%，證明獨立深度編碼器的有效性。深度信息的加入顯著提升了模型對三維空間的理解能力，使其能夠更準確地處理與深度相關的任務。
模型規模優勢：8B參數模型較2B版本在復雜任務上平均提升3.2%，體現參數量對空間推理的增益。更大的模型規模能夠捕捉更復雜的空間特征和關系，進一步提升模型性能。?

多步空間推理性能

在RefSpatial-Bench上，RoboRefer-RFT大幅超越基線模型，展示了其在多步推理任務中的卓越能力：

推理步驟優勢：在5步推理任務中，RFT模型比SFT版本提升9.1%，證明強化學習對多階段推理的有效性。通過強化學習，模型能夠更好地處理多步驟、復雜的空間推理任務，逐步逼近正確結果。
泛化能力驗證：對訓練中未見過的空間關系組合，2B-RFT模型準確率達41.56%，超出Gemini-14.4%。這表明模型具有較強的泛化能力，能夠應對訓練中未接觸過的新場景和關系組合。?

真實機器人應用

RoboRefer在模擬器與實體機器人上展現實用價值，為其實際應用奠定了基礎：

模擬環境表現
在Open6DOR V2基準中，RoboRefer成功率達79.2%，較SoFar提升6.8%，且執行時間縮短27.5%，證明模型效率優勢。這意味著模型不僅能夠準確完成任務，還能在效率上滿足實際應用的需求。

實體機器人實驗

UR5機械臂：完成"拾取離相機最近杯子附近的漢堡并放置在泰迪熊前"任務，成功率80%。該實驗展示了模型在實際機械臂操控中的應用能力，能夠指導機械臂完成復雜的抓取和放置任務。
G1人形機器人：在動態環境中執行"沿蘋果原行列對齊放置"任務，支持移動操作與環境適應。這表明模型能夠適應不同類型的機器人，并在動態環境中保持良好的性能。?

參考

[1] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

#GaussianFusion

端到端SOTA！中山大學GaussianFusion：高斯建模讓自動駕駛感知-規劃一體化效率飆升~

中山大學團隊的工作，開閉環的效果都還不錯。利用高斯表征和擴散端到端的方法結合在一起，最終效果比DiffusionDrive要好一些。

多傳感器融合對于提高端到端自動駕駛系統的性能和魯棒性至關重要。現有方法主要采用基于注意力的扁平化融合或通過幾何變換的鳥瞰圖融合。然而，這些方法通常在可解釋性上有限或計算開銷較大。本文中，我們介紹了GaussianFusion，這是一種基于高斯的端到端自動駕駛多傳感器融合框架。我們的方法使用直觀緊湊的高斯表示作為中間載體，以聚合來自不同傳感器的信息。具體來說，我們在駕駛場景中均勻初始化一組二維高斯分布，每個高斯分布由物理屬性參數化，并配備顯性和隱性特征。這些高斯分布通過集成多模態特征逐步優化。顯性特征捕捉交通場景的豐富語義和空間信息，而隱性特征則提供對軌跡規劃有益的補充線索。為了充分利用高斯分布中的豐富空間和語義信息，我們設計了一個級聯規劃頭，通過與高斯分布的交互迭代地精煉軌跡預測。在NAVSIM和Bench2Drive基準上的廣泛實驗表明了所提出的GaussianFusion框架的有效性和魯棒性。

論文鏈接：https://arxiv.org/abs/2506.00034
開源代碼：https://github.com/Say2L/GaussianFusion?

引言

端到端（E2E）自動駕駛因其通過深度學習直接將傳感器輸入映射為駕駛動作的潛力而受到越來越多的關注。這一范式減少了系統復雜性，并實現了跨任務的聯合優化。然而，僅依賴單一傳感器往往限制了系統處理多樣化和挑戰性駕駛場景的能力。為了解決這一局限性，多傳感器融合變得至關重要，因為它允許模型利用來自不同傳感器（如攝像頭、激光雷達和雷達）的互補信息。這種集成增強了感知的可靠性，并為學習穩健的駕駛策略提供了更豐富的輸入。

在端到端自動駕駛中現有的多模態融合策略大致可分為兩類：扁平化融合和鳥瞰圖（BEV）融合。扁平化融合方法通常將傳感器特征（如圖像和激光雷達點云特征）壓縮到一個共享的潛在空間中，在該空間中使用注意力機制進行特征交互，如圖 1(a) 所示。這些方法因其靈活性和效率而具有吸引力，通常只需要最小的幾何校準。然而，由于缺乏明確的空間定位在三維空間中的解釋性有限，使得它們在需要精確空間推理的場景中效果不佳。

相比之下，BEV 融合方法將多模態特征投影到一個通用的 BEV 坐標系中，利用幾何先驗對齊來自不同傳感器的數據，如圖 1(b) 所示。這促進了結構化的空間理解，并提高了下游感知任務（如三維物體檢測和地圖構建）的性能。然而，由于 BEV 表示的密集性質，特別是當涉及高分辨率輸入或細粒度特征時，BEV 融合會帶來顯著的計算和內存開銷。因此，在復雜的駕駛環境中開發能夠在空間感知、效率和可擴展性之間取得平衡的融合框架仍然是一個持續的挑戰。

最近，三維高斯分布在基于相機的三維場景表示和重建中獲得了關注，因為它們具有物理可解釋性、緊湊性和固有的稀疏性。這些特性使它們成為自動駕駛中多傳感器融合的有希望的候選者，在這里效率和結構化的空間理解是關鍵。然而，在這個背景下應用高斯表示引入了幾個挑戰。首先，由于現有的 E2E 駕駛數據集中缺乏細粒度的三維場景注釋，很難有效地監督高斯參數。其次，現有方法主要集中在三維場景表示，留下了其在運動規劃任務中的適用性未充分探索。第三，高效地利用高斯表示進行準確的軌跡生成需要仔細的架構設計。解決這些問題對于在 E2E 自動駕駛框架中啟用基于高斯的表示至關重要。

考慮到上述創新和考慮因素，我們提出了 GaussianFusion，一種基于高斯的用于 E2E 自動駕駛的多傳感器融合框架。我們的方法利用二維高斯來表示交通場景，與三維高斯相比提高了效率。值得注意的是，二維高斯只需要從 BEV 語義圖中獲得監督，這在 E2E 數據集中廣泛可用。為了將融合過程定制到運動規劃任務，我們設計了一個雙分支融合管道。第一個分支捕獲每個高斯的多傳感器輸入的局部特征，主要用于交通場景重建。第二個分支從相同的輸入中聚合全局規劃線索，并專門用于運動規劃。此外，為了充分利用高斯表示的表征能力，我們引入了一個級聯規劃模塊，該模塊通過以級聯方式查詢高斯表示來精煉錨定軌跡。

我們在面向規劃的 NAVSIM 數據集上評估了 GaussianFusion。使用與之前方法一致的 ResNet-34 骨干網絡，我們的方法達到了 85.0 EPDMS和 88.9 PDMS，顯著超越了當前最先進的方法。為了進一步評估我們框架的泛化性和魯棒性，我們在閉環基準 Bench2Drive上進行了實驗，結果一致表明了 GaussianFusion 的有效性。本工作的主要貢獻總結如下：

首次將高斯表示引入到用于 E2E 自動駕駛的多傳感器融合領域，并提出了一種針對以規劃為中心的任務的雙分支融合管道。
設計了一個專門適應于高斯表示的級聯規劃頭，該頭通過分層高斯查詢迭代地精煉軌跡。
在開環 (NAVSIM) 和閉環 (Bench2Drive) 基準上的廣泛評估表明了 GaussianFusion 的優越性能和魯棒性。?

算法詳解

端到端（E2E）自動駕駛的目標是直接從原始傳感器輸入中預測自車的未來軌跡。形式上，給定多視角圖像?、LiDAR點云??和變換矩陣?，目標是預測自車軌跡?，其中?、、、?和??分別表示視角數量、圖像分辨率、點的數量、時間??處的航路點坐標和規劃視野。

GaussianFusion的整體框架如圖2所示。它可分為三個階段：(1) 高斯初始化；(2) 高斯編碼器：來自多傳感器的高斯；(3) 高斯解碼器：高斯到場景推理。

高斯初始化

由于自動駕駛車輛主要在平面上運行，因此二維高斯足以建模交通場景。具體來說，我們在駕駛場景中隨機生成一組二維高斯分布?，其中??表示預定義的高斯數量。每個高斯由物理屬性和隱藏特征共同表征。物理屬性包括均值?、尺度?、旋轉??和語義logits?，其中??是語義類別的數量。旋轉??使用其正弦和余弦分量表示。隱藏特征包括顯性和隱性特征，它們通過兩個獨立的分支進行更新。?

高斯編碼器：來自多傳感器融合的高斯

為了學習有意義的高斯表示，我們首先利用兩個獨立的骨干網絡從圖像和LiDAR點云中提取多尺度特征。然后這些特征用于迭代地優化高斯的物理屬性和隱藏特征。每次迭代包括一個點交叉注意力模塊、一個圖像交叉注意力模塊、一個高斯自注意力模塊和一個優化模塊。每個高斯的隱藏特征分為顯性和隱性兩部分，各自承擔不同的角色。顯性特征通過顯性的幾何變換從多傳感器輸入的局部區域導出，并負責更新高斯的物理屬性。相比之下，隱性特征與全局多傳感器特征交互，不依賴于幾何變換，僅用于軌跡規劃。?

point交叉注意力：來自點的高斯

采用點交叉注意力（PCA）模塊來提取點特征中的信息。具體而言，對于每個高斯?，我們生成一組查詢點?，其中??表示第??個查詢點的位置，?是查詢總數。查詢集包括固定和可學習點：固定查詢基于每個高斯的協方差矩陣分布在高斯周圍，而可學習查詢則限制在高斯內部。

給定多尺度點特征圖?，其中??表示第??個尺度特征圖的分辨率，?是尺度數，我們應用一個可變形注意力層來聚合這些特征并更新高斯的顯性特征：

其中??表示使用多尺度點特征更新的顯性特征，?表示??中的第??個點，?表示可變形注意力。對于隱性特征，我們使用一個普通的交叉注意力[38]與最后一個尺度點特征??進行交互：

其中??表示更新的隱性特征，?指交叉注意力層。為簡潔起見，我們在公式中省略了殘差連接和前饋網絡（FFN）組件。更新后的高斯表示為?。請注意，為了清晰起見，我們以單個高斯為例說明該過程。?

圖像交叉注意力：來自圖像的高斯

為了整合來自多視角圖像的視覺信息，我們采用了一個圖像交叉注意力（ICA）模塊。類似于PCA模塊，ICA為每個高斯生成固定和可學習查詢點。然而，這些查詢還包含高度信息以實現向圖像平面的投影。具體而言，我們首先生成與PCA模塊中使用的相同的二維查詢點?。對于每個二維查詢位置，我們沿垂直軸均勻采樣??個柱狀點。每個柱的底部固定在?，頂部由一個可學習變量??參數化，其中??和??定義了交通場景的垂直邊界。這導致了一組三維查詢點?。給定由圖像主干提取的多尺度圖像特征圖?，其中??表示第??個尺度特征圖的分辨率，?是相機視角的數量，高斯的顯性和隱性特征計算如下：

其中??表示??中的第??個三維查詢點。遵循PCA模塊，我們獲得更新的高斯表示?。?

高斯優化模塊

在聚合了多模態特征的信息后，我們進一步優化高斯表示。具體來說，我們采用兩個獨立的自注意力層來建立所有高斯之間的交互——一個用于顯性特征，另一個用于隱性特征：

其中??表示第??個高斯的位置嵌入，?和??分別指自注意力和位置嵌入層[31]。隨后，根據[17]，我們采用一個多層感知機（MLP）基于其顯性特征優化高斯的物理屬性：

上述高斯編碼器被迭代應用以優化高斯表示。最終更新的高斯傳遞給高斯解碼器，執行映射和規劃等下游任務。?

高斯解碼器：高斯到場景推理

為了有效調節二維高斯，我們設計了一個包含兩個組件的高斯解碼器：地圖構建和級聯規劃。地圖構建模塊顯式重建交通場景，提供反向傳播梯度以指導高斯編碼器優化物理屬性和顯性特征。按照[16]，我們使用概率高斯疊加實現此模塊；更多細節見附錄A。級聯規劃模塊以級聯方式生成軌跡預測，其中每個后續輸出基于前一個進行優化。除了利用顯性特征外，它還結合了從高斯隱性融合分支獲得的隱性特征。?

級聯規劃

我們采用基于錨點的規劃策略，該策略基于數據集中觀察到的軌跡分布構建錨點軌跡詞匯表。給定從高斯編碼器獲得的高斯集合，我們以級聯方式細化錨點軌跡?，其中??表示規劃視野和軌跡點數。以單個錨點軌跡??為例，我們首先計算其每個軌跡點與所有高斯之間的距離。對于每個點，我們選擇其最近的??個高斯，形成一個高斯子集?。通過查詢這個高斯集獲得錨點特征?：

其中??表示交叉注意力層，?表示將錨點軌跡??編碼成初始查詢特征??的嵌入層。術語??和??分別指高斯??的顯性和隱性特征，?表示它們的拼接。可以從最新的高斯??解碼交通地圖和周圍代理，使??成為交通場景的全面表示。因此，我們采用一個交叉注意力層來建立錨點特征??和??的隱藏特征之間的交互。更新后的軌跡??如下獲得：

軌跡以級聯方式細化，當前階段的輸出軌跡??用作后續階段的錨點輸入，迭代重復 Eq.6 和 Eq.7 描述的步驟（分別稱為高斯空間注意力和高斯交叉注意力）。?

實驗結果分析

在NAVSIM和Bench2Drive基準上評估模型。?

實現細節

對于 NAVSIM 基準，我們使用 NAVSIM 訓練分割進行訓練。對于 Bench2Drive 基準，訓練數據遵循 TF++的 "12 only" 設置。我們利用前、左前和右前攝像頭以及 LiDAR 點云輸入。相機圖像裁剪至分辨率為 448 × 250。LiDAR 點投影到 BEV 平面，方法與 TransFuser相同。為了與先前工作進行公平比較，我們采用 ResNet-34作為主干網絡。在我們的主要實驗中，高斯數設置為 512，每個高斯特征維度為 128。我們采用 4 個 GaussianEncoder 塊和 2 個級聯規劃塊。錨定軌跡的數量按照 [30] 設置為 20。值得注意的是，為了提高效率，在推理過程中，GaussianDecoder 中的地圖構建模塊被斷開。訓練使用 AdamW 優化器進行，共 50 個周期，權重衰減為 1 × 10?4，最大學習率為 6 × 10?4，并遵循余弦退火調度進行學習率衰減。超參數分析見附錄 C。?

與SOTA對比?

NAVSIM 上的結果

我們在 NAVSIM navtest 分割上對 GaussianFusion 進行基準測試，與領先的最先進（SOTA）方法進行比較。為了確保公平比較，所有模型均使用 ResNet-34作為主干網絡。如表 1 所示，我們的方法實現了 85.0 EPDMS。需要注意的是，EPDMS 通過引入更細微的駕駛標準，比 PDMS 提出了更嚴格的挑戰。進一步觀察發現，大部分提升來自于可駕駛區域合規性（DAC）和車道保持（LK）子指標，這表明 GaussianFusion 在復雜環境中能夠實現更穩定和情境感知的行為。同樣，我們的方法顯著優于以前的方法，尤其是在 DAC 和自車進展（EP）等關鍵子指標上。這些結果一致地證實了我們的方法在多種評估協議下的魯棒性和有效性。

Bench2Drive 上的結果

我們進一步在閉環基準 Bench2Drive 上進行實驗，以將我們的方法與現有的 SOTA E2E 方法進行比較。如表 2 所示，我們的方法 GaussianFusion 實現了最佳的整體性能（79.4 DS），超過了所有基于學習的基線方法。它在各種任務中表現出均衡的優勢，特別是在超車和交通標志合規性方面。與基于規則的特權方法 PDM-Lite 相比，我們的方法仍然在一定程度上有所不足，這表明端到端自動駕駛方法仍有很大的改進空間。

消融研究?不同組件的效果

為了了解 GaussianFusion 中每個設計選擇的影響，我們通過逐步添加高斯顯性融合（Gaussian Exp. Fusion）、高斯隱性融合（Gaussian Imp. Fusion）、級聯規劃頭（Cascade Planning）和代理預測頭（Agent Pred.）到 TransFuser 基線中來進行受控消融研究。結果如表 3 所示。引入高斯顯性融合導致 EPDMS 顯著增加了+2.4，同時減少了參數數量。添加高斯隱性融合進一步將性能提升至 84.5 EPDMS，僅略微增加參數數量。此外，包含級聯規劃頭將得分推高至 85.0 EPDMS，設置了一個新的記錄，總參數數量與基線相當。這些發現證實了我們的架構組件在不顯著增加模型復雜性的情況下提供強大的性能提升。最后，我們觀察到加入代理預測頭會降低性能。我們認為這是因為代理預測任務未能為高斯優化過程提供有效的指導，反而引入了模糊性——我們稱之為高斯混淆。鑒于語義地圖已經編碼了足夠的代理相關信息，我們在最終設計中移除了代理預測頭。

不同多傳感器融合方法

表 4 展示了各種多傳感器融合方法在模型參數、語義地圖構建、軌跡規劃和推理延遲方面的綜合比較。延遲是通過 RTX3090 測量的。為了確保公平比較，所有方法都采用相同的主干網絡和任務頭。我們提出的方法 GaussianFusion 在語義地圖構建和軌跡規劃方面均取得了最佳性能，同時使用最少的參數，突出了我們的融合策略的有效性和高斯表示在自動駕駛中的潛力。受益于高斯表示的稀疏性，GaussianFusion 在推理速度上也優于密集 BEV 融合方法。然而，盡管使用較少的參數，其延遲仍然高于扁平融合方法。我們將此歸因于我們實現中的定制 CUDA 操作，目前這些操作不如原生 PyTorch 操作優化。

定性比較

為了直觀理解高斯編碼器中的優化過程，我們可視化了不同優化階段的高斯空間分布，如圖 3 所示。在初始階段，高斯在整個場景中均勻分布。隨著優化的進行，它們逐漸向前景區域收斂。這種行為突出了高斯表示的優勢，它提供了比傳統密集 BEV 地圖更緊湊和靈活的替代方案。更多的高斯可視化顯示在附錄的圖 5 中。我們還展示了在各種交通場景下的預測自車軌跡，如圖 4 所示。為了定性評估預測準確性，我們將這些軌跡與地面實況數據進行了比較。在圖 4 的最左側場景中，車輛在沒有信號引導的情況下進行無保護左轉——這是一個具有挑戰性的情況。我們的方法仍然預測出與地面實況非常接近的軌跡。此外，如圖 4 的兩個最右側場景所示，我們的方法即使在密集交通條件下也能生成準確的軌跡計劃，進一步證明了其魯棒性和可靠性。

結論

在這項工作中，我們提出了 GaussianFusion，一種基于高斯的端到端自動駕駛多傳感器融合框架。通過利用緊湊且靈活的二維高斯表示，我們的方法在空間感知和計算效率之間取得了平衡。雙分支融合架構捕捉了來自多模態輸入的局部細節和全局規劃線索，而級聯規劃模塊逐步細化軌跡預測。在 NAVSIM 和 Bench2Drive 基準上的實驗表明，GaussianFusion 在高效規劃性能方面顯著提高了性能。這些結果突出了高斯表示在端到端自動駕駛系統中高效且可解釋的傳感器融合的潛力。GaussianFusion 的局限性在于其定制的 CUDA 操作尚未完全優化。在未來的工作中，我們計劃進一步優化這些操作或用已建立的神經網絡庫的操作替換它們。

#馬斯克禍不單行

擎天柱負責人突然離職，特斯拉蒸發萬億市值。。。

真是屋漏偏逢連夜雨！

就在特斯拉創下單日最大跌幅，市值蒸發1500億美元（折合人民幣約10784億元）之際，馬斯克又痛失一位悍將——

擎天柱Optimus項目負責人Milan Kovac宣布離職。

作為特斯拉十年老將，他從自動駕駛起步，然后作為創始成員從零開始打造擎天柱。對此，馬斯克特意在他推文底下感謝了他過去十年杰出貢獻。

至于離職的原因，他明確表示這與特斯拉、馬斯克無關。之所以做出這一決定，只是因為自己想更多時間陪伴家人。

但不管怎么說，對于最近本就不太好過的特斯拉和馬斯克來說，無疑又是一場“暴擊”。

Just be like：

Milan Kovac：領導擎天柱從概念到進廠

Milan Kovac2008年本科電氣工程專業畢業后，曾從事游戲開發者。

他的第一份工作是在比利時動作識別公司SoftKinetic，主要負責不同平臺的移植工作，后來其為英特爾開發視覺組件。

4年后該公司被索尼收購，科瓦克輾轉了幾家公司，于2016年4月正式加入特斯拉，擔任Autopilot核心團隊工程師，負責Autopilot底層進程管理工作，后歷任自動駕駛軟件工程經理、高級工程經理以及Autopilot軟件工程主管。

2022年升任Optimus項目負責人，在他的領導下，特斯拉的人形機器人從概念發展為一款功能齊全的第二代雙足機器人，并能在特斯拉工廠中自主工作。

同時他在去年9月剛剛被任命為Optimus副總裁，期間推動類人機器人靈巧手逼近人類手部自由度，并將尖端強化學習進一步應用到運動以提升Optimus自主性。

從官方此前透露的視頻可以看出，Optimus已經可以在相當崎嶇的地形上保持平衡，與早期相比，走路姿勢更加輕松自然，已經和真人相差無幾。

?，時長01:06

而就在兩周前，Optimus剛剛實現重大突破，可以將大部分學習內容直接從第一人稱人類視頻轉移到機器人，更快地完成新技能調用。

下一步，他們還希望擴展到攝像機隨機捕捉的第三人稱視角視頻，并通過RL提升可靠性。

在特斯拉工作期間，Milan Kovac在Optimus和Autopilot軟件方面的深厚專業知識使其成為集成AI和機器人技術的關鍵人物。

不過這樣在特斯拉一路升級打怪的Milan Kovac，一度想要辭職走人。

2021年，馬斯克決定打造Optimus機器人，并在當年的AI Day上展示，他把軟件工作交給了Milan Kovac。

后來在Milan Kovac向其匯報PPT時，馬斯克認為PPT“很無聊”，不停地抱怨并嚴厲批評了Milan Kovac。

Milan Kovac很不滿，隨即回到辦公室，準備收拾鋪蓋走人。結果當天的彩排就出了亂子。

于是Milan Kovac右腳還沒邁出大樓，就被工程副總裁拉斯·莫拉維等攔了下來，一起喝了點小酒后，Milan Kovac平息下來，后來縮減了PPT數量，再度向馬斯克匯報。

結果這一待，就又待了四年。

而如今關于離職的具體原因，特斯拉官方目前并沒有正式回應，他本人在社交媒體上也只是描述為，想要更多和家人陪伴的時間。

在他的離職信中，他首先回顧了自己在特斯拉的十年工作經歷，包括連續幾代Autopilot計算機和相關軟件的迭代升級，以及Optimus成立伊始時的艱難。

2022年初，我們除了一對倒置的庫卡手臂外，什么都沒有，我們必須一次性構建一個完整的平臺：硬件和軟件。

同時他也感謝了特斯拉的同事們，尤其是馬斯克，盛贊他孜孜不倦的教誨，教會他從噪音中辨別信號、硬核彈性和許多工程基本原則。

最后他也表達了自己的祝福：

特斯拉會贏，我向你保證。

目前據彭博社消息稱，現任特斯拉AI軟件副總裁Ashok Elluswamy將接替他的工作。

Ashok Elluswamy與Milan Kovac都是去年被馬斯克同期提拔的一批高管。

10年前他還是大眾的實習生，后成為特斯拉自動駕駛1號員工，曾率先提出占用網絡上車，引領了行業發展。

也就在5天前的社媒上，馬斯克還同時稱贊他們兩位是公司人工智能運營中的兩個“關鍵人物”。

如今老員工紛紛離職，馬斯克和特斯拉又將何去何從呢？

特斯拉最近不太好過

在xx智能如此火熱之際，其他競爭對手波士頓動力公司、1X 和 Figure、Agility Robotics都進展頻頻之際，擎天柱在特斯拉中的優先級和重要級也不言而喻。

據馬斯克透露，最近幾周，特斯拉正在訓練其Optimus系統執行“原始任務”，例如拾起物體、打開門或投球。

而在今年四月，擎天柱大秀了一波走姿，當時就引起了三千萬網友的圍觀。據Milan Kovac介紹，這背后靠的是純RL模擬訓練方案。當時還趁著熱度大肆招攬AI團隊，里面的人才隊伍妥妥都是大佬級別。

馬斯克甚至還放言：明年要帶著擎天柱去火星。如果著陸順利成功，可能在2029年或2031年開始向火星運送真人。

咳咳不過這些都是后話了。

一些實際的發展方向，在今年特斯拉第一季投資者報告得以闡明。他們宣布今年將在弗里蒙特試點生產線上生產Optimus，并在工廠內更廣泛地部署機器人，完成有用的工作。而到今年年底，工廠將擁有“數千臺”Optimus機器人。

至于產量這塊，預計到 2030 年每年產量將達到 100 萬臺。

馬斯克采訪時表示，從長遠來看，唯一重要的事情就是自主性和擎天柱。

去年特斯拉的股東大會上，馬斯克曾形容自己病態樂觀，聲稱人形機器人將在未來的某個日期將公司的市值提升至25萬億美元。

只不過如今隨著項目負責人的離開，對擎天柱、對特斯拉的發展帶來了更多不確定性。尤其是最近正在經歷「艱難時刻」的特斯拉來說。

本想著只是經歷了災難性的第一季度，當時的財報顯示，第一季度營收193.4億美元，同比下滑9% ，其中汽車業務營收暴跌20%；一季度營業利潤3.99億美元，同比下降66%。

沒想到的是，這種“災難”還在繼續。最近特斯拉股價持續下跌，甚至創下上市以來單日最大跌幅，超14%，一夜蒸發1500億美元。

另外又據彭博社預測，由于需求急劇下降，特斯拉電動汽車交付量預計還將下降。

好吧，馬斯克真不太好過。

參考鏈接：
[1]https://www.cnbc.com/2025/06/06/tesla-optimus-robotics-vp-is-leaving-the-company.html
[2]https://x.com/_milankovac_/status/1931097888995807554
[3]https://www.bloomberg.com/news/articles/2025-06-06/tesla-s-leader-of-optimus-humanoid-robot-program-leaves-company

#談談Diffusion擴散模型?

從圖像生成到端到端軌跡規劃~一、擴散模型原理

擴散模型Diffusion Models是一種生成式模型，本質是去噪，噪音符合某種特定分布。其原理基于對數據分布的學習和模擬，主要包括正向擴散過程和反向生成過程。

其名字來源于一滴墨水滴進清水，以隨機運動的方式彌散到清水乃至于徹底消融。

擴散模型學習這個彌散過程，目的是把融化進清水（純噪音）里面的墨水（原始數據）恢復出來。

模型訓練好后，給定一杯滴了墨水的清水，變魔術一般恢復出原始的墨水。這里的魔術只是某種學習了分布規律的神經網絡。

正向擴散過程

從初始數據分布（如真實圖像分布）開始，逐步向數據中添加噪聲，這個過程遵循一個馬爾可夫鏈。在每一步，根據前一步的狀態和一個固定的噪聲分布，生成下一個更具噪聲的數據點。隨著時間步的增加，數據逐漸變得更像噪聲，最終達到一個近似純噪聲分布。

反向生成過程

從純噪聲開始，通過學習一個逆過程來逐步去除噪聲，以恢復出原始數據。這個逆過程通過神經網絡來參數化，網絡的目標是根據當前帶噪聲的數據點和時間步，預測出前一個時間步的更接近原始數據的點。在訓練過程中，通過最大化似然估計或其他損失函數來調整神經網絡的參數，使得模型能夠逐漸學會從噪聲中生成真實的數據樣本。

擴散模型通過正向擴散過程來定義數據的噪聲化過程，然后通過反向生成過程來學習如何從噪聲中恢復數據，從而實現對數據分布的建模和生成新的數據樣本。

圖正向-反向diffusion過程，圖片來自網絡

馬爾可夫鏈（Markov Chain）是一種具有馬爾可夫性（無記憶性）的隨機過程，描述系統在狀態空間中隨時間轉移的規律。其核心特征是：未來狀態的概率僅依賴于當前狀態，與歷史狀態無關。所以馬爾科夫性這個性質其實是個人為簡化。

過程	公式	說明
正向單步
正向多步		累積噪聲的線性組合
反向單步		神經網絡預測噪聲驅動去噪，?′ 為隨機噪聲
損失函數		最小化預測噪聲與真實噪聲的均方差

擴散模型擴散過程每一層的概率分布類型通常是一樣的，只是參數不一樣。

在常見的擴散模型中，比如基于高斯分布假設的擴散模型，每一層（時間步）的條件概率分布通常都被建模為高斯分布。雖然不同層的均值和方差等參數會根據擴散過程而變化，但分布類型保持一致，這樣的設定有助于模型的數學推導和計算。當然，也有一些擴散模型可能會采用其他類型的分布，如拉普拉斯分布等，在這種情況下，模型各層也會基于相同類型的分布來構建。

擴散模型（Diffusion Models）通常結合多種類型的神經網絡來實現核心功能，包括去噪過程建模、概率分布學習和多尺度特征提取。其最常用的神經網絡類型是u-net：

圖 ?U-net架構圖，來自網絡

U-Net作為最核心架構，其結構特點完全是對稱的，直觀講就是兩個卷積神經網絡尾對尾嫁接在一起。

編碼器 - 解碼器架構：編碼器：通過卷積層逐步降低特征圖分辨率，提取高層語義信息（如物體形狀、紋理）。

解碼器：通過上采樣和跳躍連接恢復分辨率，將高層語義與低層細節結合。

跳躍連接：緩解深層網絡的梯度消失問題，增強細節恢復能力。

其在擴散模型中的作用是作為去噪核心，功能是輸入帶噪聲的圖像和時間步長（表示噪聲強度），輸出去噪后的圖像或預測噪聲。

圖像生成模型如 DALL-E 2、Stable Diffusion 均以U-Net 為骨干網絡。

作為U-net的核心創新的跳躍連接，其思想非常類似resnet的殘差鏈接，直接越過多層疊加。其操作是將編碼器特征圖Fi和解碼器特征圖Gj沿通道維度拼接，生成新的特征圖 H。示例代碼如下：

二、擴散模型和生成對抗網絡的對比

生成對抗網絡（Generative Adversarial Networks，GANs）是一種深度學習模型，由生成器（Generator）和判別器（Discriminator）組成，通過兩者的對抗博弈來學習數據分布并生成新樣本。它于2014年由 Ian Goodfellow（就是人工智能花書的作者）等人提出，已廣泛應用于圖像生成、視頻合成、數據增強等領域。

生成對抗網絡和擴散模型都存在加噪和去噪過程，目的都是去噪。從輸入輸出角度看，二者有一定的可替換性。

目前并無文獻表明二者誰更優。也有文獻使用生成對抗網絡來做自動駕駛的長尾場景生成。

生成對抗網絡是在生成器的輸入中加入噪聲，可以使生成器更靈活地探索潛在空間，從而生成更加多樣化的樣本。

具體實現步驟如下：

在生成器的輸入向量 ( z ) 中加入噪聲。
噪聲通常是從一個簡單的分布（如標準正態分布 ( N(0, 1) ) 或均勻分布 ( U(-a, a) )）采樣得到的。

圖生成對抗網絡的加噪過程，來自網絡

生成對抗網絡（GAN）在自動駕駛領域的應用幾乎和擴散模型重合，主要涵蓋數據生成、場景仿真、感知增強和決策優化等方面。比如SurfelGAN（Google）利用激光雷達和攝像頭數據生成逼真的相機圖像，用于自動駕駛仿真模型訓練。

擴散模型像"考古修復"（從碎片還原文物），GAN像"造假大師"（不斷改進偽造技術）。

維度	擴散模型	生成對抗網絡（GANs）
核心機制	基于正向擴散與逆向去噪的概率建模	基于生成器與判別器的對抗博弈
訓練方式	非對抗訓練，僅需優化單一神經網絡	對抗訓練，需同時優化生成器和判別器
穩定性	訓練更穩定，不易出現模式崩潰	訓練難度高，易因梯度消失或模式崩潰失敗
樣本質量	生成圖像通常更清晰、多樣性更強（尤其高分辨率）	早期 GANs 在高分辨率下可能出現模糊，需改進架構（如 StyleGAN）
計算成本	訓練和生成需多步迭代，計算復雜度高	生成階段僅需單次前向傳播，速度快
理論基礎	基于熱力學擴散過程和變分推斷	基于博弈論和概率分布匹配
數學工具	隨機微分方程（SDE）、馬爾可夫鏈	概率分布散度（如 JS 散度、Wasserstein 距離）

目前看擴散模型似乎比生成對抗網絡更受歡迎，一個原因是生成對抗網絡需要訓練至少兩個神經網絡：生成器和判別器，計算量很大，訓練好的模型體積也大。

但是生成對抗網絡也有優勢，就是其加噪過程往往融合多種分布類型的噪音，疊加的噪音更復雜；而不像基于馬爾可夫鏈加噪的擴散模型，噪音分布類型在一般情況下不變，只是變化分布參數。?

三、擴散模型在自動駕駛領域的應用

擴散模型由于其去噪的本質，在自動駕駛領域的應用主要集中在數據生成、場景預測、感知增強和路徑規劃等方面。需要說明，擴散模型不僅可以用來對連續分布噪音進行去噪，也可以對離散分布噪音（和數據）去噪，所以它也可以用于離散問題，比如決策規劃。

以下是具體的應用場景和技術優勢：

1. 合成數據生成

擴散模型能夠生成高度逼真的駕駛場景數據，解決真實數據不足或標注成本高的問題。

罕見場景生成，如極端天氣（暴雨、大霧）、突發障礙物（行人橫穿、車輛逆行）等，提升模型的泛化能力。

而且這種生成是可控的，通過條件控制（如BEV布局、3D標注）生成特定場景，例如NuScenes和KITTI數據集的擴展。

比如SynDiff-AD，基于潛在擴散模型的數據生成pipeline，顯著提升模型在低光照、極端天氣等條件下的性能。

2. 場景預測與視頻生成

擴散模型可用于預測未來駕駛場景的動態變化，

包括多模態預測，也就是生成可能的交通參與者行為（如車輛變道、行人軌跡），支持決策系統。還有視頻生成，比如DriveGenVLM結合視覺語言模型（VLMs）生成真實駕駛視頻，用于仿真測試。

3. 感知任務優化

擴散模型在感知任務中可去除噪聲并增強數據質量：

BEV去噪：利用擴散模型清理鳥瞰圖（BEV）中的噪聲，提升目標檢測精度。

多傳感器融合：生成一致的雷達與攝像頭數據，改善感知魯棒性。

4. 路徑規劃與決策

擴散模型通過概率建模支持多模態路徑生成：

Diffusion Planner：清華AIR團隊提出的規劃算法，利用擴散模型的引導機制適應復雜路況，提升安全性和泛化能力。

實時端到端控制：DiffusionDrive通過截斷擴散步驟實現實時決策，直接從人類駕駛數據學習。

其中所謂截斷擴散就是跳躍性地去噪，本來去噪要像加噪過程一樣經過多步打磨，現在則是直接越過幾步，去噪時通過采樣來模擬多步加噪的疊加分布，至于越過幾步為好則是調參的藝術。

5. 端到端自動駕駛

擴散模型直接學習駕駛策略，簡化傳統模塊化流程。

比如動作分布建模，也就是處理多模式駕駛行為（如避障或變道），避免傳統方法的單一輸出限制。

6. 小眾應用

除了直接用于自動駕駛的擴散模型，還可以用于優化算法（也就是求最大或最小值），從而間接服務于自動駕駛。

自動駕駛有許多最小化優化問題，比如最小能量消耗路徑，在商用車重卡領域用的非常多。其目標函數是：

其中F函數式車輛在速度vi下的單位距離能耗。

而Diffusion-ES（Diffusion Evolution Strategy）是一種將擴散模型（Diffusion Model）與進化策略（Evolution Strategy, ES）相結合的優化算法，旨在利用擴散模型強大的生成能力和進化策略的全局搜索能力，高效求解復雜優化問題，比如上面的最小能量消耗路徑求解。

技術優勢總結

應用方向	技術優勢	典型案例
合成數據生成	解決數據稀缺，支持可控生成	SynDiff-AD 、ControlNet
場景預測	多模態未來幀生成，動態適應性	DriveGenVLM
感知優化	BEV去噪、多傳感器一致性	BEV-Guided Diffusion
路徑規劃	多模態路徑生成，高泛化能力	Diffusion Planner
端到端控制	實時性高，直接學習人類策略	DiffusionDrive

四、總結

擴散模型在自動駕駛中的應用仍處于快速發展階段，未來可能與BEV、大語言模型（LLMs）進一步結合，推動全棧技術革新。

業界和學術多有基于擴散模型的技術方案，本文更偏重企業方案，列舉三個：

毫末智行在2025 年 1 月 28 日，毫末智行聯合清華大學 AIR 智能產業研究院等機構在 ICLR 2025 上發布了 Diffusion Planner。該算法基于 Diffusion Transformer，能高效處理復雜場景輸入，聯合建模周車運動預測與自車規劃中的多模態駕駛行為。通過擴散模型強大的數據分布擬合能力，精準捕捉復雜場景中周車與自車的多模態駕駛行為，實現周車預測與自車規劃的聯合建模。在大規模真實數據集 nuPlan 的閉環評估中取得 SOTA 級表現，大幅降低了對后處理的依賴，并在 200 小時物流小車數據上驗證了多種駕駛風格下的魯棒性和遷移能力。目前，毫末團隊已進入實車測試階段，率先實現端到端方案在末端物流自動配送場景的應用落地。

地平線與香港大學等團隊提出了 HE - Drive，這是首個以類人駕駛為核心的端到端自動駕駛系統。該系統利用稀疏感知技術生成三維空間表示，作為條件輸入到基于條件去噪擴散概率模型（DDPM）的運動規劃器中，生成具備時間一致性的多模態軌跡。然后，基于視覺語言模型引導的軌跡評分器從候選軌跡中選擇最舒適的軌跡來控制車輛。HE - Drive 在 nuScenes 和 OpenScene 數據集上實現了 SOTA 性能和效率，同時在真實世界數據中提供了更舒適的駕駛體驗。

理想汽車在 2025 年推出的下一代自動駕駛架構 MindVLA，整合了空間智能、語言智能和行為智能。該技術基于端到端和 VLM 雙系統架構，通過 3D 空間編碼器和邏輯推理生成合理的駕駛決策，并利用擴散模型優化駕駛軌跡。MindVLA 采用 3D 高斯作為中間表征，利用海量數據進行自監督訓練，其 LLM 基座模型采用 MoE 混合專家架構和稀疏注意力技術。通過 Diffusion 模型將動作詞元解碼為優化軌跡，并結合自車行為生成和他車軌跡預測，提升復雜交通環境中的博弈能力。

最后，本文列舉一個有代表意義的學術方案。

在2024年機器人頂會 CoRL 上，《One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits》一文的作者們Franck Djeumou等提出利用包含多種車輛在多樣環境下行駛軌跡的未標記數據集，訓練一個高性能車輛控制的條件擴散模型。條件擴散模型（Conditional Diffusion Models, CDMs）是一類基于擴散過程的生成模型，在生成過程中引入了額外的條件信息，從而能夠生成更為符合特定需求的樣本，例如生成符合特定文本描述、類別標簽或其他先驗信息的圖像。

這里的drift就是頭文字D里面的飄移，在極限情況下的飄移動作（橫向滑動），該模型能通過基于物理信息的數據驅動動態模型的參數多模態分布，捕捉復雜數據集中的軌跡分布。通過將在線測量數據作為生成過程的條件，將擴散模型融入實時模型預測控制框架中，用于極限駕駛。據報道，在豐田 Supra 和雷克薩斯 LC 500 上的實驗表明，單一擴散模型可使兩輛車在不同路況下使用不同輪胎時實現可靠的自動漂移，在對未知條件的泛化方面優于專家模型。