51c自動駕駛~合集37

我自己的原文哦~?? ??https://blog.51cto.com/whaosoft/13878933

#DETR->DETR3D->Sparse4D

走向長時序稀疏3D目標檢測

一、DETR

圖1 DETR架構

DETR是第一篇將Transformer應用到目標檢測方向的算法。DETR是一個經典的Encoder-Decoder結構的算法，它的骨干網絡是一個卷積網絡，Encoder和Decoder則是兩個基于Transformer的結構。DETR的輸出層則是一個MLP。它使用了一個基于二部圖匹配（bipartite matching）的損失函數，這個二部圖是基于ground truth和預測的bounding box進行匹配的。最終性能與Faster-RCNN持平。

圖2 DETR網絡結構

Backbone：

當我們利用卷積神經網絡時，會有兩個假設：

平移不變性：kernel 的參數在圖像任何地方時一致的。局部性：要找某一個特征只需要在一個區域的周圍檢索，不需要全局觀察。

而detr則是從0開始學起的，所以它的backbone采用經典的ResNet101網絡對圖像提取特征，為下面的Encoder獲取先驗知識。

流程如下：

（1）假設我的圖像輸入為：3 * 800 * 1066 （CHW）。

（2）通過CNN提取特征后，得到了 2058 * 25 * 34的feature map。

（3）為了減少計算量，下采樣feature得到 256 * 25 * 34。

Encoder:

在這里需要把數據轉化為序列化數據，直接把hw合并，維度轉化為 256 * 850.

在這里作者采用二維sin、cos的位置編碼（通過實驗各位置編碼方法結果相差不大），具體公式本文不在展示。

Detr與Transformer相比，后者是直接在Encoder之前做 position encoder，然后在生成 qkv，然而Detr則是只對 key 與 query 編碼。我認為key query 是負責取檢索特征計算注意力分數，而value只負責提供對應位置的值，從而不需要位置編碼。

把位置編碼與feature結合的方式主要是add操作，所以我們要把位置編碼的維度與feature的維度一致。其中我們的編碼方式是根據feature的x、y兩個方向的編碼。

操作如下：

由于相應的feature map 的 H * W 為 25 * 34

（1）在H方向上為每個對應點賦予 128 * 25 * 34

（2）在W方向上為每個對應點賦予128 * 25 * 34

（3）add 成 256 * 25 * 34

（4）與feature map add

（5）把數據轉化為序列化數據

（6）用沒有position的feature生成 V，有的生成KQ，執行attention

（7）通過Encoder后，feature map 與input一致，還是 256 * 850

Decoder：

圖3 DETR的Decoder結構

decoder的輸入主要有兩個：

（1）Encoder的輸出

（2）object queries

首先我們說一下object queries，在代碼中，它的本質實際就是一個 learnable Embedding position。這里假設初始化100（遠遠大于 num_classes）個object queries，每個的維度為256（方便與encoder輸出矩陣乘法），所以它的維度為 256 * 100.

這里說個番外～，為什么object queries是一個 learnable position Embedding 呢？，我們知道，初始化要先通過一個Embedding層后才能輸入后面的注意力層，而這個embedding層我們可以把它理解為全連接層，權重矩陣為w，這里的w是就是代碼中用來學習object query的“learnable position embedding”，代碼如下：

self.query_embed = nn.Embedding(num_queries, hidden_dim)

模型通過學習會把它圖像分成100個區域，每個queries負責關注特定的區域。到這里你會發現：Object queries充當的其實是位置編碼的作用。

圖四 DETR基本概括

這里要著重說明一下，DETR的核心是Decoder，Decoder的核心是這100個輸入的可學習向量，Decoer訓練的過程可以理解成就是訓練這100個query向量的過程。

非常有意思的一點在于，在作者的源碼中，這100個可學習query向量都被初始化為0，然后加上位置編碼作為輸入，在此基礎上對這100個向量進行學習。

另一個值得注意的點是，論文中提到的Decoder部分是M層的，但事實上，這M層的decoder只有一部分被重復了M次（圖5紅框部分）；

圖5 DETR decoder結構解析

出框最后的一步也是最常規的一步，通過添加FFN檢測頭來進行預測，這里是做兩個預測，一個是物體出框預測（四個值，中心點坐標x, y, 以及框的width, height），一個是物體類別預測。

在得到預測后，這100個預測框會和Ground Truth框一起通過匈牙利算法進行匹配（Bipartite 匹配）。

給定一個二分圖G，在G的一個子圖M中，M的邊集{E}中的任意兩條邊都不依附于同一個頂點，則稱M是一個匹配。求二分圖最大匹配可以用匈牙利算法。

可參考：二分圖最大匹配問題與匈牙利算法的核心思想 | 始終 (liam.page)

與VIT的區別：

總體上我認為，DETR和ViT非常類似，都是針對于圖像的任務，一個是圖像分類，一個是目標檢測，二者區別主要在于將圖像序列化的方式不同（當然，畢竟這二者是不同任務，后處理部分也肯定是不一樣的，但是可以看到的是，后處理部分使用的都是很常規的分類或檢測手段，因此這里不納入本文的考慮）。

基本思想：

（1）將圖片切分為一個個的16×16的patch；

（2）這個部分是用來獲取每一個patch的Embedding，這里包含兩個小步驟：

i. 將16×16的patch展平；

ii. 將得到的256長度的向量，映射為Transformer所需要的長度；

NB:很明顯，這里可以通過線性層進行映射，也可以通過設置卷積核的方式直接得出Embedding

(3)?位置編碼與第二部中獲得的Embedding相加;

(4)?也就是直接向TRM encoder的輸入與輸出，將得到的多個維數為768的向量的第一個作為分類輸入，使用常規的多分類方法進行分類。

二、DETR3D

這是一篇多視角（多目）3D目標檢測的工作，非LiDAR，也非單目，而且純粹地基于nuScenes數據集。本質上，這就是一篇將DETR拓展到3D檢測中的工作，所以重點在于，如何將DETR中bipartite loss的思想應用在3D任務上。

DETR的大致過程是提取圖像特征→編碼輔助輸入→結合queries獲得values→得到queries的檢測結果，并做損失。DETR3D在此基礎上，除了將bipartite loss拓展到了三維空間中，還另外引入了Deformable DETR的iterative bounding box refinement模塊，即構建多層layer對query進行解碼

圖6 DETR和DETR3D對比

set-to-set loss：

先來看最簡單的部分，作者是如何把bipartite loss拓展到3D空間的。在文中，這個loss被稱作是set-to-set loss，對于loss的研究，其實我們只要搞清楚預測與GT就可以了。

這里的pred是prediction set，GT則稱作GT set 。

了使中間層也獲得較好的學習效果，作者這里使用了一個常用的coarse2fine的手段，即在training階段每層的loss都會被計算，但是在inference時只取最后一層作為輸出。

圖7 set-to-set loss計算過程

總而言之，這里的argmin鼓勵我們找到一種預測的排列，使得anchor的順序盡可能與GT匹配，當GT類別非空時尋找預測類標置信度最大者，當GT類別為空時尋找bbox最接近的。

這里又有問題了：

GT類別非空時，單純看尋找預測概率最大似乎是不合理的吧。比如預測有兩個同類bbox，如何確定誰排在前面、后面？這樣就會出現bbox錯位匹配的情況吧。我們看DETR里是怎么寫的：? ?，DETR這里的matching loss，兩個示性函數都是非空的啊喂，必須要在非空的時候加以bbox的約束才能避免出現錯位的情況（即又要匹配的類別對，又要匹配的類別好），并且空集的時候在這里其實是不關注的。

也正是因為他把后面那個項的示性函數改成等于了，這就引申出一個問題，在padding空集的時候，你這里也需要padding bounding box了，而這怎么padding呢？在DETR當中是不必為補充的空集也補充一個bounding box，因為你無論怎么補充，你都無法指望預測的空bounding box匹配上你的補充，所以這一點也是比較令人迷惑的。

如果以上你聽得一知半解，我們再來看找到排列之后的損失計算，就更能理解這種詭譎了：這里也基本是和DETR類似的，不考慮符號上使用上的區別，就只有示性函數中把不等號變成了等號這樣嚴肅的區別，于是這就造成了：當類別非空時，你不做bounding box上的loss，而現在類別空了你反而來做bounding box的loss。所以我強烈懷疑應該是論文中兩處都打錯了，否則結果應該不會還能排到SOTA。不知道是不是因為arxiv版本掛錯了，還是真的審稿人粗心不看公式。

argue: 如果以上推斷成立，那么就算我們腦補修改一下這個loss，其實也有值得商榷的地方：我本來期待著他的loss至少是什么IoU loss之類的，結果就是簡簡單單的L1。在KITTI-object那邊的工作中，其實涌現了很多類似mIoU loss等創新性的工作。這樣不考慮parameters在3D空間中的實際的bounding box意義，而直接做L1 loss，這樣的學習效果是否會好、是否合理？

2d-to-3d feature轉換

圖8 2d轉3d特征過程

重點便在于如何解讀這里的幾條虛線了。起初，我是按照圖例中給出的紅色在最上、黃色在最下的順序來解讀的，以為是要先對特征進行操作，然后對query再加工提取，在feature space中去做loss……我還納悶呢，明明人家說是在3D空間中做loss，這咋回事呢，而且transformer的黑色框框里，向右的黑色箭頭也對不上啊……

糾結了好久才明白正確的理解方式是從藍色開始看到紅色，實際上所有虛線加起來的操作就是向右黑線……由于文中圖例文字太小，這里按照虛線的順序依次解讀下以上的操作：

首先明確，object queries是類似DETR那樣，即先隨機生成 ? ?個bounding box，類似先生成一堆anchor box，只不過這里的box是會被最后的loss梯度回傳的。
（藍線）然后通過一個子網絡，來對query預測一個三維空間中的參考點 ? ?（實際上就是3D bbox的中心）。通過角標我們可以看出，這個操作是layer-wise、query-wise的。這兩個wise的概念參見下文的討論。
（綠線）利用相機參數，將這個3D參考點反投影回圖像中，找到其在原始圖像中對應的位置。
（黃線）從圖像中的位置出發，找到其在每個layer中對應的特征映射中的部分。
（紅線）利用多頭注意力機制，將找出的特征映射部分對queries進行refine。這種refine過程是逐層進行的，理論上，更靠后的layer應該會吸納更多的特征信息。
（黑色虛線框之后）得到新的queries之后，再通過兩個子網絡分別預測bounding box和類別，然后就進入我們之前討論的loss部分了。

這里一定要注意，從藍線開始，就像deformable DETR一樣，queries是劃分為了多個layer輸入的（去查了一下代碼，這里應該是6個layer），這個layer和FPN得到的feature layer是不同的（所以為免歧義，我在前后文都稱之為feature level了），feature的level是四層，所以總結一下是：每一個level的feature都應該對應輸入每個layer的queries，所以實際上應該會有4*6=24個輸入（當然實際運算要更復雜一些）。?

總結

最后來總結，回答一下一開始提出的幾個疑惑。

關于bipartite loss和使用特征的方式，在此就不再贅述了，諸多細節與疑惑均已在討論中提出。
multi-view體現在query對同一時刻的六張圖像同時進行了學習，單就這一點而言其思路就是比較超前的。傳統的Monocular方法都是單張圖像輸入輸出、multiview方法大家考慮的也是時間序列上的長序列，而并沒有拓展到多視角上。
關于注意力機制的問題，我們可以回憶一下，DETR令人震撼的地方其實是在于decoder attention可以關注到bounding box中的特征：

DETR decoder attention

而在這里，文中其實是沒有給出什么可視化的效果，或者類似“all box predictions”這種grid可視化圖。強行分析的話，我認為亮點反而可能在于，這種多目圖像之間特征的求和（簡單的1x1conv）并對query的refine，其實是替代了傳統的多目匹配工作，使得這種3D-to-2D Queries可以有效跨越多目圖像，更應該是本文的落腳點和關注之處。

總的來講，還有很多疑惑，也還有很多可發展的地方。

三、Sparse4d

在自動駕駛視覺感知系統中，為了獲得環繞車輛范圍的感知結果，通常需要融合多攝像頭的感知結果。比較早期的感知架構中，通常采用后融合的范式，即先獲得每個攝像頭的感知結果，再進行結果層面的融合。后融合范式主要的問題在于難以處理跨攝像頭的目標（如大卡車），同時后處理的負擔也比較大。而目前更加主流的感知架構則是選擇在特征層面進行多攝像頭融合。其中比較有代表性的路線就是這兩年很火的BEV方法，繼Tesla Open AI Day公布其BEV感知算法之后，相關研究層出不窮，感知效果取得了顯著提升，BEV也幾乎成為了多傳感器特征融合的代名詞。但是，隨著大家對BEV研究和部署的深入，BEV范式也逐漸暴露出來了一些缺陷：

i.感知范圍、感知精度、計算效率難平衡：從圖像空間到BEV空間的轉換，是稠密特征到稠密特征的重新排列組合，計算量比較大，與圖像尺寸以及BEV特征圖尺寸成正相關。在大家常用的nuScenes 數據中，感知范圍通常是長寬 [-50m, +50m] 的方形區域，然而在實際場景中，我們通常需要達到單向100m，甚至200m的感知距離。若要保持BEV Grid 的分辨率不變，則需要大大增加BEV 特征圖的尺寸，從而使得端上計算負擔和帶寬負擔都過重；若保持BEV特征圖的尺寸不變，則需要使用更粗的BEV Grid，感知精度就會下降。因此，在車端有限的算力條件下，BEV 方案通常難以實現遠距離感知和高分辨率特征的平衡；

ii.無法直接完成圖像域的2D感知任務：BEV 空間可以看作是壓縮了高度信息的3D空間，這使得BEV范式的方法難以直接完成2D相關的任務，如標志牌和紅綠燈檢測等，感知系統中仍然要保留圖像域的感知模型；

實際上，我們感興趣的目標（如動態目標和車道線）在空間中的分布通常很稀疏，BEV范式中有大量的計算都被浪費了。因此，基于BEV的稠密融合算法或許并不是最優的多攝融合感知框架。同時特征級的多攝融合也并不等價于BEV。這兩年，PETR系列(PETR, PETR-v2,StreamPETR) 也取得了卓越的性能，并且其輸出空間是稀疏的。在PETR系列方法中，對于每個instance feature，采用global cross attention來實現多視角的特征融合。由于融合模塊計算復雜度仍與特征圖尺寸相關，因此其仍然屬于稠密算法的范疇，對高分辨率的圖像特征輸入不夠友好。

因此，我們希望實現一個高性能高效率的長時序純稀疏融合感知算法，一方面能加速2D->3D 的轉換效率，另外一方面在圖像空間直接捕獲目標跨攝像頭的關聯關系更加容易，因為在2D->BEV的環節不可避免存在大量信息丟失。這條技術路線代表性的方法是基于deformable attention 的DETR3D算法。然而從開源數據集指標來看，DETR3D的性能距離其他稠密類型的算法存在較大差距。為了Make 純稀疏感知 Great Again，我們近期提出了Sparse4D及其進化版本Sparse4D v2，從Query構建方式、特征采樣方式、特征融合方式、時序融合方式等多個方面提升了模型的效果。當前，Sparse4D V2 在nuScenes detection 3d排行榜來看，達到了SOTA的效果，超越了包括SOLOFusion、BEVFormer v2和StreamPETR在內的一眾最新方法，并且在推理效率上也具備顯著優勢。本文主要介紹了Sparse4D 和 Sparse4D V2 方案的細節實踐。

源碼：https://link.zhihu.com/?target=https%3A//github.com/linxuewu/Sparse4D

??https://link.zhihu.com/?target=https%3A//github.com/HorizonRobotics/Sparse4D??

圖9 DETR3D回顧

由于上述的這些原因，DETR3D 網絡整體的學習能力偏弱，指標在當前顯著弱于BEV 范式的方法。在Sparse4D-V1 中，我們主要通過instance 構建方式，特征采樣、特征融合和時序融合等方面改進了現有的框架。

圖11 sparse4d 框架

如圖1所示，Sparse4D 也采用了Encoder-Decoder 結構。其中Encoder包括image backbone和neck，用于對多視角圖像進行特征提取，得到多視角多尺度特征圖。同時，我們會cache 多歷史幀的圖像特征，用于在decoder 中提取時序特征；Decoder為多層級聯形式，輸入時序多尺度圖像特征圖和初始化instance，輸出精細化后的instance，每層decoder包含self-attention、deformable aggregation和refine module三個主要部分。

學習2D檢測領域DETR改進的經驗，我們也重新引入了Anchor的使用，并將待感知的目標定義為instance，每個instance主要由兩個部分構成：

基于以上定義，我們可以初始化一系列instance，經過每一層decoder都會對instance 進行調整，包括instance feature的更新，和anchor的refine。基于每個instance 最終預測的bounding box，Sparse4D 中同樣通過Bipartite 匹配的方式與真值進行匹配并計算損失函數。

圖12 deformerable ?aggregation模塊結構圖

在Sparse4D 的decoder 中，最重要的是Deformable 4D Aggreagation 模塊。這個模塊主要負責instance 與時序圖像特征之間的交互，如圖3所示，主要包括三個步驟：

4D 關鍵點生成：首先，基于每個instance 的3D anchor信息，我們可以生成一系列3D關鍵點，分為固定關鍵點和可學習關鍵點。我們將固定關鍵點設置為anchor box的各面中心點及其立體中心點，可學習關鍵點坐標通過instance feature接一層全連接網絡得到。在Sparse4D 中，我們采用了7個固定關鍵點 + 6個可學習關鍵點的配置。然后，我們結合instance 自身的速度信息以及自車的速度信息，對這些3D關鍵點進行運動補償，獲得其在歷史時刻中的位置。結合當前幀和歷史幀的3D關鍵點，我們獲得了每個instance 的4D 關鍵點。

4D 特征采樣：在獲得每個instance 在當前幀和歷史幀的3D關鍵點后，我們根據相機的內外參將其投影到對應的多視角多尺度特征圖上進行雙線性插值采樣。從而得到Multi-Keypoint，Multi-Timestamp, Multi-Scale, Multi-View 的特征表示；

層級化特征融合：在采樣得到多層級的特征表示后，需要進行層級化的特征融合，我們分為了三層：

Fuse Multi-Scale/View：對于一個關鍵點在不同特征尺度和視角上的投影，我們采用了加權求和的方式，權重系數通過將instance feature和anchor embed輸入至全連接網絡中得到；
Fuse Multi-Timestamp：對于時序特征，我們采用了簡單的recurrent策略（concat + linear）來融合；
Fuse Multi-Keypoint：最后，我們采用求和的方式融合同一個instance 不同keypoint 的特征

運動補償：Sparse4D針對自車運動和instance運動都進行了補償。目前，大多數算法僅顯式考慮了自車運動。我們通過實驗分析了運動補償的作用，如下表所示。對于NDS指標來說，自車運動和他車運動分別帶來了6.4%和0.7%的提升，他車運動補償對檢測精度無提升，但是對速度估計精度的提升非常顯著（mAVE指標）

多層次特征融合：在deformable aggregation中，我們需要對多尺度、多視角和多關鍵點的特征進行融合。為了分析各個層級融合的重要程度，我們分別將各層的加權方式改為直接求和，可以看到多尺度的影響小于多視角，而多關鍵點的融合最為重要。此外，將三個層級的融合全部改為求和的形式，模型將難以收斂，指標也會顯著降低

采樣時序融合幀數：Spase4D v1中，采用多幀采樣的方式實現時序融合，其中采樣幀數對感知性能的影響顯著。我們將幀數從0逐步增加至10，感知性能一直在穩步提升，說明長時序融合對檢測性能有很大幫助。但是由于顯存限制，我們僅驗證到了10幀。

#端到端自動駕駛通用感知架構的前世今生

研究背景及現狀

CVPR2023 best paper(商湯上海AI lab)：UniAD

來源：星球內部資料，文末掃碼領取！

首先從端到端自動駕駛說起。端到端自動駕駛是目前自動駕駛領域最受關注的方向之一。UniAD提出一個端到端的感知決策一體框架，融合了多任務聯合學習的新范式，使得進行更有效的信息交換，協調感知預測決策，以進一步提升路徑規劃能力。首次將感知、預測、規劃等三大類主任務、六小類子任務（目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃）整合到統一的端到端網絡框架下，實現了全棧關鍵任務駕駛通用模型。在 nuScenes?真實場景數據集下，所有任務均達到領域最佳性能（State-of-the-art），尤其是預測和規劃效果遠超之前最好方案。

傳統的自動駕駛系統通常會采用級聯式的架構，在模塊與模塊之間通常傳遞的是結構化信息，同時在系統內存在著海量人工設計的復雜規則。這使得整體的自動駕駛系統復雜性高、難以聯合優化以及迭代周期比較長。而端到端的設計思路則帶來了全新的可能性。在端到端架構中，首先各個主要的模塊都是基于神經網絡的形式設計；其次模塊間也不再只是傳遞結構化信息，而是同時傳遞稀疏實例特征表示，這使得從感知到規控的整體系統可以進行聯合優化；最終的planning模塊也能從更加靠前的階段獲得更豐富的信息。但這里會帶來一個問題，就是在端到端自動駕駛系統中，我們是否需要顯式的去做感知的模塊？目前也存在著一些方法是不產生中間結果，可以直接通過圖像輸入，直接輸出控制信號的徹底端到端技術路線。這種技術路線會存在徹底黑盒、解釋性差的問題。而從自動駕駛產品安全性的角度來看，把每個模塊都網絡化并串聯在一起的技術路線，會更加可靠可行，也就是UniAD技術路線。因此，還是非常有必要去做顯式的感知結果的輸出。在這樣的架構設計下，主要討論的問題是：對于一個面向落地的端到端純視覺駕駛系統，我們需要怎么樣的通用的感知后端呢？我個人認為主要包括這四個方面：1、需要具備強大的感知性能，能夠輸出高質量的實例化特征；2、需要高效的融合多視角+時序的視覺信息，速度快，且對于板端芯片比較友好；3、感知的范圍方面能夠具備All in One的能力，不需要多個模型去補充不同范圍的視野；4、需要有可靠多任務能力，能夠適配并良好的支持動態、靜態，像HDMap的高精地圖重建等各種任務。在更早期的階段，自動駕駛系統中通常會采用后融合感知系統，如這張圖所示。對于不同視角圖像，我們會分別檢測里面的物體。這樣顯而易見會帶來兩個問題：一個是攝像頭之間有重疊的區域，一個目標可能會被檢測到兩次；第二就是有一些很大的目標，比如大卡車，它會跨多攝像頭，使得每個視角中都沒有辦法完整的檢測到整體的檢測框。為了解決這兩個問題，這類方法就需要有一個目標級的多傳感器融合、目標級的時序融合和濾波模塊，這樣就構成了我們常說的后融合感知系統。

來源：星球內部資料，文末掃碼領取！

后融合感知系統會有幾個明顯的不足：1、融合模塊，僅僅收到了結構化的感知結果，信息不夠充足；2、需要有一些前提假設，比如說感知誤差分布、目標運動模型，需要很多超參數進行調優，一定程度上限制了整個感知系統的上限；3、需要維護一套獨立于模型以外的融合模塊，這使得系統的復雜度偏高。因此，這兩年業界更多地在推行的是中融合方案，即先對不同視角的圖像提取特征，然后在一個統一的特征空間下融合這些特征，最后再產出感知結果。這個坐標系，一般指自車的EGO 3D坐標系。這張圖演示的是相關方法的演進。

這其中大部分都是基于BEV的方法，上圖就是BEV-based相關方法的相關演進, 用某種方式將圖像視角特征轉到BEV特征空間，也就是一個高度方向拍扁的自車3D坐標系空間下，再用一個檢測的Head實現目標檢測。BEV這張圖的尺寸通常比較大，比如一般常見的論文里面會用128×128 size，但在實際中，我們甚至會用兩倍大小的BEV特征圖。從圖像特征空間向BEV層空間轉換過程，是一個非常密集的計算過程。有很多的方法也是在優化這部分的速度，比如說Fast-BEV 、BEVPoolv2 等。而另外一類方法沒有提取顯式的BEV特征，比如 PETR 系列工作和我們的Sparse4D 系列工作。它的關鍵思想就是構造3D空間下Query，用3D空間的Query去獲取不同視角的特征，去聚合不同視角的特征，再傳出檢測的結果。下面先介紹一下比較有代表性的BEV和稀疏的方法。?

BEV-based方法

IPM 方法

IPM是應用廣泛落地最多的自動駕駛視覺感知方案，多用于parking場景。這類方法中，我們先會設定3D空間中的一系列點。比如，將BEV空間中地面的某個點，根據相機內外參投影到多視角圖像上，再去采樣對應的特征作為3D空間點的特征表示。個人認為是一個最簡單快速的BEV算法。它的做法是將每個BEV Grid看作所有物體在地面上，假設所有物體的高度為1，即Z軸的值都是1，等價于地平面假設，把BEV Grid的地面道路上的點投影到圖像上去，獲得BEV Grid的特征。可以看出，IPM依賴的一個前提是所有物體都在地面高度上，但實際場景中的高于地面的物體其實是不符合假設的，會存在很多的特征畸變。如果大家開車的時候會看360影像，會對這一點非常熟悉。因為360影像其實就是比較小范圍的基于IPM的BEV。那么如何去優化IPM的效果，有很多改進方法。像去年非常有影響力的工作BEVFormer，我認為在某種程度上可以看作是一種IPM的改進。本質上IPM四張圖拼接的過程應該類似與BEV-Det多v拼接的過程，只是一種是離線拼接，一種是隱式的基于learning的方式拼接特征進行feature extract learning。

LSS 方法

上圖所示為LSS變化過程，也是BEV方法中一種重要的2d轉3d特征的方式，BEV-Det是利用LSS進行BEV視覺感知的通用框架，也是應用最為廣泛的自動駕駛視覺感知落地方案。LSS將2D 圖像上的特征向3D 空間投影。最早的工作是Lift，Splat，Shoot。它的核心思想，是將圖像上的每個點看作是一條射線。這條射線在3D空間中具體位置可以根據相機內外參獲得，在這條射線上會去采樣很多點，對于每個點去估計一個深度的置信度（即這個深度位置有物體的概率）。射線整體上的深度置信度，通過softmax可以規劃為1。我們將圖像上這個點的特征乘上射線上每個點的置信度，就可以獲得射線上每個點的特征。基于這個思想，BEVDet 進一步實現了BEVPool算子，能夠比較高效地實現升維后的視錐多視角圖像特征向BEV 特征的快速轉換，獲得了很好的效果。在BEVDet基礎上進一步發展的BEVDet4D算法，引入了時序能力。具體做法比較簡單，就是把上一幀的圖像特征和單點幀圖像特征拼接在一起，再過一個卷積進行融合，這就是我們稱之為一種兩幀短時序的時序融合方式。它能夠比較簡單地去獲得視頻時序流動的運動信息。通過剛才的介紹可以知道，BEVDet 特征投影方式效果是十分依賴于視錐深度估計的效果，那么如何去提升這個特征點投影效果呢？我們就需要獲得更精準的深度估計。

來源：星球內部資料，文末掃碼領取！

上圖是對LSS深度估計不準問題提出的解決方案，LSS方案得到的BEV-feature只能生成離散且稀疏的BEV表示。一個比較直觀的做法就是給深度估計加顯式的監督，也就是BEVDepth的做法。BEVDepth的監督是來自于稀疏Lidar 點云。那么再進一步如何再去提升深度估計效果呢？BEVStereo這個方法，就是將時序上的前后幀看作是一組雙目圖像，引入了雙目深度估計中的思想去進一步提升深度估計的效果。后續的像SOLOFusion工作，就更進一步將多視角的幾何的深度估計和長時序的策略融合結合在一起。它核心就包括兩個模塊，一個是高分辨率短時序模塊，主要是基于前后幀的多視角幾何的思想，去獲得更加精確的深度估計，并初步獲得BEV特征；再用BEV空間下的低分辨率長時序模塊去融合，最多達到16幀的較長時序的BEV特征，這樣它就獲得了一個很好的效果。

上圖是SOLOFusin的基本網絡時序融合框架，隨著幀數越來越多，時序方法也出現了低效率問題。以SOLOFusion為例子，在每幀的前向過程中都需要融合過去16幀的特征。這樣做的問題是：一方面整體網絡中存在著很多的冗余計算，另一方面系統中需要緩存非常多的歷史BEV特征。又因為BEV特征圖通常比較大，這樣的做法在系統帶寬比較低的車端，自動駕駛系統是很難使用的。今年，VideoBEV提出了一種更加簡單的Recurrent時序工作方式。

來源：星球內部資料，文末掃碼領取！

簡單來說就是將當前幀提取的BEV特征和上一幀融合后的BEV特征進行融合，再將融合后的BEV特征傳遞到下一幀。這種有點類似于RNN的形式，可以讓幀間傳遞的融合BEV特征，理論上能夠保留較長時序的特征信息。當然這種循環神經結構也會存在著很強的遺忘特性，因此實際上傳遞的長時序信息是比較有限的。VideoBEV這種形式對于實際車端使用是比較友好的，因為它的計算量始終是恒定的，指標提升也非常明顯。這張實驗對比圖是來自于VideoBEV。

這張圖片展示了基于Lift-Splat 2D到3D的BEV生成方式的技術發展路線。從多視角的特征融合，到時序的短時序融合，再到點云深度監督，再到多視角幾何的估計，再到SOLOFusion長時序，再到VideoBEV Recurrent時序的形式，一步步的把這個方法框架的效果提升，使它更加適合真實場景的使用。另外一條與2D到3D路線相對的，叫做3D到2D的特征投影技術路線（reverse-project road）。

反向投影方法

其實IPM方法也是一種3D到2D反向投影的方式，只是這種方式區別于接下來要講的基于隱式深度學習的投影。

BEVFormer方案主要包括兩個主要的模塊：一個Spatial Attention，另一個是Temporal Attention。我們先看Spatial Attention。它的做法是對于BEV Grid上的每個點視為Query，每個Query會在對應的grid的高度方向上劃分多個voxel，每個voxel里面去用Deformable Attention采樣多點，然后全部融合在一起去作為Query也就是 BEV Grid的特征。如果說剛剛的IPM是一個BEV Grid采樣一個點，BEVFormer就是一個Grid采樣了非常多的點。遠遠更加充分的點采樣和特征融合，使得BEVFormer獲得了比IPM好很多的效果。時序方面，BEVFormer用的也是一個兩幀的短時序融合方式，采用的也是Deformable Attention的形式進行融合。BEV類的方法可以算是當前多視角3D感知的一個主流路線，但是在實踐中BEV方法也存在很多的問題。我覺得各類問題的根源在于，需要感知的目標在三維空間中通常是十分稀疏的，存在著非常多的無效區域。而從圖像空間到BEV空間轉換，是一個稠密特征到稠密特征的重新排列組合。它計算量非常大，而且計算量與圖像尺寸以及BEV的圖像尺寸是成正相關的，這使得BEV模型的感知范圍、感知精度以及計算效率其實是非常難平衡的。在我們常用的nuScenes數據集中，一般感知范圍會設置為長寬 [-50m, +50m] 的方形區域，但在實際場景中，我們通常會需要達到單向100米，甚至200米的感知距離。如果說我們想要保持BEV Grid的分辨率不變，那么就需要去增加BEV特征圖的尺寸，這會使得端上的計算負擔和帶寬負擔都非常重。如果要保持BEV特征圖的尺寸不變，就需要更加粗粒度的BEV Grid，那么它的感知精度就會下降。因此在車端有限的算力以及帶寬條件下，BEV方案的一個常見難點是比較難以實現遠距離感知與高分辨率感知的平衡。這個問題怎么解決？業界一個比較常見的做法是補充一個或者若干個前視或者前視窄角模型，比如2D模型，專門去做特別遠距離的感知。但是這又帶來一個問題，如果有好幾個3D檢測的感知來源，就還得再去做后融合，這使得模型又變得復雜起來了，沒有真正消除掉后融合，也很難真正去做到端到端。另外一個問題是BEV空間是一個壓縮高度信息的三維空間，這使得它對于一些高度方向上敏感的任務比較難完成。一類任務是標志牌、紅綠燈檢測。好在標志燈、標志牌、紅綠燈檢測可以通過2D任務來解決。另外一類，比如異形車，它不同高度，形狀不一樣，用拍扁的方式，很多時候不一定能夠很好地解決。那么，與這種生成密集特征相對應的就是我們稱之為稀疏感知方法，比較早的有代表性的就是DETR3D。

它的稀疏體現在，并沒有像BEV一樣對BEV 3D空間中所有點都去轉換特征，而是只對我們感興趣的目標進行了3D特征的轉換和融合，主要流程包括以下幾步：

和大部分方法一樣，也是提取多視角的特征；
初始化Query，用特征編碼方式初始化若干的Object Queries；
將Query特征通過MLP映射到3D空間的參考點坐標，將這個點通過相機內外參投影到圖像平面上，并去采樣多尺度特征，融合后采樣特征來作為Query的特征更新；
通過更新后的特征，迭代式地去更新Query的信息，并去預測目標框信息；最后用二分匹配方式去跟真值進行關聯，再進行訓練。

另外一個比較有代表性的方法是PETR系列。

來源：星球內部資料，文末掃碼領取！

PETR系列方法與DETR3D的一個最大區別在于：PETR里面Query特征是通過Cross Attention直接和所有的圖像特征進行交互，而非類似Deformable Attention這種基于采樣的方式與圖像中的特征進行稀疏性的交互。在PETR這種形式下，關鍵的問題在于：如何將圖像特征跟3D的信息關聯上？PETR的方法是將相機的視錐射線基于內外參投影到3D的自車坐標系下，基于這些點的坐標進行編碼，得到3D的位置編碼，然后加到圖像特征上去做。在此基礎上，PETR-V2進一步引入了兩幀形式的時序融合，和一個更加優秀的3D的位置編碼策略。

PETR-V2更進一步，近期StreamPETR方法，類似于VideoBEV引入了Recurrent的時序融合策略。

但不同的點是采用Recurrent時序融合策略是實例級別的融合。具體做法是把t-1幀獲得的檢測結果作為Query，通過一定的隱式的運動變換后，把它推到第t幀作為一部分的輸入Query。來自上一幀的Query和這一幀新初始化的Query，一起進入Decoder 模型，得到新一幀的感知結果。我們的Sparse4D-V2版本方法，也采用了一個類似的實例級別的Recurrent時序融合策略，后面我會介紹兩者之間的設計上的差異。在上面的幾個方法中， DETR3D是稀疏Query加上稀疏的特征交互；PETR則是稀疏的Query加上密集的特征交互；PETR-V2 和StreamPETR 則分別引入了兩幀的時序和Recurrent的時序形式。

PETR系列方法效果非常好，但可能存在一個問題是稠密的特征交互，特別是在板端算力有限的情況下，對于比較高分辨率的圖像特征輸入不夠友好，耗時會隨著輸入圖像分辨率的增加而非常快地增長。我們這一系列研究出發點是，希望實現一個高性能、高效率的長時序純稀疏融合感知算法。這條技術路線比較代表性的方法是剛剛提到DETR3D算法。但是，從開源數據及指標來看，DETR3D的性能距離其他稠密類型的算法有比較大的差距。為了讓純稀疏感知或者DETR3D感知再次把性能達到這種算法水平，這兩年相繼提出了Sparse4D以及它的改進版本Sparse4D-V2，從Query的構建方式、特征采樣方式、特征融合方式以及時序融合方式等多方面提升了模型效果。當前 Sparse4D-V2 在nuScenes Detection 3D的榜單上也達到了比較SOTA的效果，超越了像SOLOFusion、BEVFormer-V2和StreamPETR在內的一些方法，而且在推理效率上也有明顯的優勢。接下來我主要會介紹Sparse4D和Sparse4D-V2方案的一些細節的實踐。

前向-反向投影結合的方法

視覺轉換模塊（VTM），主要作用在視圖轉換過程，將多視圖特征轉換為BEV特征表示，是基于視覺的 BEV 感知系統的關鍵部件。目前，VTM 存在兩種主流的方法模式：前向投影和反向投影。前向投影以 NVIDIA 提出的 BEV 感知算法 LSS（Lift, Splat, Shoot）為代表，在不借助后處理操作，直接產生稀疏的 BEV 特征。反向投影以 BEVFormer 為例，投影匹配時易于產生假陽性 BEV 特征，主要由于缺少統一的深度信息。

如上圖所示，前向投影是將相機特征投射到BEV平面上最為直觀的方法，其中涉及圖像平面上每個像素深度值的估計，并且使用相機標定參數來確定每個像素在3D空間中的對應關系。稱這一過程為前向投影（IPM、BEVFormer）。

其中2D像素主動投影，而3D空間被動接收來自圖像空間的特征。這一過程中，預測每個像素深度的準確性，是獲得高質量BEV特征的關鍵。為了解決預測像素深度這一難題，NVIDIA提出的BEV感知算法LSS（Lift, Splat, Shoot）首先使用深度分布來建模每個像素的不確定性，但LSS有一點不足：它只能生成離散且稀疏的BEV表示。

BEV特征的密度隨著距離變大而減小。當在nuScenes數據集上使用LSS的默認配置，即為同通過將圖像“抬升（Lift）”為3D點云，并將所有截頭錐體“拍扁（splats）”到參考平面上時，那么在投射過程中，僅有50%的3D網格可以接收到有效的圖像特征。

在動機方面，反向投影和前向投影完全相悖。在反向投影機制之下，3D空間的點占據主動。例如，BEVFormer會預先設定要填充的3D空間坐標，然后將這些3D點投射回2D圖像上，具體如圖1中間所示。因此，每個預設定的3D空間位置都可以獲得與之對應的圖像特征。反向投影獲得的BEV表示特征，會比LSS稠密得多，因為每個BEV網格都填充了與之對應的圖像特征。

然而，反向投影的缺陷也尤為明顯，如圖3所示：雖然獲得了稠密的BEV特征表示，然而因為遮擋和深度誤匹配，會產生很多錯誤的3D到2D空間的對應關系，這一錯誤匹配造成的主要原因是投影過程中的深度信息的丟失。近來，前向投影領域得到進一步發展，借助更多的深度監督信息輔助提高深度分布的準確性，這有助于3D感知。

為解決前向投影中的稀疏BEV特征表示問題，我們使用反向投影提煉前向投影中的稀疏區域。針對反向投影由于缺失深度信息的指導，而產生假陽性特征的問題，FB-BEV提出一個深度感知的反向投影，借助深度一致性，衡量每個投影關系的質量，來抑制假陽性特征。

何為深度一致性？是通過一個3D點和與之對應的2D投影點的深度分布距離來確定的，即為深度一致性。基于這一深度感知的方法，不匹配的反向投影會被給定一個較低的權重，從而減少由于假陽性BEV特征導致的推理。

FB-BEV主要包含三個關鍵模塊：

i. 帶有前向投影的視圖轉換模塊F-VTM

ii. 前景區域推薦網絡FRPN

iii. 帶有深度感知的反向投影視圖轉換模塊B-VTM?

長時序稀疏方法

首先，我們再去回顧一下DETR3D上面存在的問題。

作為一個比較早期的算法，DETR3D的設計比較簡單，存在幾個問題。第一點是它的每個Query只對應一個3D參考點，不能夠非常有效的去采樣目標特征，特別是對于比較大的目標以及一些跨視角目標，可能就投到一個點，但不能把這個目標都覆蓋到；第二點是Query解碼到3D參考點的形式，并不能非常有效地定位ROI區域，會存在退化解，多模式的問題。這個問題其實在2D的DETR改進方法里面有很多討論，類似于DAB-DETR也討論了Query到參考點解碼形式的存在問題；第三點是DETR3D里面沒有引入時序信息融合。在Sparse4D的第一版本中，我們主要通過Instance的構建方式，特征采用、特征融合和時序融合等方面去對DETR3D進行了改進。我們在改進過程中學習了非常多2D檢測領域DETR改進的經驗。

首先，最大區別是sparse4D重新引入了Anchor的使用。對于待感知的目標我們定義為Instance，每個Instance會由兩個部分構成：第一部分是Instance的 Feature。它在Decoder中會不斷由來自于圖像特征的采樣特征所更新；第二個部分3D Anchor 是目標結構化的狀態信息，我們會顯式地把Anchor的參數作為Anchor的信息，它會包括很多具體的值，包括目標框的位置、長寬高、yaw角、速度信息，我們都會作為Anchor的一部分。在Sparse4D-V1里面，Anchor本身我們通過K-Means算法來進行初始化的，同時在網絡中基于一個 MLP網絡來對Anchor的結構化信息進行高維空間映射，得到Anchor Embed的概念，并與前面說到可學習的Instance feature相加得到更加綜合的特征表示。基于以上定義，我們可以初始化一系列的Instance，經過每一層Decoder都會對Instance進行調整，包括Instance特征的更新和Anchor box的refine，對于每層預測的bounding box中，Sparse4D同樣會通過二分匹配的方式與真值進行匹配，并計算損失函數。在Sparse4D中，最重要的一個模塊是Deformable 4D Aggregation可并行的4D特征聚合模塊。這個模塊主要負責Instance和時序圖像特征之間交互。

如圖所示，主要包括三個步驟：第一點是4D關鍵點生成。基于每個實例的3D Anchor信息，首先可以生成一系列的3D關鍵點，分為固定的關鍵點和可學習的關鍵點。將固定的關鍵點設置為Anchor box的每個面的中心點，以及其立體的中心點；可學習的關鍵點，通過實例的特征接入一層全鏈接的MLP網絡來得到。在 Sparse4D-V1的版本中，sparse4D采用了7個固定關鍵點 + 6個可學習關鍵點的配置，一共13個關鍵點。然后，sparse4D會結合每個實例自身的速度信息，以及自車的速度信息，對這些3D關鍵點的位置進行時序的運動補償，獲得它們在每一個歷史幀中的位置，相當于把當前幀的一系列關鍵點投影到了每一個歷史幀上。那么，結合當前幀和歷史幀的3D關鍵點，就獲得了每個實例的4D的關鍵點。下一步是4D特征采樣。在獲得每個Instance的當前幀和歷史幀這個關鍵點之后，我們會根據內外參將這些點投影到對應的多視角圖像上去，進行雙線性的插值采樣，從而得到多關鍵點、多時間戳、多尺度和多視角的特征表示。這其實是一個比較大的特征表示。得到多層級特征表示之后，做層次化的特征融合，sparse4D分為了三層：首先，對每個關鍵點去融合在不同特征尺度和視角上投影特征，采用了加權求和的形式。權重系數是通過將實例特征輸入到全連接網絡中去預測到的，是一種動態加權的方式；第二點是做時序特征的融合，sparse4D采用的是一個簡單的，類似于RNN的網絡來做融合；最后一點會用求和的方式將一個實例不同關鍵點特征加在一起，作為一個融合。這頁展示的是 Sparse4D中的Ablation Study。

左上角是我們在剛剛的4D關鍵點中做運動補償的必要性，對自車運動以及目標實例的運動做運動補償，對于網絡的效果都是有明顯提升，特別是對于速度估計的提升是非常的巨大的。其次，我們的融合策略比起直接簡單的去加權多尺度的多級別特征，效果要好一些。在Sparse4D中的時序方面，我們發現跟SOLOFusion類似的結論，時序增加的越多，效果就越好，但后面的提升可能會逐步收斂。效率方面，Sparse4D單幀的版本的速度是略慢于DETR3D，這是一個預期內的情況，因為采樣點變得更多了，而且有很多融合的模塊。

?來源：星球內部資料，文末掃碼領取！

但在多幀的情況下，Sparse4D的速度下降了很多，主要是因為多幀推理的時候，在Sparse4D框架里面類似于SOLOFusion，對每一個歷史幀的特征都要進行一次采樣融合。在Deformable 4D Aggregation這個模塊中，由于要采用多視角、多尺度、多關鍵點，再按多幀特征去融合，中間有很多的讀寫操作，效率也不是很理想。此外，Sparse4D幀間傳遞的是比較重的多視角的圖像特征，缺乏實例間的幀間傳遞。這些點就使得Sparse4D特別是在多幀的情況下， FPS下降比較明顯。比起一些對比的方法，它在速度和顯式量上其實并沒有很大的優勢，并沒有很好體現出稀疏框架的優點。同時Sparse4D時序采樣的一個問題是：它的速度采用的是實例在當前時間節點估計的速度，而且我們用了常速度的運動假設，對于變速度的目標歷史幀投影很可能是不準的。那么，針對Sparse4D-V1里面存在的這些問題，我們做了很多改進。

總體來說，可以歸為兩方面：第一點是我們引入了Recurrent的實例級別的時序方案；第二點是我們對網絡中的非常多的模塊進行了速度和效率地優化，使得整體的FPS和顯式占用都得到了極大優化。具體而言，如上面這張圖所示，我們會把上一幀的Instance傳到下一幀作為Query的輸入。接下來介紹一下具體的框架。

?來源：星球內部資料，文末掃碼領取！

這張圖展示了Sparse4D-V2的整體框架圖，Encoder部分與V1版本一致，這邊就不展開。Decoder 部分為了非時序層和時序層。其中非時序層有1層，時序層有5層。非時序層全部是新初始化的Instance作為輸入，輸出一部分高置信度的Instance到時序層。時序層的Instance除了來自于單幀層的輸出以外，大部分來自于歷史幀，也就是上一幀。我們的做法是將歷史幀的Instance投影到當前幀，在這個過程中保持實例的特征是不變的，但Anchor box會通過自車運動和目標速度投影到當前幀，Anchor embed通過對投影后的Anchor box進行編碼得到。可以看出非時序幀的作用主要是先簡單檢測一下場景中的目標，去做一個比較好的新出現的目標的初始化。其實，大家如果熟悉MOTR以及MUTR3D ，會覺得這個框架跟MOTR有點相似，都有歷史幀的實例進入當前這一幀，也有當前幀新的實例一起進行檢測。主要區別在于，Sparse4D-V2中，目前在真值關聯部分沒有區分歷史幀和新Instance的匹配。因為在MOTR里面，是有一套比較獨特的匹配策略，它的歷史幀已經貫穿目標，會繼續跟歷史幀關聯。我們這邊沒有做針對tracking的關聯策略的調整，還是全部放在一起進行一個關聯形式。Sparse4D-V2和StreamPETR都采用了實例級別的Query的時序框架，兩者之間有什么差別？主要有幾點：第一點，是Instance表示方式。在PETR里面Query Instance 采用的是將均勻分布在3D 空間中的可學習 Anchor point，用MLP編碼成Query特征。Sparse4D中則是更加顯式的做法，會把Instance分離成Feature和3D Anchor，PETR的Instance的形式就更加隱式一些了。我們的觀點是特征跟Anchor box的分離的表示方式，在稀疏3D檢測任務中可能是更加有效、簡潔的方式，也更加易于訓練更新檢測結果。第二點，我們將歷史幀投影到當前幀這個時序轉換的方式，其實是跟前面剛剛說到的Instance的表示方式相對應的。在StreamPETR中，采用了隱式的Query時序特征表示，既把目標的速度、自車的速度、時間戳都編碼成特征，然后再和每個Query的特征做adaptive的normalization來進行隱式的更新。Sparse4D-V2 如剛剛說的是一種非常顯式的時序轉換方式，直接把Instance基于運動信息的Anchor box投影到當前幀，特征是保持不變的，因為希望這個特征更多的保留它的一些語義信息。第三點，StreamPETR和Sparse4D-V2中歷史幀的數量不同，從PETR里面會保留多幀的信息，再去那一幀做Attention。Sparse4D-V2只cache了一幀，StreamPETR也可以只cache一幀，但是效果會略有下降。在實際的業務實踐中，比較少的cache歷史幀有助于減少端上的帶寬占用，進一步提升系統整體的性能。此外，在Sparse4D-V2中一個比較大的改進是，我們還對Deformable Aggregation模塊進行了底層的分析和優化，讓其并行計算效率顯著提升，顯存占用大幅降低。

?來源：星球內部資料，文末掃碼領取！

左上圖展示的是Deformable Attention基本的計算流程，在原始的流程中我們會先采樣得到多關鍵點、多視角、多尺度的中間特征，把這個特征和group weight進行融合，得到融合后的特征。在這個過程中，需要對顯存進行很多次的訪問和讀寫操作，降低了推理速度，而且中間的特征尺度比較大，有好幾個維度，使得顯存占用量會顯著增加，且使得反向傳播過程中的顯存消耗比較明顯的提升。那么，為了提升op的計算效率，降低顯式占用，我們將上述實現中的雙線性特征插值采樣和加權求和融合，合并在一起做了一個算子。就像右邊這張圖所示，我們稱之為Efficient Deformable Aggregation(EDA)模塊。這個模塊關鍵在于將采樣所有特征再融合的形式，變成了并行地邊采樣邊融合的形式，它能夠在關鍵點k的維度和特征的c維度上實現比較完全地并行化。每個線程或者每個cuda線程的計算復雜度僅與這個相機數量n和特征尺度s有關。此外，在大多數情況下，特別是在自動駕駛的多視角圖像的情況下，3D空間中的一個點，一般最多就被投影到兩個視圖上，這使得我們可以進一步將計算的復雜度降低為2×s。EDA作為一種比較基礎性的算子操作，可以適用于需要多圖像和多尺度融合的各種應用。目前這個算子的實現，也已經在我們的官方代碼庫上開源了。我們在3090上對EDA模塊進行了性能測試，可以看出來EDA對顯存占用和推理速度都有一個比較明顯的優化。在加入EDA模塊之前，在這個配置下，它的推理FPS只能達到13.7FPS，但加入EDA之后就可以有50%的提升，到20FPS。而且整體的訓練速度也降低了非常多。此外，我們還提了一個Ablation Study，在Sparse4D-V2上再次去檢驗了動態特征加權的有效性，可以看出它能夠帶來三個點的MVP的提升，還是比較有效的一種做法。這頁展示了更多的關鍵設計的Ablation Study。

我們對比實驗1和實驗5可以看出，采用Recurrent Instance的形式來實現長時序融合，相比單幀的提升非常大，有將近10個點提升。對比實驗4、實驗5可以看出，在Sparse4D-V2中深度監督模塊比較重要，能夠比較明顯降低Sparse4D-V2的收斂難度。如果去掉這個模塊， V2版本的模型可能會出現一定的梯度崩潰的情況，使其指標有一定的降低。可能很多時候，在業務場景不具備深度監督條件，這時候也可以用一些其他的 head去輔助，比如FCOS Head、YoloX等去做輔助監督，都能夠有效改善訓練情況。實驗2和實驗3去做對比，可以看出我們剛剛提到的單幀層 + 時序層的組合，先用單幀層去初始化一些檢測的Instance，它會比全部用未初始化的 Instance+時序Instance方式的效果好很多。實驗3、實驗5對比是展示了我們的另外一個小的改動，在特征聚合的模塊里面加了相機參數編碼，它也有比較可觀的提升。此外就是實驗1單幀模型，它在3090上推理速度是21FPS，實驗5的推理速度是20.3FPS，基本上是保持一致的，它時序的速度穩定性還是非常好的。另外，我們也在nuScenes validation上面去更新一些參考方法，和一些比較SOTA的新的3D感知方法做了對比。

?來源：星球內部資料，文末掃碼領取！

可以看出，無論在低分辨率+ResNet50或者是高分率+ResNet101的配置下，Sparse4D-V2都獲得一個比較好的效果，超過了像SOLOFusion、VideoBEV、StreamPETR等算法，當然也比較明顯的超過了Sparse4D-V1版本，不過這個表格里面沒有寫 V1的效果。Sparse4D-V2在256×704的低分率下，速度要比StreamPETR慢，但是會快于LSS-Based，類似于BEVPoolv2。但當圖像分辨率提升到512之后，Sparse4D-V2反而會快一些。這主要是因為在低分辨率下直接做Global Attention的代價會比較低，但隨著特征圖尺寸的上升，它的效率會比較明顯下降。Sparse4D head部分的理論計算量和特征圖尺寸是無關的，都是通過grid sample去實現特征采樣，這也展示了稀疏算法的優勢。實際設定中當圖像分辨率從256×704提升到512×1408的時候，Sparse4D-V2 Decoder部分的耗時只會增加15%左右，但這是因為從一個比較高分辨率圖像的特征上去采樣特征，雖然說計算量是一樣，但它會比低分辨率圖像上的測量會慢一點，這跟特征的訪問效率有關。另外，我們也在測試集上面去做了對比，由圖可見，也獲得了比較好的效果。

總的來說，對于Sparse4D-V2，我們的結論包括三方面：第一點是顯式的稀疏實例的表示方式。把Instance表示為3D Anchor和特征結合，并不斷地進行迭代更新，是一種比較簡潔有效的方式。同時這種方式在時序框架里面，也很容易去做時序運動補償。第二點是對于稀疏架構，它的特征采樣和聚合的算子效率是非常重要的，如果是一個直接基于PyTorch實現算子，它的效率可能并沒有那么高，并沒有理論計算量那么高效。因此，我們就提出了針對多視角、多視圖像的層級化的采樣策略，也提出了一個非常高效率的算子。第三點是Recurrent的時序稀疏融合框架。它使得時序模型基本具備了與單幀模型相同的推理速度，且幀間占用的帶寬非常少。這樣輕量且有效的時序方案，是非常適合在一個真實的車端場景去處理多攝視頻流的數據。這里還有沒有寫的一個結論是：Sparse4D-V2的時序框架，是非常容易去做端到端的跟蹤。我們后面做了一個實驗，發現將檢測結果直接根據幀間的Instance對應關系，加上track id，不額外去添加一個tracker，比如一些移植的tracker，就能夠得到非常好的跟蹤效果。由此可以看出， Sparse4D-V2去做端到端跟蹤的潛力是非常大的。這頁還進一步展示了我們最新的一個實驗的結果Sparse4D-V3，目前代碼和報告還沒有release。

在Sparse4D-V3中，進一步加入了一些新的特性，比如更大的backbone以及更優秀的訓練策略，也實現了剛剛說的端到端的跟蹤能力，獲得了比較好的效果。這是前幾天的一個比較新的實驗結果。Offline版本的Sparse4D-V3到了0.719的NDS。Offline的版本是指在這個實驗中用到的未來幀信息。正好聊一下這個問題，對于這種比較大Backbone的多視角感知模型，它的業務價值到底在什么地方？因為實際上在端上可以跑的模型，一般跑不了很大的Demo，比如說像刷榜大家會問到VIT-Large這種級別的Demo，它在業務場景下很難使用。因為端上的算力可能有限，可能只能用到ResNet34或者ResNet50這種小模型。那么，我們認為這種大模型的最大價值就是盡可能地追求它的指標上限，拿來作為云端真值系統的預刷模型，產生4D的真值。這些真值再拿去作為車端模型的訓練。這種離線的真值系統里面一個比較重要的策略是我們要用到未來幀的圖像，或者在后處理跟蹤過程中，用未來幀信息去優化跟蹤結果，目標是盡可能提升它的感應效果，以找到比較好的真值，作為真值系統的輸入。

來源：星球內部資料，文末掃碼領取！

如何在端到端自動駕駛系統中構建一個可靠可用的稀疏的通用感知后端？這是我們認為未來非常有價值的技術方向。因為只是把檢測這個事情做稀疏化，其實并不夠。一個真實的系統中，不止檢測，還有Online Mapping、障礙物感知，還有freespace等各種各樣的任務。我們想要徹底去做稀疏化，就需要把各個任務都做優化改進。這張圖是最近我畫的，分為5個部分，是一個我對于稀疏通用感知架構設想的框架。

第一個部分是圖像特征的提取。左上角寫了Foundation Model ，后續可以和Foundation Model的預訓練的方式相結合，在圖像特征提取上面得到更加強大的特征表示。第二部分是PV-based 感知。在圖像上去做檢測任務，或者一些深度估計任務的時候有很多作用。第一點是PV檢測的結果，可以作為后續3D感知Query的初始化，這一點在BEVFormer-V2等幾個最近的工作中都有采用。Sparse4D目前還沒有用上這個策略，應該也會是一個比較有效的策略。第二點是PV的一些任務，包括深度的任務或檢測任務，它也有助于圖像特征的收斂，使得網絡整體上訓練得更好一些。第三點是認為基于圖像PV特征的一些檢測深度，乃至于分割結果，有助于挖掘一些場景中存在的通用障礙物。第三部分是3D感知部分，包括動態感知（也就是檢測）、道路元素感知（也就是HD map的在線預測）以及通用障礙物感知。我還畫了一個BEV的模塊，這是因為可能有些任務需要在一個相對可能比較小的發展范圍內去輸出密集的結果。比如freespace就是要道路面上的密集的結果，它是沒辦法去做Instance表示的形式。所以，在這種框架里面還是不可避免的要加上一個BEV模塊。但這里的BEV模塊可以使用一個較小的size，更加輕量的設計。最右的兩個模塊指的是時序融合模塊和實例語義關系模塊。總的來說，在架構設計中出發點包括四個部分：

盡可能會去除后處理和規則融合模塊，使得網絡整體是端到端完全可微；
盡可能將大部分的任務稀疏實例化，實現更加高效的時序融合和存儲；
整體架構是一個層次化的架構。從2D的檢測結果級別，到3D的級別，到時序的級別，到語義關系的級別，整體有一個比較好的自洽性；
這個框架進一步加入預測模塊和規控模塊，就能夠實現完整的端到端自動駕駛能力。

在這個框架里面，很多也是比較初步的設想，有很多地方都不太成熟，值得我們未來去探索。比如第一點，在稀疏范式下的視覺跟Lidar的中融合的結合。雖然我這張圖片沒有畫Lidar，但是后面在類似Sparse4D的框架下做和Lidar的融合，也是一個很好的話題。因為Lidar的稀疏化是一個更加自然的事情。第二點和第三點是如何去做完全稀疏化的道路元素感知和通用障礙物感知，這兩點我接下來會展開講一下。第四點是實例化的語義邏輯建模，就是對Topology的建模。這個方向研究工作也比較多，像Tesla也在Workshop上面也展示過一些相關效果。最后一點也是最重要的一點，就是要做好稀疏感知架構在芯片端的效率優化。因為所有的模塊都要建立在一個良好的芯片端的效率上，才能夠成立。

對于具體的三個方向，首先想討論一下稀疏高精地圖建模。

早期的方法，比如HDMapNet，可以認為是模型和后處理相結合的多階段方法。一般會先獲得BEV特征，在BEV特征上做語義感知類任務，在后處理階段對BEV特征做聚類等的一些后處理，得到結構化車道線。后續的MapTR V1&V2等方法就實現了端到端的HD map網絡。它的特點是基于BEV特征直接預測結構化車道線，省去了后處理步驟，通常是會構造稀疏車道線實例的Query，以及一些車道線中關鍵控制點的Query，去和BEV層做Attention交互，去迭代修正車道線的結果。那么，進一步的形勢可能是怎么樣的呢？剛剛我們提到了MapTR是用稀疏的Query和BEV特征去交互，BEV特征又是來自于圖像特征。理論上可以移除掉BEV這個特征的中間商，直接從圖像特征出發，預測結構化車道線，我們認為這是一條完全可行的技術路線。另外一個方向是關于通用障礙物感知，這個問題可能就更加開放性一些。

?來源：星球內部資料，文末掃碼領取！

通用障礙物的感知是自動駕駛感知系統里面比較重要的一個問題。傳統方法一般就是不斷地擴充白名單，也就是需要增加感知的目標種類。當遇到一類新的corner case，就可能需要去標很多數據，擴充相關的系統。但這樣的做法比較缺乏泛化能力，成本也比較高。去年Tesla AI DAY之后，Occupancy又成為了解決這類方法的一種可能性。通過識別空間中的通用的障礙物情況，來定位到一些此前沒見過的障礙物在3D空間中的占用。但Occupancy在實際系統中存在一些問題，比如計算效率比較低，因為3D Occupancy的輸出空間很大，有效的點也很稀疏，這使得下游的模塊想去解析并使用Occupancy的時候，是非常困難的一件事情，要真正用起來并不是一件很容易的事情。那么，是否有一種可行的路線呢？我也不是很確定，是否能去做稀疏的Occupancy是一種我們的預期想法。即只對感興趣的目標或區域去做Occupancy，而不把所有地方都給估計出來。因為在一個整體的駕駛場景中，很多區域的Occupancy并不太重要，比如左圖所示，一些距離道路可能20米之外的樹木的Occupancy，估計出來對于系統來說并沒什么意義。如果只挖掘對自車駕駛重要的區域，就可以避免算力的浪費。最近有一篇非常相關的工作叫Occupancy DETR，我覺得就有點這個意思，就是把前景物體跟背景的Occupancy分開估計，前景是用一種類似于DETR的方式去做估計，對于前景物體Occupancy估計效果會提升非常多。我覺得這個方法是一個挺有趣的工作。對于通用障礙物感知的事情而言，另外一個可能比較困難或者說比較重要的事情是：如何從圖像視角去挖掘出有可能是一個障礙物的 Queries，再用DETR去做估計。總的來說，前面介紹了很多端到端自動駕駛的想法，以及稀疏感知的一些內容。第一點，以端到端自動駕駛為目標，稀疏感知范式在稀疏實例化表示、計算效率、模型帶寬和感知范圍等方面，都存在優勢，有比較大的潛力。第二點，對于稀疏感知，雖然我前面對比很多稀疏感知和BEV的形式，但其實它跟BEV并不是互斥的形式，在整體的模型框架中還需要根據具體的子任務目標和感知范圍去合理地選擇，至少可以共享圖像特征提取器。第三點，是在稀疏感知的范式下，有很多任務和難題還有待解決。

reference：

FB-BEV: BEV Representation from Forward-Backward View Transformations
DETR->DETR3D->Sparse4D: 長時序稀疏3D目標檢測進化之路：https://zhuanlan.zhihu.com/p/1442634734

#LongCLIP

研究背景

研究問題：這篇文章要解決的問題是CLIP模型在處理長文本輸入時的局限性。CLIP模型的文本輸入長度被限制在77個標記以內，實際有效長度甚至小于20個標記，這限制了其在處理詳細描述時的能力，特別是在圖像檢索和文本到圖像生成任務中。
研究難點：該問題的研究難點包括：簡單地微調CLIP會導致其性能顯著下降；用支持更長上下文的語言模型替換文本編碼器需要大量數據預訓練，成本高昂。
相關工作：CLIP模型基于對比學習，廣泛應用于零樣本分類、文本圖像檢索和文本到圖像生成任務。然而，CLIP缺乏提取細粒度信息的能力，現有工作通過對齊輸入文本和圖像的完整區域來改進這一點，但仍未能充分捕捉長文本中的細節信息。

研究方法

這篇論文提出了Long-CLIP作為CLIP的插件式替代方案，支持長文本輸入，保持甚至超越CLIP的零樣本泛化能力，并對齊CLIP潛在空間。具體來說，Long-CLIP引入了兩種新穎的策略來實現這一目標：知識保留的位置嵌入拉伸和CLIP特征的主要成分匹配。

知識保留的位置嵌入拉伸：

通過對CLIP的實際有效長度進行實證研究，發現其有效長度僅為20個標記。
保留前20個訓練良好的位置嵌入，并對剩余的57個訓練不足的位置嵌入進行更大比例的插值。
插值公式如下：

其中，PE(pos)表示第 posth 位置的位置嵌入，α 是一個0到1之間的比率，決定插值后的位置嵌入是更接近前一個位置還是后一個位置。

主要成分匹配：

在長文本微調過程中，不僅對齊細粒度的圖像特征與長詳細標題，還從細粒度圖像特征中提取粗粒度信息，并與短摘要標題對齊。
設計了三個核心模塊：組件分解函數 FF、組件過濾函數 EE 和組件重構函數 F?1F?1。
組件分解函數 FF 將特征分解為多個表示不同屬性的向量，并分析每個屬性的重要性。
組件過濾函數 EE 基于屬性的重要性過濾掉不重要的屬性。
組件重構函數 F?1F?1 使用選定的關鍵屬性向量和其重要性重構圖像特征。

實驗設計

數據集：使用ShareGPT4V數據集作為訓練數據，包含約100萬個（長文本，圖像）對。隨機分離出1k個數據作為評估數據集。
評估數據集：在零樣本圖像分類任務中使用ImageNet-1K、ImageNet-V2、ImageNet-O、CIFAR-10和CIFAR-100數據集。在短文本圖像檢索任務中使用COCO2017和Flickr30k數據集。在長文本圖像檢索任務中使用從ShareGPT4V數據集中分離的隨機1k個（圖像，長文本）對，并手動收集200個描述城市場景的相似圖像，使用GPT-4V生成長文本標題。
訓練設置：在ShareGPT4V數據集上微調1個epoch，批量大小為2048。

結果與分析

長文本圖像檢索：在1k ShareGPT4V驗證集和Urban-200數據集上，Long-CLIP在長文本圖像檢索任務中的召回率分別提高了25%和6%。

短文本圖像檢索：在COCO2017的5k驗證集和Flickr30k的整個30k數據集上，Long-CLIP在短文本圖像檢索任務中的R@1分別提高了6%和7%。
零樣本圖像分類：在五個驗證集上，Long-CLIP的零樣本分類準確率沒有顯著下降。
圖像生成：Long-CLIP在Stable Diffusion模型中替換CLIP文本編碼器后，能夠無縫集成并增強長文本生成能力。

總體結論

這篇論文提出了Long-CLIP，一種具有長文本能力的強大且靈活的CLIP模型。Long-CLIP支持長達248個標記的文本輸入，并在檢索任務中顯著提高了性能。此外，Long-CLIP保持了零樣本分類的性能，并可以在圖像生成任務中以插件方式替換CLIP編碼器。盡管存在輸入標記長度的上限，但通過大量數據的利用，模型的擴展潛力巨大。

優點與創新

長文本輸入支持：Long-CLIP通過知識保留的位置嵌入拉伸和主要成分匹配策略，實現了對長文本輸入的支持，顯著提高了長文本圖像檢索和傳統文本圖像檢索任務的性能。
零樣本泛化能力：Long-CLIP在保持CLIP的零樣本泛化能力的同時，擴展了其輸入長度，顯示出其在各種基準測試中的優越性。
無縫替換CLIP：Long-CLIP與CLIP的潛在空間對齊，使得在不進行任何下游框架進一步適應的情況下，可以輕松替換CLIP。
高效微調：通過僅使用額外的一百萬對長文本-圖像對進行0.25小時的8 GPUs訓練，Long-CLIP實現了高效的微調。
增強的圖像生成能力：Long-CLIP通過替換CLIP的文本編碼器，以即插即用的方式提供了從詳細文本描述生成圖像的增強能力。
新的評估數據集：提出了用于評估長文本細粒度能力的Urban-200數據集，并進一步擴展到Urban-1k數據集。

#DriveDreamer4D

首個利用視頻生成改善駕駛重建的世界模型方法

閉環仿真對于推進端到端自動駕駛系統至關重要。當代的傳感器仿真方法，如NeRF和3DGS，主要依賴于與訓練數據分布緊密一致的條件，這些條件在很大程度上局限于前向駕駛場景。因此，這些方法在渲染復雜的機動動作（如變道、加速、減速）時面臨局限性。自動駕駛世界模型的最新進展已經證明了生成多樣化駕駛視頻的潛力。然而，這些方法仍然局限于2D視頻生成，固有地缺乏捕捉動態駕駛環境復雜性所需的時空連貫性。本文介紹了DriveDreamer4D，它利用世界模型先驗增強了4D駕駛場景表示。具體來說，我們利用世界模型作為數據機器，基于現實世界的駕駛數據合成新的軌跡視頻。值得注意的是，我們明確地利用結構化條件來控制前景和背景元素的時空一致性，因此生成的數據與流量約束密切相關。據我們所知，DriveDreamer4D是第一個利用視頻生成模型來改善駕駛場景中4D重建的工作。實驗結果表明，DriveDreamer4D顯著提高了新軌跡視圖下的生成質量，與PVG、S3高斯和可變形GS相比，FID相對提高了24.5%、39.0%和10.5%。此外，DriveDreamer 4D顯著增強了驅動代理的時空一致性，這得到了綜合用戶研究的驗證，NTA-IoU度量的相對增加了20.3%、42.0%和13.7%。

總結來說，本文的主要貢獻如下：

提出了DriveDreamer4D，這是第一個利用世界模型先驗來推進自動駕駛4D場景重建的框架；
NTGM旨在自動生成各種結構化條件，使DriveDreamer4D能夠生成具有復雜機動的新穎軌跡視頻。通過明確地結合結構化條件，DriveDreamer4D確保了前景和背景元素的時空一致性；
進行了全面的實驗，以驗證DriveDreamer4D顯著提高了新軌跡視點的生成質量，以及駕駛場景元素的時空連貫性。

相關工作回顧駕駛場景表示

NeRF和3DGS已成為3D場景表示的主要方法。NeRF模型使用多層感知器（MLP）網絡構建連續的體積場景，實現了具有卓越渲染質量的高度詳細的場景重建。最近，3DGS引入了一種創新方法，通過在3D空間中定義一組各向異性高斯分布，利用自適應密度控制從稀疏點云輸入中實現高質量的渲染。有幾項工作將NeRF或3DGS擴展到了自動駕駛場景。鑒于駕駛環境的動態特性，在建模4D駕駛場景表示方面也做出了重大努力。一些方法將時間編碼為參數化4D場景的額外輸入，而另一些方法將場景表示為運動對象模型與靜態背景模型的組合。盡管取得了這些進步，但基于NeRF和3DGS的方法仍面臨著與輸入數據密度相關的局限性。只有當傳感器數據與訓練數據分布非常匹配時，這些技術才能有效地渲染場景，而訓練數據分布通常僅限于前方駕駛場景。

世界模型

世界模型模塊根據參與者提出的想象動作序列預測未來可能的世界狀態。通過自由文本動作控制的視頻生成來仿真環境等方法。處于這一進化最前沿的是Sora，它利用先進的生成技術來生成尊重物理基本定律的復雜視覺序列。這種深入理解和仿真環境的能力不僅提高了視頻生成質量，而且對現實世界的駕駛場景也有重大影響。自動駕駛世界模型采用預測方法來解釋駕駛環境，從而生成現實的駕駛場景，并從視頻數據中學習關鍵的駕駛要素和政策。盡管這些模型成功地生成了基于復雜駕駛動作的多樣化駕駛視頻數據，但它們仍然局限于2D輸出，缺乏準確捕捉動態駕駛環境復雜性所需的時空一致性。

3D表示的擴散先驗

從有限的觀測中構建全面的3D場景需要生成先驗，特別是對于看不見的區域。早期的研究將文本到圖像擴散模型中的知識提煉成3D表示模型。具體而言，采用分數蒸餾采樣（SDS）從文本提示合成3D對象。此外，為了增強3D一致性，有幾種方法將多視圖擴散模型和視頻擴散模型擴展到3D場景生成。為了在復雜、動態、大規模的駕駛場景之前擴展擴散以進行3D重建，SGD、GGS和MagicDrive3D等方法采用生成模型來拓寬訓練視角的范圍。盡管如此，這些方法主要針對稀疏的圖像數據或靜態背景元素，缺乏充分捕捉4D駕駛環境中固有復雜性的能力。?

DriveDreamer4D方法詳解

整體架構

DriveDreamer4D的整體流程如圖2所示。在上半部，提出了一種新的軌跡生成模塊（NTGM），用于調整轉向角和速度等原始軌跡動作，以生成新的軌跡。這些新穎的軌跡為提取3D盒子和HDMap細節等結構化信息提供了新的視角。隨后，可控視頻擴散模型從這些更新的視點合成視頻，并結合與修改后的軌跡相關的特定先驗。在下半部分，整合了原始和新穎的軌跡視頻，以優化4DGS模型。在接下來的部分中，我們將深入研究新軌跡視頻生成的細節，然后介紹使用視頻擴散先驗的4D重建。

新軌跡視頻生成

如前所述，傳統的4DGS方法在渲染復雜機動動作方面存在局限性，這主要是由于訓練數據主要由直接的駕駛場景主導。為了克服這一點，DriveDreamer4D利用世界模型先驗來生成不同的視點數據，增強了4D場景表示。為了實現這一目標，我們提出了NTGM，該模型旨在創建新的軌跡作為世界模型的輸入，從而能夠自動生成復雜的機動數據。NTGM包括兩個主要組成部分：（1）新的軌道方案，（2）軌道安全評估。在新的軌跡建議階段，可以采用文本到軌跡來自動生成各種復雜的軌跡。此外，軌跡可以定制設計以滿足特定要求，從而可以根據精確需求生成量身定制的數據。Algo 1中顯示了定制設計的軌跡建議（例如變道）和軌跡安全評估的概述。在特定的駕駛場景中，世界坐標系中的原始軌跡可以很容易地獲取為。為了提出新的軌跡，將原始軌跡轉換為第一幀的自車輛坐標系，并計算如下：

在自車輛坐標系中，車輛的航向與正x軸對齊，y軸指向車輛的左側，z軸垂直向上，垂直于車輛平面。因此通過沿x軸和y軸調整值，可以分別表示車輛速度和方向的變化。對新生成的軌跡點進行最終安全評估，包括驗證車輛軌跡p是否保持在可駕駛區域Broad內，并確保不會與行人或其他車輛發生碰撞。

一旦生成了符合交通規則的新軌跡，道路結構和3D邊界框就可以從新軌跡的角度投影到相機視圖上，從而生成與更新軌跡相關的結構化信息。這種結構化信息，連同初始幀和文本，被輸入到世界模型中，以生成遵循新軌跡的視頻。

基于視頻擴散先驗的4D重建

基于視頻擴散先驗，我們可以生成具有不同軌跡的新穎視頻，增強跨不同基線的4D重建能力。具體來說，為了使用視頻擴散先驗訓練4DGS，必須構建一個混合數據集Dhybrid，該數據集將原始軌跡數據集Dori與新的軌跡數據集Dnovel相結合。這些數據集之間的平衡可以通過超參數β進行調整，使我們能夠控制原始和新軌跡的4DGS場景重建性能。這種關系被表述為Dhybrid。

使用生成的數據優化4DGS的損失函數Lnovel，定義如下：

值得注意的是，在使用生成的數據集Dnovel時，深度圖不作為4DGS優化的約束。限制源于LiDAR點云數據僅針對原始軌跡收集。當這些激光雷達點投影到新的軌跡上時，它無法為新的視角生成完整的深度圖，因為新軌跡中可見的東西可能在原始視圖中被遮擋了。因此，合并這樣的深度圖不利于4DGS模型的優化。混合訓練的總體損失函數定義如下：

實驗實驗設置

數據集。我們使用Waymo數據集進行實驗，該數據集以其全面的真實世界駕駛日志而聞名。然而，大多數日志捕捉的場景具有相對直接的動態，缺乏對密集、復雜的車輛交互場景的關注。為了解決這一差距，我們特別選擇了八個以高度動態交互為特征的場景，其中包括許多具有不同相對位置和復雜駕駛軌跡的車輛。每個選定的片段包含大約40幀，片段ID在補充中有詳細說明。

實施細節。為了證明DriveDreamer4D的多功能性和魯棒性，我們將各種4DGS基線納入我們的管道，包括可變形GS、S3Gaussian和PVG。為了進行公平的比較，LiDAR監控被引入到Deformable GS中。在訓練過程中，場景被分割成多個片段，每個片段包含40幀，與生成模型的輸出長度對齊。我們只使用前置攝像頭數據，并將不同方法的分辨率標準化為640×960。我們的模型使用Adam優化器進行了50000次迭代訓練，遵循用于3D高斯散斑的學習率計劃。訓練策略和超參數與每個基線的原始設置保持一致，每個模型訓練了50000次迭代。

指標。傳統的3D重建任務通常采用PSNR和SSIM指標進行評估，驗證集與訓練數據分布非常匹配（即，從視頻序列中均勻采樣幀進行驗證，其余用于訓練）。然而，在閉環駕駛仿真中，重點轉移到評估新軌跡下的模型渲染性能，在這種軌跡下，相應的傳感器數據不可用，使得PSNR和SSIM等指標不適用于評估。因此，我們提出了新的軌跡代理IoU（NTA-IoU）和新的軌跡車道IoU（NTL-IoU），它們評估了新軌跡視點中前景和背景交通分量的時空一致性。

對于NTA IoU，我們使用YOLO11在從新的軌跡視圖渲染的圖像中識別車輛，從而產生2D邊界框。同時，對原始的3D邊界框應用幾何變換，將其投影到新的視點上以生成相應的2D邊界框。對于每個投影的2D框，我們然后識別最接近的探測器生成的2D框并計算它們的交點（IoU）。為了確保精確匹配，引入了距離閾值dthresh：當最近檢測到的框Bdet和正確投影的框Bproj之間的中心到中心距離超過此閾值時，它們的NTA IoU被分配為零值：

對于NTL IoU，我們使用TwinLiteNet從渲染圖像中提取2D車道。地面真實車道也被投影到2D圖像平面上。然后，我們計算渲染車道Ldet和GT車道Lproj之間的平均交點（mIoU）：

此外在變道場景中，我們觀察到相對定位的不準確，以及飛行點和重影等偽影的頻繁出現，這些偽影會顯著降低圖像質量。為了評估這一點，我們采用了FID度量，該度量量化了渲染的新軌跡圖像和原始軌跡圖像之間的特征分布差異。該指標有效地反映了視覺質量，對飛行點和重影等偽影特別敏感，為這些復雜場景中的圖像保真度提供了強有力的衡量標準。最后，我們進行了一項用戶研究來評估發電質量。具體來說，我們比較了每種基線方法及其DriveDreamer4D增強版本在三種不同的新軌跡上的視覺結果。評估標準側重于整體視頻質量，特別關注車輛等前景物體。對于每次比較，參與者被要求選擇他們認為最有利的選項。

討論和結論

在這篇論文中，我們提出了DriveDreamer4D，這是一個新的框架，旨在通過利用世界模型中的先驗來推進4D駕駛場景表示。DriveDreamer4D利用世界模型生成新的軌跡視頻，以補充現實世界的駕駛數據，解決了當前傳感器仿真方法的關鍵局限性，即它們對前向駕駛訓練數據分布的依賴性以及無法對復雜機動進行建模。通過明確采用結構化條件，我們的框架保持了前景和背景元素的時空一致性，確保生成的數據與現實世界交通場景的動態密切相關。我們的實驗表明，DriveDreamer4D在生成各種仿真視角方面實現了卓越的質量，在場景組件的渲染保真度和時空一致性方面都有顯著提高。值得注意的是，這些結果突出了DriveDreamer4D作為閉環仿真基礎的潛力，閉環仿真需要動態駕駛場景的高保真重建。

#國內外高校具身智能實驗室盤點（香港、新加坡篇）

1 香港（含內地與香港政府、科研機構聯合實驗室）

OpenDriveLab

——香港大學和上海人工智能實驗室合作研究

主頁：https://opendrivelab.com/

導師：Yi Ma、Hongyang Li、Li Chen等人

研究方向：端到端自動駕駛、具身智能

OpenDriveLab 主要聚焦于機器人和自動駕駛領域。其研究方向包括但不限于：機器人操縱的閉環視覺運動控制，致力于通過反饋機制提升自適應機器人控制能力；自動駕駛的世界模型構建，追求高保真、通用且可控的模型；多智能體行為拓撲研究，用于交互式自動駕駛中的運動預測和規劃；還有融合語言能力的自動駕駛研究等。

研究成果：

來源：https://arxiv.org/abs/2409.09016 , Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation.

圖 1 展示了 CLOVER 基于逆動力學模型（IDM）框架生成未來子目標以建立閉環策略。在背景干擾存在的情況下，行為克隆（BC）方法（如 ACT、RT - 1）無法抵抗視覺干擾，而 CLOVER 由于其閉環屬性，表現出較強的魯棒性。

來源：https://arxiv.org/pdf/2406.00439 , Learning Manipulation by Predicting Interaction.

圖 1 展示了 MPI 這種面向交互的機器人操作表征學習管道。與基于（a）對比學習、（b）掩碼信號建模或（c）使用隨機幀的視頻預測的現有技術不同，MPI 以關鍵幀為輸入，指導模型預測過渡幀和檢測被操作對象，從而促進對 “如何交互” 和 “在哪里交互” 的更好理解，在預訓練中獲取更具信息量的表征，并在下游任務中取得顯著改進。

論文：

Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation , https://arxiv.org/abs/2409.09016

DriveLM: Driving with Graph Visual Question Answering , https://arxiv.org/abs/2312.14150

Planning-oriented Autonomous Driving , ??https://openaccess.thecvf.com/content/CVPR2023/html/Hu_Planning-Oriented_Autonomous_Driving_CVPR_2023_paper.html??

Multimedia Lab (MMLab)

主頁：http://mmlab.ie.cuhk.edu.hk/

導師：劉希慧等人（https://xh-liu.github.io/）

研究方向：計算機視覺、生成式模型、多模態人工智能、具身智能、AI for Science

來源：Empowering 3D Visual Grounding with Reasoning Capabilities , https://arxiv.org/pdf/2407.01525 .

圖 1 展示了一個具身智能體在面對尋找舒適看電視地點的問題時的相關情況。對于具身智能體來說，它不僅需要理解 3D 環境和復雜的人類指令，還需要定位目標對象以進行交互和導航。圖中對比了 GPT - 4（GPT - 4V）和作者提出的 ReGround3D 方法。GPT - 4（GPT - 4V）雖有很強的文本（多模態）推理能力，但缺乏直接感知 3D 場景、理解 3D 空間關系以及輸出相應目標對象位置的能力。而作者提出的 ReGround3D 方法在真實的 3D 環境中具備 3D 感知、推理和定位能力。

來源：TC4D: Trajectory-Conditioned Text-to-4D Generation, https://arxiv.org/pdf/2403.17920 .

圖 1 展示了使用軌跡條件 4D 生成（TC4D）方法生成的場景。這些場景由多個動態對象組成，是根據文本提示生成并合成在一起的。圖中展示了不同的視點和時間步下的場景，其運動是通過沿給定軌跡對場景邊界框進行剛性變換合成的，并利用視頻擴散模型的監督來優化局部變形，從而提高了生成的 4D 場景中運動的數量和真實感。

來源：EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning , https://arxiv.org/abs/2312.06722 .

EgoPlan - Bench 評估規劃能力，即模型像人類一樣，將展示任務進展的視頻、當前的視覺觀察以及開放式任務目標作為輸入，預測下一個可行的行動計劃。相比之下，現有基準中基于以自我為中心的視頻的問答示例主要評估理解能力，即模型基于對整個視頻的空間和時間理解來回答問題。

論文：

DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis , https://www.arxiv.org/abs/2405.14224

4Diffusion: Multi-view Video Diffusion Model for 4D Generation , https://arxiv.org/abs/2405.20674

Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation , ??https://arxiv.org/abs/2401.15688??

香港大學機械工程系機器人實驗室

主頁：https://www.mech.hku.hk/robotics

研究方向：軟體機器人（如柔順性可控制的軟體機器人抓手/手部）、高性能柔性連續體機器人系統（用于介入式機器人和成像系統等，適用于微創手術、腔內內窺鏡檢查以及救援任務等）以及仿生機器人和執行器（從自然界獲取靈感進行設計和制造，具有探索和與自然地形交互的能力）。

香港大學Hengshuang Zhao老師實驗室

??https://hszhao.github.io/??

趙行爽老師是香港大學計算機科學系助理教授，研究方向包括計算機視覺（如場景理解、表征學習等）、生成式建模（涉及視覺內容創作、生成與操縱）、自動駕駛（涵蓋環境感知、決策規劃等環節）以及具身人工智能（包括機器人學習和 LLM 應用等）。

研究成果：

來源：https://depth-anything-v2.github.io/ , Depth Anything V2

來源：https://xavierchen34.github.io/LivePhoto-Page/ , LivePhoto: Real Image Animation with Text-guided Motion Control

來源：https://happinesslz.github.io/projects/LION/ .

LION 主要由幾個 LION 模塊組成，每個模塊都配有一個用于特征增強的體素生成和一個用于沿高度維度下采樣特征的體素合并。LION 模塊包含用于長距離特征交互的 LION 層、用于捕獲局部 3D 空間信息的 3D 空間特征描述符、用于特征下采樣的體素合并以及用于特征上采樣的體素擴展。

論文：

Zero-shot Image Editing with Reference Imitation , https://arxiv.org/abs/2406.07547

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence , https://arxiv.org/pdf/2405.17424

Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting , ??https://arxiv.org/abs/2403.15530??

香港大學Liwei Wang老師實驗室：Language and Vision (LaVi) Lab

主頁：https://lwwangcse.github.io/

Liwei Wang老師的研究方向集中在自然語言處理（NLP）和計算機視覺的交叉領域。具體包括語言與視覺的結合，探索如何讓模型更好地理解和處理視覺與語言信息；大型語言模型相關研究，挖掘其在多模態場景下的應用潛力；多模態大模型的構建和優化；以及具身人工智能方面的研究，旨在使智能體在環境中更好地感知、理解和行動。

研究成果：

來源：https://arxiv.org/pdf/2312.02010 , Towards Learning a Generalist Model for Embodied Navigation.

先前方法學習特定任務的導航智能體，在域外視覺語言導航（VLN）成功率較低，面對未見過的任務（如問答和總結）時表現欠佳。而作者提出的 NaviLLM 不僅在具身導航所需的各種任務中表現出色，在未見過的任務上也展現出良好的泛化能力。圖中不同顏色用于代表不同的示例，例如橙色代表來自域內 VLN 的示例。

來源：https://arxiv.org/pdf/2403.18252 , Beyond Embeddings: The Promise of Visual Table in Visual Reasoning.

文章提出視覺表（Visual Table）這一視覺表示形式，它由場景描述和多個對象描述構成，包含類別、屬性和知識。研究通過收集小規模注釋數據訓練生成器創建視覺表，并在 11 個視覺推理基準上進行實驗，結果表明視覺表優于以往的結構和文本表示形式，且能提升多模態大語言模型性能。

來源：https://aclanthology.org/2023.emnlp-main.570.pdf , Learning Preference Model for LLMs via Automatic Preference Data Generation.

文章提出通過自動偏好數據生成（AutoPM）學習大型語言模型（LLM）的偏好模型。AutoPM 包含廣度數據生成和深度數據生成，通過遵循 HHH 標準從 LLM 中獲取成對偏好數據，無需人工注釋。

論文：

Multi-View Transformer for 3D Visual Grounding , S. Huang*, Y. Chen, J. Jia, L. Wang, CVPR 2022

Stratified Transformer for 3D Point Cloud Segmentation, X. Lai*, J. Liu, L. Jiang, L. Wang, H. Zhao, S. Liu, X. Qi, J. Jia, CVPR 2022

Voxel Field Fusion for 3D Object Detection, Y. Li*, X. Qi, Y. Chen, L. Wang, Z. Li, J. Sun, J. Jia, CVPR 2022

Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency, Y. Li*, F. Luo, R. Xu, S. Huang, F. Huang, L. Wang, ACL 2022

香港大學潘佳老師實驗室

主頁：https://cs.hku.hk/index.php/people/academic-staff/jpan

??https://sites.google.com/site/panjia/??

研究方向：智能算法、傳感器和機器，以實現完全自主的機器人

研究成果：

來源：https://arxiv.org/pdf/2403.11186, NetTrack: Tracking Highly Dynamic Objects with a Net.

圖 1 展示了 NetTrack 的可視化類似網，其通過細粒度網絡解決傳統跟蹤方法因物體動態性導致內部關系扭曲的問題，還介紹了具有挑戰性的 BFT 基準及相關場景。

來源：https://arxiv.org/pdf/2406.10093 , BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation.

圖 1 展示了 BiKC 的工作流程，包含以關鍵姿態為條件的軌跡生成器和關鍵姿態預測器，關鍵姿態可以表示多階段任務的各個階段及子任務的完成情況。

來源：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10506641, Heterogeneous Targets Trapping With Swarm Robots by Using Adaptive Density-Based Interaction.

圖 1 展示了使用自適應的單層或多層環形結構的群體機器人捕獲多個包含弱、強和群體移動個體的異構目標的過程，體現了與單點捕獲設置相對的群體機器人對異構目標的捕獲方式。

論文：

Hao Xu,?Jia Pan*, HHD-GP: Incorporating Helmholtz-Hodge Decomposition into Gaussian Processes for Learning Dynamical Systems. In Neural Information Processing Systems (NeurIPS), 2024 [Hao Xu, Ph.D. 2024]
Dongjie Yu, Hang Xu, Yizhou Chen, Yi Ren,?Jia Pan*. BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation, in Workshop on Algorithmic Foundations of Robotics (WAFR), 2024
Linhan Yang, Lei Yang, Haoran Sun, Zeqing Zhang, Haibin He, Fang Wan, Chaoyang Song,?Jia Pan, in Workshop on Algorithmic Foundations of Robotics (WAFR), 2024 [Linhan Yang, Ph.D. 2024]
Dawei Wang, Weizi Li, Lei Zhu,?Jia Pan*. Learning to Control and Coordinate Mixed Traffic Through Robot Vehicles at Complex and Unsignalized Intersections. International Journal of Robotics Research (IJRR), to appear [Dawei Wang, Ph.D. 2023]

香港中文大學（CUHK）機器人與自動化研究中心

主頁：https://www4.mae.cuhk.edu.hk/research/robotics-and-automation/

研究方向：設計和制造、能源 / 建筑 / 環境技術、智能系統、MEMS / 納米 / 材料技術、機器人和自動化、系統和控制

該機構在機器人與自動化領域的研究方向包括：纜索驅動機器人、機器人的計算機視覺與圖像處理、移動機器人的分布式控制、外骨骼與假肢、人類技能獲取、工業機器人自動化、運動學與動力學、醫療機器人、微納機器人、運動規劃與優化、機器人設計與控制、傳感器與執行器、傳感器、控制與接口、服務與空間機器人、服務機器人、軟體機器人、步行機器人設計與控制。

香港中文大學機器人與人工智能實驗室

主頁：https://rail.cuhk.edu.cn/zh-hans

香港中文大學機器人與人工智能實驗室（Robotics & AI Lab）由國際知名機器人與人工智能專家徐揚生院士帶領，在圍繞著航天機器人、工業機器人、服務機器人、特種機器人、醫療機器人、智能汽車機器人等多個領域已經成功研制了30多個機器人和智能系統，研究成果世界領先且具有廣闊的應用前景。

研究成果：

模塊化自重構機器人：具備自適應性和自愈能力，可應對復雜環境任務。當前研究擬對非結構化場景下的關鍵技術進行研究，為群體機器人、野外作業機器人等發展奠定基礎，可應用于搶險搜救、反恐偵察、太空探索等領域。
海洋機器人：涉及流體力學、自動控制、人工智能、計算機仿真、傳感等技術，在多種技術的交叉與融合的基礎上，海洋機器人真正實現了自主的、遠程的控制。
書法機器人：采用示教學習方式，可幫助老年人學習書法，對中風病人有康復作用。
智能全方位混合動力車：是解決能源和污染問題的較好辦法，開發的關鍵技術分三類：(1)智能能量管理和控制技術，用來在油耗、動力和污染排放三個指標中取得平衡 (2)四輪驅動和四輪轉向的輪系控制系統，用來實現多方向運動 (3)集合了自動泊車、智能資訊平臺和智能安全功能的智能電子系統

論文：

Huifeng Guan, Yuan Gao, Min Zhao, Yong Yang, Fuqin Deng, Tin Lun Lam, “AB-Mapper: Attention and BicNet based Multi-agent Path Planning for Dynamic Environment,” Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Kyoto, Japan, October 23-27, 2022. (Accepted)
Jingtao Tang, Yuan Gao, Tin Lun Lam, “Learning to Coordinate for a Worker-Station Heterogeneous Multi-robot System in Planar Coverage Task,” Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Kyoto, Japan, October 23-27, 2022. (Accepted)
Chongxi Meng, Tianwei Zhang, Tin Lun Lam, “Fast and Comfortable Interactive Robot-to-Human Object Handover,” Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Kyoto, Japan, October 23-27, 2022. (Accepted)

深圳市人工智能與機器人研究院

主頁：https://airs.cuhk.edu.cn/

簡介：深圳市人工智能與機器人研究院（Shenzhen Institute of Artificial Intelligence and Robotics for Society，簡稱AIRS）是深圳市政府依托香港中文大學（深圳），聯合多個世界頂級研究機構建立的十大基礎研究機構之一。AIRS致力于研究多種應用場景的機器人，研究方向包括群體智能、特種機器人、智能機器人、醫療機器人、智能控制、微納機器人、具身智能、通用機器人、多智能體協作、軟體機器人等。

導師：徐揚生、丁寧、黃建偉、韓龍、Takeo Kanade、黃鎧等人

研究成果：

圖注：來源：Snail-inspired robotic swarms: a hybrid connector drives collective adaptation in unstructured outdoor environments, https://www.nature.com/articles/s41467-024-47788-2

圖注：來源：PepperPose: Full-Body Pose Estimation with a Companion Robot, https://dl.acm.org/doi/full/10.1145/3613904.3642231

圖注：來源：A magnetic multi-layer soft robot for on-demand targeted adhesion, https://www.nature.com/articles/s41467-024-44995-9

論文：

Snail-inspired robotic swarms: a hybrid connector drives collective adaptation in unstructured outdoor environments, https://www.nature.com/articles/s41467-024-47788-2
PepperPose: Full-Body Pose Estimation with a Companion Robot, https://dl.acm.org/doi/full/10.1145/3613904.3642231
A magnetic multi-layer soft robot for on-demand targeted adhesion, https://www.nature.com/articles/s41467-024-44995-9
Federated Learning While Providing Model as a Service: Jointly Training and Inference Optimization, https://arxiv.org/pdf/2312.12863

香港科技大學（廣州）Precognition Lab

主頁：https://precognition.team/#bio

導師：Prof. Junwei Liang等人

智能感知與預測實驗室（Precognition Lab），致力于構建人類水平的具身人工智能系統，這些系統能夠有效地感知、推理并與現實世界進行交互，從而造福人類。

研究成果：

來源：https://zeying-gong.github.io/projects/falcon/ , From Cognition to Precognition: A Future-Aware Framework for Social Navigation

來源：https://jiaming-zhou.github.io/projects/HumanRobotAlign/ , Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation.

來源：https://www.youtube.com/watch?v=xE6M6WKw-0k , ?Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps

論文：

Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation , https://arxiv.org/pdf/2406.09738

Prioritized Semantic Learning for Zero-shot Instance Navigation , https://arxiv.org/pdf/2403.11650

Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models , ??https://arxiv.org/pdf/2407.13642.pdf??

香港科技大學Cheng Kar-Shun Robotics Institute (CKSRI)

主頁：https://ri.hkust.edu.hk/

導師：張福民、李澤湘、沈劭劼、施凌、楊瓞仁、馮雁等人

香港科技大學的鄭家純機器人研究院（CKSRI）是一個多學科平臺。其研究方向包括自主飛行（如無人機技術）、海洋機器人、智能建造、智能制造、人形機器人、視覺智能、機器人操作、柔性電子、軟體機器人、智能傳感器、微型機器人系統以及自動駕駛等多個領域。

研究成果：

無人機起源于軍事，現應用廣泛。大疆由汪滔在港科大宿舍創立，在李澤湘教授培育下發展，其研究成果使無人機可應對復雜地形，公司發展良好且支持港科大研究。

施柏榮教授與德國法蘭克福高等研究院的特里施教授團隊合作開發了主動高效編碼（AEC）框架。該框架結合多學科知識，解釋了動物和人類在嬰兒期共同發展的感知和行為機制，其受神經啟發的設計可使機器人更具適應性和自主性，在醫學和工業等領域有廣泛應用。

香港科技大學在無人機技術方面處于全球領先。電子與計算機工程系的沈劭劼教授是推動者之一。他因港科大與行業聯系緊密而回校，他致力于讓無人機擺脫 GPS 控制，使其能感知環境并智能應對飛行任務中的情況，而市場上的無人機仍需人保障空中安全。

論文：

An Efficient Spatial-Temporal Trajectory Planner for Autonomous Vehicles in Unstructured Environments , IEEE Transactions on Intelligent Transportation Systems, v. 25, (2), February 2024, article number 10285583, p. 1797-1814. Han, Zhichao; Wu, Yuwei; Li, Tong; Zhang, Lu; Pei, Liuao; Xu, Long; Li, Chengyang; Ma, Changjia; Xu, Chao; Shen, Shaojie; Gao, Fei
D(2)SLAM: decentralized and distributed collaborative visual-inertial SLAM system for aerial swarm , IEEE Transactions on Robotics, v. 40, July 2024, article number 10582478, p. 1-20
Xu, Hao; Liu, Peize; Chen, Xinyi; Shen, Shaojie.
FM-Fusion: Instance-Aware Semantic Mapping Boosted by Vision-Language Foundation Models , IEEE Robotics and Automation Letters, v. 9, (3), March 2024, article number 10403989, p. 2232-2239. Liu, Chuhao; Wang, Ke; Shi, Jieqi; Qiao, Zhijian; Shen, Shaojie

香港科技大學機器人研究所

主頁：https://seng.hkust.edu.hk/zh-hans/node/7013

研究方向：移動機器人、無人機、智能制造、機器人感知與控制、醫療機器人等

下分實驗室：

鄭家純機械人研究所（CKSRI）
香港科技大學-Bright Dream Robotics 聯合研究院
香港科技大學協同創新中心
香港科技大學-DJI 聯合創新實驗室
香港科技大學-生產力局工業人工智能及機械人技術聯合實驗室
香港科技大學-華為聯合實驗室
香港科技大學-小一機器學習與認知推理聯合實驗室
香港建筑機械人研究中心
智能自動駕駛中心（IADC）

香港科技大學Jun MA老師實驗室

主頁：https://facultyprofiles.hkust-gz.edu.cn/faculty-personal-page/MA-Jun/eejma

研究方向：機器人學，自動駕駛，運動規劃與控制，優化，強化學習

研究成果：

來源：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10510603 , Improved Consensus ADMM for Cooperative Motion Planning of Large-Scale Connected Autonomous Vehicles with Limited Communication

來源：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10417140 , Geometry-Aware Safety-Critical Local Reactive Controller for Robot Navigation in Unknown and Cluttered Environments

論文：

Cooperative autonomous driving in urban traffic scenarios by parallel optimization enforcing hard safety constraints, 2024 IEEE International Conference on Robotics and Automation (ICRA), Yokohama, Japan, 13-17 May 2024

Alternating Direction Method of Multipliers-Based Parallel Optimization for Multi-Agent Collision-Free Model Predictive Control , https://ieeexplore.ieee.org/document/10431550

Learning-Based High-Precision Tracking Control: Development, Synthesis, and Verification on Spiral Scanning With a Flexure-Based Nanopositioner , ??https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10443724??

香港科技大學范明明老師實驗室

主頁：https://www.mingmingfan.com/

范明明，香港科技大學（廣州）信息樞紐計算媒體與藝術學域與物聯網學域助理教授、博士生導師、無障礙人機交互（APEX）課題組創始人。研究領域為人機交互，方向包括：1）智能無障礙與“適老化”交互技術設計；2）人智協同；3）虛擬與增強現實的交互技術與應用。

研究成果：

來源：FetchAid: Making Parcel Lockers More Accessible to Blind and Low Vision People With Deep-learning Enhanced Touchscreen Guidance, Error-Recovery Mechanism, and AR-based Search Support. https://arxiv.org/abs/2402.15723

來源：https://dl.acm.org/doi/pdf/10.1145/3613904.3642546 , Designing Unobtrusive Modulated Electrotactile Feedback on Fingertip Edge to Assist Blind and Low Vision (BLV) People in Comprehending Charts.

論文：

Toward Facilitating Search in VR With the Assistance of Vision Large Language Models , Chao Liu, Clarence Chi San Cheung, Mingqing Xu, Zhongyue Zhang, Mingyang Su, Mingming Fan*. https://www.mingmingfan.com/papers/VRST24_VR_Search_Framework.pdf

Investigating Size Congruency Between the Visual Perception of a VR Object and the Haptic Perception of Its Physical World Agent , Wenqi Zheng, Dawei Xiong, Cekai Weng, Jiajun Jiang, Junwei Li, Jinni Zhou, Mingming Fan*. https://www.mingmingfan.com/papers/VINCI24_VR_Size_Congruency.pdf

Designing Unobtrusive Modulated Electrotactile Feedback on Fingertip Edge to Assist Blind and Low Vision (BLV) People in Comprehending Charts. Proceedings of the CHI Conference on Human Factors in Computing Systems (CHI '24), May 11--16, 2024, Honolulu, HI, USA.

香港城市大學機器人與自動化研究中心

主頁：https://www.cityu.edu.hk/cra/

研究方向：醫療機器人（如手術機器人、機器人視覺、細胞手術機器人、電磁機器人系統）、人機交互（如抓取新物體的眾包、社交機器人、基于云的個人機器人系統、基于視覺的傳感技術、服務機器人）、微 / 納 / 生物機器人（如機器人輔助的微 / 納操作、光致電動力學、納米醫學、微飛行機器人）以及智能自動化（如多機器人系統、機器學習、人工智能機器人）。

研究項目：

香港理工大學機器人與機械智能實驗室-The Robotics and Machine Intelligence (ROMI) Laboratory

主頁：https://www.romi-lab.org

導師：Dr David Navarro-Alarcon

研究方向：基于傳感器的規劃 / 控制、智能機器人運動、長期任務、醫療和手術機器人、自主操作、集體靈巧性、任務劃分、編隊與共識、理論基礎、多機器人系統、軟物體操作、視覺形狀伺服、形態模型、潛在形狀表示、反饋形狀控制、多模態傳感器融合、人機接口、醫療機器人感知、計算傳感器模型、機器人感知。

2 新加坡?

NUS AI LAB

主頁：https://nusail.comp.nus.edu.sg/

NUS AI Lab 隸屬于新加坡國立大學，研究方向幾乎涵蓋 AI 的所有領域，包括建模與表示、推理與規劃、機器學習與數據科學、計算機視覺和自然語言處理以及學習理論。具體涉及具身 AI（如移動機器人、自動駕駛車輛等領域）、交互式 AI（開發用于改善人機交互的方法和系統）以及可信 AI（考慮 AI 系統部署的倫理、法律和社會影響）。

研究成果：

來源：https://nusail.comp.nus.edu.sg/intelligent-systems-in-balance-sheet-forecasting/

圖注：交互式人工智能：從粗到精的動物姿態和形狀估計：大多數現有的動物姿態和形狀估計方法使用參數化的 SMAL 模型重建動物網格。然而，SMAL 模型是從姿態和形狀變化有限的玩具動物掃描中學習得到的，因此可能無法很好地表示變化很大的真實動物。為了緩解這個問題，我們提出了一種從粗到精的方法，從單張圖像中重建 3D 動物網格。

來源：https://nusail.comp.nus.edu.sg/occupational-impact-of-ai/

圖注：多模態魯棒強化學習：此工作專注于使用多個可能不可靠的傳感器學習有用且魯棒的深度世界模型。發現當前方法不能充分鼓勵模態間的共享表示，會導致下游任務表現不佳以及對特定傳感器過度依賴。提出了一種新的多模態深度潛在狀態空間模型，使用互信息下限進行訓練，關鍵創新是一種專門設計的密度比估計器，鼓勵每種模態的潛在代碼之間的一致性。該方法在多模態 Natural MuJoCo 基準和具有挑戰性的擦桌子任務中以自我監督的方式學習策略，實驗表明該方法顯著優于現有的深度強化學習方法，特別是在存在缺失觀測的情況下。

論文：

Coarse-to-fine Animal Pose and Shape Estimation , https://arxiv.org/pdf/2111.08176
Self-supervised 3D hand pose estimation through training by fitting, https://openaccess.thecvf.com/content_CVPR_2019/papers/Wan_Self-Supervised_3D_Hand_Pose_Estimation_Through_Training_by_Fitting_CVPR_2019_paper.pdf#:~:text=Abstract.%20We%20present%20a%20self-supervision%20method%20for%203D%20hand%20pose
Towards Effective Tactile Identification of Textures using a Hybrid Touch Approach, Tasbolat Taunyazov, Hui Fang Koh, Yan Wu, Caixia Cai and Harold Soh, IEEE International Conference on Robotics and Automation (ICRA), 2019

Advanced Robotics Centre - NUS

主頁：https://arc.nus.edu.sg/

Advanced Robotics Centre 是新加坡國立大學下屬的一個機構，研究方向涵蓋多個方面，包括：（1）智能抓取技術相關：有關于軟機器人智能抓取器（Smart Grippers for Soft Robotics - SGSR）的項目研究。例如舉辦相關的研討會，探討液體堵塞抓取器（Liquid Jamming Gripper）的設計、建模和模擬等內容。（2）機器人技術的發展歷程及應用場景研究：有相關研討會闡述機器人如何從工業制造技術發展到當前的服務機器人，以及從仿生組件和仿生系統的基礎研究到當前機器人伴侶和工業 5.0 的場景。

研究成果：

論文：

Model-based reinforcement learning for closed-loop dynamic control of soft robotic manipulators , TG Thuruthel, E Falotico, F Renda, C Laschi. IEEE Transactions on Robotics 35 (1), 124-134.?

Synteraction Lab

主頁：https://synteraction.org/

導師：Shengdong Zhao

交互實驗室由Shengdong Zhao博士于 2009 年成立，現已發展成為亞洲及世界上最活躍的人機交互研究中心之一。它在開發新的界面工具和應用方面有經驗，并定期在頂級人機交互會議和期刊上發表文章。該實驗室的愿景是抬頭計算，旨在通過可穿戴平臺和多模式交互方法改變我們與技術交互的方式。

研究成果：

來源：PANDALens: Towards AI-Assisted In-Context Writing on OHMD During Travels, https://synteraction.org/assets/files/Cai,%20R%20et%20al.%20-%202024%20-%20PANDALens%20Towards%20AI-Assisted%20In-Context%20Writing%20on%20OHMD.pdf

來源：GPTVoiceTasker: LLM-Powered Virtual Assistant for Smartphone, https://synteraction.org/assets/files/Vu%20et%20al.%20-%202024%20-%20GPTVoiceTasker%20LLM-Powered%20Virtual%20Assistant%20for%20Smartphone.pdf

來源：VidAdapter: Adapting Blackboard-Style Videos for Ubiquitous Viewing, https://synteraction.org/assets/files/Ram-2023-VidAdapter-Adapting-Blackboard-Style-Videos-for-Ubiquitous-Viewing_compressed.pdf

論文：

What's this? Understanding User Interaction Behaviour with Multimodal Input Information Retrieval System. Silang Wang, Hyeongcheol Kim, Nuwan Janaka, Kun Yue, Hoang-Long Nguyen, Shengdong Zhao, Haiming Liu, Khanh-Duy Le.?Keywords: Information Retrieval, Multimodal Interaction, User Search Behaviour, Heads-up Computing

Navigating Real-World Challenges: A Quadruped Robot Guiding System for Visually Impaired People in Diverse Environments. Shaojun Cai, Ashwin Ram, Zhengtai Gou, Mohd Alqama Wasim Shaikh, Yu-An Chen, Yingjia Wan, Kotaro Hara, Shengdong Zhao, David Hsu.?Keywords: visual impairment, orientation and mobility, assistive technology, navigation, robot guide dog

Heads-Up Multitasker: Simulating Attention Switching On Optical Head-Mounted Displays. Yunpeng Bai, Aleksi Ikkala, Antti Oulasvirta, Shengdong Zhao, Lucia J. Wang, Pengzhi Yang, Peisen Xu.?Keywords: multitasking, heads-up computing, computational rationality, deep reinforcement learning, bounded optimal control?

Microsystem Engineering and Robotics

主頁：https://guppy.mpe.nus.edu.sg/peter_chen/

導師：**Peter C. Y. Chen**

Peter C.Y.Chen的實驗室，從事微系統和機器人技術的研究與開發。研究重點是對從微觀到宏觀尺度的物理和生物系統進行機械操作，以產生實用的工程解決方案。他們積極尋求合作，并歡迎對微系統工程和機器人技術感興趣的學生。

研究成果：

論文：

Du, Herath, Wang, Wang, Asada, and Chen, Three-dimensional characterization of mechanical interactions between endothelial cells and extracellular matrix during angiogenic sprouting. Scientific Reports, 2016.
Herath, Du, Shi, Kim, Wang, Wang, Van Vliet, Asada, and Chen, Quantification of magnetically induced changes in ECM local apparent stiffness. Biophysical Journal, 2014.
Zhou, Chen, and Ong, Force control of a cellular tensegrity structure with model uncertainties and partial state measurability. Asian Journal of Control, 2014.
Herath, Du, Wang, Wang, Liao, Asada, and Chen, Characterization of uniaxial stiffness of extracellular matrix embedded with magnetic beads via bio-conjugation and under the influence of an external magnetic field. Journal of the Mechanical Behavior of Biomedical Materials, 2014.

Multimodal AI and Robotic Systems (MARS) Lab

主頁：https://marsyang.site/

導師：Dr. Jianfei Yang

南洋理工大學的多模態人工智能與機器人系統（MARS）實驗室研究物理人工智能，重點關注人工智能如何使機器人、物聯網和工業系統等物理系統感知、理解并與物理世界交互，涉及多模態感知、具身人工智能、AIoT 系統等多個方面。

研究成果：

來源：Diffusion Model is a Good Pose Estimator from 3D RF-Vision, https://arxiv.org/pdf/2403.16198 .

圖 1 主要展示了毫米波雷達點云（mmWave PCs）在人體姿態估計（HPE）中的相關情況。左側毫米波雷達點云稀疏且分散，導致生成的樣條和肩部不準確。右側對比了現有 SOTA 方法（P4Transformer）和本文提出方法（mmDiff）的性能：現有 SOTA 方法的預測結果存在姿態振動和嚴重漂移，性能不理想。本文提出的 mmDiff 方法基于擴散模型進行姿態估計，具有更高的準確性和穩定性，圖中以黑色表示真實值（GTs），彩色表示預測值。

來源：Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation , https://arxiv.org/abs/2403.06461 .

多模態測試時間適應（MM - TTA）旨在通過利用多模態輸入來使模型適應無標簽目標域。現有方法在進行 3D 分割的 MM - TTA 時，依賴于每個輸入幀中跨模態信息的預測，忽略了連續幀內幾何鄰域的預測是高度相關的這一事實，導致跨時間的預測不穩定。本文提出了 Latte 方法來解決這些問題：首先，給定連續幀的合并輸入（例如點云幀和其估計的姿態），通過一種滑動窗口的方式聚合連續幀，并將同一體素內的點視為時空對應關系。然后構建空間 - 時間（ST）體素，通過這種方式來捕獲每個模態在時間上局部的預測一致性。

論文：

Diffusion Model is a Good Pose Estimator from 3D RF-Vision, https://arxiv.org/pdf/2403.16198

Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation , https://arxiv.org/abs/2403.06461

MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation , https://arxiv.org/pdf/2309.11839?

Perception and Embodied Intelligence (PINE) Lab

主頁：https://pine-lab-ntu.github.io/team.html

導師：Ziwei Wang

Pine Lab位于南洋理工大學。其主要研究方向包括：1. 具身指令跟隨，旨在使智能系統在未知環境中理解并執行人類指令，通過多模態感官融合等方法，其系統能在大型房屋級場景完成204項復雜人類指令；2. 通用機器人操作的生成式模型，目標是為日常機器人操作任務構建生成式基礎模型，借鑒相關經驗，其機器人可完成多種操作任務且泛化能力高；3. 通用機器人包裝系統，為解決包裝系統面臨的挑戰，開發了相關框架和管道，其系統能包裝12類日常物品，成功率86.7%；4. 基礎模型壓縮，解決在機器人上部署大型基礎模型受計算資源限制的問題，提出相關技術、框架和引擎，可在特定硬件中部署用于多種任務；5. 實時在線3D場景感知，建立通用框架實現實時高效場景感知，將離線模型轉換為在線模型，構建的相關模型能處理視頻并輸出實時3D重建和分割結果，在一些數據集上性能領先。

研究成果：

來源：Towards Accurate Data-free Quantization for Diffusion Models , https://pine-lab-ntu.github.io/data/APQ-DM.pdf.

文章提出了一種用于擴散模型的準確的訓練后量化框架（APQ - DM）以實現高效的圖像生成。

來源：Memory-based Adapters for Online 3D Scene Perception , https://pine-lab-ntu.github.io/data/Onine-3D.pdf .

文章提出一種用于在線 3D 場景感知的新框架，通過基于記憶的適配器賦予現有離線模型在線感知能力。圖1展示了所提出的在線 3D 場景感知的通用框架，體現了該框架在不同 3D 場景感知任務（如語義分割、目標檢測和實例分割）中的應用價值，這些任務對于機器人應用很重要。

論文：

3D Small Object Detection with Dynamic Spatial Pruning ,?Xiuwei Xu*, Zhihao Sun*,?Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu ,?European Conference on Computer Vision (ECCV), 2024.

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation ,?Guanxing Lu, Shiyi Zhang,?Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang ,?European Conference on Computer Vision (ECCV), 2024.

StableLego: Stability Analysis of Block Stacking Assembly ,?Liu, Kangle Deng,?Ziwei Wang, Changliu Liu ,?IEEE Robotics and Automation Letters (RAL), 2024.?

S-Lab for Advanced Intelligence

主頁：https://www.ntu.edu.sg/s-lab

S-Lab for Advanced Intelligence 是南洋理工大學 2020 年成立的實驗室。其研究方向包括計算機視覺、自然語言處理、強化學習、深度學習和分布式計算等前沿 AI 技術。具體涉及深度學習中的內容編輯和生成、分布式學習、超分辨率、圖像和視頻理解、媒體取證、自然語言處理以及 3D 場景理解等。

研究成果：

來源：Exploring Point-BEV Fusion for 3D Point Cloud Object Tracking with Transformer , https://arxiv.org/pdf/2208.05216 .

本文提出了用于 3D 點云目標跟蹤的方法，包括 PTTR 和 PTTR++。圖 1（a）展示了 3D 點云的鳥瞰圖（BEV）的優勢，以及模板點和搜索區域點的關系。圖 1（b）呈現了 PTTR 和 PTTR++ 的結構，PTTR++ 在 PTTR 基礎上增加了 BEV 特征匹配，以利用兩種表示的互補信息提高跟蹤性能。

來源：GAO et al.: UNISCHED: A UNIFIED SCHEDULER FOR DLT JOBS WITH DIFFERENT USER DEMANDS. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10454114 .

圖 2 展示了 UniSched 的工作流程，它由 Estimator 和 Selector 兩個組件構成。Estimator 用于預測作業時長，Selector 用于作業選擇和資源分配，每個作業都經歷 profiling 和 execution 兩個階段。

論文：

Unified 3D and 4D Panoptic Segmentation via Dynamic Shifting Network
F. Hong, L. Kong, H. Zhou, X. Zhu, H. Li, Z. Liu
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024 (TPAMI)
Flare7K++: Mixing Synthetic and Real Datasets for Nighttime Flare Removal and Beyond
Y. Dai, C. Li, S. Zhou, R. Feng, Y. Luo, C. C. Loy
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024 (TPAMI)
TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment
C. Chen, J. Mo, J. Hou, H. Wu, L. Liao, W. Sun, Q. Yan, W. Lin
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024 (TPAMI)

MMLab@NTU

主頁：https://www.mmlab-ntu.com/

MMLab@NTU 主要研究方向包括低級別視覺、圖像和視頻理解、創意內容創作、3D 場景理解與重建等。涉及超分辨率、內容編輯與創作、圖像和視頻理解、3D 生成式 AI、深度學習、媒體取證等多個領域。

研究成果：

來源：Gaussian3Diff: 3D Gaussian Diffusion for 3D Full Head Synthesis and Editing, https://arxiv.org/abs/2312.03763 .

圖1展示了GAUSSIAN3DIFF的核心特點，它采用3D Gaussians（定義在UV空間）作為3D表示基礎，這種表示支持高質量的新視角合成、基于3DMM的動畫以及用于無條件生成的3D擴散。

來源：StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces , https://arxiv.org/pdf/2303.06146 .

圖 1 展示了 StyleGANEX 在多種人臉操作任務上的應用，包括風格轉換、面部屬性編輯、超分辨率、從草圖或遮罩生成人臉以及視頻人臉卡通化等，體現了其突破 StyleGAN 對裁剪對齊人臉限制的能力。

論文：

Efficient Diffusion Model for Image Restoration by Residual Shifting
Z. Yue, J. Wang, C. C. Loy
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024?(TPAMI)
Talk-to-Edit: Fine-Grained 2D and 3D Facial Editing via Dialog
Y. Jiang, Z. Huang, T. Wu, X. Pan, C. C. Loy, Z. Liu
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024?(TPAMI)
4D Panoptic Scene Graph Generation
J. Yang, J. Cen, W. Peng, S. Liu, F. Hong, X. Li, K. Zhou, Q. Chen, Z. Liu
in Proceedings of Neural Information Processing Systems, 2023?(NeurIPS, Spotlight)
L4GM: Large 4D Gaussian Reconstruction Model
J. Ren, K. Xie, A. Mirzaei, H. Liang, X. Zeng, K. Kreis, Z. Liu, A. Torralba, S. Fidler, S. W. Kim, H. Ling
in Proceedings of Neural Information Processing Systems, 2024?(NeurIPS)

MReaL

主頁：https://mreallab.github.io/index.html

MReaL Lab 致力于研究結合現代深度神經網絡和傳統符號操作的推理算法，研究方向包括多模態編輯、零樣本模型優化、3D 內容生成、場景圖生成等多個領域。

研究成果：

來源：https://github.com/SkyworkAI/Vitron , Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing.

論文：

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting
Robust Fine-tuning of Zero-shot Models via Variance Reduction
Unified Generative and Discriminative Training for Multi-modal Large Language Models
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

Rapid-Rich Object Search Lab (ROSE)

主頁：https://www.ntu.edu.sg/rose

該實驗室的研究方向包括：利用深度學習等技術進行對象識別與檢索，開發適用于移動設備的緊湊且創新的特征編碼、可擴展索引和視覺搜索算法；利用傳統及機器學習方法進行視頻分析；以及針對圖像和視頻取證應用的生物識別技術，包括生物特征及軟生物特征、人臉偽造與活體檢測、反射去除等。

研究成果：

論文：

Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing
Xun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Zitong Yu, Wenzhong Tang, Alex Kot, The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2024)
Flexible-Modal Deception Detection with Audio-Visual Adapter
Zhaoxu Li, Zitong Yu, Xun Lin, Nithish Muthuchamy Selvaraj, Xiaobao Guo, Bingquan Shen, Adams Wai-Kin Kong, Alex Kot, 2024 IEEE International Joint Conference on Biometrics (IJCB)
Semantic Deep Hiding for Robust Unlearnable Examples
Ruohan Meng, Chenyu Yi, Yi Yu, Siyuan Yang, Bingquan Shen, Alex C Kot, IEEE Transactions on Information Forensics and Security (TIFS)

#地平線提出DEMO

擴散和Occ雙管齊下，打造超真實世界模型！

在任何一組東西中，最重要的只占其中一小部分，約20%，其余80%盡管是多數，卻是次要的，這就是著名的“二八定律”。而自動駕駛發展至今，解決剩余20%的“重要的”長尾問題和極端案例一直是一件比較棘手的事情。即使是最先進的SOTA和最廣泛的數據收集工作也難以解決。而解決這些挑戰的一個有希望的方法在于世界模型。世界模型結合了歷史上下文和其它智能體的行動來預測環境觀察的未來演變。這允許自動駕駛模型更深入地預測未來，改進行動可行性的評估。

世界模型可以分為幾種類型：包括基于2D視頻的模型和基于3D表示的模型，比如利用LiDAR和占用框架的模型。前者基于視頻的世界模型在維持跨視圖和跨時間一致性方面會面臨一些挑戰，從而阻礙了它們在現實世界場景中的應用。而基于占用的世界模型避免了這個問題。這些模型以歷史占用序列作為輸入，并預測未來的占用觀察，用原始的3D表示確保了內在的3D一致性。另外，占用標注相對容易獲得，因為它們可以有效地從稀疏的LiDAR標注中學習，或者可能通過時間幀的自監督學習獲得。基于占用的模型也是模態不確定的，表明它們可以從單目或環視相機生成，或者從LiDAR傳感器生成。

現有的基于占用的世界模型可以分為兩種類型：基于自回歸的和基于擴散的：

基于自回歸的方法以自回歸的方式使用離散標記預測未來的占用。然而，由于這些方法依賴于離散標記器，量化過程導致信息丟失，限制了預測高保真占用的能力。此外，自回歸方法難以生成真實的長時間占用序列。

基于擴散的方法將空間和時間信息展平為一維的標記序列，而不是單獨處理它們，導致在有效捕獲空間時間信息方面存在困難。因此，將歷史占用信息整合到模型中變得困難，因為空間和時間數據被結合在一起。這種限制意味著模型可以生成輸出，但不能預測，限制了其在現實世界場景中的適用性。此外，作者發現大多數占用世界模型對細粒度控制的探索不足，導致過度擬合特定場景，限制了它們對下游任務的適用性。

為了解決上述問題，作者提出了一種預測未來占用幀的新方法，稱為DOME。具體來說，作者的方法包括兩個組件：Occ-VAE和DOME。為了克服離散標記的限制，作者的Occ-VAE使用連續的潛在空間來壓縮占用數據。這允許有效的壓縮，同時保留高保真細節。作者世界模型展示了兩個關鍵特征：

高保真度和長時生成。作者采用時空擴散變換器來預測未來的占用幀。通過利用上下文占用條件，作者將歷史占用信息作為輸入。時空架構有效地捕獲了空間和時間信息，實現了精細細節，并能夠生成長時預測（32秒）。
細粒度可控性。作者通過引入軌跡重采樣方法來解決預測中的精確控制挑戰，這顯著提高了模型生成更精確和多樣化占用預測的能力。

相關工作3D 占用預測

3D 占用預測任務涉及預測每個3D體素的占用狀態和語義標簽。最近的方法專注于基于視覺的占用預測，使用圖像作為輸入。這些方法可以根據它們的特征增強分為三種主流類型：鳥瞰圖（BEV）、三視角圖（TPV）和基于體素的方法。

基于BEV的方法在BEV空間中學習特征，對遮擋不太敏感。它首先使用主干網絡提取2D圖像特征，應用視點變換以獲得BEV特征，最后使用3D占用頭進行預測。然而，由于其自上而下的投影，BEV方法難以傳達詳細的3D信息。為了解決這個限制，基于TPV的方法利用三個正交投影平面，增強了描述細粒度3D結構的能力。這些方法同樣提取2D圖像特征，然后將它們提升到三個平面上，然后將投影的特征相加以形成3D空間表示。與這些基于投影的方法相對，基于體素的方法直接從原始3D空間學習，有效地捕獲了全面的空間信息。這些方法從主干網絡提取2D圖像特征，并將它們轉換為3D表示，然后由3D占用頭處理以進行占用預測。

自動駕駛世界模型

世界模型是智能體周圍環境的表示。給定智能體的行動和歷史觀察，它預測下一個觀察，幫助智能體對其環境有一個全面的了解。最近的方法旨在通過整合不同的模態，如點云或3D占用，來擴展自動駕駛世界模型。基于LiDAR的世界模型預測4D LiDAR點云。Copilot4D是一種使用VQVAE和離散擴散來預測未來觀察的世界建模方法。它在幾個數據集上提高了50%以上的預測精度，展示了GPT類無監督學習在機器人技術的潛力。另一種方法是基于占用的世界模型，它通過3D占用預測未來場景。OccWorld是一個用于自動駕駛的3D世界模型，它使用3D占用預測自我車輛的運動和周圍場景的演變。OccSora是一個基于擴散的模型，用于模擬自動駕駛中3D世界的演變。它使用4D場景標記器和DiT世界模型進行占用生成，輔助自動駕駛中的決策。

模型框架

作者介紹了DOME，一個基于擴散的占用世界模型。作者的方法由兩個主要組件組成：Occ-VAE和DOME。為了使世界模型與軌跡條件對齊，作者提出了軌跡編碼器和軌跡重采樣技術，專門設計用于增強模型的可控性。

Occ-VAE

Occ-VAE是作者模型的核心組件，它使用變分自編碼器（VAE）將占用數據壓縮到潛在空間，這對于提高表示的緊湊性和世界模型預測的效率至關重要。注意到離散標記器通常無法保留占用幀的精細細節，作者提出將密集的占用數據編碼到連續的潛在空間中，以更好地保留復雜的空間信息。如圖2所示的提出的架構，細節如下：

占用數據：由于Occ-VAE專門設計用于占用數據，作者首先討論這種3D場景表示。3D占用數據??將自我車輛周圍的環境體素化為一個??體素網格，每個網格單元根據其所包含的物體分配語義標簽。

編碼器：受基于圖像的VAE方法的啟發，作者提出了一個特別為占用數據設計的連續VAE。為了處理由離散語義ID組成的3D占用數據?，作者首先將其轉換為鳥瞰圖（BEV）風格的張量?，通過索引一個可學習的類別嵌入?。這個過程將占用數據展平為一致的特征維度。隨后，一個編碼器網絡??將轉換后的數據編碼為壓縮表示。這個表示然后沿通道維度分割為??和?，其中??和??表示編碼數據的空間維度，?表示通道維度。編碼后，連續潛在變量??使用重參數化技巧進行采樣，遵循VAEs的方法：，其中??是從標準正態分布中采樣的噪聲向量，?表示逐元素乘法。

編碼器包括2D卷積層和注意力塊。類別嵌入??是隨機初始化的，并與Occ-VAE一起訓練。

解碼器：解碼器網絡??負責從采樣的潛在變量??重建輸入占用。它使用3D反卷積層對潛在表示進行上采樣，確保改善時間一致性。上采樣的特征??然后重塑為?。通過與類別嵌入的點積計算邏輯分數?，邏輯分數的arg max確定最終的類別預測。

訓練損失：在Occ-VAE的訓練中，作者的損失函數由兩個組件組成：重建損失和KL散度損失，遵循標準的VAE框架。作者使用交叉熵損失作為重建損失。此外，為了解決預測中的類別不平衡問題，作者額外加入了Lovasz-softmax損失，這有助于緩解不平衡問題。總損失定義如下：

其中??和??分別是Lovasz-softmax損失和KL散度損失的損失權重。訓練完成后，Occ-VAE模型被凍結，其編碼器作為特征提取器用于DOME訓練，其解碼器從DOME重建潛在表示以生成占用數據。

DOME：基于擴散的占用世界模型

占用世界模型基于智能體的歷史數據（）預測未來的占用觀察?，其中??表示占用觀察，?表示智能體的行動。為了實現這一點，作者采用了一個具有時間感知層的潛在擴散模型，使模型能夠有效地從時間變化中學習。使用時間掩碼整合歷史占用觀察，鼓勵模型基于條件幀預測未來幀。此外，為了給世界模型提供增強的運動先驗和可控性，作者的軌跡編碼器整合了自我車輛的行動，允許精確的下一幀預測，由給定的攝像機姿態控制。具體來說，作者的模型以編碼的潛在??和自我車輛的軌跡作為輸入，其中??表示對應于4D占用數據中幀數的時間維度。潛在部分被掩碼遮蓋，只允許??幀（）可見，模型被訓練以預測剩余的掩碼幀。

時空擴散變換器：為了預測具有時間感知的未來占用，作者采用了一個受基于視頻方法啟發的時空潛在擴散變換器。作者首先將潛在表示??分割為??幀的序列標記，每個序列包含??個標記，其中??表示patch大小。然后向空間和時間維度添加位置嵌入。如圖2所示，作者的模型由兩種基本類型的塊組成：空間塊和時間塊。空間塊捕獲共享相同時間索引的幀之間的空間信息，而時間塊在固定的空間索引處沿時間軸提取時間信息。這些塊以交錯的方式排列，有效地捕獲空間和時間依賴性。

歷史占用條件：為了使模型能夠預測未來的占用特征，必須根據歷史占用數據對生成進行條件化。這是通過條件掩碼實現的。給定占用數據的多幀上下文和表示上下文幀數的超參數?，從歷史占用觀察中編碼潛在?。然后作者構建一個條件掩碼?，確保模型根據可用的上下文幀進行預測。在訓練期間，噪聲標記??根據條件掩碼部分替換為上下文潛在，對于任何使用上下文幀的訓練迭代：。

為了使模型能夠在沒有條件的情況下生成，作者應用了dropout機制，其中??的比例時間內，模型在沒有上下文幀的情況下進行訓練。

損失函數：作者將普通的擴散損失擴展為時空版本，使其與上下文占用條件兼容。由于作者預測一系列特征占用，總體損失是跨所有幀計算的。在上下文占用條件下，?噪聲潛在被替換為真實值（如上所述），因此，這些幀的損失使用條件掩碼??忽略。訓練擴散模型的損失函數定義如下：

其中??是第??個擴散時間戳的第??幀，?是去噪網絡，特別是作者的DOME模型。

軌跡作為條件

軌跡條件注入：對于世界模型來說，動作條件注入是必不可少的，因為世界觀察??應該根據智能體在??的最后動作合理且連貫地變化。作者將軌跡信息注入模型以進行條件生成。具體來說，給定自我車輛的姿態，作者首先計算相對平移??和相對旋轉?。從?，作者提取?，從?，作者獲得偏航角?，代表自我車輛的朝向。然后作者對??應用位置編碼，使用線性層將編碼值投影到隱藏大小，并與時間嵌入結合。這些組合值隨后被傳遞到自適應層歸一化（adaLN）塊。

軌跡重采樣：這個問題源于訓練數據集中的不平衡和有限多樣性。例如，在nuScenes數據集中，訓練集包含700個場景，但大多數涉及車輛直行（大約87%，見圖4（c）），突出了不平衡問題。此外，在同一場景中，車輛只通過一次，導致在相同場景下不同軌跡條件下缺乏多樣化的3D占用樣本。這導致模型過度擬合場景，僅根據上下文觀察學習基于真實特征的觀察。原始軌跡分布如圖4（a）所示。

為了解決這個問題，作者提出了一種軌跡重采樣方法，如圖3（a）所示。作者的目標是多樣化自我車輛的動作和每個場景中采樣的占用。該過程包括以下步驟：（1）多幀點云聚合：作者首先將自我框架中的占用序列轉換為3D點云，然后使用自我姿態將其轉換為世界框架。通過選擇點云的語義標簽來過濾潛在的動態對象（例如，汽車，行人）。（2）獲取可行駛區域：為了生成多樣化的觀察，作者根據場景的可行駛區域創建各種可行的軌跡。在聚合所有點云到世界框架后，作者過濾道路類別，并從俯視圖體素化道路點云以產生鳥瞰圖（BEV）地圖（見圖3（b））。（3）生成多樣化和可行的軌跡：使用BEV地圖，作者隨機采樣兩個點代表起始和目標位置。作者應用平滑的A*算法生成連接這些點的軌跡，模擬自我車輛的駕駛軌跡。得到的軌跡被轉換為??姿態，z坐標設置為0。（4）提取重采樣占用：使用軌跡姿態，作者應用類似于Tian et al.（2023）的占用真實值提取方法，從點云中重新采樣占用。

作者的重采樣軌跡分布如圖4（b）所示。與圖4（a）相比，它填補了軌跡分布的空白，表明作者的方法增強了多樣性并減輕了不平衡。圖4（c）所示的駕駛方向直方圖進一步支持了這種改進。

總之，作者的軌跡重采樣方法既簡單又有效。據作者所知，作者是第一個探索世界模型預測的占用數據增強。這種方法具有很高的通用性，可以應用于所有類型的占用數據，包括機器標注的、LiDAR收集的或自監督的數據。它只需要姿態和占用數據，而不需要LiDAR數據或3D邊界框。

世界模型的應用

4D占用預測：在推理過程中，作者從對應于幀緩沖區大小的隨機噪聲開始（要預測的幀數），并通過Occ-VAE編碼上下文占用幀以獲得上下文潛在。作者將隨機噪聲中的幀替換為這些上下文潛在，然后將輸入傳遞給作者的時空DiT（見圖2底部）。在去噪循環過程中，上下文潛在保持不變，因為它們在每次迭代中都被重新引入。獲得去噪潛在后，作者將其傳遞給Occ-VAE的解碼器以生成最終的占用預測。超參數可以根據不同的要求進行調整。作者設置?= 4以進行精確的占用預測，因為更長的歷史幀提供了更多的場景和運動信息。當需要更大的可控性時，如軌跡信號所要求的，作者設置?= 1以減少占用運動信息的影響，同時保持可控的起始觀察。

長期生成的滾動：由于計算資源和內存限制，作者的模型在訓練和推理過程中僅處理幀占用數據。為了生成更長期的占用預測，作者實施了類似于自回歸方法的滾動策略。具體來說，在生成前幀后，作者重用最后一個預測幀作為上下文幀以預測接下來的幀。一個偏移量將相應的軌跡切片與上下文幀對齊。這種策略可以迭代應用以實現長期占用預測。

實驗結果實驗設置

作者在nuScenes數據集上進行實驗，使用IoU（交并比）和mIoU（平均交并比）指標來評估占用重建和4D占用預測。更高的IoU和mIoU值表明在壓縮過程中信息丟失較少，反映了更好的重建性能，并展示了對未來周圍環境更準確的理解。

占用重建

盡可能壓縮的同時精確重建占用對于下游任務如預測和生成至關重要。在這里，作者將Occ-VAE與使用占用標記器的現有方法進行比較，并評估它們的重建精度。占用重建的定量結果如表1所示。作者在IoU和mIoU指標上都實現了最先進的重建性能，分別為83.1%的mIoU和77.3%的IoU。

4D占用預測

作者在各種設置下將其方法與現有的4D占用預測方法進行比較。這些設置包括使用地面實況3D占用數據（-O）作為輸入，以及使用現成的3D占用預測器（-F）的預測結果作為輸入。按照Wei et al.（2024）的實驗設置，作者使用FB-OCC作為占用提取器，利用來自相機輸入的預測。

定性結果如圖5所示。定量結果如表2所示，表明作者的DOME-O實現了最先進的性能，mIoU為27.10%，IoU為36.36%。作者觀察到與現有方法相比，在短期（1秒）和長期（3秒）預測方面都有顯著改進，表明作者的模型有效地捕獲了場景隨時間的基本演變。DOME-F可以被認為是一種端到端的基于視覺的4D占用預測方法，因為它僅使用周圍的相機捕獲作為輸入。盡管任務具有挑戰性，作者的方法仍然實現了有競爭力的性能，進一步證明了DOME具有很強的泛化能力。

作者還展示了模型的長期生成能力，如圖6所示，以及在給定相同起始幀的情況下，通過軌跡條件進行操作的能力，如圖7所示。此外，作者還在表4中將其方法的生成能力與現有的占用世界模型進行了比較，作者的方法能夠生成的持續時間是OccWorld的兩倍，是OccSora的兩倍。

消融研究

不同的軌跡條件：作者測試了軌跡條件的不同設置，結果如表3所示。Traj.表示是否使用姿態條件進行預測，Res.表示是否使用作者的軌跡重采樣增強，Yaw表示是否添加偏航角嵌入。即使不使用任何姿態條件，作者發現其模型優于OccWorld。軌跡信息通過為模型提供場景變化的明確方向而不是要求它從多種可能性中推斷出來，顯著改善了預測。偏航角嵌入在IoU方面提供了輕微的改進。

上下文幀的數量：作者發現在預測過程中提供更多的上下文幀可以帶來更好的預測（見表5），因為額外的幀為模型提供了關于其他車輛和場景的運動和變化的更明確信息。然而，作者也觀察到增加幀的數量不如使用軌跡信息高效，因為模型必須導航模糊的幀歷史來預測未來的運動。對于基于智能體確定的運動進行預測的世界模型來說，這種歧義是不必要的。

結論和展望

作者提出了一個基于擴散的世界模型DOME，它根據歷史數據預測未來的占用幀。它整合了帶有軌跡編碼器和重采樣技術的Occ-VAE，以增強可控性。DOME展示了高保真度生成，有效地預測了占用空間中未來場景的變化，并且可以生成比以前方法長兩倍的占用序列。這種方法在自動駕駛的端到端規劃中具有應用前景。不過作者發現訓練作者的模型仍然需要大量的計算資源。在未來，作者將探索更輕量級和計算效率高的方法，或者采用微調范式以減少資源需求。

#Depth Any Video

開啟視頻深度估計新紀元

本篇分享論文Depth Any Video with Scalable Synthetic Data，基于多樣的仿真數據集和強大的視頻生成模型，Depth Any Video在真實視頻數據上展現了超強的泛化能力，并且在視頻深度一致性和精度上超越了之前所有生成式的深度估計方法！

，時長01:29

論文鏈接：https://arxiv.org/abs/2410.10815主頁鏈接：https://depthanyvideo.github.io代碼鏈接：https://github.com/Nightmare-n/DepthAnyVideo

摘要

我們提出了一種新穎的視頻深度估計模型：Depth Any Video，它主要包含兩大關鍵創新: 1. 我們開發了一套可擴展的合成數據采集流程，從多樣化的虛擬環境中實時捕獲視頻深度數據，采集了約4萬段5秒長的視頻片段，每段都具有精準的深度標注。2. 我們利用強大的視頻生成模型的先驗來高效處理真實世界視頻，并集成了旋轉位置編碼和流匹配等先進技術，進一步增強靈活性和效率。此外，我們引入了一種新穎的混合時長訓練策略，能夠在不同長度、不同幀率的視頻下表現出色。在推理階段，我們提出了一種深度插值方法，使模型能夠同時處理長達150幀的高分辨率視頻。我們的模型在深度一致性和精度方面均超越了之前所有的生成式深度估計方法。

動機

視頻深度估計是理解三維世界的基礎問題，在自主導航、增強現實和視頻編輯等具有廣泛的應用。現有的方法面臨的主要瓶頸在于缺乏多樣且大規模的視頻深度數據，導致模型在不同場景下難以有效泛化。為了解決這個問題，本文提出了兩大關鍵創新： ? 我們構建了一個大規模的合成視頻深度數據集，利用現代虛擬環境的高逼真視覺效果，從虛擬環境中提取大規模且精確的視頻深度數據，既具可擴展性又低成本。 ? 我們設計了一個全新的視頻深度估計框架，借助視頻生成模型的強大視覺先驗，提升對真實視頻的泛化能力。該框架引入混合時長訓練策略和深度插值模塊，確保模型能在不同視頻長度下保證深度估計的精確性和一致性。我們的模型在生成式的深度估計方法中實現了最先進的性能，樹立了視頻深度估計的準確性和魯棒性的新標桿。

方法

Game Data Workflow 實時數據收集：為解決深度數據的挑戰，我們收集了由40,000個視頻片段組成的大規模仿真數據集DA-V。該數據集主要通過先進的虛擬環境引擎生成逼真的環境，并提供準確的深度信息。我們在多款熱門虛擬環境中提取深度數據，并精心選擇以涵蓋廣泛的場景和環境條件，如：廣闊的城市景觀、細致的室內場景、豐富的動作場面，以及科幻的建筑設計。它不僅為我們提供精準的深度信息，還讓模型接觸多樣的光照條件、天氣效果和復雜的幾何結構，使得模型能夠泛化到真實環境中。在表1中，我們將DA-V與以往的公開仿真數據集進行了比較。據我們所知，這是目前覆蓋真實場景范圍最廣的合成視頻深度數據集。

數據過濾：在收集初始仿真視頻后，我們發現圖像與深度信息之間偶爾會出現不一致現象，例如：切換到菜單界面時。為過濾這些幀，首先使用場景切割方法檢測場景轉換。然后，利用在人工挑選的仿真數據子集上訓練過的深度估計模型過濾掉得分較低的視頻序列。然而，這種方法可能導致未見數據的過度過濾。因此，我們借助CLIP模型計算實際和預測深度之間的語義相似度，均勻抽取每個視頻片段的10幀。如果語義和深度得分的中位數均低于設定閾值，則移除該片段。

Generative Video Depth Model 模型設計：我們基于視頻生成模型Stable Video Diffusion (SVD)，將深度估計框架轉化為條件去噪過程。整體框架如圖1所示，訓練流程包括一個前向過程，通過添加高斯噪聲逐步擾亂真實深度數據，然后將視頻作為條件輸入去噪模型進行反向去噪。一旦模型完成訓練，推理流程就從純噪聲開始，逐步去噪，逐步得到深度預測結果。與之前的擴散模型類似，該生成過程在變分自編碼器的潛空間中進行，使模型能處理高分辨率輸入而不犧牲計算效率。為了讓去噪器以輸入視頻為條件，我們也將視頻轉換到潛空間中，然后將其與潛空間下的深度逐幀連接，作為去噪模型的輸入。

條件流匹配：為了加速去噪過程，我們將SVD中的去噪方法替換為條件流匹配。相比于原本的25步，新方法只需1步即可獲得滿意的深度預測結果。具體來說，我們通過高斯噪聲與數據之間的線性插值來建模數據加噪過程，然后通過預測速度矢量場和常微分方程來進行去噪求解。混合時長訓練：為了增強模型在不同視頻長度下深度估計的泛化能力，我們采用了一種混合時長訓練策略，以確保對各種輸入的魯棒性。這一策略包括：幀丟棄數據增強（圖1a）：提升長視頻序列的訓練效率，并通過旋轉位置編碼增強模型在長視頻下的泛化能力。視頻打包技術（圖1b）：將相同長度、分辨率的視頻打包在同一個訓練批次中，優化變長視頻訓練過程中的內存使用。長視頻推理：上述經過訓練的模型，在單個80GB A100 GPU上可同時處理分辨率為960 x 540的32幀視頻。為處理更長的高分辨率視頻序列，我們首先預測全局一致的關鍵幀，然后使用幀插值網絡生成關鍵幀之間的中間幀，以確保深度分布的尺度和偏移對齊。如圖2所示，我們將關鍵幀的預測結果與視頻序列同時作為幀插值網絡的條件輸入。

實驗結果

表2展示了我們的模型與當前最先進的單幀輸入的深度估計模型的性能比較。我們的模型在各個數據集上顯著超越了先前所有的生成模型，同時在某些情況下，其表現甚至優于之前的判別模型。

圖3展示了我們的模型在不同數據集下的可視化結果，我們的方法能夠捕捉細致的細節，并在自然環境數據上實現有效的泛化性。

表3展示了我們的模型與之前的視頻深度估計模型的性能比較。我們的模型在ScanNet++數據集上展示了更好的時間一致性和預測精度，突顯其在視頻深度估計中的有效性。

表4展示了與之前生成方法的性能和效率比較。我們的模型參數少于先前的視頻深度估計方法。此外，與所有的生成式深度估計方法相比，我們實現了更低的推理時間和更少的去噪步驟，同時獲得了更好的預測精度。

表5展示了所提模塊對模型測試時間、訓練時間、顯存利用率和平均精度的影響。可以看到，這些模塊均對各項指標產生了積極影響。

#GCSLAM

上交最新GCSLAM！邁向自主室內停車：全局一致的語義SLAM系統

上交的工作：本文提出了一種全局一致的語義SLAM系統（GCSLAM）和語義融合定位子系統（SF-Loc），在復雜的停車場中實現了精確的語義建圖和魯棒的定位。視覺相機（前視和環視）、IMU和車輪編碼器構成了我們系統的輸入傳感器配置。我們工作的第一部分是GCSLAM。GCSLAM引入了一種新的因子圖來優化位姿和語義圖，該圖結合了基于多傳感器數據和BEV（鳥瞰圖）語義信息的創新誤差項。此外，GCSLAM還集成了一個全局停車位管理模塊，用于存儲和管理停車位觀測值。SF-Loc是我們工作的第二部分，它利用GCSLAM構建的語義圖進行基于地圖的定位。SF-Loc將配準結果和里程計位姿與一個新的因子圖相結合。我們的系統在兩個真實世界的數據集上表現出了優于現有SLAM的性能，在魯棒的全局定位和精確的語義建圖方面表現出了出色的能力。

總結來說，本文的主要貢獻如下：

提出了一種全局一致的語義SLAM系統GCSLAM，該系統基于因子圖優化，具有創新的車位表示和新的幾何語義組合誤差項約束。

引入了一個停車位管理模塊，該模塊存儲停車位觀測值并更新全局停車位，同時有效地處理噪聲和錯誤檢測。

提出了一種基于地圖的定位子系統SF-Loc，該子系統使用因子圖優化將語義ICP結果和里程計約束融合在一起。

在復雜的現實世界室內停車場驗證了我們的系統，表明我們的系統實現了實時、高精度的定位和語義建圖性能。

相關工作回顧

早期的視覺SLAM方法是基于濾波方法實現的。隨后，利用BA優化的SLAM系統出現了。DSO在估計稠密或半稠密幾何體之前引入了光度誤差和幾何誤差。ORB-SLAM采用ORB特征和滑動窗口來實現精確的位姿估計。與濾波方法相比，基于優化的方法提供了更高的精度和更好的全局一致性。

盡管如此，具有單個攝像頭的SLAM無法恢復規模，并且容易受到視覺模糊的影響。為了提高系統的魯棒性和準確性，開發了將視覺數據與其他傳感器相結合的多傳感器融合方法。MSCKF使用視覺信息構建觀測模型，并使用慣性測量單元（IMU）數據更新狀態。VINS Mono提出了一種緊密耦合、基于優化的視覺慣性系統。VIWO開發了一種基于MSCKF的位姿估計器，該估計器集成了IMU、相機和車輪測量。DM-VIO通過延遲邊緣化和位姿圖束調整來增強IMU初始化。Ground-Fusion引入了一種自適應初始化策略來解決多個角點情況。

然而，由于室內環境的復雜條件，如有限的獨特特征和復雜的照明條件，這些方法無法在室內停車位內執行AVP任務的SLAM。為了解決這些問題，一些工作都利用鳥瞰（BEV）圖像作為輸入，可以提供豐富的地面特征，以解決停車場獨特特征有限的問題。AVP-SLAM使用語義分割來注釋圖像中的停車位、地面標記、減速帶和其他信息，因為分割方法可以有效地適應復雜的照明條件。該語義信息被添加到全局圖中，然后用于注冊輔助定位。然而，他們的地圖是用于注冊的純點云圖，沒有獨立記錄每個停車場，也缺乏每個停車位的位置和角度等重要屬性信息。趙等人利用停車位檢測器檢測停車位的入口點，并將停車位的觀測與里程計相結合，構建新的定位因子。然而，這種方法并不能維護一個完整的停車位地圖。相反，它主要使用地圖作為定位的輔助工具。VISSLAM在停車位之間添加了約束，結合里程計信息提出了一種改進建圖結果的停車位管理算法。后續工作MOFISSLAM結合了滑動窗口優化，實現了更高的定位精度和改進的建圖結果。

然而，現有的方法對噪聲很敏感，在復雜的停車場表現不佳。為了解決這個問題，我們提出了一種新的室內停車SLAM因子圖，提高了魯棒性和準確性。

方法詳解

我們的系統采用多個傳感器作為輸入，包括一個前視攝像頭、IMU、車輪編碼器和四個全景攝像頭。我們工作的總體框架如圖2所示。我們工作的第一部分是SLAM系統GCSLAM。GCSLAM集成了三個模塊：全局時隙管理模塊、里程計和因子圖優化。里程計模塊與其他模塊松散耦合，使其可替換，增強了系統的靈活性和可用性。本文采用VIW作為里程計模塊。全局時隙管理模塊包括BEV感知模塊和時隙關聯。我們的BEV感知模塊是一個基于多任務框架。它以BEV圖像為輸入，實時生成語義分割結果（地面標記）和時隙檢測結果（停車邊界端點），使用統一的骨干網絡，為每個特定任務提供不同的輸出頭。此外，該全局時隙管理模塊將檢測結果注冊到全局時隙并執行時隙關聯。基于里程計位姿、語義信息和時隙關聯結果，因子圖優化可以實現精確的位姿估計和全局語義圖構建。在建立全局語義圖后，我們工作的第二部分，定位子系統SF-Loc，將里程計位姿與語義配準結果融合在一起，用于基于地圖的定位。

帶語義車位節點的因子圖

我們將SLAM任務視為一個因子圖優化問題，旨在估計關鍵幀的精確位姿。基于里程計提供的幀間距離來選擇關鍵幀。因子圖由節點和邊組成，其中節點表示要優化的變量，邊是約束節點的誤差項。如圖3所示，GCSLAM使用兩種類型的節點和四種類型的邊構建因子圖

節點和誤差術語的定義將具體介紹如下。

1）位姿節點：由于我們的SLAM系統假設一個平面停車場，姿勢節點在世界坐標系中存儲了第i幀的3自由度（DoF）車輛位姿（x，y，θ）。我們使用里程計模塊提供的估計位姿位姿來初始化位姿節點。此模塊作為單獨的線程運行。

2）車位節點：當BEV感知模塊檢測到停車位時，它會在像素坐標中輸出其入口邊緣的端點坐標和方向。我們首先使用BEV圖像的虛擬固有K和當前幀位姿Ti將入口邊緣的中點注冊到世界坐標。Ti的方程為：

3）里程表誤差項（OET）：我們基于里程表模塊在之間構建OET。OET的具體形式是：

4）配準誤差項（RET）：RET限制了和之間的關系。

5）Adjacent Error Term (AET):

6）Global Vertical Error Term (GVET)：

全局車位管理

在因子圖優化過程中，自車位姿不斷優化。在自車位姿優化后，從自車位姿和車位觀察配準的全局車位位姿也需要更新。因此，我們使用全局車位管理模塊來存儲和管理多個車位觀測幀。當新的觀測幀到達時，管理系統將當前觀測與現有的全局時隙相關聯。否則，它將創建一個新的全局車位。當自車的位姿優化或新的觀察幀到達時，管理系統會更新全局停車位。

1）車位關聯：為了確定車位觀測值是否與之前觀測到的現有全局車位相關聯，我們首先將當前觀測值配準到世界坐標，表示為Sobs。然后，我們使用kd樹來找到最近的全局車位。根據它們中點之間的距離d，我們確定它們是否相關。如圖4所示，如果S不與任何現有的obs全局車位相關聯，則它將被創建為新的停車位或作為錯誤檢測被丟棄。具體參數如圖4所示。

一旦全局車位Sk與Sobs相關聯，我們就增加該時隙的觀測幀計數。通過記錄每個全局時隙的觀測頻率，我們可以排除低頻時隙作為錯誤檢測。這種濾波策略可以有效地減輕BEV感知模塊的噪聲。具體的過濾邏輯如Alg 1所示。

2）車位更新：由于因子圖是實時優化的，因此每個位姿節點對應的汽車位姿都在不斷變化。由于全局車位是根據汽車位姿Ti和車位觀測配準的，因此當因子圖中每一幀的位姿發生變化時，它應該相應地更新。

基于地圖的定位子系統

GCSLAM將車位和其他語義信息轉換為點云，并獲得全局圖。基于該全局圖，我們提出了一個融合里程計位姿和配準結果的定位子系統SF-Loc。SF-Loc和GCSLAM不會同時激活。GCSLAM僅在首次進入未知停車場時執行，而SF-Loc僅在使用已建立的全局地圖重新訪問停車場時激活。如圖5所示，SF-Loc由因子圖GSF-Loc構建：

我們的語義ICP配準算法在局部地圖和當前點云之間進行配準。局部地圖是基于之前的姿勢從全局地圖中提取的30m×30m的地圖。當前點云是從BEV語義轉換而來的。在語義ICP過程中，使用kd樹識別每個點具有相同語義的最近鄰。基于語義點對的匹配關系，計算當前點云與局部地圖之間的轉換。此過程迭代執行，直到收斂，提供精確的姿勢

語義ICP誤差項是一元邊，提供配準的絕對位姿結果：

由于一元邊施加的強約束和語義分割的高噪聲，我們降低了添加ICP一元邊的頻率。我們每10幀添加一次ICP錯誤項，并在添加之前進行跳躍檢測。我們計算當前幀的ICP配準結果與前一幀的ICP注冊結果之間的距離。如果距離超過2米的閾值，則認為當前幀的配準結果不準確。在這種情況下，我們不會為當前幀添加ICP錯誤項。

語義ICP誤差項有效地糾正了里程計的累積漂移，而OET減輕了ICP中的不穩定跳躍。因此，SF-Loc提高了定位的精度和魯棒性。

實驗結果

結論

本文介紹了一種新型的室內停車跟蹤和建圖系統GCSLAM。GCSLAM結合了創新的因子圖和新穎的誤差項，在復雜的停車環境中實現了穩健和高精度的建圖。此外，我們還開發了一個基于地圖的定位子系統SF-Loc。SF-Loc基于一種新的因子圖將配準結果和里程計位姿融合在一起，有效地提高了定位精度。我們通過真實世界的數據集驗證了我們的算法，證明了我們系統的有效性和魯棒性。

#從小鵬、理想、蔚來布局看自動駕駛發展趨勢

隨著智能駕駛技術在全球范圍內快速發展，汽車產業正迎來巨大變革。自動駕駛，作為汽車智能化的核心部分，不僅影響著未來出行的方式，更推動著整個汽車行業的升級和轉型。在這場變革中，中國的新勢力造車企業，小鵬、理想和蔚來，憑借其創新的技術路線和市場策略，逐漸成為行業內的重要力量。與傳統車企不同，這些新興企業通過對智能駕駛技術的探索與應用，試圖在全球市場上占據主動權，進而引領自動駕駛的未來發展方向。

小鵬：端到端大模型的全面落地

1.1端到端大模型加速自動駕駛進程

小鵬汽車近年來在自動駕駛領域的發展備受關注，其2024年量產落地的端到端大模型被視為行業內的重大突破。這種大模型是基于神經網絡的結構，通過高度的數據驅動方式，解決了傳統自動駕駛系統中人工規則過多、更新維護復雜的問題。小鵬的技術架構由三大核心模塊組成：神經網絡XNet、規劃大模型XPlanner以及大語言模型XBrain。這三者的協同工作使得小鵬的自動駕駛系統不僅能夠快速適應不同場景，還能不斷通過數據迭代提高系統的智能化水平。

小鵬端到端大模型組成

與傳統的自動駕駛方案相比，端到端大模型的最大優勢在于其極大減少了人工參與的過程。在傳統方案中，開發者需要通過大量的手工編碼，定義每一種可能遇到的道路情況和駕駛行為，這種做法在復雜的城市路況下容易遇到瓶頸。而小鵬的端到端模型通過大規模數據訓練，將感知、規劃和控制環節全部交由AI完成，顯著提升了系統的適應能力。神經網絡XNet作為感知模塊，可以通過攝像頭和傳感器的信息，構建出高精度的3D地圖，能夠精準識別50個以上的動態目標，并預測其行為。這種強大的感知能力使小鵬的自動駕駛系統在面對復雜的交通狀況時仍能做出準確的決策。

與此同時，規劃大模型XPlanner的加入使得系統能夠生成更加人性化的駕駛行為。與傳統系統中依靠預設規則進行規劃不同，XPlanner能夠通過對大量實際駕駛數據的學習，自主生成符合交通規則和用戶習慣的駕駛策略。例如，在處理擁堵路段或狹窄道路時，XPlanner能夠更加靈活地選擇最優路徑，并減少車輛不必要的加減速，提升乘坐舒適性。

大語言模型XBrain則為系統提供了類似于人類大腦的認知能力。它不僅可以理解復雜的交通標志、路牌信息，還能根據周圍環境變化做出適時的調整。例如，在面對潮汐車道或特殊交通信號時，XBrain能夠快速判斷其含義，并調整車輛的行駛策略，從而進一步提升系統的安全性和可靠性。

利用大模型，小鵬智駕能“看懂”更多路標等信息

1.2 XNGP的全量推送與無圖化演進

小鵬的全感知駕駛系統XNGP（全景導航駕駛系統）于2024年7月實現了全量推送，這標志著該系統在全國范圍內的廣泛應用。XNGP系統的特別之處在于其不再依賴于高精地圖，這一技術突破為自動駕駛的普及掃清了障礙。傳統自動駕駛系統需要依賴高精度地圖提供詳細的道路信息，但這些地圖的獲取和更新成本高昂，并且只能覆蓋有限的區域。小鵬通過無圖XNGP系統，擺脫了這種依賴，系統能夠依靠車載傳感器和AI模型實現對道路環境的實時感知和判斷，從而實現自動駕駛。

端到端技術的使用使得小鵬自動駕駛的進步大大加速

無圖XNGP的推出不僅提升了自動駕駛的覆蓋范圍，也大大提高了用戶的使用體驗。得益于端到端大模型的支撐，無圖XNGP在各種復雜的城市環境中表現優異，例如在狹窄的小巷、擁堵的市區道路以及環形交叉路口等場景中，系統都能夠流暢應對。特別是在環島或掉頭等傳統自動駕駛系統難以處理的場景下，無圖XNGP通過實時學習和推理，能夠快速生成安全的行駛路徑，并確保車輛穩定通過。

小鵬計劃在2024年第四季度實現“門到門”的自動駕駛體驗，即車輛從用戶家門口出發，直至目的地，全程不需要人工接管。這個目標的實現將標志著自動駕駛技術的又一次飛躍，不僅能夠提升出行效率，還能為用戶提供更加便捷的駕駛體驗。這一舉措也是小鵬未來在全球市場推廣自動駕駛技術的關鍵一環。

1.3小鵬的全球化戰略與未來展望

除了在中國市場的積極布局，小鵬汽車也在大力推進其全球化戰略。憑借無圖XNGP技術的優勢，小鵬計劃在2025年將其自動駕駛技術推廣至全球多個國家和地區。與傳統依賴高精地圖的系統不同，小鵬的端到端大模型能夠有效降低跨國市場的技術推廣成本。這種技術架構使得小鵬能夠迅速適應不同國家和地區的道路環境，尤其是在歐洲和北美等高標準的發達市場，小鵬的無圖技術將成為其競爭的關鍵優勢。

通過全球化戰略，小鵬不僅可以擴展其市場份額，還能進一步優化其自動駕駛系統。隨著更多的用戶和車輛在全球范圍內投入使用，系統將能夠獲取更多的駕駛數據，進一步提升其AI模型的泛化能力。這種數據驅動的全球迭代模式，將幫助小鵬在未來的自動駕駛競爭中占據有利地位。

理想：雙系統架構引領自動駕駛第一梯隊

2.1理想無圖NOA的全量推送與快速迭代

理想汽車作為中國“造車新勢力”中的佼佼者，其在自動駕駛領域的布局同樣引人注目。2024年，理想汽車推出了其無圖NOA（自動駕駛導航輔助）系統，并在全國范圍內實現了全量推送。理想的無圖NOA系統依靠其強大的感知與決策能力，能夠在不依賴高精地圖的情況下，完成各種復雜的駕駛任務。尤其是在城市道路上，無圖NOA展現出了卓越的自動駕駛能力，得到了市場和用戶的廣泛認可。

理想將在三年內實現L4級別無監督自動駕駛

理想的自動駕駛系統采用了分段式的端到端模型，即在系統的感知、規劃和控制環節中均實現了高度模型化。通過這一技術架構，理想能夠有效減少對人工規則的依賴，進一步提高系統的迭代速度。感知模塊通過車輛的攝像頭、雷達等傳感器獲取道路信息，規劃模塊則根據實時環境生成最佳行駛路線，控制模塊負責將這些指令轉化為具體的駕駛操作。得益于這種分段式端到端架構，理想的自動駕駛系統在多種復雜場景中表現優異，包括自動變道、紅綠燈識別、障礙物繞行等。

理想的無圖NOA系統特別適用于中國復雜的城市道路環境。在這種環境下，車輛經常會遇到突發的行人、自行車以及復雜的交通標志，而高精地圖的更新往往無法及時跟上城市發展的步伐。理想通過實時的環境感知和動態決策，使車輛能夠靈活應對各種情況。這種靈活性不僅提高了自動駕駛的安全性，也為用戶提供了更為流暢的駕駛體驗。

2.2端到端+VLM的雙系統架構

理想汽車的自動駕駛系統不僅依賴于端到端的AI模型，還通過引入視覺語言模型（VLM），形成了獨特的雙系統架構。這一架構模仿了人類駕駛員的決策機制，即分為“快系統”和“慢系統”。快系統負責處理大部分常見的駕駛場景，例如常規的城市道路駕駛和高速公路駕駛；而慢系統則用于處理復雜、未知或罕見的場景，例如突發的交通事故、異常天氣條件或復雜的路口等。

端到端模型作為快系統，通過大量的駕駛數據進行訓練，能夠快速識別道路上的目標物并生成行駛路線。而視覺語言模型（VLM）則是慢系統，通過引入多模態數據（包括視覺、語言和環境信息），VLM能夠在復雜場景中進行深度推理，幫助系統在遇到未曾見過的情況時仍能做出合理的決策。例如，當系統在城市中遇到臨時的交通管制或施工區域時，VLM可以通過識別標志和路面情況，判斷出最佳的繞行路線，確保行車的安全性。

視覺大語言模型可以很好的識別駕駛場景并做出決策

這種雙系統架構不僅提高了理想汽車自動駕駛系統的安全性和可靠性，還使得系統具備了更強的場景適應能力。在未來，隨著更多數據的積累和AI模型的迭代，理想的端到端+VLM系統有望進一步提升自動駕駛的水平，為實現L4級別的自動駕駛奠定基礎。

2.3面向L4級別的自動駕駛演進

理想汽車的長遠目標是實現L4級別的無監督自動駕駛，這意味著車輛將能夠在各種復雜的道路環境中，完全依靠自身的決策系統進行駕駛，而不需要駕駛員的干預。為了實現這一目標，理想正在逐步提升其自動駕駛系統的智能化水平，通過數據閉環、模型優化和場景驗證等手段，加速系統的迭代。

L4級別的自動駕駛不僅要求系統具備極高的感知和決策能力，還要求其能夠處理海量的復雜場景和突發事件。為此，理想汽車正在不斷擴展其自動駕駛車隊的規模，并通過這些車輛收集大量的駕駛數據。這些數據不僅幫助系統識別常見的駕駛場景，還能夠通過生成式仿真和模型訓練，提升系統在應對長尾場景時的表現。

此外，理想還計劃通過視覺語言模型的持續優化，進一步提升系統的認知和推理能力。未來的L4級別自動駕駛系統將不僅依靠感知和決策能力，還能夠通過對環境的深度理解，預測潛在的風險并提前做出應對。理想的這一戰略不僅展示了其在技術上的前瞻性，也為未來的自動駕駛市場競爭打下了堅實的基礎。

蔚來：群體智能與長期主義戰略

3.1 NOP+系統的全量推送

蔚來在2024年全量推送了其增強版領航輔助系統NOP+，這一系統的推出不僅為蔚來的自動駕駛布局增添了亮點，也展示了其“群體智能”技術的巨大潛力。NOP+系統基于蔚來全棧自研的自動駕駛算法，能夠在高速公路和城市道路上實現自動駕駛功能。不同于其他車企通過大范圍推開“開城”的方式推廣自動駕駛，蔚來選擇了逐步優化特定道路的策略，確保其系統在每一條特定路段都能提供穩定、安全的自動駕駛體驗。

NOP+系統通過不斷的迭代與優化，已經在中國多個城市實現了全面覆蓋。蔚來車隊在不同城市的道路上進行大量的實地測試，并通過群體智能技術不斷收集數據、優化算法。這種多車協同的群體智能模式使得蔚來的自動駕駛系統能夠快速應對各種復雜的路況，并通過實時數據反饋，不斷提高系統的智能化水平。

蔚來計劃在2024年下半年推出“點到點”的全域領航輔助功能，這將進一步拓展NOP+系統的應用場景，使其不僅能夠在城市和高速道路上使用，還能在不同類型的道路之間實現無縫切換。這一升級將使蔚來的自動駕駛技術更加完善，并為其未來的市場拓展打下堅實的基礎。

蔚來NOP+已在2024年4月全量推送

3.2?世界模型與數據閉環的結合

蔚來的自動駕駛技術依賴于強大的數據閉環系統，通過構建世界模型，蔚來能夠在云端模擬現實世界中的各種復雜場景，并通過仿真技術進行驗證和優化。世界模型的引入大大提高了蔚來系統的迭代速度，尤其是在處理長尾場景時，生成式仿真能夠為系統提供更加全面的訓練數據，使其能夠應對現實世界中可能遇到的罕見情況。

世界模型能夠進行空間理解與時間理解

蔚來的群體智能系統還能夠通過多車協同，不斷優化其自動駕駛算法。每輛車在實際道路上行駛時，都會將遇到的復雜場景反饋至云端，系統通過這些數據不斷迭代優化。這種閉環式的數據反饋機制不僅提高了系統的安全性，還加速了自動駕駛功能的全面落地。

3.3長期主義：軟硬結合的布局

蔚來一直以來秉持著軟硬結合的長期主義戰略，通過自主研發的硬件和軟件平臺，確保其自動駕駛系統的穩定性和可持續發展。在硬件方面，蔚來自主研發了神經網絡處理單元，并通過搭建強大的云端計算平臺，為自動駕駛系統提供了充足的算力支持。蔚來的計算平臺能夠處理海量的數據，并通過這些數據不斷優化系統的算法，使其能夠在復雜的路況下做出精準的決策。

在軟件方面，蔚來依托全棧自研的自動駕駛算法，確保其系統能夠高效運行，并在不同的應用場景中保持穩定。通過對系統的不斷迭代和優化，蔚來的自動駕駛技術已經達到了行業領先水平。未來，蔚來將繼續通過軟硬結合的方式，推動自動駕駛技術的發展，并在全球市場上保持競爭力。

自動駕駛行業的未來趨勢

4.1從“能用”到“好用”的快速過渡

自動駕駛技術的發展已經進入了從“能用”向“好用”過渡的關鍵階段。早期的自動駕駛系統更多依賴于高精地圖和預設規則，雖然能夠在特定的場景中實現自動駕駛功能，但覆蓋范圍有限，用戶體驗也有待提升。而隨著小鵬、理想和蔚來的技術突破，自動駕駛系統開始向更高的安全性和舒適性邁進。

小鵬的無圖XNGP系統和理想的無圖NOA系統通過大規模數據驅動和AI模型的優化，能夠在復雜的城市道路中實現流暢的自動駕駛。這種技術的進步不僅提升了用戶體驗，也為未來的自動駕駛普及提供了技術支撐。未來，隨著自動駕駛技術的不斷成熟，用戶對自動駕駛的需求將不僅限于基本的功能實現，還將期待更高水平的駕駛體驗和服務。

4.2數據驅動的AI大模型成為主流

端到端大模型和數據驅動的算法正在成為自動駕駛技術發展的主流。通過大規模車隊的數據訓練，AI模型能夠快速學習并適應不同的駕駛場景和復雜路況。小鵬、理想和蔚來都通過構建龐大的數據閉環系統，提升了其自動駕駛系統的迭代效率和泛化能力。

未來，隨著更多的車企加入這一行列，數據驅動的AI大模型將成為自動駕駛技術的核心推動力。通過對海量數據的訓練和驗證，自動駕駛系統將能夠在更短的時間內實現性能的提升，并在全球范圍內快速推廣。

4.3城市級無圖自動駕駛的普及

無圖自動駕駛技術正在逐漸成為行業發展的新趨勢。小鵬和理想通過無圖NOA的技術突破，證明了自動駕駛系統可以在沒有高精地圖的情況下，依靠AI模型和數據反饋實現高效駕駛。未來，隨著技術的進一步優化，城市級無圖自動駕駛將成為主流應用場景之一，特別是在復雜的城市道路和多變的路況下，無圖化技術將展現出更強的適應能力。

結論

從小鵬、理想到蔚來，三家車企的技術布局展示了中國自動駕駛行業的巨大潛力。通過端到端大模型、雙系統架構以及世界模型等技術突破，自動駕駛技術正在快速走向成熟。未來，隨著技術的持續迭代和數據驅動的進一步深化，自動駕駛將在全球范圍內迎來更廣泛的應用和普及。這不僅將改變未來的出行方式，也為整個汽車產業的升級和轉型注入新的活力。

#盤一盤端到端自動駕駛主要玩家

1、主機廠

小鵬汽車

2024年5月20日，小鵬汽車舉辦AIDay發布會，董事長、CEO何小鵬宣布端到端大模型上車。小鵬的端到端大模型有三個組成部分：神經網絡XNet+控大模型XPlanner+大語言模型XBrain。小鵬汽車在發布會上表示，端到端大模型上車后，18個月內小鵬智能駕駛能力將提高30倍，每2天內部將做次智駕模型的送代。?

鴻蒙智行（類主機廠）

2024年4月24日，華為智能汽車解決方案發布會上，華為發布了以智能駕駛為核心的全新智能汽車解決方案品牌一一乾崑，并發布了并發布了ADS3.0。乾崑ADS3.0的技術架構，感知部分采用GOD（GeneralObjectDetection，通用障礙物識別）的大感知網絡，決策規劃部分采用PDP（Prediction-Decision-Planning，預測決策規控）網絡實現預決策和規劃一張網。ADS3.0在ADS2.0基礎上實現了決策規劃的模型化，為端到端架構的持續演進莫定了基礎。?

蔚來汽車

蔚來在高階輔助駕駛研發領域一直保持領先。據晚點Auto報逆，自2023年下半年開始，蔚來已經投入幾十人團隊研發端到端自動駕駛，并計劃于2024年上半年上線基于端到端的主動安全功能。蔚來智能駕駛研發副總裁任少卿認為，自動駕駛的大模型需要拆解成若干個層級，第二步是模型化，行業基本已經完成了感知的模型化，但是規控的模型化方面頭部公司也沒有完全做好，第二步是端到端，去掉不同模塊間人為定義的接口，第三步是大模型。?

零一汽車

零一汽車是一家新能源重卡科技公司。零一致力于在核心動力總成、集成式熱臂理、自動駕駛技術等核心系統上實現全裁自研，并通過軟件定義硬件，利用數據和技術重構供應鏈，實現自主安全可控與結構性成本優化。2024年5月，零一汽車成功發布了兩款量產純電牽引車＂驚整與“小滿"。

近期，零一也推出了基于大模型的端到端自動駕駛系統。整個系統使用攝像買和導航信息作為輸人，經過多模態大諾言模型的解碼產生規控信號和輯推理信息，將系統復雜度降低90%。通過模擬人類的駕駛行為與思考過程，模型在僅使用視覺信息的情況下展現了豐常強的泛化能力，并在多個數據集中獲得世界第一的成績。零一計劃在2024年底實現端到端自動駕駛的部署上年，2025年在商用年與乘用車平合上同時實現量產，并計劃于2026年實現高階自動駕駛的大規模商業化運營。?

2、自動駕駛算法和系統公司

元戎啟行

2023年3月，元戎啟行推出國內首款不依賴高精度地圖、可實現全域點到點功能的高階智能駕駛解決方案DeepRoute-Driver3.0。DeepRoute-Driver3.0發布的同時，元我啟行已經在進行端到端模型研發。2023年8月，元戎啟行運用端到端模型完成了道路測試。在道路測試中端到端模型表現驚艷，該車會顧慮后車需求主動禮讓后車。在路況復雜的城中村狹窄路段，搭載端到端模型的車輛行駛流暢，無頓挫感；在2024年4月25日的北京車展上，元戎啟行對外展示了即將量產的高階智駕平臺DeepRouteIO以及基于DeepRouteIO的端到端解決方案。該方案采用NVIDIADRIVEOrin-X系統級芯片，200+TOPS算力，并配備1顆固態激光雷蕾達，11顆攝像頭。元戎啟行CEO周光在2024年GTC大會上表示：“未來人工智能技術將在物理世得到產泛應用。端到端模型會重塑物理世界的人工智能技術，終結一個以“規則驅動，為主導的原始人工智能時代，開啟一個以深度學習，為引擎的通用人工智能時代。?

商湯絕影

2024年4月舉辦的北京車展上，商湯絕影推出面向量產的端到端自動駕駛解決案“UniAD”。本次車展上，商湯絕影展示的端到端自動駕駛系統，無需高精度圖通過數據學習和驅動就可以像人一樣觀察并理解外部環境，然后基于足夠豐富的感信息，UniAD能夠自己思考并作出決策，像人一樣開車，流暢進行無保護左轉、快通行人車混行的紅綠燈路口，自主解決各種高難度的城市復雜駕駛場景。

商湯的“端到端UniAD”歸屬于“模塊化端到端”類型，與決策規劃模型化的技術架構（即兩段式端到端網絡”）相比，不需要對感知數據進行抽象和逐級傳遞，實現了感知決策一體化和系統的聯合優化。同時，商湯絕影也發布了其下代自動駕駛技術DriveAGI，即基于多模態大模型對端到端智駕方案進行改進和升級的“OneModel端到端”。?

小馬智行

基于此前在模塊化自動駕駛技術上的深遠積累和技術優勢，小馬智行開始研發端到端自動駕駛模型為自動駕駛更大范圍使用、更快覆蓋速度做準備。2023年8月，小馬智行將感知、預測、規控三大傳統模塊打通，統一成端到端自動駕駛模型，自前已同步搭載到L4級自動駕駛出租車和L2級輔助駕駛乘用車。

智行端到端自動駕駛模型既可作為L4級車輛的冗余系統，也可作為L2級車輛的解決方案。小馬智行端到端自動駕駛模型具有四大優勢：一、多維度的數據來源：L4級自動駕駛車輛行駛數據，L2級量產車中人類駕駛員數據，V2X路段攝像頭數據，日常生活中的數據等都可作為數據來源；二、全面的數據處理工具：基于在L4級自動駕駛上的多年積累，小馬智行已擁有一套完整的數據評估體系，包含前期高質量數據挖掘清洗，測試使用的大規模仿真系統等；三、模型具有可解釋性，不再是黑盒狀態：小馬智行結合駕駛意圖、應用場景融入規則性指令，例如交通法規、駕駛偏好等；四、出色安全的駕駛技術：小馬智行自動駕駛測試里程已達到3500萬公里，安全性比人類司機高10倍；不僅向不同場景中的優秀人類駕駛員學習，還幫助其他駕駛員減少錯誤，從而提高我們自身的安全性。?

鑒智機器人

在2024北京車展期間，鑒智機器人聯合創始人、CCTO都大龍表示，鑒智機器人原創的自動駕駛端到端模型GraphAD已經可量產部署，并正與頭部車企進行聯合開發。在主流端到端開環規劃評測上，GraphAD在各項任務上均達到領域最佳性能，規劃任務上擬合誤差和避障指標更是遠超此前的最佳方案。?

英偉達

作為AI生態賦能者，英偉達可以提供從芯片、工具鏈到智駕解決方案的全棧產品，將AI領域最前端的技術賦能至智駕。

2023年夏季，吳新宙加盟英偉達成為汽車業務負責人。此后，英偉達加大對智駕業務的投入，強化英偉達對于自身全棧軟硬件方案提供商的定義。2024北京車展前夕，吳新宙展示了英偉達自動駕駛業務從L2到L3的發展規劃，其中提到規劃的第二步為“在L2++系統上達成新突破，LLM（Large Language Model，大語言模型）和VLM（Visual Language Model，視覺語言模型）大模型上車，實現端到端的自動駕駛”。吳新宙認為，端到端是自動駕駛的最終一步，接下來幾年端到端模型和原有模型會在自動駕駛中相輔相成，端到端模型提供更擬人且靈活的處理，而原來的模型和方法則可以保證安全性。?

地平線

地平線早在2016年便率先提出了自動駕駛端到端的演進理念，并持續取得技術創新與突破：在2022年提出行業領先的自動駕駛感知端到端算法Sparse4D；2023年，由地平線學者一作發表的業界首個公開發表的端到端自動駕駛大模型UniAD，榮獲CVPR2023最佳論文。同時，地平線積累了基于交互學習的端到端深度學習算法，大幅提升智駕系統在復雜交通環境中的通過率、安全性和舒適度。在硬件技術上，地平線專為大參數Transformer而生的新一代智能計算架構BPU納什，能夠以高度的軟硬協同打造業界領先的計算效率，為自動駕駛端到端和交互學習提供智能計算最優解。?

3、自動駕駛生成式AI公司

光輪智能

光輪智能致力于為企業落地AI提供合成數據解決方案，結合生成式AI和仿真技術，為行業提供多模態、高真實度、可泛化、全鏈路的合成數據。解決自動駕駛、具身智能行業中真實數據采集難、CornerCase數據缺乏、標注成本高、回環周期長、利用率低等問題。

光輪智能由謝晨博士創立，結合生成式AI和仿真技術提供合成數據解決方案。謝晨曾在英偉達（美國）、Cruise（美國）、蔚來汽車等企業擔任自動駕駛仿真負責人，國際首創將生成式AI融入仿真。清華大學智能產業研究院助理教授趙昊擔任光輪智能首席科學家。趙昊深耕基于生成式AI的仿真、自動駕駛與具身智能算法，曾主導研發全球首個開源的模塊化真實感自動駕駛仿真器MARS。光輪團隊擁有國內外最多次從0-1合成數據生成和落地經驗，匯聚國際頂級生成式AI算法專家、英偉達傳感器仿真負責人、國內領先自動駕駛感知負責人、阿里P8、機器人國際大賽

冠軍、清華特獎、多次創業者等。員工來自英偉達、華為、Cruise、蔚來、百度、達摩院等，擁有多項國內外技術專利。公司2023年初成立，已完成種子輪、天使輪、天使+輪、PreA輪四輪融資，累計融資上億元。

面對市場上迅猛增長的合成數據需求，光輪智能堅持高質量高效率地交付合成數據，現已交付多家國內外頭部主機廠、Tier1、自動駕駛公司數萬商業訂單，服務量產落地以及端到端算法預研。在自動駕駛端到端方面，光輪作為引領者，開發了首創的端到端數據與仿真的全鏈路解決方案，積累了大量自動駕駛端到端實戰經驗。2024年3月，光輪智能與上海人工智能實驗室聯合推出并開源自動駕駛3DOccupancy合成數據集"LightwheelOcc”，用于CVPR2024自動駕駛挑戰賽，本屆挑戰賽包含了以端到端為代表的眾多自動駕駛領域關鍵技術賽題的比賽。除自動駕駛領域外，光輪智能也開始服務具身智能、多模態大模型等領域，目前國內合成數據領域市場份額穩居第一。?

極佳科技

極佳科技是一家專注于世界模型技術和視頻生成應用的公司。2023年9月極佳科技推出了全球首個物理世界驅動的自動駕駛世界模型DriveDreamer，在業界引起了廣泛的關注。

DriveDreamer是一個生成與理解統一的世界模型架構，基于其高真實度、高效率以及高可擴展性的特點，首先能夠實現自動駕駛場景的高效數據生成，用于解決自動駕駛訓練的數據短缺，特別是CornerCase難以收集的問題；其次通過與駕駛控制信號的結合，DriveDreamer可以實現高效的數據生成、編輯與交云，從而用于實現端到端自動駕駛的全鏈路閉環仿真；同時DriveDreamer所具備的場景理解能力，可以擴展實現直接輸出端到端的動作指令，成為新一代端到端方案的重要環節。目前，基于DriveDreamer的產品與方案已經在多個主機廠和自動駕駛科技公司實現定點落地，成為廣受認可的自動駕駛世界模型方案。?

4、學術研究型機構

上海人工智能實驗室

上海人工智能實驗室近年來為自動駕駛技術的發展做出了很大的貢獻。2022年，上海人工智能實驗室開源了BEVFormer架構，時至今日依然是自動駕駛行業內最通用的視覺感知算法架構。2023年6月，上海人工智能實驗室、武漢大學及商湯科技聯合提出的端到端自動駕駛算法UniAD，獲得CVPR2023最佳論文，是近十年來計算機視覺頂級會議中第一篇以中國學術機構作為第一單位的最佳論文。受到BEVFormer和UniAD的啟發，自動駕駛行業在BEV感知、端到端自動駕駛方面的研究大大加速。

近半年來，上海人工智能實驗室還推出利用大語言模型進行閉環端到端自動駕駛的工作LMDrive、自動駕駛視頻生成模型GenAD等，上海人工智能實驗室從多個技術維度對自動駕駛技術進行探索，從而多方位提升其智能性。同時，上海人工智能實驗室還主導了DriveLM（語言+自動駕駛數據集）、GenAD（駕駛視頻數據集）、OpenLane（車道線數據集）、OpenScene（3D占用空間預測數據集）多個自動駕駛開源數據集建設，主辦了CVPR2023自動駕駛挑戰賽、CVPR2024自動駕駛挑戰賽，對自動駕駛研究生態的發展起到重要推動作用。?

清華大學MARSLab

清華大學MARSLab由前Waymo科學家趙行成立和主導。2021年初，MARSLab提出了視覺為中心的自動駕駛框架VCAD，發表了一系列BEV和端到端自動駕駛的基石研究論文和工作：首個基于Transformer的視覺BEV檢測模型DETR3D、首個視覺BEV3D物體跟蹤模型MUTR3D、首個基于Transformer的多傳感器前融合3D物體檢測模型FUTR3D、首個端到端軌跡預測模型ViP3D、首個3D占用網絡的評測基準數據集Occ3D等。MARSLab也是最早發表“無圖”自動駕駛方案的團隊：2021年初，發布首個在線高精度地圖模型HDMapNet；2022年初，發布首個矢量高精度地圖模型VectorMapNet；

2023年初，開創性地提出了基于眾包的先驗神經網絡的地圖模型，實現了自動駕駛地圖的記憶、更新、感知一體化。該系列工作為行業指明了技術落地方向，其中合作企業理想汽車將相關技術在其新能源車產品中進行了廣泛應用落地：

#爆某Tier1員工退股無門？

近日，據南方一線城市某知名汽車電子Tier1企業多名員工反映，公司內部員工持股平臺存在諸多問題，已嚴重影響員工的合法權益，引發持股員工高度關注與不安情緒。

據悉，該公司自2017年起，以“籌備上市”為契機，面向管理層及核心骨干員工籌集資金，推動設立內部持股計劃，意在通過股權激勵增強團隊凝聚力。然而，截至2025年，公司上市進展始終不順，相關計劃長期擱置，企業前景亦趨于不明朗。

令員工感到憂慮的是，盡管公司在協議中明確規定“在職員工不得退股”，卻未就未來若無法上市或上市受阻的情況下，如何處理員工持股資金作出具體安排。在缺乏清晰退出機制的背景下，員工投入的資金被長期占用，既未獲得股息紅利，也無法實現流動退出，利益受損明顯。

有部分已離職員工反映，在完成全部離職手續后數月，仍未收到公司按協議退還的股本。也有離職員工表示，即使已簽署退股協議，且協議明確規定股本應在限期內返還，公司仍未依約履行相關義務，退股時間嚴重超期。

據員工提供的內部協議條款顯示：“上述財產份額轉讓或****（公司名字）股份轉讓均須在相關事實發生或被認定之日起 60 日內完成，該期限的起算日具體如下：退休或工作調動的，為辦理完畢退休離職手續或調任手續之日；主動離職的(包括工作滿五年或未滿五年的)，為公司批準其離職申請之日... ...”但多名已離職超過6個月的員工指出，公司并未按照上述約定予以辦理退股，相關訴求多次協商無果，公司管理人員僅表示“已上報”，卻遲遲未有具體答復或進展。

提供的協議截圖

另有在職員工透露，目前公司董事會將精力集中于處理部分涉嫌違規代持股權的清理問題，對于離職員工的退股事項，并未列入近期的議程，短期內難有結果。

除股權糾紛外，公司還存在績效工資發放遲緩等問題。據多位員工反映，公司實行年度績效考核機制，但截至目前，2024年度績效工資仍未發放，公司亦未就此作出明確解釋或時間安排。

多名員工表示，對自身投入的“血汗錢”能否收回表示深切擔憂。一方面，持股多年無任何收益；另一方面，在缺乏合法退出通道的前提下，資金安全和權益保障毫無保障。目前，部分離職員工正持續與公司就退股事宜進行溝通協商，但至今尚無實質性進展。

該事件其實也揭示出企業在員工持股機制設計與治理執行上的重大漏洞。員工資金被長期占用、缺乏清晰的退出機制，且未享受相應收益，已引發廣泛不滿與信任危機。在資本市場尚未明朗、公司經營壓力加大的背景下，若不能依法依約妥善處理員工持股與退股問題，明確回應員工關切，將嚴重損害企業治理形象與組織穩定性，甚至對未來融資與上市進程形成掣肘。這不僅是一起公司內部治理危機，更是對企業社會責任與法治意識的現實考驗，呼吁該公司要深入了解員工心聲，及時回應員工關切，穩定隊伍，凝心聚力，長期主義，穩健經營，重塑信譽，從而贏得市場，方能保護員工利益，基業長青。

#Phoenix

機器人動作校正自反思框架

構建一個具有泛化能力的自校正系統對于機器人從故障中恢復至關重要。盡管多模態大語言模型（MLLMs）的發展賦予了機器人對故障進行語義反思的能力，但將語義反思轉化為 “如何校正” 細粒度的機器人動作仍然是一個重大挑戰。為了填補這一空白，我們構建了 Phoenix 框架，該框架利用運動指令作為橋梁，將高級語義反思與低級機器人動作校正聯系起來。在這個基于運動的自反思框架中，我們首先采用雙過程運動調整機制和多模態大語言模型，將語義反思轉化為粗粒度的運動指令調整。為了利用這些運動指令來指導 “如何校正” 細粒度的機器人動作，我們提出了一種多任務運動條件擴散策略，該策略結合視覺觀察來實現高頻次的機器人動作校正。通過結合這兩個模型，我們可以將對泛化能力的需求從低級操縱策略轉移到由多模態大語言模型驅動的運動調整模型上，從而實現精確、細粒度的機器人動作校正。利用這個框架，我們進一步開發了一種終身學習方法，通過與動態環境的交互自動提升模型的能力。在 RoboMimic 仿真環境和現實場景中進行的實驗證明了我們的框架在各種操縱任務中具有卓越的泛化性和魯棒性。我們的論文已被CVPR2025接收，相應的代碼將會在https://github.com/GeWuLab/Motion-based-Self-Reflection-Framework上發布。

人類具備通過反思失敗行為來糾正自身行為的能力，能從高級語義反思和低級動作校正角度分析失敗情況以適應動態環境，研究人員為模仿這種能力，試圖開發能讓機器人從失敗交互中恢復并學習的自反思系統。現有的一些自校正系統利用強化學習指導機器人執行低級動作，但因訓練不穩定和需先驗知識，在長周期操縱任務中泛化能力受限。最近研究借助多模態大語言模型推理能力提出故障校正的閉環高級語義反思框架，雖能分解故障校正過程，但因主要依賴預定義技能庫執行子目標，使多模態大語言模型在細粒度機器人動作校正中的泛化能力未充分發揮。為最大化多模態大語言模型在動作校正中的泛化潛力，提出將運動指令（如 “向后移動手臂”“調整夾爪位置” 等粗粒度機器人運動命令）作為橋梁，將高級語義反思轉化為細粒度機器人動作校正，運動指令作為中間層可提供通用低頻決策信息，是融入知識的理想媒介。如圖 1 所示，我們將語義反思知識分解為粗粒度的運動指令調整，以指示低級策略執行時 “如何校正” 細粒度動作。這一轉變將感知和決策要求從低級機器人策略轉移到由多模態大語言模型驅動的運動調整模型上，從而實現具有泛化性的細粒度機器人動作校正。

因此，在這項工作中，我們構建了基于運動的自反思框架 Phoenix，目的是將多模態大語言模型的語義反思轉化為細粒度機器人動作校正。我們開發了雙過程運動調整機制，包括運動預測模塊和運動校正模塊。前者通過專家演示軌跡訓練，能高效生成運動指令，但處理故障場景能力不足；后者收集全面故障校正數據集并微調，以思維鏈方法提供調整后的運動指令，二者整合保證了魯棒性和效率，有助于生成準確運動指令。我們還設計了多任務運動條件擴散策略，因粗粒度運動指令提供的是通用低頻指導，該策略結合視覺觀察，將運動指令轉化為操縱任務的精確高頻動作校正。最后，我們提出了終身學習方法，利用校正軌跡，通過交互迭代增強模型能力，確保性能持續提升和對動態環境的適應。

為了驗證我們框架的有效性，我們在 RoboMimic 仿真環境中對 9 個需要頻繁接觸的機器人操縱任務進行了實驗。結果表明，我們的方法可以通過自我反思更精確地從故障中校正動作，并通過與環境的交互實現自我提升。此外，我們進行了兩個具有顏色干擾和位置分布干擾的新操縱任務，證明了我們框架的泛化能力。實際場景中的實驗也證明了我們方法的適用性和魯棒性。?

基于運動的自反思框架?

機器人自校正模型面臨的挑戰

構建一個具有泛化性和魯棒性的自校正系統是實現機器人故障校正的關鍵組成部分。多模態大語言模型已被應用于機器人自反思框架的構建，以幫助機器人從故障中恢復。然而，現有系統主要側重于語義反思，將其應用于細粒度動作校正仍面臨以下兩個問題：

如何使多模態大語言模型理解操縱任務并提供詳細的校正信息？
如何將多模態大語言模型提供的校正信息轉化為精確的高頻機器人動作？

為了解決這些問題，我們提出了 Phoenix 框架，這是一個基于運動的自反思框架，它集成了雙過程運動調整機制和多任務運動條件擴散策略。

雙過程運動調整機制

過程運動調整機制旨在通過運動預測模塊確保高效的運動預測，同時利用運動校正模塊全面處理故障情況。給定觀察值 o 和任務描述 T，我們首先使用專家演示數據集訓練運動預測模塊（MPM），以生成初始運動指令。然而，在專家演示數據上訓練的運動預測模塊在處理故障情況時存在困難。因此，我們構建了一個全面的故障校正數據集，對運動校正模塊（MCM）進行微調，使其能夠分析故障情況，并通過思維鏈的方法調整。如果被認為是正確的，我們將其作為決策運動指令，用于進一步的機器人動作預測。否則，我們使用運動校正模塊分析故障情況，并生成調整后的運動指令作為決策運動指令。在的指導下，我們基于運動的擴散策略可以生成對機器人動作的高頻校正。?

運動預測模塊（MPM）

為了充分利用多模態大語言模型的感知和決策能力來高效預測運動指令，我們從專家演示數據集中開發了一個運動指令數據集，對多模態大語言模型進行微調，以適應機器人操縱任務。為了構建專家數據集，我們通過閾值過濾機器人動作，從專家演示中獲取主導運動，生成一組包括手臂方向和夾爪控制的運動指令。在實踐中，我們發現將手臂方向指令和夾爪控制指令分開會導致文本運動指令與細粒度機器人動作之間的不一致。為了解決這個問題，我們將方向運動與夾爪控制相結合，形成統一的運動指令格式，如 “夾爪閉合時向右移動手臂”。此外，我們添加了 “對夾爪位置進行輕微調整” 的指令，以模擬低于閾值的微小機器人動作。通過這種自動構建方法，我們構建了 37 種運動指令，為進一步的機器人動作預測提供指導。通過在專家數據集上進行訓練，運動預測模塊能夠理解機器人操縱任務，并可以高效地生成初始運動指令。?

運動校正模塊（MCM）

機器人在與環境交互時可能執行錯誤動作致任務失敗，在成功專家數據上訓練的運動預測模塊難從失敗場景恢復，因此，我們開發了運動校正模塊，用于識別失敗場景并糾正行為。如圖 2（a）所示，該模塊會評估初始運動指令，遇到失敗情況時先分析失敗類型得出語義校正目標，再利用故障校正知識調整運動指令，最終通過分層思維鏈生成準確指令。

為使運動校正模塊具備故障檢測和校正能力，構建了全面校正數據集，如圖 3 所示。這個數據集包含三種反饋數據：

在線人工干預：采用人在回路方法收集軌跡數據，在智能體失敗時手動干預校正指令，能收集高質量數據確保任務完成，但需頻繁人工交互，耗時且難收集大規模數據。
離線人工標注：用運動預測模型收集軌跡數據并采樣，標注語義反思和運動校正信息，雖準確性無法保證，但能提供大量標注數據。
專家演示：對專家軌跡自動標注，這些成功軌跡提供準確運動信息增強模型運動預測能力。

在數據集上微調運動校正模塊，增強其對失敗情況的理解及指令校正能力，整合運動預測模塊和運動校正模塊，使雙過程運動調整機制既能高效生成指令，又能在失敗時全面校正。

運動條件擴散策略

由于運動指令只為操縱提供通用和低頻的指導，我們訓練了一種多任務運動條件擴散策略 π，將運動指令轉化為精確的高頻機器人動作。該策略以觀察值 o 和決策運動指令作為輸入，輸出機器人動作 a。為了確保該策略遵循運動指令，我們進行了如圖 2（b）所示的調整：首先，我們發現現有的預訓練語言模型往往難以捕捉各種運動指令的判別特征。這一限制阻礙了它們遵循不同運動指令的能力。為了解決這個問題，我們引入了一個可學習的運動碼本，旨在為運動指令提供判別特征。對于給定的決策運動指令，碼本會檢索相應的運動特征，以促進準確的機器人動作預測。

此外，我們發現直接連接觀察表示和運動指令特征會導致擴散策略更傾向于依賴視覺信息進行動作預測，從而阻礙了運動指令指導的有效性。為了解決這個問題，我們在擴散策略的不同階段將觀察表示和運動指令特征作為單獨的條件，使模型能夠更好地學習運動指令的指導信息，進而促進精確的動作校正。

通過整合這兩個調整，我們使用以下損失函數訓練用于動作預測的擴散策略：

其中 O 是觀察表示，M 是運動指令特征，是真實的機器人動作，表示去噪迭代 k 時的隨機噪聲。通過最小化公式 1 中的損失函數，擴散策略 π 可以有效地預測由運動指令指導的精確高頻機器人動作。?

用于終身學習的動作校正

雙過程運動調整機制利用運動預測模塊高效預測運動指令，并利用運動校正模塊通過全面的思維鏈方法對其進行調整。然而，由于思維鏈方法耗時，對其的依賴給適應實時場景帶來了挑戰。此外，操縱數據和校正數據的收集非常耗費人力。因此，我們提出了一種終身學習方法，通過從優化后的交互軌跡中學習，使運動預測模塊同時具備運動預測和故障校正能力，如圖 2（c）所示。這增強了我們的模型在無需人工干預的情況下適應環境并快速反應的能力。

得益于運動條件擴散策略能夠遵循運動指令生成任務感知的機器人動作，我們可以通過僅改進由優化后的交互軌跡提供信息的運動預測模塊來提升機器人的能力。為了解決災難性遺忘的問題，我們將優化后的交互軌跡與專家演示混合進行聯合微調，使模型能夠同時學習故障校正并增強運動預測能力。通過優化后的交互軌跡的更新，我們的模型可以從運動校正模塊的知識中學習，實現自我提升，從而在需要頻繁接觸的操縱任務中實現快速準確的操縱。?

實驗分析

為了全面評估我們的框架，我們設計實驗來回答以下問題：

我們的運動引導自反思模型是否提高了動作校正的精度？
我們的模型能否通過與環境的交互實現終身學習？
我們的框架能否在新任務中實現泛化？
我們的框架能否在現實場景中確保可靠性和魯棒性？?

實驗設置

在這項工作中，我們在 RoboMimic 中對 9 個需要頻繁接觸的操縱任務進行了實驗，涵蓋從像 “三件套組裝” 這樣的長周期任務到像 “穿線” 這樣的細粒度操縱任務。為了將高級語義信息轉化為運動指令，我們過濾專家演示，獲得了超過 160,000 對運動指令和觀察值。該數據集包含 37 種運動指令，用于對 LLaVA-v1.5 模型進行微調，將其作為運動預測模塊。此外，為了開發集成語義理解和運動指令調整的運動校正模塊，我們收集了校正數據，包括 3,644 個在線人工干預數據、7,365 個離線人工標注數據和 6,378 個專家演示數據。我們對校正數據集進行篩選，以平衡各種失敗情況的比例，提升模型的校正能力。最后，為了將運動指令轉化為精確的機器人動作，我們使用一個可學習的運動指令碼本訓練了一個多任務運動條件擴散策略，每個任務包含 500 個演示數據。在仿真推理過程中，我們的雙過程運動調整機制將以 5Hz 的頻率提供運動指令，擴散策略會結合視覺觀察將運動指令擴展為 20Hz 的動作序列來控制機器人。對于每個任務，我們進行了 50 次試驗，并報告平均成功率。?

運動自反思模型的性能

對比結果。為了評估我們基于運動的自反思框架，我們將其與其他方法進行比較。為確保公平性，所有對比方法均在仿真環境的專家數據上進行訓練，決策模型使用 LLaVA-v1.5，底層策略采用擴散策略。

OpenVLA：對 OpenVLA 模型微調，為多任務實驗提供基線性能。
任務條件策略：將任務描述作為擴散策略的條件，不使用反思框架，是 RT-1 和 Octo 的變體。
子目標條件策略：對 LLaVA-v1.5 微調，以 5Hz 頻率預測子目標并作為擴散策略條件，不使用反思框架，借助多模態大語言模型語義理解能力，是 PaLM-E 的變體，采用單獨擴散策略。
運動條件策略：對 LLaVA-v1.5 微調作為運動預測模型，以 5Hz 頻率提供運動指令并作為擴散策略條件，不使用反思框架，利用多模態大語言模型感知和推理能力，是 RT-H 的變體，采用單獨擴散策略。
人工干預：手動校正運動條件策略中錯誤的運動指令，為自反思方法性能提供上限，結果以 10 次試驗平均成功率呈現。
子目標自反思：對 LLaVA-v1.5 微調作為子目標自反思模型并應用于子目標條件策略，驗證語義自反思模型的有效性。

如表 1 所示，我們首先比較了三種不同的條件設定方法。借助多模態大語言模型的感知和推理能力，子目標條件策略和運動條件策略優于任務條件策略。結果證明了多模態大語言模型在各種復雜機器人操縱任務中的潛在應用。

聚焦于特定任務，我們觀察到運動條件策略在諸如 StackThree D0 和 ThreePieceAssembly D0 等長周期任務中表現出色。然而，該策略依賴于一致且準確的運動指令預測，這在像 Threading D0 這樣的細粒度操縱任務中面臨挑戰。

通過提供校正子目標，子目標自反思方法始終優于子目標條件策略，特別是在諸如 “StackThree D0” 這樣的長周期操縱任務中，這證明了自反思框架的有效性。

OpenVLA 模型在某些長周期任務中表現出強大的性能，利用其端到端的動作令牌預測能力。然而，缺乏觀察歷史和動作分塊在處理像 Threading D0 這樣復雜的細粒度操縱任務時帶來了重大挑戰。

值得注意的是，我們的 Phoenix 方法比子目標自反思方法取得了更大的改進，證明了運動條件方法在長周期順序任務和細粒度操縱任務中的有效性。受益于我們基于運動的校正方法，智能體可以通過運動指令調整來校正細粒度動作，而子目標條件自反思模型在大多數失敗情況下無法恢復。此外，人工干預方法在多個任務中實現了高成功率，表明我們的運動條件擴散策略可以有效地遵循運動指令進行操縱任務。這一結果表明我們的方法在正確的運動指令下可以表現良好，展示了運動條件自反思的巨大潛力。

消融實驗結果

在這項工作中，我們提出了一個運動預測模塊來提供初始運動指令，以及一個運動校正模塊來提供細粒度的運動校正。根據先前的研究，數據混合比例可能會影響大語言模型的效果。在本節中，我們研究將專家演示與校正數據集相結合，是否也能增強多模態大語言模型在機器人操縱中的感知和決策能力，采用以下消融實驗方法：

專家 - 校正混合：我們將專家演示和校正數據混合，共同訓練運動預測模型。
帶自反思的專家 - 校正混合：我們將專家演示和校正數據混合，共同訓練一個統一的模型，以提供初始運動指令并調整指令。

如表 2 所示，結果表明，與僅在專家演示數據上訓練的模型相比，使用混合數據進行聯合訓練的模型性能更優。這表明結合各種類型的反饋數據可以增強多模態大語言模型的決策和感知能力。這也驗證了我們通過交互實現自我提升方法的可行性。

此外，帶有自反思的混合訓練模型比沒有自反思的模型表現更好，這表明我們設計的基于運動的自反思方法可以增強機器人的決策能力，并有助于校正細粒度動作。

然而，我們發現，與我們分離的運動校正模塊相比，使用混合數據訓練一個統一的模型，同時作為運動預測模塊和運動校正模塊，無法提供準確的校正信息。這表明在數據規模差異較大（160,000 個專家演示數據與 16,000 個反饋數據）的情況下，混合訓練策略可能無法充分利用每個數據集的優勢來實現更好的校正效果。結果表明，我們的雙過程運動調整機制可以有效地利用專家演示和校正數據集，實現準確的運動指令調整。

終身學習的性能

我們探索我們的 Phoenix 框架是否可以通過交互促進終身學習。具體操作是部署運動自反思模型在環境中交互，在 10 次、30 次和 50 次滾動后，利用成功軌跡迭代微調運動預測模型，為避免災難性遺忘，結合 20 個專家演示共同微調運動預測模塊。

實驗比較了基于運動的自反思模型和基于子目標的自反思模型的終身學習能力，測試時記錄 50 次試驗的平均成功率。如圖 4 所示，結果表明，基于子目標的終身學習在探索階段因無法提供細粒度動作校正而不能提升模型性能，而基于運動的方法（Phoenix 框架）能在交互中校正底層動作執行，讓機器人更好地從優化后的軌跡中學習實現自我提升。

對新任務的泛化能力

在本節中，我們評估我們的 Phoenix 框架在顏色干擾和位置干擾新任務中的泛化能力，如圖 5 所示。在顏色干擾設置中，我們將 Stack D0 任務中的紅色方塊替換為藍色方塊，以驗證我們的模型是否可以泛化到具有不同視覺特征的物體操縱任務。在位置干擾設置中，我們將 Coffee D0 任務中咖啡機的固定位置更改為特定區域內的隨機位置，以驗證我們的方法是否可以泛化到未見過的場景。

對于這些新任務，盡管子目標條件策略可以預測正確的高級語義子目標用于操縱，但該方法無法預測精確的機器人動作來完成任務。由于提供高級語義校正信息的局限性，子目標自反思方法無法有效地利用多模態大語言模型的知識進行操縱任務的動作校正。相比之下，如圖 5（c）所示，我們的運動條件策略受益于多模態大語言模型的感知和推理能力，可以生成細粒度的運動指令，實現泛化操縱。此外，我們的方法通過基于運動的自反思框架全面優化運動指令，在新任務中可以實現更好的性能。

現實世界實驗

在現實世界場景中，我們進行了具有挑戰性的 “打開抽屜” 關節物體操縱任務，如圖 6（a）所示，機器人需要通過精確的旋轉使夾爪與把手對齊來打開抽屜。我們使用空間鼠標設備收集了 100 個帶有 14 種運動指令（例如 “向右移動手臂”、“繞 x 軸旋轉”）的專家演示。我們訓練了一個運動條件擴散策略，將指令轉化為機器人動作。在推理過程中，我們引入人在回路的干預，手動校正失敗情況，收集 20 個相應的優化交互軌跡，以訓練我們的運動校正模塊。所有模型僅在現實世界數據上進行微調。

為了驗證泛化能力，我們設計了 4 種設置，如圖 6（b - e）所示。在姿態干擾設置中，我們改變抽屜的姿態分布。在背景干擾設置中，背景顏色被修改為綠色。在紋理干擾設置中，改變抽屜的紋理，以評估在顯著視覺變化下的性能。表 3 中的結果證明了我們方法的泛化能力。我們還評估了終身學習，表 4 中的結果表明我們的模型在現實世界中實現了自我提升。

總結

在這項工作中，我們提出了一種基于運動的自反思框架，將多模態大語言模型的語義反思轉化為細粒度的機器人動作校正。基于這個框架，我們進一步通過交互自動提升模型的能力。我們希望這個基于運動的自反思框架能夠為通過集成多模態大語言模型來增強機器人操縱任務中智能體的泛化能力帶來啟發。?

參考

[1] Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

#ARTEMIS

爆拉Hydra-MDP++！：混合專家模型MoE問鼎端到端軌跡規劃SOTA~

本文提出了?ARTEMIS，這是一種結合自回歸軌跡規劃與專家混合（Mixture-of-Experts, MoE）的端到端自動駕駛框架。傳統的模塊化方法存在誤差傳播問題，而現有的端到端模型通常采用靜態的一次性推理范式，難以捕捉環境的動態變化。ARTEMIS 通過按順序生成軌跡航點的方法，保留了關鍵的時間依賴性，同時將場景特定的查詢動態路由到專門的專家網絡。這種方法有效緩解了引導信息模糊時遇到的軌跡質量退化問題，并克服了單一網絡架構在處理多樣化駕駛場景時固有的表示能力限制。此外，我們還使用了一種輕量級的批量重分配策略，顯著提高了專家混合模型的訓練速度。通過在 NAVSIM 數據集上的實驗，ARTEMIS 展示了優越的競爭性能，在 ResNet-34 主干網絡下實現了 87.0 PDMS 和 83.1 EPDMS，表現出SOTA性能。

論文鏈接：https://arxiv.org/abs/2504.19580?

文章簡介

自動駕駛在過去幾十年中經歷了快速發展。傳統的模塊化方法將自動駕駛任務劃分為諸如感知、預測和規劃等離散模塊。然而，這些模塊之間的累計誤差和復雜的相互依賴關系可能會受到預定義接口的限制。端到端模型通過直接將原始傳感器數據映射到計劃軌跡或控制信號來克服這些問題。

然而，它們靜態的一次性推理范式通常無法捕捉環境的動態變化（圖 1(a)）。相比之下，自回歸方法按順序生成軌跡，保留了時間一致性，并允許根據先前計劃的片段進行適應性決策。自回歸模型已廣泛應用于軌跡預測領域。最近的研究已經開始探索統一框架，該框架通過自回歸建模方法同時完成世界模型構建和完整或部分軌跡規劃任務。

然而，目前的問題是單網絡端到端模型仍然難以充分捕捉和適應多樣化的駕駛場景。為了解決軌跡規劃中的固有復雜性，研究人員越來越多地采用諸如專家混合（Mixture of Experts, MoE）框架等復雜架構。

MoE 利用多個專業專家網絡以及智能路由機制，動態分配和處理輸入——這一策略在大規模語言模型中取得了顯著成功。在自動駕駛中，端到端模型生成的規劃軌跡本質上包含了多種潛在的行為模式，反映了駕駛行為的根本不確定性。駕駛員可以在相同環境條件下選擇幾種合理的未來行動（圖 1(b)) ，而傳統單網絡架構難以準確表征這種內在的行為多樣性。相反，MoE 使得專家模塊能夠專注于特定的駕駛場景或行為模式，從而在不依賴預定義指導信號的情況下學習駕駛行為的特征分布。

這種內生多模態建模方法有效地避免了當指導信息偏離實際情況時可能出現的軌跡質量退化問題。最近，擴散模型（圖 1(c))向自動駕駛引入了新穎的生成建模范式，展示了增強的軌跡多樣性。盡管這些方法在端到端自動駕駛中建立了最先進的性能，但它們通常采用靜態范式，同時生成所有軌跡點（或通過多次去噪迭代），限制了它們準確捕捉軌跡發展的動態演化特征的能力。

相比之下，利用 MoE 的自回歸方法展示了優越的時間序列捕捉能力、環境適應性和實用性，因為它們可以在不需要強先驗約束的情況下運行。為了解決這些問題，我們提出了 ARTEMIS，即自回歸端到端軌跡規劃與專家混合在自動駕駛中的應用，如圖 2 所示。ARTEMIS 包括三個主要組件：感知模塊、具有 MOE 的自回歸規劃模塊和軌跡優化模塊。

感知模塊采用 Transfuser，利用單獨的骨干網絡處理圖像和 LiDAR 數據，最終將其融合成 BEV 特征表示。具有 MOE 的自回歸規劃模塊通過順序決策過程逐步生成軌跡航點，同時動態選擇最適合當前駕駛場景的專家網絡。此外，它還基于專家激活模式實施批量重新分配。最后，軌跡優化模塊處理并優化自回歸軌跡輸出。我們使用 NAVSIM 數據集對 ARTEMIS 進行了全面評估。我們的貢獻可總結如下：

(1) 據我們所知，本文首次將專家混合（MoE）引入端到端自動駕駛，在動態路由機制和專業化專家網絡劃分的幫助下，有效緩解了傳統方法在指導信息模糊時遇到的軌跡質量退化問題，以及單一網絡架構在處理多樣化駕駛場景時固有的表示能力限制。
(2) 我們提出了一種自回歸端到端規劃方法，該方法通過迭代決策過程逐步構建軌跡，實現軌跡航點之間強時間依賴性的精確建模。
(3) 我們的方法在大規模真實世界的 NAVSIM 數據集上取得了顯著結果。使用相同的 ResNet-34 主干網絡，我們的方法在標準指標下達到 87.0 PDMS，在擴展評估指標下達到 83.1 EPDMS。?

ARTEMIS算法詳解

A. 預備知識?1) 端到端自動駕駛

端到端自動駕駛系統旨在將原始傳感器數據直接映射到車輛軌跡。形式上，我們將端到端自動駕駛定義為一個條件序列生成問題，其中輸入是一系列歷史傳感器觀測值?，其中??表示歷史時間范圍。模型需要生成未來時間點的軌跡序列?，其中??表示預測時間范圍。每個點?，其中??表示每個航路點的維度，包含位置和方向等信息。端到端模型的目標是學習條件概率分布?。

對于自回歸模型，我們可以將條件概率分布分解如下：

其中??表示在時間??之前生成的所有軌跡點。這種分解使得模型在生成每個新航路點時能夠考慮先前生成的軌跡，從而保持軌跡的時間一致性。

在一個典型的端到端模型中，傳感器數據??首先通過特征提取網絡??轉換為潛在表示?，然后使用軌跡生成網絡??映射到最終軌跡?。?

2) 專家混合（Mixture of Experts, MoE）

MoE 設計用于通過利用多個專家網絡和智能路由機制來動態處理復雜輸入數據，使計算資源和網絡模型能夠動態分配。在這項研究中，我們采用了類似于 Deepseek-MoE 的設計 [20]，其中一些專家被指定為共享專家以捕捉可泛化的知識，并減少路由專家的冗余性。給定輸入?，其中??表示序列長度，?表示特征維度，我們的 MoE 輸出可以形式化為：

其中??表示共享專家，?表示領域特定專家，?表示專家網絡總數。第??個專家的計算函數由??給出，門控神經網絡通過函數??為第??個專家分配權重。?

B. 模型架構?

1) 感知模塊

感知模塊遵循 Transfuser 的設計 [14]，負責從原始傳感器數據中提取特征。該模塊采用多模態融合策略同時處理圖像和點云數據，從而構建統一的環境表示。具體而言，該模塊包括兩個并行的特征提取器，通過 Transformer 在不同階段進行特征融合。

該模塊利用點云數據??和前視圖圖像數據?，并通過一系列卷積層和 ResNet-34 主干網絡提取視覺特征（例如??和?）。最后，采用多模態融合機制將這些特征整合為鳥瞰圖（Bird’s-Eye View, BEV）特征表示?。?

2) 帶有專家混合的自回歸規劃模塊

與傳統的一次性方法不同，本研究采用自回歸策略逐步構建軌跡，同時集成專家混合（Mixture-of-Experts, MoE）架構。這種設計結合了先前軌跡信息以及基于場景特征動態選擇的專業專家網絡。

對 navtrain 數據集的分析顯示，駕駛命令的分布存在顯著不平衡（左轉命令超過 20,000 個樣本，右轉命令少于 10,000 個樣本，直行駕駛命令超過 50,000 個樣本）。此外，我們觀察到一小部分訓練樣本中的駕駛命令與專家軌跡之間存在差異（如圖3所示）。僅依賴駕駛命令進行專家選擇可能導致某些專家缺乏足夠的訓練數據，并且無法捕捉駕駛策略的多樣性。最終，我們采用了一種內生路由多模態建模方法，以有效緩解這些問題。

為了避免模型偏向于直接從歷史自我軌跡學習規劃，這可能導致因果混淆等問題 [25],[26]。我們僅將當前自我狀態?（包括控制命令、二維速度和加速度）編碼到特征空間??中，通過 MLP 實現。?

位置和時間嵌入

通知模型軌跡點計劃的具體時間步長至關重要。對于未來規劃時間步長?，我們使用嵌入層獲得規劃時間嵌入，記作?。類似地，我們使用位置嵌入將位置信息納入規劃序列，記作?。需要注意的是，我們在第一次自回歸步驟期間僅向初始化的規劃序列添加位置嵌入，以避免因重復添加嵌入信息而引入額外噪聲。?

自回歸生成

首先，我們向完整的當前規劃序列添加位置嵌入以實現初始化。然后，該序列被輸入帶有填充掩碼??的 Transformer 編碼器，以更新規劃查詢?。填充掩碼確保規劃查詢在當前時間步只與序列中的歷史規劃查詢交互。通過構造一個集成規劃時間信息、自我狀態以及當前和歷史規劃查詢的連接查詢，我們得到?。這個連接查詢隨后被輸入帶有批次重分配的 MoEBlock，與 BEV 特征交互，以獲取當前時間步的規劃查詢。

最后，為了進一步刻畫駕駛行為的內在不確定性，我們采用了一種概率建模方法。一個多層次的 MLP 網絡用于預測多模態軌跡點的分布，包括位置和航向。最終，通過從預測分布中采樣生成當前規劃時間步的軌跡點?。在生成軌跡點后，在規劃查詢序列中更新對應于當前時間步的最新規劃查詢。最后，將各個軌跡點串聯形成初始軌跡。?

批次重分配 MoE

如圖 4 所示，該模塊包括共享專家??和領域特定專家?。我們使用一種高效的批次重分配策略，顯著提高了大規模數據處理時的計算效率。為了確保路由網絡的固定查詢維度，我們從連接查詢中移除歷史規劃查詢，形成路由查詢?。路由網絡??包括兩個 MLP，用于計算專家分配得分?。第一個 MLP 對輸入特征進行降維，第二個 MLP 將壓縮后的特征映射到專家得分。這種兩階段設計有效地平衡了計算成本與路由決策質量。

為了使模型在訓練期間專注于最相關的專家，我們還采用了一種稀疏激活策略，僅選擇得分最高的??個專家。對于每個選定的專家索引序列向量?，我們執行一系列操作，包括批排序、數據重組和塊識別。具體而言，我們根據專家索引對批量樣本進行排序，得到排序函數?。隨后，根據此排序函數重新構造 BEV 特征和連接查詢如下：

基于專家索引模式，連續相同專家索引的塊被識別并匹配：

其中??表示塊的總數，?表示第??個專家在第??個專家索引序列向量中的連續塊，?表示通過唯一連續函數確定的相應塊大小。適用于每個塊的適當專家網絡，其中??和??構成塊??在專家索引序列向量??下的重組專家輸入數據。

其中??表示第??個專家在第??個專家索引序列向量中對應的連續塊的起始位置。

最后，專家處理結果恢復到其原始批次順序，并根據不同專家的相應權重??融合輸出，以得出最終合成輸出?。

3) 軌跡優化模塊

考慮到駕駛場景本質上復雜且通常包含與規劃無關甚至構成噪聲的信息，我們引入了一個軌跡優化模塊。優化過程確保最終軌跡??滿足運動學約束、避障并保持平滑性。此過程分為兩個階段：語義運動學優化和交叉注意力優化。?

語義運動學優化

在語義優化階段，我們從 BEV 語義地圖??中提取特征以獲得語義特征?，其中??是主要通過多層卷積網絡實現的語義編碼器。我們使用 GRU 網絡編碼初始軌跡以獲得軌跡特征?，隨后將語義特征??和??輸入優化器網絡?，以獲得聯合表示?。

解碼部分通過融合特征逐點優化軌跡點。對于每個軌跡點，使用 GRU 和輸出層??生成優化點?。在運動學優化階段，采用多種顯式約束來優化生成的軌跡點，包括平滑性約束和運動學約束，并為這些約束分配可學習的權重。從語義運動學優化中獲得的最終優化點記為?。?

交叉注意力優化

我們利用級聯交叉注意力模塊進一步增強軌跡與場景上下文之間的交互，使軌跡特征能夠與代理特征和自我規劃特征交互。

其中??表示代理查詢特征，?表示自我規劃查詢特征，?是優化函數。?

4) 訓練損失

與一些端到端自動駕駛方法一致，我們采用分階段訓練方法以減輕訓練不穩定性 [4],[5],[15],[27]。具體而言，首先訓練感知網絡及其輔助任務，包括語義映射和目標檢測。隨后，整個網絡以端到端方式進行訓練。這種訓練策略顯著提高了模型的穩定性和整體性能。此外，我們選擇不采用 MoE 架構中常用的專家平衡損失，因為其在具有不平衡特征分布的數據集中應用可能會阻礙個別專家獲取專業戰略知識。?

感知階段損失

在第一階段，我們專注于優化感知相關的輔助任務。總損失定義為：

其中??是 BEV 語義地圖的交叉熵損失，?和??是使用匈牙利匹配算法計算的代理分類和定位損失。?

端到端訓練損失

在此階段，整個網絡以端到端方式進行訓練。總體損失定義為：

其中??表示規劃 L1 損失，?表示負對數似然損失。?

實驗結果分析?

A. 數據集

我們在 NAVSIM 數據集上進行訓練和測試。NAVSIM 從 OpenScene 數據集中選取了具有挑戰性的場景，排除了簡單的駕駛情境。訓練集包含 1192 個場景，測試集包含 136 個場景。數據集中的每個樣本包括來自 8 個視角的相機圖像、融合自 5 個傳感器的 LiDAR 數據、地圖標注信息以及 3D 目標邊界框等其他數據。

在 NAVSIM 數據集中，模型需要使用 4 幀（共 2 秒）的歷史與當前數據來規劃一個由未來 8 幀組成的 4 秒軌跡。?

B. 評估指標

已有眾多研究表明，僅通過簡單的開環評估不足以全面衡量模型性能，而閉環評估由于計算成本高昂及仿真器與真實世界存在差異，應用受到限制。NAVSIM 提供了一種介于兩者之間的評估方案，即預測駕駛模型評分（Predictive Driving Model Score, PDMS），該評分與閉環指標高度相關。PDMS 基于五個指標計算：無碰撞（No-Collision, NC）、可行駛區域合規性（Drivable Area Compliance, DAC）、碰撞時間（Time-to-Collision, TTC）、舒適度（Comfort, C）和自車進展（Ego Progress, EP）。

除了 PDMS，NAVSIM 還提供了一個擴展基準——擴展預測駕駛模型評分（Extended Predictive Driving Model Score, EPDMS）。該擴展評分引入兩個新的加權指標（車道保持 LK 和擴展舒適度 EC）、兩個新的乘法指標（行駛方向合規性 DDC 和交通燈合規性 TLC），以及一個誤報懲罰機制。?

C. 實現細節

我們采用 Transfuser作為感知網絡，以 ResNet-34 作為特征提取主干。感知模塊輸入包括前左、前、前右攝像頭拼接的圖像，以及覆蓋 64m × 64m 區域的點云數據。

在集成 MoE 的自回歸規劃模塊中，我們配置了 E_private = 5 個領域特定專家和 E_shared = 1 個共享專家。在前向傳播過程中，選擇得分最高的 K = 2 個專家進行激活。

模型在 navtrain 分割上使用兩塊 A100 GPU 進行訓練，批量大小為 128。初始學習率為 2×10??，權重衰減為 1×10??。模型執行 8 次自回歸步驟，每步輸出一個軌跡點（x, y 和航向）。所有自回歸步驟完成后，生成的軌跡將被優化為 2Hz 的 4 秒規劃軌跡。

在感知模塊訓練階段，損失權重系數 λ_sem、λ_class 和 λ_box 分別設置為 10、10 和 5。在端到端訓練階段，權重系數 λ_sem、λ_class、λ_box、λ_traj、λ_var 和 λ_NLL 分別設置為 2、2、1、15、0.01 和 0.5。?

D. 主要實驗結果?

定量結果

在 Navtest 基準上，我們將 ARTEMIS 與多個最先進的方法進行了對比，結果總結在表 I 中。使用 ResNet-34 主干時，ARTEMIS 在 navtest 分割上達到了 87.0 PDMS，在大多數模型中表現出競爭力。值得注意的是，ARTEMIS 在 EP、NC 和 C 指標上顯著優于其他方法，表明其強大的軌跡規劃能力和環境適應能力。

我們進一步在 Navtest 基準上使用擴展指標對 ARTEMIS 進行了評估（見表 II）。結果顯示，在使用同樣 ResNet-34 主干的情況下，我們的方法顯著優于所有基線模型，達到最先進的性能（SOTA）。特別是，我們的方法在 TTC 和 EP 等關鍵指標上明顯優于其他方法，這些結果突出了 ARTEMIS 在多種評估標準下的魯棒性和優越性能。?

定性結果

圖 5 展示了從 navtest 數據集中采樣的四個代表性駕駛場景，用于定性評估所提出的方法。為了突出不同專家對同一場景的響應，每個領域特定專家生成的軌跡用不同顏色繪制。

第一個例子（圖 5a）展示了自車通過交叉路口的情景，專家行為分為左轉或直行兩種情況。經過路由網絡融合處理后的軌跡優先選擇了橙色專家的直線路徑。

圖 5b 中，當自車接近 T 形路口時，黃色專家選擇右轉，而其余專家選擇繼續直行。經過路由網絡融合處理后的軌跡則融合了黃色專家的結果。

圖 5c 和圖 5d 展示了另外兩個場景：繞行環島和車道入口選擇。在圖 5c 中，除紅色專家外，其他專家錯誤地選擇向右前方行駛，而紅色專家成功捕捉到了環島道路特征并正確繞行。最終的規劃軌跡主要參考了紅色專家的解決方案，體現了內在路由機制的有效性和合理性。車道入口選擇場景的可視化（圖 5d）也清晰地展示了不同專家在當前上下文中對不同入口車道位置的偏好。

此外，我們還在不同場景下對 ARTEMIS 和 Transfuser 的軌跡規劃性能進行了視覺對比，結果如圖 6 所示。?

E. 消融實驗?

組件影響分析

為了評估每個架構組件的貢獻，我們構建了三個變體模型，分別移除了以下組件：

自回歸規劃模塊 + MoE（AME）
MoE 模塊本身（MoE）
軌跡優化模塊（TR）

結果總結在表 III 中，顯示移除任何單一組件都會導致性能下降，確認了這三部分的必要性。具體來說，移除自回歸模塊使 PDMS 下降 3.0 分，說明自回歸范式對于捕捉航點之間的時間依賴性和準確應對變化的環境背景至關重要。

移除 MoE 模塊會導致 PDMS 下降 4.1 分，強調了 MoE 架構在動態適應多樣化駕駛場景和行為模式方面的優勢。最后，移除級聯優化模塊會使 PDMS 下降 2.3 分，表明該階段有效緩解了自回歸軌跡生成過程中的采樣不穩定性。?

路由網絡有效性驗證

為了驗證內置路由機制的有效性，我們將其與顯式的駕駛命令引導策略進行了比較。實驗結果（見表 IV）顯示，內置路由機制在顯式引導偏離實際場景時能有效避免對領域特定專家的不當分配。?

級聯優化層數的影響

表 V 報告了優化層數對模型性能的影響。增加級聯深度最多提升兩層效果，超過此數后性能趨于飽和。

領域特定專家數量的影響

表 VI 探索了專家數量變化的影響。將專家數量從 3 個增加到 5 個逐步提升了模型性能，表明增強了處理復雜場景的能力。然而，擴展到 10 個專家時性能下降 1.5 分，表明在有限訓練數據下，過多專家會分散資源并導致功能重疊。?

批次重分配對訓練速度的影響

為了評估批次重分配的貢獻，我們在不同批量大小下比較了有無該策略的訓練速度。如表 VII 所示，在相同硬件條件下，批次重分配顯著加快了訓練速度，隨著批量大小從 64 增加到 256，每秒處理的訓練樣本從 19.2 提升到 43.5。盡管重分配引入了一些額外開銷，但相對于專家網絡計算而言微不足道，并且被并行效率的提升所抵消。?

結論

本文提出了?ARTEMIS?—— 一種結合自回歸端到端軌跡規劃與專家混合（Mixture-of-Experts, MoE）的自動駕駛框架。不同于傳統一次性靜態范式合成完整軌跡的方法，ARTEMIS 實現了順序決策過程，從而能夠對軌跡演化進行建模。

通過集成具有專用路由網絡的專家混合架構，ARTEMIS 動態捕捉駕駛行為的內在動態特性，并有效適應多樣化的駕駛環境。在 NAVSIM 基準上進行的大量定量評估表明，ARTEMIS 表現出高度競爭力的性能。鑒于其靈活性和適應性，該框架在復雜場景中展現出巨大的部署潛力，并為未來自動駕駛研究確立了一個有前景的方向。

#關于 VLM 一些實現點

當前主流 VLM 似乎是下面這樣：

vision encoder 一般用 ViT，用 MLP 橋接到 LLM 上（llava 開啟用 MLP，相比于 BLIP 所用的復雜的 q-former）。vision encoder 上施加 2d-位置編碼。
為了支持 input image 可以是各種分辨率，一種方式是（比如 deepseek-VL-2）把圖片切塊成固定大小，然后用 ViT 編碼成固定數量 tokens，然后分多個子圖灌注給 LLM。另一種（感覺更高級的）方式是，vit 本身支持各種分辨率（根本在于2d 絕對位置編碼）基礎上，LLM 的位置編碼也能關注到圖片、video 的patch 坐標。
LLM 集成了 vision 后，仍然用 1d-Rope 位置編碼也是能 work 的。這是因為 vision encoder 都有 2D 位置編碼，也就是 vision token 已經自帶位置編碼了。另外有些做法會對 img patch token 的行尾，加一個換行 token，這樣 LLM 也能識別出換行。
LLM 集成了 vision 后，用能反映出 patch 坐標的多維位置編碼，直觀上是更有道理的。qianwen-VL-2 與 2.5 就用到了這樣的位置編碼。

察看幾個較新 VLM 后，總結如上，簡析如下。?

Kimi-VL

乃一只激活 2.8B 參數(總十幾B)的 MOE VL thinking 小鋼炮模型。

vision encoder

支持任意分辨率的圖片與視頻。所用 vision encoder 為 ViT 結構，從已有的 SigLIP-SO-400M 預訓練 model 上擴展來的（用它初始化參數并繼續 pretrain）。原 SigLIP 沒用 2D-rope 而是用了絕對位置編碼，為此 kimi 把它插值化，從而支持任意分辨率的圖片。另外，kimi 還額外給它補充了 2D rope(從左上角開始排布位置id，一路隨著圖片分辨率延伸下去，從而也支持各種分辨率)。即一共用了兩種位置編碼。?

主體 model 部分

用了 MOE。代碼上直接引用到了 deepseekV3, 乃 deepseek 版本的 MOE。
圖文兩模態的關聯：自從 llava 之后都用 MLP，它也不例外。
LLM 上的位置編碼：沒有給 vision 模態 token 特別設計位置編碼（這和 qianwen2-vl 是不同的），而是直接用 1d位置編碼。vision token 的行列位置關系，靠 vision encoder 編碼得到。?

所用強化學習

因為是 think model，所以用了 RL。和《Mkimi k1.5》中方法一樣?

千文系列?

qw-VL-1（千文-VL-1）

======

qw-VL-1 還用的blip 那樣的 q-former 樣的東西。且 input 圖片必須先剪切成固定大小，經過 q-former-adapter 轉化成固定的 256 個 token，然后參與到 LLM 中。adapter 處用到了 2D 絕對位置編碼，img 和 text 在 LLM 中仍用 1d-Rope。

它的亮點之一，支持 Bounding Box 可作為 text 的 input 或 text 的 output。這一特點在后續版本都延續了下來。它還只是個 10B 的小模型。?

qw-VL-2 [2024.09]

======

vision encoder 變成到了 675M（VL-1 是 1.9B），但整個model 變大到了 72B。主要變化是，input 支持了任意分辨率的圖片，支持了視頻。

假設原始圖片分別率是 (a, b), 則最終token 數是 (a/28)* (b/28)——它的 ViT encoder 是 14x14 切塊，并最終把 2x2 的 patch 合一，所以是28. 上圖的3 個 img，1個 video 即滿足此點。不像 VL-1，用 q-former，而是像 LLava 一樣，用 MLP 連接 Vit encoding 與 LLM（相鄰的 2x2=4 個塊作 MLP即為 vision token）。?

位置編碼：

訓練ViT的時候，用了 2D-Rope（d維向量，分一半編碼x，一半編碼y）。
拼到 LLM 后，用 M-Rope 3d 位置編碼把 text 與 vision 統一處理：每一token 用 (frame_idx, height, width) 三個位置 id 表示。下面講 VL-2.5 再詳述。

訓練時，img 與 video 怎么與text 拼一起的（訓練數據長啥樣）：?

qw-VL-2.5 [2025.02]

====

model 大體上和 VL-2 簡直一模一樣。仍然是 axb 的 img 轉成了 (a/28)* (b/28) 個 vision token，用 MLP 橋接 img 與 LLM。且 vision encoder 內部仍是用了 2D-RoPE。為了很好處理video，還有某些特別操作（For video data, two consecutive frames are grouped together, significantly reducing the number of tokens fed into the language model），不論。?

關于 MRope 位置編碼

MRope 位置編碼把 text, image, video 三種模態統一作位置編碼，作用于LLM。每個token 用 [t, h, w] == (frame_idx, height_idx, width_idx) 三個位置 id 表示。

對于 text 三個 id 取值一樣，且順序增一。
對于同一個 img 的多個patch 所形成的 token 序列：height_idx， width_idx 如實填寫，他們共用一個 frame_idx = 0. 然后對此 shape = [1, H, W] 的數組，每個元素統一加上 offset= max(img的前一token 的 t, h, w)值.
對于 video 的多個frame 形成的 token序列：height_idx， width_idx 如實填寫, 而 frame_idx 則是幀序列。然后對此 shape = [frame_cnt, H, W] 的數組，每個元素統一加上 offset= max(img的前一token 的 t, h, w)值.

例子：

messages = [{"role": "user","content":[{"type": "text", "text": "hello"}],},{"role": "assistant","content": [{"type": "text", "text": "what can i do for you?"}],},{"role": "user","content": [{"type": "image", "image": "img1.png", },{"type": "image", "image": "img2.png",},{"type": "text", "text": "what do you see in the picture?"},{"type": "video", "video": "video1.mov",},{"type": "text", "text": "what text do you see in the movie?"},],}
]

轉成 M-Rope位置編碼 id 后是（修改代碼，實測打印出）：

# text: hello , what can i do for you?
1 [0, 0, 0] # 方括號數字含義：[frame_idx, height_idx, width_idx]
1 [1, 1, 1]
1 [2, 2, 2]
1 [3, 3, 3]
...
1 [28, 28, 28]
1 [29, 29, 29]
1 [30, 30, 30]
1 [31, 31, 31]
1 [32, 32, 32]
-----
# img: img1.png
1 [33, 33, 33] # 統一加了前一 token 中的 32
2 [33, 33, 34]
3 [33, 33, 35]
4 [33, 33, 36]
....
3574 [33, 81, 102] # 這張圖的第 3574 個 token
3575 [33, 81, 103]
3576 [33, 81, 104]
3577 [33, 81, 105] # 3577：這張圖有 3577 個token
----
# text
1 [106, 106, 106] #<vision_end> token# 從 前面105開始
1 [107, 107, 107] # <vision_start> token 
----
# img: img2.png
1 [108, 108, 108] # 從前面107開始。統一加了107得到img2.png 的 位置編碼 id
2 [108, 108, 109]
3 [108, 108, 110]
4 [108, 108, 111]
...
884 [108, 144, 127]
885 [108, 144, 128]
886 [108, 144, 129]
887 [108, 144, 130]
888 [108, 144, 131]
-----
# text: what do you see in the picture?
1 [145, 145, 145]
1 [146, 146, 146]
1 [147, 147, 147]
...
1 [153, 153, 153]
1 [154, 154, 154]
------
# video： video1.mov
# - frame 1
1 [155, 155, 155]
2 [155, 155, 156]
3 [155, 155, 157]
4 [155, 155, 158]
...
717 [155, 190, 171]
718 [155, 190, 172]
719 [155, 190, 173]
720 [155, 190, 174]# - frame 2
1 [157, 155, 155] # frame_id=155+2。注意不同 frame 相同位置，用了同樣的 (h, w)，和第一幀一樣 ，從 155,155 開始
2 [157, 155, 156]
3 [157, 155, 157]
4 [157, 155, 158]
5 [157, 155, 159]
...
716 [157, 190, 170]
717 [157, 190, 171]
718 [157, 190, 172]
719 [157, 190, 173]
720 [157, 190, 174]# - frame 3: 
1 [159, 155, 155] # frame_id = 155+2+2
2 [159, 155, 156]
3 [159, 155, 157]
4 [159, 155, 158]
...
717 [159, 190, 171]
718 [159, 190, 172]
719 [159, 190, 173]
720 [159, 190, 174]
-----
# text: what text do you see in the movie?
1 [191, 191, 191]
1 [192, 192, 192]
1 [193, 193, 193]
...
1 [203, 203, 203]
1 [204, 204, 204]
1 [205, 205, 205]

一般感覺中，橫豎坐標都應該是從0或者1開始，如果從某一個隨機的值開始，當做左上角坐標起點（正如上面 m-rope），還有意義嗎？因為rope其實起作用的時候，使用的位置差，所以加這樣的偏移是沒問題的。上面這樣，反而能刻畫出這個img/video/text 三者之間的前后順序。

（1）、上面這樣子的位置編碼，其實sujianlin 大神有專文論述： “閉門造車”之多模態思路淺談（三）：位置編碼 - 科學空間|Scientific Spaces 給出了一個好的 3D repo 應該滿足的 3 個屬性：

[兼容性]：如果input只有text，應該退化成 1d-RoPE
[對稱性]：兩段文字text1, text2 中間夾一個img(或video). 則對于(t,h,w) 三個維度id都應該滿足：img.first_token text1.last_token == text2.first_token - img.last_token

也就是說前后兩段文字和圖片的距離應該一樣

[等價性]：兩段文字text1, text2 中間夾一個img. 應該：text2.first_token - text1.last_token == img.token_cnt
也就是說，兩段text之間的距離，應該正好等于 img.token_cnt

以上三點甚為有理。他還給出了解，大體上說，一個 img/video 的(t,h,w) 三者的每種位置 id 需要是某種等差數列形式，才可滿足這三點。而qianwen-vl 的 M-Rope 只保留了兼容性。

（2）、關于 attention mask：純 text 的 LLM, 無疑是用三角 attn 矩陣即可。對于有圖片或 video 的多模 LM，里面的 text 部分，無疑還需要 casual 三角 mask，對于里面的 img 或 video——特別是位置編碼都是3D的了——因為只用于 input，不用于 output，是不是可以不用三角 attn mask呢？——也就是只text部分是三角mask矩陣， vision 部分用全 mask。就 qianwen-vl-2.5 代碼看，是全部用了三角 attn mask 矩陣。?

視頻支持動態幀率與幀絕對時間編碼

VL-2.5 的一個重要特色是對于 video，會把 frame 的絕對時間（指的是相對于視頻開始的絕對時間偏移）編碼。處理方式是：本來也不可能把每一幀都最終放進 LLM，需要采樣某些幀。一般做法是每 n 幀抽一，這樣如果原始的 FPS 幀率不固定，所抽出的第 i 個 frame 的時間就指不定是哪一秒的了。于是 VL-2.5 定義好一個標準的幀率，標準幀率的每一幀對應的是位置編碼id 的 1,2,3,4,5..。要想用別的采樣幀率，則選用位置編碼 id {1,2,3,4,..} 中的某些等差序列子集即可。見下圖：

訓練的時候，會各種幀率的都出現，這樣 inference 的時候，給任意幀率的video 都支持。注意圖中，是選某一種幀率，而不是一個 video 一次要把各種幀率都放進 model 里。?

deepseek-VL-2 [2024.12]

vision encoder: 用了接收固定大小圖片的 SigLIP model。 SigLIP 本身用了2D 絕對位置編碼。
怎么支持的任意分辨率圖片：大圖切片，patch 尾部加換行 token：
位置編碼：圖片的位置編碼只是用了 vision encoder 里的位置編碼。然后LLM 里，仍用 1d-rope。但是用特殊換行符號分隔圖片的不同patch 行。?

internVL-3 [2025.04] （上海AI實驗室）

========

它用的是 "ViT-MLP-LLM" 架構。

LLM 中的位置編碼：

用所謂的 V2PE（ https://arxiv.org/pdf/2412.09616 ）方法。

仍然用 1d 位置編碼，但是對于一個img的多個tokens，它們的位置順序id的遞增不再是1（text 就是1），而是一個小于1的。這樣好處是，通過間隔能區分出這一塊兒時 img，且img占用的位置空間較小，從而能節約有限的 LLM context size(這個size 是由支持的最大位置編碼id決定的）。訓練時，delta 可以取用各種值， infer 時就支持不同的 delta 了。

是否只能固定分辨率

從它所用的 vision encoder （ https://huggingface.co/OpenGVLab/InternViT-6B-448px-V2_5 ）看：

As in the previous version, we applied a pixel unshuffle operation, reducing the number of visual tokens to one-quarter of the original. Besides, we adopted a similar?dynamic resolution?strategy as InternVL 1.5,?dividing images into tiles?of 448×448 pixels. The key difference, starting from InternVL 2.0, is that we additionally introduced support for multi-image and video data.

也就是大圖切分成多個448x448 的固定圖的方式，支持了任意大小的圖。所用 vision encoder 內部應該有（不確，未考） 2d 位置編碼, 否則 LLM 中的 1d位置編碼怎么區分出img tokens 的位置坐標呢.

其他：經高人指點，還有一類 Encoder-Free VLM

顧名思義，不用 vision encoder。以 https://arxiv.org/pdf/2502.06788 eve2 來看，是用了patch emb layer提取視覺特征，也可以說這就是一種 vision encoder：不過作者說了，For visual embeddings, we construct a minimalist (盡量小的) patch embedding layer from scratch，在”盡量小“ 意義上——除非裸像素直接 feed 否則必不可少的轉化——乃 encoder-free。

另外，此文給出的各路 VLM 的總結圖很好：

其他：關于 VLM 作 OCR。無疑 VLM 直接做長篇 OCR，已被證明很成功。

有說 ViT 更偏向低頻特征，對高頻細節不敏感：ViT 更偏向低頻特征，對高頻細節不敏感: 在CV界，傳統卷積已經徹底輸給Transformer了嗎？有獅子的那個回答，以及里面有所提及的 https://arxiv.org/pdf/2202.06709。那么為啥 ViT 用于多模 LM，作 OCR 效果還很好？是這里所說的高頻，對于文字細節紋路，并不算高頻，也就是高頻頻段定義不同？或者強大數據加持暴力訓練下，一個 vit 的patch 內有啥內容，直接記住了？待究