51c自動駕駛~合集14

自己的原文哦~? ? ? ? ??https://blog.51cto.com/whaosoft/11707335

#Text2LiDAR

文本引導的無條件點云生成新SOTA

論文題目:《Text2LiDAR: Text-guided LiDAR Point Cloud Generation via Equirectangular Transformer》 ?
論文地址:https://arxiv.org/pdf/2407.19628 ?
代碼地址:https://github.com/wuyang98/Text2LiDAR?

一句話概括

本文探索了一種文本引導激光雷達點云生成的Transformer框架,以序列到序列的方式,利用等距圓柱投影注意力機制在KITTI-360和nuScenes數據集上取得了優異的無條件生成和文本引導生成點云結果。

圖片

圖1 本文方法與此前方法概要對比,(a)為此前以U-Net為代表的卷積框架,缺乏對等距圓柱投影圖像的適配也不利于可控性拓展;(b)為我們提出的Transformer框架,適配等距圓柱投影圖像的同時便利了控制信號的嵌入?

摘要

復雜的交通環境和多變的天氣條件使得激光雷達數據的收集既昂貴又困難。實現高質量、可控的激光雷達數據生成十分有必要,而對文本控制的激光雷達點云生成的研究仍然不足。為此,本文提出了Text2LiDAR,這是第一個高效、多樣化且可通過文本控制的激光雷達數據生成框架。為了提升文本控制生成性能,本文構建了nuLiDARtext,它為850個場景中的34,149個激光雷達點云提供了多樣化的文本描述符。在KITTI-360和nuScenes數據集上的實驗展示了本文方法的優越性。?

背景

1.為什么需要生成激光雷達數據?

  1. 本領域中激光雷達點云數據怎么表示?

圖片

3. 實現文本引導生成激光雷達點云主要面臨兩項挑戰

(1)目前本領域沒有專門為等距圓柱投影圖像和文本設計的生成框架。與目標級別的點云不同,戶外的激光雷達點云更加的不規則和稀疏。在涉及到自動駕駛場景的激光雷達點云處理時,相關工作[1,2,3]往往會將激光雷達點云投影為等距圓柱投影圖像以緩解激光雷達點云的不規則性和稀疏性。在此基礎上,Nakashima等人[4,5]將真實數據中的激光點的缺失現象納入考慮,并設計了GAN網絡來生成數據。為了進一步提升生成數據的真實性,如圖1(a)所示,LiDARGen[6]和R2DM[7]設計了以U-Net去噪結構的擴散模型,然而在卷積方框中提取特征的方式破壞了等距圓柱投影圖像的環形結構,稀釋了像素間的關聯。同時,卷積框架的可拓展性有限,在適配來自不同模態的控制型號時,很不方便且效率低下。此外,一些現有的方法也忽視了等距矩形投影圖像中的高頻信息與點云目標結構之間的對應關系。這些都促使我們去探索一個統一的可控生成結構,使其能與等距矩形投影圖像和多模態信號兼容。

(3)現有的數據集沒有提供高質量的文本-激光雷達點云數據對[8, 9, 10, 11]。高質量的文本描述詞不僅需要描述激光雷達點云中存在的目標,更需要描述天氣、光照、環境結構等關鍵信息,這些輔助信息的利用可以明顯的提升點云生成的質量,如圖1(b)所示,這些信息共同構成了一幀相對完善的自動駕駛場景的激光雷達點云數據。如何構建高質量的文本-單幀激光雷達點云數據也是一個需要解決的問題。?

方法

圖片

圖2 本文方法流程

為了解決以上提到的兩項挑戰,我們提出了Text2LiDAR,這是一個Transformer結構,可以更好地適配等距圓柱投影圖像的環狀特性,保持任意像素點之間的關聯性。得益于序列到序列的特征處理方式,Text2LiDAR可以很便捷地增刪多模態控制型號。此外,本文構建的nuLiDARtext在nuScenes的基礎上為激光雷達點云提供了豐富且合理的文本描述詞,可以更好地促進文本控制的激光雷達點云生成。

如圖2所示,我們的Text2LiDAR具體計算流程如下:
首先,我們對正常激光雷達點云添加噪聲得到了擾動的雷達點云(Perturbed LiDAR)輸入,然后將其送進等距圓柱投影Transformer中進行無條件的噪聲預測或在文本信息引導下的噪聲預測,經過處理后的輸出特征再送入頻率調制器(Frequnency Modulator)用于自適應頻率調制,最后輸出就得到了預測噪聲(predicted noise)。在數據生成時,我們可以通過對純噪聲的逐步去噪得到了我們最后生成的雷達點云圖。

接下來,我們分別介紹流程中關鍵的四個組成部分:

1. 等距圓柱投影Transformer (Equirectangular Transformer Network)

圖片

圖3 等距圓柱投影Transformer結構圖

在此部分本文設計了如圖3所示的等距圓柱投影注意力(EA)適配等距圓柱投影圖像。首先,本文利用自注意力適應等距圓柱投影無邊界的特性。其次,本文利用傅里葉特征,并將高度角和方位角擴展為二的冪的頻率分量。這保留了3D先驗,同時放大了鄰近位置之間的差異,有助于模型更好地學習。接著,本文使用相互重疊的展開方式,將輸入序列在不同階段切割成不同尺度,強化局部建模,這個過程可以表述為:

圖片

在解碼部分,本文設計了反向等距圓柱投影注意力(REA)進行上采樣,允許持續捕捉全局到局部的關系。為了更好地恢復對象細節,本文引入了編碼階段的特征。同時,為了增強嵌入對模型的引導,本文在每個上采樣階段使用設計好的控制信號嵌入注入器(CEI)來提供控制。通過四個階段的上采樣,本文可以將標記序列上采樣到高分辨率,與輸入尺寸相匹配。
這個過程可以寫成:

圖片

其中,是文本嵌入向量,是時間步嵌入向量。

2. 控制信號注入器(Control-signal Embedding Injector)

圖片

圖4 控制信號注入器結構圖

圖片

3. 頻率調制器(Frequency Modulator)

圖片

圖5 頻率調制器結構圖

擴散模型總是傾向于首先恢復低頻信息,然后逐漸恢復高頻信息,本文設計了一個頻率調制器(FM),允許模型自適應地專注于高頻信息。其過程主要包含離散小波變換(DWT)、由卷積組成的頻率門控函數(FG)和逆離散小波變換(IDWT),可以描述為:

圖片

4. 構建nuLiDARtext

圖片

圖6 nuLiDARtext中描述詞的出現頻次

nuScenes數據集中的文本描述旨在描述短時間內的場景,并沒有特別為激光雷達數據配對。為了節省資源和成本,本文在現有的nuScenes數據集上構建了適用于單幀激光雷達點云生成的文本描述詞,描述詞的出現頻次如圖6所示,通過提供路況、光照、天氣等更全面的描述詞,文本才能更準確地描述出一幀自動駕駛場景的激光雷達點云數據,從而引導更符合實際的數據生成。?

實驗結果

在無條件生成時,本文方法與當前領先的方法就行了對比,展現了優異的性能:

圖片

表1 本方法與先進方法無條件生成結果在四個指標上的對比

本文方法在激光雷達點云稠密化任務上也能取得不錯的效果,針對遠處的小目標的補全效果更佳:

圖片

圖7 本方法與先進方法的點云稠密化可視化對比

在文本控制激光雷達點云生成時,也有有趣的結果,除了對大目標和小目標有一定的區分能力,本文方法可以很好地生成受天氣影響時的針對性數據,例如雨天激光雷達光束隨著距離增加逐步丟失的特性得到了很好地體現,在圖9中對雨天數據生成進行了更多展示。

圖片

圖8 本方法文本引導的生成結果可視化展示

圖片

圖9 本方法文本引導的雨天場景生成結果可視化展示

自動駕駛視覺相關 開發板商城 天皓智聯 TB上有視覺設備哦 支持AI相關~ 大模型相關也可用~

.

#智能駕駛域控制器

汽車智能駕駛功能持續高速滲透,帶來智能駕駛域控制器市場空間快速增 長。智駕域控制器是智能駕駛決策環節的重要零部件,主要功能為處理感知 信息、進行規劃決策等。其核心部件主要為計算芯片,英偉達、地平線等芯 片廠商市場地位突出。隨著消費者對智能駕駛功能需求的不斷提升,基礎L2 功能成本下探,中低算力方案搭載率快速增長;頭部廠商智駕水平持續提升, 城市NOA覆蓋范圍擴大,高算力域控產品需求同樣旺盛。BEV+Transformer 的廣泛應用也使得智駕域控的算力提升和結構變化。

智能駕駛功能滲透率快速提升。智能駕駛功能滲透率仍處于較低位置, 提升空間較大。隨著技術快速成熟、產品價格逐漸下降及用戶智能化體 驗需求的不斷提升,智能駕駛功能正逐漸從豪華車向中低端車型發展, 滲透率快速提升。智駕功能的性能和搭載率的提升將帶動智駕域控制器 的需求快速增長。? 智能駕駛域控制器為整車計算中心。智駕域控制器主要包括計算芯片、 Safety MCU、存儲芯片及其他無源器件等。其中計算芯片主要用來進行 攝像頭圖像處理、運行深度學習算法、輸出識別結果、進行傳感器融合 和軌跡預測等功能,是決定智駕域控性能的核心部件。智能駕駛芯片具 有較高的技術壁壘,現階段市場高端芯片以英偉達、華為為主,中低端 芯片廠商較多,主要包括地平線、Mobileye、TI、黑芝麻智能等。各主要 芯片廠商積極拓寬產品矩陣,國產芯片市占率持續提升。與主要芯片廠 商建立穩定的合作開發關系的智駕域控供應商有望受益。

芯片開發和生產制造能力仍為核心競爭力。隨著BEV+Transformer 的應 用,智駕功能對車端算力要求更高,加上城市NOA及后續L3功能的搭 載,高算力芯片仍為頭部主機廠中高端車型首選方案。智駕域控仍以國 內Tier 1 廠商為主,雖然頭部主機廠自研域控意愿較強,但受限于相關研 發積累、資金限制及自身銷量等問題,自研難度大、成本高,不一定有 足夠的銷量來攤薄前期研發成本。目前L2及以上智駕域控以國內廠商為 主,產品布局全面、芯片開發設計實力強、量產制造能力豐富、出貨量 較大的供應商具備一定競爭優勢。

L2 級智能駕駛功能滲透率快速提升

L2 級智能駕駛功能滲透率快速提升 2021 年8月,工信部提出《汽車駕駛自動化分級》推薦性國家標準。《標準》按“是否存在設計運 行范圍限制”等六要素對駕駛自動化等級進行劃分。其中L2級自動駕駛關鍵配置有ACC自適應巡 航、AEB 主動剎車、LKA車道保持等,實現一定程度上的車輛主動控制。L3級自動化系統應該具 備在其設計運行條件下持續地執行全部動態駕駛任務的能力。由于L2至L3的跨度過大,經歷時間 較長,業內為區分不同系統的智能化程度,額外劃分出L2+級別,主要包括NOA等功能,可實現高 主動的輔助駕駛功能,但仍需駕駛員監督。

國標駕駛自動化等級與劃分要素的關系

從功能上看,智能駕駛功能經歷從單車道向多車道再向 NOA 發展的過程。

早期輔助駕駛功能集中 在單車道里,以車輛前后的控制為主,重點實現跟車不碰撞、駕駛不偏移等效果,主要功能包括ACC (自適應巡航)、LCC(車道居中控制)、TJA(交通擁堵輔助)、CCS(定速巡航)、AH(自動 駐車)等。隨著技術的不斷推進,輔助駕駛逐漸開始涉及多車道場景,由系統可以控制車輛進行變 道,主要功能包括 ALC(智能輔助變道)、TJA-ML(多車道交通擁堵輔助)、HWA-ML(多車道 高速駕駛輔助)。近年各企業向點對點控制推進,在選定目的地即可交由輔助駕駛功能進行控制, 主要為高速NOA及城市NOA功能。

智能駕駛功能滲透率仍處于較低位置,提升空間較大。

隨著技術逐步走向成熟、產品價格逐漸下降 及用戶智能化體驗需求的不斷提升,智能駕駛功能正逐漸從豪華車向中低端車型發展,滲透率快速 提升。據高工智能汽車數據顯示,2023 年 1-6 月中國市場(不含進出口)乘用車前裝標配 L2(含 L2+)輔助駕駛功能車型銷售324.4萬輛,同比增長37.7%,增速維持較高水平。前裝標配搭載率為 34.9%,同比提升約8pct。其中,新能源汽車前裝標配搭載L2(含L2+)交付新車147.1萬輛,同比 增長75.6%,前裝標配搭載率為50.4%,同比提升約10pct。智駕功能性能和搭載率的提升將帶動智 駕域控制器的增長。擁有智能駕駛功能的車型中以域控架構為主,域控制器作為車端處理感知信息、 進行決策規劃的重要零部件,用量有望隨著智駕功能滲透率的提升而增長。

NOA功能逐步落地,成為智能化重要發力方向。自動輔助導航駕駛(NOA,Navigate on Autopilot) 主要分為高速NOA和城市NOA兩類,在基礎L2輔助駕駛功能的基礎上,通過與地圖導航等功能 結合,實現點到點的輔助駕駛功能。據高工智能汽車數據,2023年1~7月前裝標配NOA車型交付 量26.3 萬輛,同比增長120.4%。高速NOA為當前主機廠智駕推進目標之一。高速NOA場景相對簡單,路況、標志和標記的圖像相 對標準,相比城市NOA場景更為簡單,推出進度相對更早。早期高速NOA融合高精地圖,在部分 高速公路或高架等封閉路段行駛時,可以讓車輛實現自動變道、自動進入和駛出匝道口的技術功能。但上下匝道需要高精地圖和高精定位模塊,成本較高。隨著車企成本壓力增加,高速NOA或將向簡 化版方案發展,即舍棄上下匝道功能,僅在目標匝道前進行接管提醒,避免錯過匝道等問題發生。城市NOA加速落地,覆蓋主要行車使用場景,為用戶提供從高速到城市的全場景可持續的自動駕駛 功能。早期城市NOA功能普遍使用高精地圖,提供更精確的定位服務,但高精地圖采集成本高、覆 蓋率較低、更新慢,難以滿足城市NOA快速大規模的上車需求。隨著車端算力及傳感器功能迭代升 級,單車感知水平不斷提升,大部分廠商通過“輕地圖”+單車感知方案,即僅在匝道口等導航地圖 難以精確處理的部分做數據強化,實現NOA功能。

城市NOA主要功能

城市NOA功能快速鋪開,應用城市逐漸普及。

隨著大量車企向BEV+Transformer 的視覺感知路線 轉換,逐步降低對地圖的依賴,城市NOA功能具備了泛化推廣的能力。根據相關公司規劃,華為拓 展速度領先,預計在2023年年底前實現全國覆蓋;其余企業覆蓋城市也迅速擴張,小鵬宣布到 2023 年底擴增至 50 城,2024 年擴增至 200 城,力爭做到城區領航輔助駕駛「全國都能用」;理想計 劃在 2023 年底推送至 100 個城市。蔚來另辟蹊徑,按通勤道路開通,計劃2023 年Q4開通城區 領航路線里程 6 萬公里;2024年Q2開通40萬公里。

部分廠商城市NOA進度

自動駕駛標準逐步落地,L3合規加速推進。

2022年8月,深圳市正式施行《深圳經濟特區智能網 聯汽車管理條例》,對智能網聯汽車定義、測試及示范應用條件、權責歸屬等問題進行了詳細定義, 是全國首個對L3及以上自動駕駛權責、定義等重要議題進行詳細劃分的官方管理文件。2022 年11月,工信部發布《關于開展智能網聯汽車準入和上路通行試點工作的通知(征求意見稿)》, 對智能汽車生產企業和產品以及試點上路通行做出了詳細要求。2023 年7月,工信部、國家標準委聯合發布《國家車聯網產業標準體系建設指南(智能網聯汽車)(2023 版)》,提出第一階段到 2025 年,系統形成能夠支撐組合駕駛輔助和自動駕駛通用功能的智能網聯 汽車標準體系;到2030年,全面形成能夠支撐實現單車智能和網聯賦能協同發展的智能網聯汽車標 準體系。隨著國內自動駕駛標準體系和管理政策逐步細化落實,國內相關產業有望快速發展。

2020 年-2023 年中國自動駕駛主要政策整理

汽車消費升級趨勢持續,智能化需求不斷增加。

據乘聯會數據顯示,2023年前三季度 30萬元以上 車型銷量占比大幅提升,10萬元以下車型銷量減少。據高工智能汽車數據顯示,23H1標配搭載L2 (含L2+)交付新車均價為26.6萬元,相比2022年末提升1.5萬元。智能駕駛功能在高端車型的滲 透率逐漸提升。隨著消費者消費能力的提高以及消費觀念的轉變,消費者不再將汽車局限于簡單的 出行工具,而是將其作為追求生活品質的載體之一,越來越重視汽車的用戶體驗及享受度的提升, 更加追求汽車的娛樂性、互動性、舒適性及安全性等功能,從而使得消費者對智能汽車的關注度日 益提高,加快汽車智能化發展的進程,使得智能汽車滲透率穩步提升,同時對汽車各類功能的豐富 度提出了更高的要求。

政策、需求和供給三方面推動,汽車智能化水平快速提升。隨著新一代消費者比例逐步增加,智能 座艙、智能駕駛等個性化功能的需求越來越凸顯。且越來越多的廠商開始重視用戶體驗,從車身設 計、智能化服務、自動駕駛功能等多角度提升用戶駕乘感受。同時,車輛本身也已經從代步交通工 具向智能移動空間轉變,車輛數字化轉型已成行業共識。隨著用戶智能化體驗需求的不斷提升、政 策的持續推進、行業的高度重視,汽車智能網聯技術發展迅速。?

NOA功能預計有望快速滲透。

目前NOA處于高速發展階段,隨著軟件算法逐步升級技術逐漸成熟、 感知方案向重視覺感知路線轉換成本降低,NOA功能具有向低價格帶車型拓展、應用場景不斷豐富 等特點。根據高工智能汽車研究院監測數據顯示,從當前搭載NOA功能車輛價位來看,標配NOA 領航功能的車型大部分集中在30萬以上價格區間,而小鵬P5、吉利博越L、寶駿云朵靈犀版等20 萬以下的車型也開始逐漸實現NOA的搭載。我們預計NOA未來將逐漸成為中高端車型標配,同時 擴大搭載范圍,下探到10~15萬左右的車型。我們預計明年10萬以上車型將可以選配高速NOA;20萬以上車型將會標配高速NOA,選配城市NOA;30萬以上車型將會實現城市NOA普及。

特斯拉堅定擁抱重視覺感知方案。

2018年,特斯拉視覺感知路線通過2D 圖像+ CNN卷積神經網絡 路線實現智能駕駛功能,對于圖像的標注主要依靠人工標注,于2019年采用一部分自動標注來提升 標注效率。該階段聚焦在2D圖像處理,將圖像處理完后拼接成single trip,實現時間的多幀融合。該方式對圖像的處理屬于規則算法,通過IPM將2D圖像坐標進行計算,轉換到3D空間中。但2D 圖像處理在處理三維世界中的感知問題仍會有較大問題,如路面不平、車輛顛簸等問題都會影響到 轉換的準確度。2020年特斯拉轉向BEV方案,并將CNN神經網絡轉向Transformer。先在BEV空 間層中初始化特征,再通過多層Transformer 和 2D 圖像特征進行交互融合,得到BEV特征,避免 了視覺融合時導致的誤差問題。BEV方案2020年重點關注路網的感知,2021年拓展到整個空間, 進行數據重建。

國內廠商向重視覺路線轉變。

國內廠商早期以融合路線為主,通過高精地圖+毫米波雷達+激光雷達 的多傳感器方案進行感知,對于靜態障礙物(如路網、井蓋等)的感知主要依賴高精地圖和激光雷 達,視覺主要用于動態障礙物(如車輛等)的識別。目前為了節省成本、增強自動駕駛功能泛用性, 頭部企業向BEV+Transformer 的重視覺方案轉型。

小鵬Xnet BEV算法架構

BEV+Transformer 的廣泛認可導致智駕域控結構發生變化。智駕方案早期攝像頭以前視為主,四周 主要靠毫米波雷達實現環視覆蓋,較為廣泛的方案為5R(Radar)1V(Video)、3R1V、1R1V、2R1V、 5R3V,支持的攝像頭數量較少。同時路網信息主要依靠高精地圖提供,視覺傳感器以動態障礙物識 別為主,靜態障礙物主要依靠激光雷達實現感知。但是BEV架構下,需要至少6~8個攝像頭實現車 身周邊感知(前后左右各一個,四角各一個),攝像頭接口需求增加。同時由于取消高精地圖,部 分定位模塊可以減少或簡化。由于大模型搭載,低算力芯片性能難以支持端側部署,對芯片算力有 了更高的要求。域控芯片需要調整以適應Transformer模型。早期AI芯片主要會考慮對 CNN、Pooling 等的優化。但是 Transformer 的神經網絡與原先差別較大,需要不同的算子進行支持。如果芯片不支持 Transformer 算子,會導致在GPU上訓練時候用Transformer訓練,但是部署在車端時候需要進行算 子轉化,帶來一定的困難,導致最終在端側并不是BEV+ Transformer,而且近似CNN的替代算法。目前頭部芯片廠商如地平線、英偉達等已經實現對 Transformer 算子的支持,后續部分廠商需要將 BEV+ Transformer 下放到端側。

特斯拉Model 3傳感器配置

感知方面,感知重心向視覺傳感器轉移。智駕系統向BEV+Transformer轉型后,低成本的視覺 傳感器更為重要,為保證數據獲取的精確度和完整度,攝像頭的像素和數量也不斷增加,800 萬像素攝像頭使用量逐漸提升,攝像頭數量也向單車 10個以上發展。毫米波雷達和激光雷達 短期內仍難以替代。由于國內使用Nerf進行多幀重建仍有待提升,故需要激光雷達或4D毫米 波雷達獲取路網數據,進行車道線識別。此外,由于純視覺系統對于暗光環境和非標準物體等 場景的識別準確問題仍無法完全解決,通常需要4D毫米波雷達進行靜態障礙物識別。我們預計攝像頭和4D毫米波需求有望增長。

Mobileye 4D 毫米波雷達點云效果近似4線激光雷達

相比基礎的L2功能,NOA功能對精度的要求更高,需要更精確的感知,對計算量的要求也更高。雖然BEV感知在低算力(如8Tops)芯片上可以運行,但是一方面感知精度相比于中高算力芯片要 低。另一方面算法方案上的選擇也會有一些差別。高算力平臺大都基于Transformer的carrier-based 方案;在低算力平臺,更多是類似BEV Depth、BEV Det這種2D轉3D的方式去實現。而且對于無 圖或輕圖的NOA功能,由于缺少已知的地圖信息,域控需要處理更多的感知數據,對域控制器的算 力要求更高。隨著智駕功能的發展,高算力芯片仍為頭部主機廠中高端車型首選方案。智能駕駛域控硬件的核心 是其芯片的運算能力。隨著各個廠商向重視覺感知的大模型技術路線轉型,高級別智駕對車端算力 的要求越來越高,需要性能更強的芯片支撐。相比城市 NOA,L3 級智能駕駛對算力的需求更甚, 當前已量產芯片較難滿足L3級智駕需求,芯片向更高算力發展的進程仍在持續。車企也需采用足夠 強力的芯片進行算力 預埋,以支撐日后有效升級。針對未來L3級智能駕駛,主機廠需要進行冗 余設計,以保證系統安全。較為簡單的設計是放置兩個域控制器/增設備份芯片,智駕芯片需求量后 續有望提升。

整車E/E 架構快速演進。E/E架構的四個階段分別是分布式架構階段、域集中架構階段、準中央計 算架構階段及中央計算架構階段。主機廠正加快推進電子電氣架構的演進,域集中架構階段包括大 眾 E3 架構、長城 GEEP3.0 架構等。中央計算平臺+區域控制器的準中央計算架構階段包括特斯拉 Model3、長城GEEP 4.0架構等。汽車E/E架構最終演進的方向是中央計算架構階段,將功能邏輯均 集中到1個中央控制器,如長城計劃于2024年推出中央計算架構GEEP 5.0,將實現全車只有一個 大腦,完全形成智能機器人,長安也計劃于2025年完成中央域架構的開發。

汽車電子電氣架構演進方向

分布式ECU架構各系統獨立,系統復雜協同性差。分布式架構ECU為核心,多個ECU通過CAN 和LIN總線連接在一起,進行數據采集與交換,并通過執行器來操控汽車。在傳統的分布式電子電 氣架構中,每個控制系統都采用單獨的 ECU,彼此之間均保持相對獨立性,功能增加需要 ECU和 傳感器數量的疊加。隨著汽車智能化的發展趨勢,功能越來越豐富和多樣,導致單車的ECU數量激 增,安裝成本也隨之提高。同時不同ECU來自不同的供應商,每個產品的語言和編程風格各異,因 此功能的增加會導致大量的、不兼容的、風格各異的產品模塊存在,難以進行統一的維護和升級, 協同困難巨大,無法滿足汽車智能化革新的趨勢和需求。

DCU成為新的電子電氣架構的核心。DCU(域控制器)將功能相似且分離的ECU功能集成整合起 來,解決了分布式E/E架構存在的諸多問題。根據博世汽車電子部件功能分類,將整車劃分為動力 域、底盤域、座艙域、自動駕駛域、車身域五個域,每個域的系統架構由域控制器為主導搭建,利 用處理能力和算力更強的中央計算機相對集中地控制每個域,以取代分布式電子電氣架構。

域控架構高度集成,有明顯的成本和設計優勢。1)線束數量顯著減少,節約安裝成本。DCU 通過 集成化的域控化管理,各個功能模塊以區域內的域控制器為主導,減少了ECU的數量,從而降低了 線束的數量及重量,節省安裝成本。2)整合集成度高,便于協同管理。各功能模塊ECU軟件通常 由其硬件供應商開發,導致系統之間相互獨立,難以協調。DCU統一了軟件開發和管理,加之數據 交互的接口標準化,降低了開發和制造成本。3)計算能力較高,便于OTA升級。模塊越少、系統 越統一越容易實現整車OTA,域控制器更為集中的EEA架構將車內各個分散的ECU部件的控制功 能集成在一個DCU中,僅對DCU進行控制功能進行更新升級完成OTA,同時規避了各ECU的不 同傳輸協議和兼容性風險,減少了每個ECU進行安全性確認防篡改的工作量。

智能駕駛域控制器是汽車智能化發展的重要環節

智能駕駛域是E/E架構的重要組成部分。智能駕駛域是汽車智能功能的實現基石,智能駕駛域控制 器是智駕系統決策的中心。高級別的自動駕駛需處理來自攝像頭、毫米波雷達、激光雷達、慣導等 的多種感知數據,需在短時間內完成整個運算和決策等,是推動L3及以上更高等級自動駕駛的核心 部件。

智能駕駛域控制器架構

智能駕駛域控制器結構相對復雜,核心在于計算芯片。硬件主要包括:1)計算芯片:主要用來進行 攝像頭圖像處理、運行深度學習算法、輸出識別結果、進行傳感器融合和軌跡預測等功能。2)Safety MCU:主要處理功能安全要求較高的數據,進行邏輯運算,包括處理雷達等對外接口數據、車輛規 控、通信等。3)存儲芯片:對數據進行存儲,包括eMMC、Nor Flash、Memory芯片等。4)其他:電阻電容等無源器件、散熱組件、密封性金屬外殼、PCB板、接口、網關、電源管理芯片等。軟件 部分主要包括底層操作系統、中間層軟件及上層應用軟件。域控制器的硬件部分與ECU相似,最大 的區別在于域控制器的芯片算力更高、可以軟硬解耦等,其多功能模塊的實現主要依賴于主控芯片 以及軟件部分的高度結合。

域控制器構成:硬件+軟件

預計2025年自動駕駛域控制器市場規模達479.4億元。我們預計智能駕駛域控制器價格將持續下降, 市場滲透率有望快速增長。1)隨著智能駕駛的不斷發展,智能駕駛域控制器有望高速滲透。2)目 前各個主機廠降本意愿較強,單芯片行泊一體方案受到各主機廠青睞。低成本方案如(單TDA 4/ J3 芯片)實現基礎L2功能的方案預計有較大市場空間。經我們測算,2025年中國乘用車市場自動駕駛 域控制器市場將達到479.4億元,2021-2025年復合增速達109.9%。

中國乘用車自動駕駛域控制器市場規模預測

計算芯片是智駕域控的核心部件

計算芯片直接決定域控性能。智駕域控制器主要承擔汽車計算功能,其負責運算的模塊主要是AI 芯片,故域控產品所使用的AI芯片的性能和數量直接決定其計算能力,目前CPU、GPU、DSP等 傳統設計芯片仍是智駕域控選用芯片的主流,與此同時針對應用場景定制化或半定制化的FPGA、 ASIC等方案也在逐步發展。由于域控硬件需要算法的支撐調用,域控廠商與芯片廠商的合作開發、 生態共建同樣重要。其好處在于與主流芯片廠合作緊密的域控廠商可以率先拿到先進芯片樣品進行 開發,在上下游協同和產品性能上具有先發優勢;同時對原有主流芯片的開發經驗有代際傳承,更 有利于新品開發。

智能駕駛芯片壁壘較高,芯片廠商較為集中。智能駕駛芯片具有較高的技術壁壘,現階段市場高端 芯片以英偉達、華為為主,中低端芯片廠商較多,主要包括Mobileye、TI、地平線、黑芝麻智能等。部分廠商也積極拓展產品矩陣,高通依托早期在座艙芯片積累的優勢地位,推出智駕芯片拓展市場;英偉達推出Orin-N,算力70Tops,滿足中低算力方案需求。芯片國產替代的趨勢也愈加明顯,地平 線等國產芯片廠商市占率不斷提升。根據高工智能汽車《2022年度中國市場乘用車標配L2+NOA功 能智駕域控制器芯片方案市場份額榜單》,地平線市場份額排名第一,占比達49.05%,英偉達市場 份額排名第二,占比達45.89%,二者占比總和高達95%,德州儀器、Mobileye、華為市場份額分別 位列三、四、五,占比分別為2.69%、1.97%、0.41%。

部分國內外芯片廠商

英偉達依托積累多年的圖形計算處理能力、GPU計算經驗,布局智能駕駛芯片。

英偉達是全球最大的智能計算平臺型公司,早期專注 PC 圖形計算,后重點布局AI 領域,并在獨立顯卡、GPU等領域卓有成就。公司2006 年開發了基于 GPU 的「CUDA」平臺,實現使用GPU進行通用計算功能。公司2015年進軍車載計算SOC,主要提供計算芯片和相關開發工具。英偉達產品定位偏高端,性能表現出色,其推出的Orin芯片仍是目前已量產的最高性能的智能駕駛芯片。

英偉達汽車芯片算力

芯片方面,英偉達于2016年發布首款高級智能駕駛芯片Xavier,并于2020年實現量產。使用CPU (8核ARM 64架構)+GPU(Volta架構)+ASIC的混合技術路線,基于臺積電12nm工藝,最高 算力達30Tops。Xavier 用于德賽西威IPU03域控制器上,搭載于小鵬P5、P7等車型。英偉達2019年發布Orin芯片,于2022年量產,目前仍為已量產的算力最高的智能駕駛芯片。Orin 采用7nm工藝,集成170億個晶體管,可提供每秒254TOPS,內置第二代深度學習加速器DLA、 第二代視覺加速器PVA。出色的計算能力使得Orin目前仍為高級別智駕方案的首選芯片,蔚來Adam 超算平臺搭載四顆DRIVE Orin芯片,最高可實現1016TOPS算力,理想L9、小鵬G9等多款車型均 搭載Orin芯片。

英偉達Orin芯片架構

Thor(雷神)芯片于2022 年發布,預計2025年量產,算力高達2000TOPS,是Orin芯片算力的8 倍,主要通過CPU(Grace)、GPU(Ada Lovelace)和處理 Transformer 模型的引擎(Hopper)實 現算力提升。同時Thor可以滿足汽車多個場景的算力需求,包括智能駕駛、主動安全、智能座艙、 自動泊車、車載操作系統、信息娛樂等,預計可以實現座艙域和智駕域的融合域控制。

英偉達Thor芯片

軟件方面,英偉達提供DRIVE工具鏈和技術支持,助力芯片高效開發。Drive 工具鏈包含了開發工 具包Cuda、TensorRT 等各種各樣的算法庫、全套工具鏈的車載操作系統Drive OS;自動駕駛中間 件Drive Works;包含感知、定位、決策三部分的全套軟件棧Drive AV;主要進行可視化渲染、駕駛 員檢測、人機交互等功能的Drive IX。

英偉達Drive工具鏈

地平線國內智能駕駛芯片領先供應商,由國際著名機器學習專家余凱博士于2015年7月創建;2017年12月,地平線即推出了首款 智能芯片征程1和旭日1;2019年8月,宣布量產中國首款車規級智能芯片征程2并于同年10月發 布新一代AIoT智能應用加速引擎旭日2;2020年9月,推出新一代高效能車載智能芯片征程3和全 新一代AIoT智能芯片旭日3;2021年7月,推出業界第一款集成自動駕駛和智能交互于一體的全場 景整車智能中央計算芯片征程5,單芯片算力達128TOPS。

地平線征程系列芯片產品

芯片產品布局廣泛,覆蓋低算力到高算力多款方案。地平線首款車規級芯片征程2于2019年8月量 產,可提供超過4TOPS算力,實現基于征程2的單目前視解決方案。征程3芯片算力達5TOPS,是 目前仍在低算力平臺上廣泛使用的芯片之一。據不完全統計,自2020年9月發布以來,J3累計獲得 約10家主流車企、超過40款車型定點合作,先后搭載2021款理想ONE、奇瑞 瑞虎8 PRO、奇瑞 歐萌達OMODA 5、第三代榮威RX、哪吒U-II、哪吒GT、博越 L、深藍S7、深藍SL03等多款車 型。其中2021款理想ONE是全球首個搭載征程3芯片的量產車型,采用雙J3方案打造輔助駕駛功 能,并搭載J2的NPU計算平臺實現全車語音交互。2023年4月,地平線攜手大陸集團打造基于單 顆征程3芯片的800萬像素智能前視攝像頭一體機,可以支持1V1R(1個攝像頭1個雷達)、1V3R (1 個攝像頭3個雷達)、1VXR(1個攝像頭,多個雷達)等多種形態的產品,實現NOA導航輔 助駕駛功能并于深藍SL03實現首發量產。

征程3芯片性能

征程5是地平線第三代車規級產品,可提供單芯片128TOPS算力,并支持至多16路攝像頭、毫米 波雷達、激光雷達等多傳感器感知、融合、預測與規劃需求,支持如BEV等領先智能駕駛算法模型 的應用部署。基于單顆征程5芯片打造的行泊一體域控方案,能夠支持超越同級配置的高性能行泊 一體功能,同時開放上層應用的差異化開發和軟件OTA升級。目前,理想L8首發搭載了征程5芯 片,實現了高速NOA導航輔助、自動泊車、自動緊急制動等功能,同時征程L5也獲得了比亞迪、 上汽大眾、一汽紅旗、長安汽車等車企定點,并搭載于理想L系列在售Pro、Air所有車型。

征程3芯片性能

軟硬件協同布局,感知算法布局深入。地平線早在2021年發布新一代征程5車載智能芯片之時,就 推出了基于征程5的純視覺BEV感知原型方案;2023年6月,在計算機視覺領域頂級會議CVPR 上提出“感知決策一體化”的自動駕駛通用大模型UniAD,建立了以全局任務為目標的自動駕駛大模 型架構,將檢測、跟蹤、建圖、軌跡預測、占據柵格預測以及規劃,整合到一個基于 Transformer 的端到端網絡框架下,并將各項任務通過token的形式在特征層面按照感知-預測-決策的流程進行深 度融合,實現了自動駕駛系統算法性能的全面提升。

地平線為合作伙伴提供硬件參考設計及算法、基礎中間件、工具鏈、開發平臺等配套產品,助力芯 片的開發應用。天工開物 AI 芯片工具鏈具有“算法倉庫”(包括產品級算法、基礎算法和產品參 考算法三類算法資源)、“芯片工具鏈”(包括量化訓練工具和浮點定點轉換工具)、“應用開發 中間件”(包括XStream和XProto兩套應用開發框架)三大功能模塊,包含模型后量化、量化訓練、 編譯優化和部署三大核心能力,其主要作用在芯片端,可為開發者提供從模型獲得至應用部署的全 流程支持。艾迪AI開發平臺則主要作用在云端,為AI開發者提供數據標注、訓練、優化、部署、 管理與性能分析等工具,實現模型算法的優化與迭代;智能駕駛應用開發套件TogetherROS·Auto則 服務于智能駕駛專業開發者,集開發、集成、驗證三位一體,提供支持量產開發的分層框架與接口 協議,開發者可基于標準化框架與接口進行靈活適配,同時整套接口與協議面向量產全流程,兼顧 各個軟件模塊,做到了可兼容、易轉化,能夠快速提升應用集成和驗證效率,方便各模塊開發者高效協作。

高通:座艙芯片領軍者,智駕領域新拓展,2020 年1月,高通發布自駕平臺Snapdragon Ride,其主要面向三大細分方向:L1/L2級ADAS,面 向具備AEB、TSR 和 LKA等駕駛輔助功能的汽車,提供30TOPS算力;L2+級ADAS,面向具備 HWA、自動泊車APA以及TJA功能的汽車,提供60~125TOPS算力;L4/L5級自動駕駛,面向在 城市交通環境中的自動駕駛乘用車、出租車和物流車,可提供700TOPS算力。2023 年 1月高通發布第二代Ride升級版Ride Flex芯片,包括Mid、High、Premium三個級別,主 打艙駕一體,既能用于車內座艙,又可以實現輔助駕駛的可擴展系列SoC,算力最高可達2000Tops。其從設計之初就是一個開放且可編程的平臺,能夠滿足從新車評價規范(004ECAP)到 L2+/L3級別 駕駛輔助和自動駕駛全方位的需求。同時,面向視覺、中央計算和高性能自動駕駛需求,Ride Flex 還提供可擴展SoC處理器和加速器產品組合,基于Arriver的一站式視覺軟件棧,支持從單個攝像頭、 800 萬像素前置攝像頭,一直到多達11個攝像頭的解決方案,其支持主機廠和Tier1利用Arriver駕 駛策略解決方案打造自己的駕駛策略、泊車或駕駛員監測軟件棧和導航功能。

生態合作方面,寶馬集團、長城汽車、通用汽車、大眾集團、雷諾集團、Stellantis集團、阿斯頓·馬 丁、吉利汽車、比亞迪汽車、沃爾沃汽車、梅賽德斯-奔馳、極星等整車廠商都與高通達成了合作, 采用Snapdragon Ride 平臺打造ADAS和AD解決方案,并且國內首個搭載Snapdragon Ride的車型 魏牌摩卡DHT-PHEV激光雷達版已實現量產上市。不止整車廠,均聯智行、毫末智行、暢行智駕、 縱目科技、諾博科技、德賽西威等Tier 1廠商也在與高通持續協作,基于Snapdragon Ride平臺,共 同為下一代汽車開發安全、高效的ADAS/AD系統。

Mobileye 是全球領先的智能駕駛芯片解決方案提供商。2004年公司發布了第一代芯片EyeQ1,隨后 迅速與寶馬、通用等汽車制造商達成合作。經過多年的發展,Mobileye相繼推出了Eye Q1-Q6等多 款ADAS芯片,并為OEM廠和Tier 1廠商提供了“芯片+算法”軟硬一體化的ADAS視覺解決方案。Mobileye 智駕方案為“黑盒”方案,提供軟硬一體的交鑰匙方案,不單獨出售芯片或算法。雖然黑 盒方案定制化程度極為有限,但對于開發實力相對薄弱的中小主機廠來說,產品成本低、開發周期 短,且多數功能經過驗證,因此Mobileye的“黑盒”模式仍具有一定受眾。此外,Mobileye也在一 定程度上逐步提高其編程開放性,2022年6月新推出的EyeQ Kit從黑盒走向合作,能夠大幅降低車 企的開發成本,加快下游產品的開發周期。

芯片領域,EyeQ系列芯片目前已推出多代產品,算力由最初的不足1TOPS到176TOPS,其中EyeQ Ultra 作為公司的最新產品,計劃2025年開始量產。Mobileye于2016年發布EyeQ5芯片,并與2021 年開始量產,搭載車型為極氪001和寶馬iX。芯片基于臺積電7nm FinFET工藝,EyeQ5 High可實 現15TOPS算力,EyeQ5 Mid也可超過4TOPS。EyeQ5采用專有的計算內核,針對包括深度神經網 絡在內的各種計算機視覺、信號處理和機器學習任務進行了優化。同時,EyeQ5 開始提供完整的軟 件開發套件(SDK),允許客戶通過在EyeQ5上部署算法來區分其解決方案。作為可擴展的純視覺 感知攝像頭的計算基礎,EyeQ5 由多個獨立的計算機視覺引擎和用于算法冗余的深度網絡組成,可 實現端到端的自動駕駛,這也是業內首個支持120度800萬像素攝像頭的解決方案。2022 年 1月在國際消費電子展(CES 2022)上,Mobileye連續發布EyeQ Ultra\EyeQ6 L\EyeQ6 H 三款芯片,并計劃于2024年、2025年開始量產EyeQ6兩款芯片和EyeQ Ultra。EyeQ Ultra是專為 端到端自動駕駛而打造的單封裝自動駕駛汽車集成芯片超級計算平臺,基于5nm制程工藝,算力達 176TOPS。EyeQ 6 芯片基于臺積電7nm FinFET工藝,最高可實現34TOPS算力。EyeQ6 Lite是一種經過優化的一體式前風擋解決方案,旨在以較低功耗和高效率提供入門級和高級駕駛輔助系統 (ADAS)功能。同時宣布的EyeQ6 High將支持高級駕駛輔助系統功能,并具有可擴展到“視線脫離/解放雙手”的控制功能。

芯片開發和生產制造能力仍為核心競爭力?

廠商加速布局,智駕域控制器廠商競爭激烈 域控制器設計生產合作模式多樣。目前,域控制器設計生產主要包括主機廠委托代工域控制器、Tier1 供應商為主機廠提供域控制器生產、Tier1.5主攻域控制器基礎軟件、Tier0.5全棧參與四種模式。具體來看:模式一:主機廠委托代工域控制器。該種模式下域控制器的設計和研發由主機廠負責,而供應商負 責域控制器的硬件制造,即外包域控制器,如特斯拉由廣達及和碩進行域控制器代工、蔚來由Wistron 及偉創力代工。模式二:Tier1供應商為主機廠提供域控制器生產。該種模式是目前主流的業務模式,不同類型的企 業根據自身優勢進行分工合作,芯片供應商、Tier1供應商和主機廠深入合作,芯片商提供芯片、開 發軟件棧和原型設計包,Tier1提供域控制器硬件生產、中間層以及芯片方案整合,如德賽西威與英 偉達及小鵬/理想/智己深入合作、極氪與Mobileye及知行科技達成合作等。模式三:Tier1.5 主攻域控制器基礎軟件。該種模式下 Tier1.5 連接產業鏈上下進行開發,能夠適應 軟硬件分離的趨勢,向上支持主機廠掌控系統的自主開發權,向下整合芯片、傳感器等Tier2的資源, 如TTTech與上汽旗下聯創汽車電子合資成立的創時智駕等企業。模式四:Tier0.5全棧參與。該種模式下供應商與主機廠深度綁定,參與主機廠域控制器的研發、生 產、制造等環節。

國內外廠商紛紛布局智能駕駛域控制器領域。現階段,智能駕駛域控制器參與者主要包括四類:1.Global Tier1 供應商系統集成能力較強,具有客戶群優勢。2.本地Tier1供應商致力打造全棧解決方 案,與 OEM 深度合作。3.自動駕駛域控制器軟件平臺廠商以軟件切入,實現通用和模塊化平臺。4.OEM 廠商期望自研域控制器甚至芯片以掌握底層硬件自主權。

智能駕駛域控制器供應仍以國內Tier 1廠商為主,雖然頭部主機廠自研域控意愿較強,但受限于相關研發積累、資金限制及自身銷量等問題,自研難 度大、成本高,不一定有足夠的銷量來攤薄前期研發成本,故大多數廠商仍以采購Tier 1廠商產品及方案為主,自身參與到開發中,一方面積累相關技術,另一方面優化軟硬件協同效果。國內主流 Tier 1 有華為、德賽西威、經緯恒潤等企業,均勝電子、中科創達、大疆、東軟睿馳等快步追趕,占 據一定市場份額;國際Tier 1大陸集團、博世、采埃孚等均有所涉及,但進入L2+級自動駕駛以后, 國際Tier 1廠商開始逐漸落后于國內Tier 1廠商的發展步伐。華為:智能駕駛全棧解決方案供應商 作為國內Tier 1廠商中較少能夠提供智能駕駛全棧解決方案的企業,華為智能駕駛產品線非常豐富, 綜合實力強。華為MDC產品經過數年發展,已覆蓋多場景自動駕駛平臺需求,其使用同一套軟件, 同一個硬件架構,方便進行軟件和硬件的迭代升級。目前全系列共有4件產品:MDC300F用于礦區、 港口、園區、高速物流等車輛;MDC210主要用于中低端車的鋪量;MDC610用于高端車拉升品牌;MDC810 用于Robotaxi 或高級別的自動駕駛,其采用昇騰620芯片,算力高達400+TOPS。

華為MDC平臺性能強大,功能安全,提供開放的生態和多種開發工具。華為MDC810性能強勁算 力達400TOPS。具備用戶態分布式OS內核,調度時延<10us,平臺級時延<40ms。其異構計算能力 能針對不同環節提供不同的算力類型和大小,更精準地滿足算力需求。此外,華為 MDC 具備面向 L4 的高安全架構,通過了信息安全、功能安全、車規級測試、軟件成熟度認證、極端工況測試等多 項檢驗。同時,華為 MDC 基于標準化和平臺化的設計理念,實現軟硬件解耦,提供豐富的傳感器 接口、全場景覆蓋的工具鏈、100+標準的API和開放的SDK,支持與線控底盤接口對接、支持軟件 開發和移植、支持不同級別自動駕駛的功能要求。華為也提供完整的開發工具鏈,幫助客戶和生態 伙伴提升開發效率,完善華為MDC生態構建。華為于2021華為智能汽車解決方案生態論壇提出,截 至2021年底已有70余家生態合作伙伴,聯合拓展乘用車項目超6個,商用車/專用車項目超11個。

華為MDC提供了MDC工具鏈、MDC Core SDK和車云協同開放平臺等開發者套件,很好地提升 了開發效率。MDC工具鏈含有AI集成開發環境Mind Studio、AP配置工具MMC、集成開發環境 MDS、標定診斷工具MCD、可視化調測工具MViz,覆蓋自動駕駛應用的研發、調試、部署、運營 全生命周期。MDC Core SDK加速開發效率,支持TensorFlow、caffe等主流AI框架,支持1000+ 主流算子,開放100+API 接口。云端提升提供數據、場景、訓練、仿真服務,加速車云數據閉環, 有20萬+場景庫和2000萬+數據集,大幅提升訓練和仿真效率。

德賽西威專注于人、機器和生活方式的整合,前身為1986年成立的中歐電子工業有限公司,迄今已 有30多年汽車電子產品制造經驗,制造工藝覆蓋汽車電子產品生產全流程,公司為智能座艙、智能 駕駛以及網聯服務提供創新、智能的產品解決方案,與大眾集團、馬自達集團、吉利汽車、長城汽 車、廣汽集團、小鵬汽車、理想One等國內外汽車制造商建立了良好的合作關系。德賽西威智駕產品全面豐富,滿足客戶多層次產品需求。公司與英偉達深入合作,智能駕駛域控制 器產品經過IPU01-04四代迭代已形成豐富產品矩陣,能夠滿足從高性價比到高性能多層級市場需求。IPU01 是德賽西威最早量產核心產品,主要用作環視及泊車控制器,出貨量已超百萬套;輕量級智 能駕駛域控制器IPU02已進入上汽、長城、通用以及造車新勢力等車企配套體系,適配國內中低價 格帶這一最大細分市場,能夠在有限成本范圍內提供一定的智能駕駛功能;IPU03/04是高性能方案, 基于英偉達 Xavier 芯片的 IPU03 已在小鵬 P7 上量產,基于Orin芯片的高算力平臺IPU04已通 過ISO/SAE 21434 體系認證并在理想等客戶上實現規模化量產。受益于英偉達芯片的強大算力以及 自身優秀的量產能力和規模化優勢,公司持續拓展產品矩陣和客戶群體,伴隨著國內 L2、L2+級 ADAS產品滲透率的快速提升,公司智能駕駛域控制器有望迎來爆發式增長。

智駕域控制器與英偉達深度合作,帶來高硬件性能及先發優勢。IPU03/IPU04 依托于英偉達芯片的 高度計算能力,產品性能表現出色。2020年,德賽西威首款基于NVIDIA Xavier芯片的IPU03自動 駕駛控制平臺量產,能夠應對 L2 級別的全速域 ACC 自適應巡航、車道居中、車道偏離預警等功 能;作為德賽西威拳頭產品的 IPU04,在算力、性能、端口、成熟度等方面有了跨越式發展,基于 兩顆Orin 芯片,其總算力已達到 508TOPS 并可根據車企需求最高可拓展至 2000TOPS,算力高出 IPU03 的 7 倍以上,滿足當前L2甚至L3級算力需求;具備更豐富的接入端口,最高可接入16路 高清攝像頭,5個毫米波雷達,12路超聲波傳感器,以及1-3個激光雷達。

高端智駕域控領域具有先發優勢,合作開發能力較強。1992年公司已建立智駕研發團隊,近年來研 發費用占營收比重持續超過10%,同時公司與英偉達合作較早,開發的域控硬件和中間件等產品能 夠較好匹配底層芯片,充分發揮其效能。德賽在打造域控產品平臺化實現快速復用的同時,依靠快 速設計、驗證、量產的經驗和能力,針對車企不同車型空間結構設計差異、算法差異等進行相應適 配滿足車企定制化需求,使公司相對于通用產品供應商競爭優勢明顯。

大批量量產制造經驗帶來質量、成本、設計上的護城河。德賽域控產品歷經四代迭代已形成豐 富產品矩陣,具有量產經驗,IPU03、IPU04 大規模搭載小鵬 P7、理想 L9 等旗艦車型,高搭 載率和車型銷量充分證實域控產品的可靠性。同時德賽西威作為目前中國市場主要域控制器供 應商,市占率較大,芯片采購量相比其他主機廠和Tier 1更多。大批量采購能帶來一定的價格 優惠,在芯片的供應端具有成本優勢。同時對于很多共用的芯片和零部件可以大量備貨,在部 分客戶芯片等零件結構性短缺時候可以串貨,緩解客戶供應端的壓力。此外,德賽西威依托其 市場地位,在與上游供應商合作時有更高的話語權,與部分芯片廠商有定制化產品,彌補通用 芯片上的不足,使其產品更有競爭力。同步布局傳感器和智駕算法,域控產品協同優勢明顯。公司積極開展智能駕駛領域多維度、多渠道 的協同共創,積極拓寬傳感器、智能天線、算法等領域布局,提供平臺化域控產品和系統級智能駕 駛解決方案,進一步增強公司產品整體適配度和綜合競爭力。傳感器方面,已在智能駕駛相關傳感 器和T-Box方面獲得市場領先地位,目前公司高清攝像頭、ADAS攝像頭已實現規模化量產,毫米 波角雷達、BSD 雷達均在多個客戶量產應用,同時 4D 及國產化雷達方案已完成產業技術布局;5G+V2XT-BOX+智能天線方案已順利在上汽通用、紅旗等客戶上實現規模化量產,并在 2022 年獲 取國內頭部OEM多款車型的出海業務。自動駕駛算法領域,公司全方位布局 L1 泊車至 L4高級智能輔助駕駛算法,通過自研+對外投資合 作模式尋求產品快速突破;同時由于和英偉達的長期合作開發,德賽對Orin芯片的定制算法理解獨 到,可以為下游整車廠提供底軟技術支持,使其具備更好的競爭優勢。公司通過上述全棧布局形成 智駕域控領域全套解決方案,打造出“智駕域控制器+傳感器+軟件算法+5G-V2X”產品矩陣,協同優 勢明顯。

經緯恒潤:高性價比智駕方案供應商,智能駕駛研發起步早,具備不同等級解決方案。公司自 2010 年起投入研發智能駕駛產品,經過持續 產品創新,目前已形成ADAS+ADCU+HPC的完整平臺化產品解決方案系列,能夠滿足不同等級智 能駕駛功能需求。公司前向 ADAS 系統是公司智能駕駛業務的核心產品,該產品整合了 Mobileye EyeQ4 芯片和Infineon AURIX ?高算力平臺,實現了自適應巡航控制、車道保持輔助等多項功能。2016 年,公司自主研發的先進輔助駕駛系統(ADAS)量產配套上汽榮威RX5,實現公司自動駕駛 產品首次量產的同時打破了國外零部件公司在該領域的壟斷地位。截至 2021 年 ADAS 產品已配 套或定點的車型超過 100 款,客戶主要為一汽集團、上汽集團、中國重汽、吉利汽車等整車廠商。

智能駕駛域控制器(ADCU)是經緯恒潤設計研發的集成式高性能計算單元。ADCU基于 Mobileye EyeQ4 及 Infineon TC-297TA 芯片,能夠實現自動駕駛等高級別自動駕駛功能,支持毫米波雷達、 激光雷達、高精地圖等信息接入;同時在ADCU基礎上,經緯恒潤將智能駕駛域控制器和自動泊車 域控制器進行融合,面向 L2+級智能駕駛要求,推出了一系列低成本、中低算力的行泊車一體解決 方案,很好地契合了市場需求;并且在ADCU硬件基礎上,經緯恒潤可以提供自主研發的自動駕駛 功能,或集成第三方研發功能,為用戶量身定制系統級自動駕駛解決方案。

智能駕駛高性能計算平臺持續投入。2023年3月,公司基于NXP新一代多核異構SoC高性能平臺 開發的中央計算平臺(CCP)發布,該產品實時控制核采用Classic AUTOSAR軟件架構,方便多方 軟件聯合開發和部署、高性能計算核基于商用Linux + Adaptive AUTOSAR軟件架構,提供整車全量 數據采集、整車OTA升級、SOA服務等功能,支持整車廠用戶持續快速迭代應用軟件,使得產品 能夠提供中央網關、車身及舒適控制、新能源整車動力控制、整車全量數據采集、SOA 車控服務、 邊緣計算等功能,滿足 ASIL-D 功能安全等級要求。同時支持公司自研或客戶定制的人工智能感知 算法、路徑規劃和控制方案,實現在高速公路、城市道路、停車場等場景下安全、精準、穩定的自 動行駛。該產品目前已配套滴滴、合眾汽車、一汽解放等客戶。

積極開拓單車智能解決方案,產品協同效應顯著。經緯恒潤智駕產線具備向上集成完整智能駕駛方 案的軟硬件產品基礎,是目前國內少數能夠提供智駕全棧式解決方案的供應商,其智駕解決方案中 智駕算法、攝像頭、毫米波雷達、智能網關控制器、高精定位系統等域控核心配套產品均為自研。感知端,車載攝像頭、毫米波雷達產品種類豐富,車載攝像頭搭配先進的ISP圖像處理算法,能夠 在各種復雜光照環境下給予駕乘者高質量視覺體驗,同時大幅提升感知算法的識別速率和準確率, 目前已廣泛應用于廣汽、吉利、紅旗、一汽等整車廠的主流車型。最新LRR610 4D成像前雷達具備 水平和俯仰高分辨能力(1.25°×1.7°)、超遠距離探測能力和豐富的點云信息(單幀點云>10K)。

平臺工具和方法流程布局全面。為保證AI感知算法的可靠落地,公司自研了一整套平臺工具和方法 流程,其AI算法通過挖掘深度神經網絡在數據表達方面的能力,具有實時性好、檢測準確、魯棒性 好等特點,目前已經應用在多個園區自動駕駛示范項目中,同時也在智能化港口項目中得到了充分 的應用和驗證;同時公司高精定位模塊LMU可以實現道路級定位,支持L2+自動駕駛,能夠準確持 續提供前方道路的曲率和坡度信息,支持DOTA/FOTA升級,目前已應用于上汽、紅旗、長城等客 戶車型。通過上述協同布局,公司形成的系統級智能駕駛解決方案技術自主,能夠充分發揮協同效 應進一步降本增效,為客戶提供更高性價比智駕產品。

中科創達:領先的智駕操作系統供應商?

完善產業協同布局,發力智能駕駛賽道。中科創達以智能操作系統為核心,聚焦場景需求,持續布 局智能駕駛領域。在低速智能駕駛領域,中科創達已經構建了從AVM(全景環視系統)、XPA(智 能泊車)到AVP(無人代客泊車)的全鏈路產品、技術與解決方案,實現了智能座艙與低速駕駛的 融合創新。此外,在域控算力平臺領域,中科創達子公司暢行智駕基于在操作系統及實時中間件領 域的技術優勢,為全球客戶提供行業領先的智能駕駛域控產品和開放的智能汽車HPC軟硬件平臺。

公司利用自身技術積累,積極布局智駕相關操作系統和云端平臺。目前公司正在開發 ThunderAuto 智能網聯汽車操作系統和智能駕駛輔助系統 SmartDrive。該智能駕駛輔助系統包含硬件抽象、軟件 開放、端云服務、場景落地等四大平臺,客戶可以用其開發ADAS產品、應用和系統,降低開發復 雜度、周期和成本,有望解決目前ADAS系統各自為政、軟硬不分離、集成成本高、迭代演進難等 問題。

攜手高通、立訊精密,智能駕駛域控制器已取得初步成果。2022年中科創達自動駕駛子公司暢行智 駕獲高通創投、立訊精密投資。2022年9月,基于Snapdragon Ride SA8540P芯片,暢行智駕開發 了旗下首款智駕域控RazorDCX Takla,提供60TOPS算力、12路相機最高像素8M Pixels的接入能 力,并預留多路CAN/CANFD 接口,提供8路車規級以太網接口,滿足自動駕駛對傳感器接入的需 求,具備高性價比優勢,實現全時中階行泊一體,可廣泛應用于低速泊車智能駕駛、高速公路智能 駕駛、城區智能駕駛以及封閉園區智能駕駛等諸多場景中。2023年4月,發布基于Snapdragon Ride 平臺的高階智駕控制器RazorDCX Pantanal,采用4nm SOC, 集成Snapdragon Ride?視覺軟件棧,單芯片算力達50-100TOPS,可同時支持基礎配置7V5R12USS 與高階配置11V5R12USS 接入,并預留多路 CAN/CANFD 接口,提供 8 路車規級以太網接口,滿 足不同等級智能駕駛對傳感器接入的需求。實現記憶泊車、L2.9 級高速公路自動駕駛及 L3 級城區 自動駕駛,并可拓展至L4級無人售貨車、礦山、自動清潔車等封閉園區自動駕駛。其具有可拓展性 強、功能安全性高、應用場景廣等特點,滿足從入門級到旗艦級車型對智駕域控的不同需求。

大疆:低成本NOA方案優質供應商。大疆依托視覺技術深厚積累,推出新一代智能駕駛解決方案。2023年4月,大疆車載公布了全新一 代智能駕駛解決方案,該方案以低至32TOPS的算力,7V/9V的純視覺配置,通過“強視覺在線實時 感知、無高精地圖依賴、無激光雷達依賴”實現了包括城區記憶行車(32TOPS)/城區領航駕駛(80TOPS) 在內的 L2+智能駕駛功能。同時,該純視覺輔助駕駛系統也支持擴展毫米波雷達、超聲波雷達、激 光雷達、高精度地圖等傳感器,增強系統的安全冗余。該方案基于當前對智能駕駛系統成本約束,結合當前智能車電子電氣架構演進水平,以及中國市場 對智能駕駛真實需求,具備算力門檻低,算法扎實、功能豐富、傳感器配置簡潔高效、可拓展性強 等特點,方案支持擴展算力至200TOPS,提升了高速領航與城區領航等高階L2+功能的舒適體驗, 目前,該智駕解決方案目前已處于可用狀態,正與合作車企積極推進量產。

均勝電子持續發力智能駕駛系統,多渠道布局智駕域控。均勝電子加快研發新一代高算力智能駕駛 域控制器產品,2022年8月,子公司均勝科技獲得與國內某知名整車廠關于自駕高算力域控平臺的 聯合開發,公司基于英偉達Orin芯片,為客戶提供一款雙Orin系統架構的高算力域控平臺(AD域 控制器),可以實現L2++高速公路及城市情景NOA功能、AVP代客泊車功能,并計劃于2024年 開始量產;2023年5月,旗下子公司均聯智行發布全球首批基于高通Snapdragon Ride第二代芯片平 臺的自動駕駛域控制器nDrive H,芯片算力高達200TOPS,基于軟硬件深度融合的行泊一體設計, 支持L2++到L4級別自動駕駛全場景功能,實現HPA、NOP、HWA等自動駕駛場景。同時其雙芯 片結構可提供同級別全冗余平臺的最優性價比解決方案,在散熱處理上提供行業領先方案,高配版 本采用水冷散熱設計,低配版采用風冷設計,較好解決散熱問題。

同時,公司與地平線、黑芝麻等國內各芯片廠商建立合作關系。2021年8月,均聯智行與黑芝麻智 能簽署戰略合作協議,雙方依托各自優勢資源,在自動駕駛計算芯片、前瞻技術聯合預研及智能汽 車平臺化等業務領域展開深度合作,重點圍繞自動駕駛域控制器進行協同開發;2023年5月均聯智 行與地平線達成戰略合作,地平線將提供以“芯片+參考算法+開發工具”為基礎的智能汽車解決方案, 包括車規級芯片、車載計算平臺、視覺感知、人機交互等。均聯智行基于自身車規級自動駕駛技術 積累,與地平線共同推進高級輔助駕駛(ADAS)、自動駕駛、智能人機交互等領域的產品開發, 加速自動駕駛解決方案的量產;同時公司依托公司智能汽車技術研究院在人工智能的技術儲備和前 瞻研發優勢,加快研發新一代高算力智能駕駛域控制器等產品,目前在此領域已獲批及在批專利逾 50 項,涵蓋自動駕駛域控制器結構、路徑規劃、車輛控制、數據存儲等;公司和國內外多家整車廠 商共同推進基于不同芯片平臺的智駕域控、駕艙融合域控及中央計算單元等項目的研發,部分項目 已順利完成A樣的開發和POC(驗證測試),為公司后續獲取客戶量產項目的定點提供堅實支撐。

東軟睿馳發力行泊一體域控,實現全鏈條國產化打通。東軟睿馳基于地平線征程5、芯馳科技X9U 系列芯片,構建了國內首個全國產自動駕駛域控制器平臺,實現國產化芯片、算法、軟件、硬件從 研發到量產應用全方面全鏈條打通。同時,基于該平臺打造的高性能行泊一體域控制器 X-Box 4.0 面向L2++級別自動駕駛,配置地平線征程5、芯馳科技X9U系列芯片,單芯片算力達到128TOPS, 可提供高速(NOA)、記憶泊車(HPA)、智能巡航(ICA)、遙控泊車(RVM)等40余項功能, 支持8M攝像頭、4D點云毫米波雷達和激光雷達、DSI3超聲波雷達的接入,能夠有效實現對各類 異形和未知障礙物的精準感知和避讓。面向跨域融合時代,基于全國產化大算力單芯片,東軟推出多域融合域控制器 X-Center2.0,采用 SOA設計理念,通過自研軟件架構的強大算力支撐,支持以太網接口、多屏輸出以及處理多路CAN 數據的接入和轉發等,大幅度減少整車開發復雜度,不斷擴展整車智能化性能,實現從“域控”到“中 央計算”的跨越。

截至目前,市場上出現大量行泊一體智駕域控產品,除上述案例以外,其余廠家如地平線推出了與 金脈聯合開發的自動駕駛域控制器產品Horizon Matrix? Pilot 3.0;黑芝麻推出智駕解決方案BEST drive;宏景智駕推出 ADCU 高級別自動駕駛域控;同時國際廠商大陸集團、博世、采埃孚等傳統 Tier 1 巨頭也在發力智駕域控產品,或通過自研、或通過成立合資公司聯合開發以謀求一定的市場地 位。但由于智駕域控產品技術集成度高,投入巨大且產業上下游協同壁壘高,新晉廠商以及傳統國 際巨頭面臨技術成熟度不足、產品工程、轉型困難等問題,短期內仍難以形成有效市場競爭力。我們仍較為看好以德賽西威、華為為代表的國內主流Tier 1廠商,其具備技術領先優勢、規模化量產 優勢、客戶覆蓋度廣優勢,并且能夠充分發揮上下游協同優勢深入參與主機廠產品研發過程,精確 理解用戶需求并不斷完善自我產品生態,預計在將來仍會保持較大的市場份額。

少數頭部主機廠選擇自研+代工模式?車企對于堅持智駕域控自研的考慮,無外乎成本、核心技術及供應鏈穩定、產品亮點和差異化等幾 個因素的考量。根據 HiEV 大蒜粒車研所測算,從資金成本考慮,當前智駕域控中硬件占總成本的 比重約為60-80%,軟件占比約為20-40%,以主營業務為智駕域控的知行科技為例,其雇傭員工200 人左右,近三年合計研發投入近2億元,從時間成本上考量,小鵬從官宣自研到落地G9大致花了 兩年時間,因此如果能將硬件乃至整個域控方案掌握在自己手里,將有效降低車企成本提升產品競 爭力;同時如果車企意圖將智能化打造為自身標簽,自研與車型更為匹配的域控產品將會是更好選 擇,自研域控將會提高系統的軟硬件協同能力并減少芯片算力耗費,同時車企將擁有完整的開發工 具鏈,在算法升級、驅動更新上將更為及時。因此,對于有一定實力和愿景的車企而言自研域控無 疑具有很強的吸引力。自研智駕域控系列產品具有裨益的同時也會帶來巨大成本耗費。根據南方日報報道,2023年上半年 中國市場約20%的頭部企業市場占比超過90%,在汽車市場競爭愈發激烈的當下,大部分廠商穩定 銷量難以保證,相對主流Tier 1廠商而言其自研域控成本—收益比較低甚至不能覆蓋成本;同時自 研域控的時間成本和缺乏經驗帶來的技術問題難以短時間內解決;域控的規模量產商用和與之相關 的軟件生態形成也很難依靠一家自研而成。雖然理論上自研極具優勢,但主機廠前置成本較高并且 難以依靠車型銷量制勝,有意愿自研的廠商仍為少數。

對于規模巨大的極少數頭部廠商而言,自研優勢明顯。將域控技術掌握在自己手里不但可以控制整 體成本也可以確保核心技術及產品供應鏈穩定;其次自研與車型更為匹配的域控,將有助于車企打 造差異化競爭力,定制更多個性化功能,使需求與研發結合更為緊密,從長遠來看將會提升車企核 心競爭力。而外購或合作開發對于眾多中小廠商或許更為友好,中小廠商自研能力薄弱并且車型銷 量不足以覆蓋自研成本,但依托成熟的供應鏈系統,中小廠商可以在有限的預算范圍內,快速、低 成本外購相對高性價比的整體解決方案,使產品實現一定的智能駕駛功能并滿足中低端自動駕駛需 求。長期來看,我們預計“極少數高端主機廠自研+主流Tier 1供應”的產業格局將長期存在,以華 為、德賽西威為代表的研發實力強勁、量產規模大、質量有保障的各Tier 1廠商仍將占據供應鏈核 心地位。

特斯拉:智能駕駛全棧自研領導者

做為智能駕駛全棧自研的先驅者和領導者,特斯拉技術優勢明顯。特斯拉于2020年正式推出其全棧 自研智能駕駛解決方案FSD,實現了從芯片開發到底層架構到軟件開發的整體編輯能力。硬件系統 HW3.0基于特斯拉自研FSD芯片,算力達到144TOPS, 該芯片采用三星14nm工藝,包含12個 CPU、 1 個 GPU、2 個神經處理單元、以及其他硬件加速器,能夠實現自動泊車、智能召喚、自動輔助導 航駕駛(NOA)、自動變道、交通信號識別、停車標志識別、城市道路自動輔助等高階智駕功能;同時在域控算法端,特斯拉也具有領先優勢,其率先應用神經網絡系統HydraNet、BEV+transformer 感知算法、占用網絡技術、數據處理融入時序特征、圖像特征級融合等方案,提升了智駕系統感知 精確性、復雜環境魯棒性,至今仍為行業標桿。根據推特博主“greentheonly”拆解最新 Model Y 和最新首發 Model S/X 情況來看,新一代 HW4.0 已搭載北美地區Model X/Y等高端車型。其搭載了第二代FSD芯片,采用4nm工藝;CPU核心增 加至20個;GPU、TRIP核心增加至2個;具有3個NPU核心,使用32 MB的SRAM,用于存儲 模型權重和激活,預估綜合性能將為當前芯片3倍左右。傳感器方案也有一定改進,在堅持視覺方 案的同時,新增一個4D毫米波雷達做為安全冗余,提升感知系統的精準度和安全性。

HW4.0

小鵬:域控自研+代工模式,軟硬件更加適配域控硬件自研設計,有效提升軟硬一體化水平。

2020 年小鵬發布搭載有自研智駕系統 XPILOT 的 P7,該車型智駕域控為德賽西威研制,基于英偉達Xavier芯片的自動駕駛域控制器IPU03,算力達 到30TOPS。同時,小鵬也開始啟動智駕域控自研并在G9上實現量產,形成以“X-EEA電子電氣架 構+XNGP智能駕駛輔助系統+Xmart OS車載智能系統”為核心的智能駕駛生態。通過對域控方案自 研設計,軟硬件一體化程度有效提升,二者可以更好適配,明確軟件開發邊界,提升硬件利用率。

自研智駕系統XNGP表現出色。其基于英偉達Orin芯片的第二代智駕系統XNGP于23年3月正 式發布。作為“重感知、輕地圖”技術路線的代表,完全形態的XNGP將具備全場景智能輔助駕駛 能力,在全國各個城市都能無縫連接高速、城市、地下停車場等各種場景,實現端到端的城市NOA 輔助駕駛體驗。其包含的新一代智駕域控基于2個英偉達Orin芯片,總算力達到508TOPS,搭配 31 個傳感器,能夠實現智能導航輔助駕駛、全場景智能輔助駕駛、VPA-L停車場記憶泊車增強版等 高階智駕功能;域控感知算法層面,自研XNet深度視覺神經網絡,憑借超強的環境感知能力,XNet 能夠將多個攝像頭采集的數據進行多幀時序前融合,輸出動態目標物的4D信息及靜態目標物的3D 信息,大大提升智能輔助駕駛,尤其是面對城市復雜場景時的感知、預判、決策、執行的能力和效 率,并且借由小鵬“扶搖”超算中心算力,使得動態XNet的訓練時間由過去的276天縮減到11小 時,效率提升超過600倍。

? ? ? ?小鵬XNGP智能輔助駕駛系統? ? ? ? ? ? ? ? ? ? ? ? ? ? ?小鵬XNet視覺感知神經網絡

.

#理想~端到端

其實看見李想和蔚來那倆老大就感覺惡心可笑

半年全切換,全場景無圖自己開

一夜間,理想也端到端了。

智能車參考獲悉,本月理想完全自研的端到端智駕系統,已完成千人內測。

順利的話,不用等到年底就會全面覆蓋所有MAX車型用戶。

這是理想第一次公開端到端上車進展,從之前尾隨追趕華為、小鵬,一舉實現齊頭并進,效率驚人。

技術上還更加純粹:One Model,沒有任何對舊技術體系的妥協或改良。

更加驚人的是,理想自動駕駛研發一號位郎咸朋告訴我們,整個技術路線的切換、上車驗證、量產準備,只用了半年時間

能用嗎?敢用嗎?智能車參考率先替大家體驗了一番。

理想做出了什么樣的端到端

在體驗之前,理想智駕產品經理特意向我們介紹了測試路線的“含金量”:

路線是選定好的,圍繞理想位于北京順義的研發中心,全程20多公里大約40分鐘。

遠離市中心但工廠企業很多,晚高峰仍然擁堵。城市、鄉村、人車混行等等場景都有,完全真實。

雖然路線選定,但場景下變量隨機。

整體體驗下來,順義路況還是比北京市區輕松得多,沒有嚴重的堵車、加塞,車道線清晰度和路面寬度也比市區好得多:

良好路況下理想端到端的體驗,幾乎和智能車參考前兩天為大家介紹的理想6.0“無圖NOA”,沒有太大區別。

但在特定的復雜工況和博弈場景下,端到端優勢就十分明顯了。

比如在一個左轉路口,旁車道的車突然搶跑別車:

理想端到端系統,采取了快打方向、緊急避險動作,而不是突然剎停提示接管。

“避讓”顯然是比“剎停退出”更安全、更負責任的行為,而且也符合人類司機在相同情況下的會采取的行動。

再比如,路上我們遇到了一輛停在路上下客的公交車,而同時,對向車道又有一輛駛來的大卡車。

理想端到端給我們秀了一把“藝高人膽大”,直接在兩個大車夾縫中完成了一次極限穿越

對于可通行空間的精準判斷和車控的細膩程度,已經超越了人類老司機。

但這樣的策略是否必要?會不會給用戶帶來不必要的心理壓力?可能還需要再斟酌討論。

理想的解釋是,現在的端到端還在測試,駕駛行為的偏好取向還要更多數據和測試反饋來決定,不代表量產實際情況。

第三個讓人印象深刻的場景,是在一條主干道和鄉村小路的右轉博弈:

挑戰是多方面的,首先這是個直角彎,對于大型SUV來說操作空間十分有限。其次路面有很大的坡度,車輛俯仰會影響傳感器的朝向和數據質量。

最困難的還是同時和兩輪車、三輪車、貨車、行人等等目標的博弈:

整個過程沉著冷靜,沒有任何多余的剎車、加速或是方向調整。

理想特別強調了“擬人”的優勢:沒用端到端的智駕,也有概率能通過,但博弈過程可能是“前倨后恭”,想過又不敢過,整個過程反復剎車、提速。

最后再來看一個十分有趣的場景。

路過學校時,理想同學會給用戶播報“現在路過學校,速度降至XX”。類似的,對于路上可能會影響駕駛行為的突發事件,理想同學現在都會播報。

難道是背后用高精地圖開天眼?

NoNoNo,這其實是理想端到端智駕的獨特優勢:

車端2個系統,一個是端到端AI司機,另一個是視覺語言模型VLM

端到端負責感知、決策、規劃,是AI司機的主體。并且理想端到端不同于華為、小鵬,采用更直接的One Model結構,不分層

輸入傳感器數據,直接輸出自車行駛軌跡。

One Model典型玩家是特斯拉,國內的商湯絕影UniAD也選擇了這條路線,同樣也走到了量產前夜。

至于VLM,本質是一個多模態大模型,作用是智能駕駛“點讀機”,哪里不會點哪里,利用大語言模型的認知能力理解場景,輸出另外一條行駛軌跡給端到端模型參考修正。

為啥要這么做?理想解釋因為端到端模型盡管直接學習人類成熟駕駛經驗,但黑盒決策過程不為人知。對于目標的錯檢漏檢,以及幻覺問題難以通過直接調參解決。

所以要加這么一個“點讀機”,以及適當的強化學習手段來規范端到端模型的行為。

總結一下,理想用半年時間干出了這樣一套即將量產的端到端智駕技術:

最大的不同點是沒用國內主流的多段式結構,而是和特斯拉One Model一樣一步到位,而且也是國內量產進度最快的。

但理想和特斯拉不同的點又在于,選擇用語言模型為基礎的多模態模型作為認知能力的補充,和小鵬、蔚來、商湯等等玩家相同。

以及還有一點,端到端模型參數量4-5億,VLM總參數量22億,完全能在現有Orin芯片的理想各個MAX車型上實現車端部署

理想怎么做端到端

簡要的說,理想端到端“方法論”有三個組成部分:

一是找對老師,二是理順架構,三是舍得砸錢。

理想自己形容新的智駕技術體系為一快、一慢

快的是端到端模型本身,應對實時駕駛任務;慢的則是VLM大模型,用來學習常識,應對未知路況,比如潮汐車道等等。

分別來自兩個“老師”:端到端摸著特斯拉過河,VLM則取法谷歌機器人系統 RT-1 和 RT-2。

這是理想認為的現在最可行的端到端量產模式,集各家之長。

自己是“踩在巨人的肩膀上”,躲了前人掉過的坑,才能在半年內完成端到端技術切換和量產準備。

理想尤其強調了特斯拉的先驅作用,FSD在V12之后各個版本展現出的實力,和快速進步迭代的能力,讓理想幾乎沒有什么猶豫,果斷選擇One Model路線。

更長遠的影響,是特斯拉的數據理念,理想從2019年就開始實踐了。

李想去年曾坦白在智駕方面投入不足:早期因為要活下去,而把主要資源投在了產品、制造、渠道等等方面,智駕研發長期都是拮據狀態。

智駕一號位郎咸朋更詳細地解釋了一下:所謂“沒資源”,主要是沒有足夠的預算挖人才搞算法

所以早期理想用Mobileye方案,后來又用地平線+三方供應商方案等等,那時的智駕團隊更像是一個“甲方”或項目交付團隊。

但在有限資源制約下,李想和郎咸朋依然達成共識:算法可以徐徐圖之,但數據能力必須提前建立起來。

所以在2019年開始交付的第一代理想ONE,團隊特意在Mobileye的傳感器旁邊多放了一個攝像頭,用來收集和分析問題。相應的,完成了一整套數據采集、挖掘、標注、訓練的工具鏈。

一個例子,郎咸朋透露目前理想智駕訓練數據的人工標注占比,已經不到1%。每年節約大約三四百億的成本(人工標注一幀約10元)。

數據積累和研發體系建設上很早,這是理想端到端“一夜間”上車交卷的核心。

理順架構始于去年下半年的理想戰略會,明確研發和量產交付一起做,一個技術體系,無論是早期的NPN還是去年底推的無圖NOA,研發團隊都是先在封閉區域短時間做驗證,一個區域跑通就立馬往外擴,同步加上安全兜底策略。

隨著測試范圍擴大,理想會逐步加入用戶測試,實際上此時研發團隊的角色和交付團隊重疊了。

舍得砸錢,郎咸朋說目前理想每年用在訓練上的費用為10億人民幣,未來這個數字會上升到10億美金。

所以10億僅僅是入場券,企業有健康的營收利潤,保持每年數十億的持續投入,才是端到端出成果的前提——“幸好理想的業務十分健康”。

換句話說,車賣得多,錢也多,以及還有另一層優勢:數據足夠多

郎咸朋認為這是理想回應一切對于質疑的終極答案。

理想為什么要做

理想端到端有兩個模型,所以現在出現兩種質疑聲音。

首先是融合圖像、語言多數據類型的大模型,理想能不能做好?

之前有國內知名AI玩家質疑過車企或者純自動駕駛團隊,沒有通用性大模型的落地實踐經驗,靠開源模型永遠實現不了端到端自動駕駛的認知能力。

換句話說,除非你一直搞通用AI大模型,否則你就很難搞好那個端到端“點讀機”。

把這個問題拋給理想,他們的回應是這樣的:

對于垂類應用來說,通用AI領域的多模態模型借鑒意義沒那么大,唯一相通的其實就只有預訓練的部分。

但再往后怎么訓練,怎么加自動駕駛的知識而還不影響大模型常識,我們更有優勢。因為我們有足夠多的數據。反而是他們可能有點天真了

第二種質疑,來自All in端到端的友商,同樣被我們拋給理想智駕負責人。

剛剛布道完端到端的何小鵬提了兩個觀點,首先是端到端應該是漸進式的,一步跳到One Model不可靠,以及他還說“車多數據多,也不一定能做好”。

對于分段式和One Model之爭,郎咸朋認為肯定是One Model更好,但理想的技術路線切換不存在什么“飛躍”,而是實踐后得出的認知。

去年,理想先后驗證了高速NOA的有圖路線、NPN(地圖先驗信息)、通勤NOA,最后又改成現在6.0的無圖NOA(BEV+Transformer),在一年時間內快速試錯:

從高速NOA到城市NOA,發現高精度圖依賴不得,于是決定走NPN線,只在復雜路口用地圖先驗信息。后來NPN百城推進過程中,又發現大量二三線小城,效果遠不如北上廣這樣的一線城市,解決不了問題,于是開始探索徹底去圖的方案。

6.0無圖NOA就是在這樣的背景下誕生的。其實和小鵬華為在推的“分段式”端到端一本質相同,也是感知、決策、規控幾個模型串起來,各個模塊采用數據驅動。

但無圖NOA落地過程中,理想又發現了新的問題。那就是只要還有規則存在,就永遠有不符合人類駕駛習慣風格的行為,在用戶看來,就是“開得不好”。

這個時間節點是今年年初,理想內部迅速統一了認識:

只有One Model端到端才能完全按照人類的習慣去學習駕駛。

雖然有技術切換的成本,有組織管理上的代價,但對于理想來說是值得的,也能負擔得起。

為什么要做端到端,為什么走了這么多彎路才開始做端到端,以及為什么能這么快出結果,理想和盤托出。

至于端到端是不是解決自動駕駛終極問題的靈丹妙藥,理想和大部分從業者看法并不同。

理想認為,僅靠端到端實現不了無人駕駛,因為目前為止,端到端模型本身解決的還是corner case問題,只不過方式從以前的寫規則變成了喂數據。

真正制約自動駕駛發展的,是模型的認知能力,是大模型本身的規模

所以理想認為,智駕未來的關鍵變量其實是算力,只有車端算力足夠大,才能把大模型頻率跑的足夠高、延遲足夠低。

一旦大模型的響應時延滿足自動駕駛安全需要,端到端模型本身和“外掛”VLM模型會出現融合的趨勢,理想現在已經在做相關預研工作…這是一條特斯拉也不曾探索過的路線。

未來終局會是什么樣,中間又會有哪些變數?

現在下結論太早,最快也要到英偉達的1000TOPS“芯皇”Drive Thor量產上車,答案才會逐漸清晰。

.

#DOLPHINS

多模態大模型:全面理解復雜長尾的開放駕駛場景

原標題:DOLPHINS: MULTIMODAL LANGUAGE MODEL FOR DRIVING

論文鏈接:https://arxiv.org/pdf/2312.00438

代碼鏈接:https://github.com/SaFoLab-WISC/Dolphins

項目地址:https://vlm-driver.github.io/

作者單位:威斯康星大學麥迪遜分校 NVIDIA 密歇根大學 斯坦福大學?

論文思路:

探索完全自動駕駛汽車(AVs),使其能夠在復雜的現實世界場景中以人類般的理解力和反應力進行導航一直是一個重要的目標。本文提出了Dolphins,這是一種新穎的視覺-語言模型,旨在作為對話式駕駛助手,具備類似人類的能力。Dolphins能夠處理包括視頻(或圖像)數據、文本指令和歷史控制信號在內的多模態輸入,并生成與所提供指令相對應的知情輸出(informed outputs)。基于開源的預訓練視覺-語言模型OpenFlamingo,本文首先通過創新的Grounded Chain of Thought(GCoT)過程增強了Dolphins的推理能力。然后,本文通過構建特定于駕駛的指令數據并進行指令調優,將Dolphins定制化為駕駛領域的應用。通過利用BDD-X數據集,本文設計并整合了四種不同的自動駕駛任務到Dolphins中,以促進對復雜駕駛場景的整體理解。最終,Dolphins的獨特特征體現在兩個方面:(1)能夠全面理解復雜且長尾的開放世界駕駛場景,并解決一系列自動駕駛任務;(2)展現出類似人類的能力,包括通過上下文學習進行無梯度的即時適應,以及通過反思進行錯誤恢復。?

主要貢獻:

  • 本文提出了一種基于視覺-語言模型(VLM)的對話式駕駛助手Dolphins,該助手能夠像人類一樣規劃高級行為,補充自動駕駛系統(ADS)。
  • 本文設計了一種 Grounded Chain of Thought(GCoT)過程,最初賦予Dolphins鏈式思維推理的能力。隨后,本文使模型與自動駕駛任務對齊,盡管可用數據集的范圍有限,這一方法不僅彌補了數據集的限制,還使Dolphins能夠有效地分解復雜任務并學習其基礎子任務。
  • 本文通過定量指標和定性展示,證明了Dolphins在場景理解和推理、即時學習和適應、反思和錯誤恢復方面的顯著能力。

論文設計:

實現車輛系統完全自動化的探索是一場創新的考驗,融合了人工智能[1]、機器人技術[2]和汽車工程[3]的見解。其核心目標是設計出能夠在人類般理解和響應的復雜現實駕駛情境中進行操作的自動駕駛車輛(AVs)。

當前的自動駕駛系統(ADS)[4]是數據驅動并且通常是模塊化的,將任務分為感知、預測、規劃和控制[5]。然而,這些系統在不同情境下的集成和性能方面仍面臨挑戰。端到端(E2E)設計提供了直接從感官輸入到控制輸出的映射,但它們缺乏可解釋性,給安全性和法規遵從帶來了挑戰[6, 7, 8]。

此外,與人類駕駛員相比,現有的自動駕駛系統(ADS)存在許多局限性,包括:

  1. 整體理解和解釋:現有的數據驅動自動駕駛系統(ADS)在整體理解和解釋動態復雜場景方面往往表現不足,尤其是在開放世界駕駛環境中長尾分布的場景中[9, 10]。例如,在一個球彈到路上,隨后一個孩子追著球跑的場景中,人類駕駛員可以立即推斷出潛在的危險,并采取相應的行動來防止意外發生,這依賴于常識、過去的經驗以及對人類行為的基本理解。相比之下,現有的ADS如果沒有大量類似數據的先前暴露,可能難以準確地解釋這種場景。這種缺乏整體理解能力限制了系統在數據分布長尾中意外場景中的泛化能力[11, 12]。
  2. 即時學習和適應:與能夠通過少量示例即時學習和適應新場景的人類駕駛員不同,現有的ADS需要大量數據的廣泛訓練才能處理新情況。例如,人類駕駛員可以在遇到一種新的道路障礙后迅速學會繞行,而ADS可能需要暴露于許多類似場景才能學到同樣的教訓。
  3. 反思和錯誤恢復:現有的ADS通常在操作過程中采用前饋處理,缺乏基于反饋和指導進行實時糾正的能力。相比之下,人類駕駛員可以根據反饋實時糾正其駕駛行為。例如,如果人類駕駛員走錯了路,他們可以迅速根據錯誤反饋調整決策,而ADS可能難以迅速從錯誤反饋中恢復[13, 14]。

這些局限性突顯了需要一種中間框架來彌合當前自動駕駛系統(AVs)與人類駕駛之間的差距。最近在(多模態)大型語言模型(LLMs)[15, 16, 17]方面的進展,帶來了應對這些挑戰的希望。這些模型具備豐富的人類知識庫,為顯著改進自動駕駛系統提供了寶貴的見解。然而,這些模型主要在一般的視覺和語言數據上進行訓練,這限制了它們在專門駕駛領域的有效性。此外,當前的模型設計只能處理靜態圖像和文本數據以生成零樣本決策,缺乏處理時間性視頻輸入和上下文學習的能力。

本文提出了Dolphins(如圖1所示),這是一種專門為自動駕駛車輛(AVs)定制的視覺語言模型(VLM),作為對話式駕駛助手,旨在縮小現有自動駕駛系統(ADS)與人類駕駛之間的差距。

基于OpenFlamingo [18],Dolphins通過一系列專門的指令數據集和有針對性的指令微調,適應了駕駛領域。本文首先基于一些公共視覺問答(VQA)數據集[19, 20, 21, 22]、視覺指令數據集[15, 23]和ChatGPT,構建了一個帶有 grounded CoT 響應的圖像指令跟隨數據集,以將細粒度推理能力融入OpenFlamingo模型中。然后,本文利用BDD-X [24]建立了本文的指令數據集,重點關注四個關鍵的自動駕駛任務:行為理解、控制信號預測、行為分析和深入對話。

Dolphins展示了對復雜駕駛場景的高級理解和類似人類的能力,如即時學習、適應、反思和推理,這顯著縮小了現有自動駕駛系統(ADS)與人類駕駛之間的差距。值得注意的是,Dolphins在感知、預測和規劃等廣泛任務中展現了廣泛的適用性,這要歸功于其對場景的全面理解。它能夠解釋靜態和動態場景,整合環境因素,并有效地處理下游的預測和規劃任務。

此外,Dolphins的上下文學習能力使其能夠快速適應新的駕駛條件,相較于現有模型是一個顯著的進步。其錯誤恢復機制提高了模型的準確性和可靠性,使其成為實際駕駛場景中的寶貴工具。更重要的是,Dolphins提供了可解釋性,這是在自動駕駛系統(ADS)操作中建立信任和確保透明度的關鍵因素。

圖1:Dolphins概述。第5部分的演示展示了Dolphins在屬于整體理解與推理和類人能力這兩個維度的一組子任務中的能力。前者包括與自動駕駛相關的能力,如場景理解以及對自車行為的預測和規劃。后者則分析了三種人類級別的能力:快速學習與適應、反思與錯誤恢復以及互動對話。

圖2:為增強視覺語言模型(VLMs)的細粒度推理能力而生成 GCoT 響應的過程。ChatGPT從文本輸入開始,逐步生成GCoT。

圖3:本文提出的數據集概述。與之前的數據集相比,本文采用了RICES(基于檢索的上下文示例選擇)[60]方法為每個樣本選擇上下文示例。此外,本文引入了“詳細對話”任務,以訓練本文的模型生成與人類偏好高度一致的詳細響應。此指令旨在釋放基礎模型的潛在能力,該模型已在由圖像-指令-響應三元組組成的數據集上進行了指令微調。

圖4:Dolphins模型架構。

表1:和標記最初來自OpenFlamingo訓練范式,本文遵循Otter的做法,加入了一個新標記,以更容易截取模型輸出的目標答案。請注意,只有綠色序列/標記用于計算損失,本文使用交叉熵損失來訓練本文的模型。?

實驗結果:

圖5:展示Dolphins在場景理解方面能力的示例 § 5.1.1。視頻中展示了一輛自車在隧道中行駛的場景。Dolphins能夠識別自車所處的環境,并準確確定前方車輛的顏色以及推斷當前時間。

圖13:展示Dolphins在預測能力方面的示例 § 5.1.2。視頻中展示了一輛自車正在掉頭。Dolphins能夠預測前方停放的黑色車輛的軌跡。由于前方的黑色車輛目前停在路邊,本文的模型預測該車輛將繼續停在那里,不會出現在自車的掉頭軌跡中。

圖14:展示Dolphins在規劃能力方面的示例 § 5.1.2 及控制信號。Dolphins還能夠理解控制信號,并利用這些信號預測自車下一秒的速度和轉向角度。此外,本文可以啟用Dolphins為自車制定規劃,從而在駕駛過程中輔助駕駛員。然而,由于缺乏足夠的信息,如地圖、駕駛目的地等,該規劃目前仍然僅限于短時間的未來。

圖20:三個示例展示了本文的模型通過上下文學習實現對未見指令的快速適應 § 5.2.1。在前兩個示例中,Dolphins通過上下文示例學習扮演駕駛員的角色,并能夠準確描述其行為,盡管沒有接受過此類指令的訓練。第三個示例顯示,Dolphins能夠從上下文示例中學習常識,例如在隧道內無法根據光線判斷當前時間。

圖22:展示Dolphins在交互對話能力方面的示例 § 5.2.2。視頻中展示了一輛自車在雨天停在路口,Dolphins能夠回答關于天氣、交通信號燈及其對駕駛影響的各種問題。

圖25:展示Dolphins在反思能力方面的示例 § 5.2.3。視頻中展示了一輛自車在城市街道的路口行駛。前方的黑色車輛似乎想要右轉,因為它的右尾燈在閃爍。最初,Dolphins預測黑色車輛會繼續向前行駛。然而,在被告知“閃爍的尾燈表示轉彎或變道”這一交通規則后,Dolphins進行了反思并修正了錯誤的預測。?

總結:

隨著本文對Dolphins的探索接近尾聲,這款旨在提升自動駕駛車輛(AVs)的新型視覺語言模型展示了其在復雜駕駛場景中進行整體理解和類人推理的顯著能力,標志著自動駕駛技術領域的一大進步。通過利用多模態輸入和創新的 Grounded Chain of Thought, GCoT 過程,Dolphins展現了其作為對話式駕駛助手的高超能力,能夠以更高的解釋能力和快速適應能力應對廣泛的自動駕駛任務。盡管本文已經取得了顯著進展,但未來仍面臨諸多挑戰。

然而,本文在將Dolphins完全優化用于實際自動駕駛車輛(AVs)應用的過程中遇到了顯著挑戰,特別是在計算開銷和可行性方面。本文對Dolphins在DriveLM數據集上的表現進行了評估,這是一個針對現實駕駛場景的基準測試,結果顯示其在NVIDIA A100上的平均推理時間為1.34秒,這表明在邊緣設備上實現高幀率可能存在限制。此外,在車輛中運行如此復雜的模型所需的功耗也構成了部署的重大障礙。這些發現強調了在模型效率方面進一步改進的必要性。

展望未來,正如新興研究[78]所建議的,開發定制和精簡版的模型似乎是一個有前途的方向。這些精簡的模型有望在邊緣設備上更具可行性,能夠在計算需求和功耗效率之間取得平衡。本文相信,在這一領域的持續探索和創新對于實現配備Dolphins等先進AI功能的自動駕駛車輛的全部潛力至關重要。

.

#還是端到端

“要么擁抱端到端,要么幾年后離開智駕行業。”

進入智駕行業數年,智駕工程師秦風(化名)原本已經適應智駕行業激烈的內卷節奏。但當新技術“端到端大模型”來臨時,他覺得首先被沖擊的可能不是人類司機,而是作為工程師的自己。

這種焦慮并非秦風獨有。不少智駕工程師告訴36氪,為了學習新技術,他們在工作加班的間隙看起了行業最新論文、去B站聽課,有的甚至從研究生課本開始學起。

“端到端大模型”是今年智能駕駛行業的最新技術炸彈。

今年1月,特斯拉面向普通用戶正式推送了 FSD(自動駕駛軟件包) v12 的測試版本。該版本采用了端到端網絡方案,不少用戶稱效果經驗,比之前的v11版本要擬人得多。

馬斯克曾介紹端到端的能力,稱之為“圖像端輸入,控制端輸出”。盡管多位行業人士向36氪表達,他們不相信特斯拉端到端方案在實操層面如此激進與神乎其技,但端到端依然如蜜般驅策著國內同行。國內玩家逐漸相信,在大模型、大算力、海量數據的驅動下,AI系統會像人類一樣開車。

嗅到新的技術風潮,國內的車企與頭部智駕公司已經付諸行動。華為、蔚小理、比亞迪等頭部玩家都投入了團隊與資源推進端到端方案;理想與蔚來兩家車企,還成立了專門的端到端大模型部門,以更快推進技術落地。

高端人才的爭奪也在明暗處涌動。在第一款車推向市場之際,為追上智駕進度,小米汽車挖來了前圖森中國CTO王乃巖加盟。還有智駕行業人士告訴36氪,華為智駕甚至通過相關專利來錨定人才,做定點挖掘。

新方案的確在引燃國內市場。但這枚硬幣另一面是,端到端強依賴于數據驅動,而非大量工程師的人力堆疊實現。特斯拉300人左右的團隊規模,被當成范本在頭部玩家之間傳播。

然而行業現實是,當下頭部玩家的智駕團隊,人才規模幾乎都是千人級。追趕智駕中的老牌車企比亞迪,有達3000人的軟件團隊,華為智駕團隊人數也不遑多讓。行情好的時候,工程師們普遍能拿到年薪百萬的薪資包。

但不少智駕工程師都相信,如果端到端方案效果被進一步驗證,車企智駕團隊裁員將是大概率事件。

“200-300人都用不上。”一位前新勢力車企智駕骨干堅定地對36氪說道。甚至深度學習背景的應屆生,可能都比一些智駕工程師進入端到端項目更有優勢。

一些智駕獵頭也明顯感受到了行業的人才滿溢:車企智駕團隊不再放出新崗位,人員開始要精簡,“很多掛著的HC都是僵尸崗。”在一位獵頭的最新動態中,他已經切換賽道,轉而替機器人公司招攬人才。

被堵在門外的工程師」

智駕工程師田煒(化名)告訴36氪,這場新技術變革中,比起感知模塊、預測模塊,規劃控制模塊的工程師受到的沖擊會更大。

這主要因為端到端方案與傳統智駕方案有明顯差異。傳統方案分為感知、定位、地圖、預測、規劃控制等多個模塊,模塊功能實現基本由工程師的代碼驅動。感知、規劃控制兩大個部門的人員,往往占智駕團隊人數大頭。

但端到端方案的特點是,從工程師的代碼驅動,變成了數據驅動。最理想的方式是,給系統輸入圖像,系統可以直接輸出車輛的控制,中間的環節都由AI神經網絡來完成。

從國內頭部玩家的進度來看,引入端到端方案后,傳統方案的多個模塊通過AI神經網絡改造,正在被整合成2個大網:感知大模型、預測決策大模型。“當下很多的方案都是在感知大模型的基礎之上,接入一個預測規劃大模型。”

更進一步的方案,會將感知預測決策規劃集于一體,行業稱之為“One Model”(一個模型)。

而新的技術路線,也對車企智駕團隊有了全新的人才畫像。

有智駕人士告訴36氪,端到端團隊需要的人數變少,但人才門檻要求變得更高了。大模型本身要求團隊有很強的深度學習背景,“搭建方案階段,更需要很強的infra(基礎架構)人才,對感知、規劃控制每個模塊都有深刻認知,了解不同芯片算力平臺的支持力度、不同AI推理框架等。”

但負責模型搭建與訓練人只占很小一部分。“可能團隊90%的人都是在為端到端提供數據,以及數據閉環工具鏈支持等。”

“大模型本身就是一個很精干的團隊。”有智駕人士說道。這也是OpenAI等AI科技公司早期僅有200-300人,但也能推出大語言模型ChatGPT,改變全球AI進程的原因。

對工程師而言,端到端技術帶來的沖擊也深淺不一。

有智駕人士告訴36氪,感知、規控兩大模塊中,感知大模型原本就依賴深度學習技術。盡管視覺檢測路線從過去的CNN卷積神經網轉向了基于Transformer的BEV,但工程師們的受到的影響并不大。

但對規控工程師而言,如果要加入端到端,幾乎是重新切換賽道。有智駕人士告訴36氪,傳統的規控工程師主要有幾個方向:路徑預測、路徑優化、規則后處理,以及車輛控制。“都是蠻細分的學科,基本不相關。除了路徑預測模塊之外,其他方向的工程師基本沒有深度學習背景。”

智駕工程師田煒告訴36氪,規控的人如果想轉端到端,一個方向是模型訓練本身,但需要很強的深度學習背景。“有可能研究深度學習的應屆生,對模型的理解都比你好。”

其次,是數據挖掘和處理,為端到端提供數據養分。“但如果工具鏈的基建搭建完成,模型大概結構穩定之后,也可能不會再需要人。”最后是模型后處理,端到端大模型輸出的軌跡不可信,仍需要一小部分工程師要寫規則兜底。

工程師們的焦慮也來于此。“一方面是,端到端大模型本身不需要這么多人。另一方面是,大家都想做端到端,但公司的量產業務需要有人運轉。”

一位智駕員工也因為公司當前的量產項目,錯過了進入端到端項目組的時機而懊惱。但他也很糾結:即便進入端到端方案中,也是為新的方案兜底,但這不是核心的大模型本身崗位;

而如果留在現在的量產項目崗位,可以積累一段完整的智駕量產項目經驗,未來幾年也還能流向傳統車企。

但另一種險境也會到來,一旦端到端方案向全行業普及,那么他積累多年的技術棧在幾年后也會面臨淘汰的風險。“可能就要離開智駕行業。”

技術分野、資源游戲

為了轉入端到端項目組,工程師田煒直接從深度學習的研究生課程開始看起。

他找來深度學習的經典課程,以及一張顯卡,對著課本上的實戰課程,去實現一些簡單的圖像識別算法。“至少先把知識點吃透了,才能知道模型本身是怎么運轉的。”

看書、實踐訓練兩個月后,田煒才稍微感覺自己能看懂一些端到端大模型開源代碼。 他已經向公司申請,調入端到端項目組。

事實上,不只田煒焦慮,田煒所在智駕公司比他更焦慮。他告訴36氪,其公司與一家車企合作開發智駕量產方案,但車企內部也有團隊在推進端到端,“整個公司就很焦慮,也早就啟動了端到端計劃。”

田煒表示,據公司了解,只要上千小時的視頻數據,就可以訓出來一個端到端demo,而這個量級的數據公司基本能搞定。

但田煒很清楚,以公司現有的資源,最多也只能支撐訓練出來一個端到端demo,證明方案可行。從demo到量產,中間還有相當大差距。

而這場新技術的分野游戲,會最先體現在資源分野上。

特斯拉CEO馬斯克就曾強調過數據對端到端的重要性:“用100萬個視頻case訓練,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow(驚嘆);到了1000萬個,就變得難以置信了。”

另一方面是算力資源,馬斯克還大肆采購了英偉達的顯卡訓練,稱到年底其人工智能訓練算力將是9萬張英偉達H100的等效算力。算力的儲備與需求驚人。

這個門檻相當高。對于至今仍然賺錢艱難的智駕公司而言,一方面是不與車企合作,智駕公司的訓練數據很難光靠自身采集得到;另一方面,云端的訓練芯片在國內一卡難求,不少車企都在高價收購。“量產項目與融資都還不明朗,很難長期投入端到端。”

而另一位智駕工程師也感受到了無奈。在開發端到端項目小半年后,他接到了公司的通知,暫停端到端項目。原因是公司要集中精力與資源去開發當前的城市無圖智駕方案,“端到端要消耗的資源太多了”。

該工程師感到可惜的是,他所在團隊做的端到端demo已經可以上路了。團隊最初還是奔著對標特斯拉的FSD而去,甚至還花了大力氣去搭建工具鏈等基礎設施建設。但隨著公司端到端戰略的暫停,團隊的研發重心已經轉向了新的領域。

端到端新技術未在國內真正落地,但對智駕行業的人才結構重塑、生態格局的沖擊都已經開始顯現。

盡管如此,頭部玩家還是會想盡辦法擠上這趟具有顛覆性意義的快車,而掌握數據資源、芯片資源、人才資源的巨頭時代會到來。

.

#IRL-VLA

自駕VLA再升級!博世最新:獎勵世界模型打造全新閉環強化學習框架

自動駕駛VLA深入行業視野以來,一直面臨兩個關鍵的問題:

  1. 現有的VLA架構通常基于開環設置中的模仿學習,傾向于捕捉數據集中的記錄行為,性能在一定程度上收到了限制;
  2. 閉環訓練嚴重依賴高保真的傳感器仿真,但仿真環境和真實環境的domain gap和計算效率的問題阻礙了VLA的泛化。

針對這兩個問題,博世、上海大學、上交和清華AIR的團隊提出了IRL-VLA,一個全新的閉環強化學習方法,通過逆向強化學習獎勵世界模型結合設計的VLA方法。IRL-VLA采用三階段范式:在第一階段,提出了一種VLA架構,并通過模仿學習對VLA策略進行預訓練。在第二階段,通過逆向強化學習構建一個輕量級的獎勵世界模型,以實現高效的閉環獎勵計算。為了進一步提高規劃性能,最后設計了專門的獎勵世界模型引導的強化學習,通過PPO(近端策略優化)有效平衡安全事件、舒適駕駛和交通效率。IRL-VLA在NAVSIM v2端到端駕駛基準測試中達到了SOTA,在CVPR2025自動駕駛大獎賽中獲得亞軍。

總結來說,有三個亮點:

  • 提出了一種基于逆向強化學習的高效獎勵世界模型(RWM);
  • 提出了一種全新的VLA模型,該模型在模仿學習和強化學習兩種設置下均能實現卓越的性能
  • 在CVPR2025挑戰賽的NAVSIM v2取得了第二的成績。

非常不錯的工作,后續xx也會持續跟蹤~

  • 論文鏈接:https://arxiv.org/abs/2508.06571?

引言

端到端自動駕駛已成為一個意義重大且迅速發展的研究領域。隨著大量人類駕駛演示數據的可用,從大規模數據集中學習類人駕駛策略具有巨大的潛力。諸如UniAD和VAD等方法將傳感器數據作為輸入,并在一個完全可優化的模型內直接回歸出單模態軌跡。SparseDrive進一步探索了稀疏表示,并提出了一個帶有并行運動規劃器的對稱稀疏感知模塊。借鑒機器人學中的擴散策略,DiffusionDrive、Diffusion Planer和Diff-semanticFusion通過錨定高斯分布設計和精心設計的去噪過程生成多樣化的駕駛動作。盡管端到端自動駕駛取得了實質性進展,但系統的性能仍然脆弱,在長尾駕駛場景中表現出明顯的性能下降。

近期的研究方法試圖通過利用嵌入在視覺-語言模型(Vision-Language Models, VLMs)中的海量世界知識來緩解這一挑戰,即所謂的視覺-語言-動作(Vision-Language-Action, VLA)模型,該模型以視頻為輸入并直接輸出駕駛軌跡和動作。

一些方法將VLM連接到一個端到端模型,以提高軌跡規劃的準確性。RecogDrive引入了一種新穎的駕駛框架,該框架結合了視覺-語言模型、基于擴散的規劃器以及模擬器輔助的強化學習,以生成安全、類人的軌跡。SimLingo引入了“動作夢境”(action dreaming)任務,以嚴格評估指令條件下的駕駛行為。ORION通過名為QT-Former的基于查詢的時間模塊,將視覺-語言推理與生成式軌跡規劃相結合,并采用基于變分自編碼器(VAE)的規劃器。

盡管如圖1.a所示的模仿學習VLA方法,憑借VLM的卓越能力實現了優越的性能,但我們認為,由于在開環框架內進行模仿學習,大模型的全部潛力仍未被充分探索,這種方法傾向于復制數據集中的記錄行為。這是因為駕駛本質上是一個多目標且多模態的任務,其中多模態反映了存在多個最優解,而多目標則要求滿足多樣化的評估標準(例如,碰撞避免、可行駛區域合規性、交通規則合規性等)。一種更自然的策略是讓模型在模擬環境中自主探索,如圖1.b所示,從而模仿現實世界中觀察到的經驗學習過程。然而開發一個完全交互式且閉環的模擬框架仍然是一個重大的技術挑戰:1)仿真到現實(Sim2Real)的領域差距;2)巨大的計算開銷。

圖片

在本文中,如圖1.c所示,我們介紹了一種新穎的閉環強化學習框架,該框架通過逆向強化學習(Inverse Reinforcement Learning)與我們自建的VLA方法相結合,命名為IRL-VLA。利用我們的框架,設計并學習了一個實時獎勵世界模型(Reward World Model, RWM),該模型通過從多樣化策略中進行逆向強化學習獲得。它捕捉了駕駛的多模態和多目標本質,同時能夠以一種成本效益高的方式擴展到大量真實世界數據,從而規避了Sim2Real的領域適應問題。我們應用所學習的RWM來指導我們VLA模型的強化學習。我們的方法在NAVSIM v2端到端駕駛基準測試中達到了最先進的性能,在CVPR2025自動駕駛大獎賽中以45.0 EDPMS的成績獲得亞軍。

據我們所知IRL-VLA是首個通過端到端強化學習(包括傳感器輸入)實現的閉環VLA方法。我們工作的關鍵貢獻總結如下:

  1. 提出了IRL-VLA,這是一種為視覺-語言-動作(VLA)模型量身定制的、從模擬器反饋中進行強化學習的開創性框架。為了取代計算成本高昂的基于仿真器的獎勵計算,引入了一種基于逆向強化學習的高效獎勵世界模型(RWM),從而實現可擴展且有效的獎勵估計。這個學習到的獎勵模型隨后被用于通過強化學習訓練VLA智能體,顯著增強了其實用性。據我們所知,這是首個在訓練過程中不依賴仿真器開發基于強化學習的VLA自動駕駛模型的工作。
  2. 提出了一種全新的VLA模型,該模型在模仿學習和強化學習兩種設置下均能實現卓越的性能,從而在不同的訓練范式中實現最優性能。
  3. IRL-VLA框架在CVPR2025挑戰賽的NAVSIM v2端到端駕駛基準測試上取得了卓越的性能。這些結果證明了我們方法的有效性和通用性。?

相關工作回顧

端到端自動駕駛:由于其將感知、預測和規劃等模塊化任務整合在一個完全可微分的設計中,從而能夠為追求最終目標而進行優化,因此端到端自動駕駛的研究興趣激增。UniAD引入了一個全面的框架,將全棧駕駛任務整合到單個網絡中。VAD以完全向量化的方式表示駕駛場景——涵蓋智能體軌跡和地圖元素——從而消除了對計算密集型光柵化表示的需求。Sparsedrive進一步探索了稀疏表示,并提出了一個對稱稀疏感知模塊和一個并行運動規劃器。借鑒機器人學中的擴散策略,DiffusionDrive、Diffusion Planer和DiffSemanticFusion通過錨定高斯分布設計和適當的去噪過程生成多樣化的駕駛動作。

自動駕駛中的視覺-語言-動作模型:近期的方法,建立了視覺-語言模型(Vision-Language Models, VLMs)與端到端框架之間的橋梁,以提高軌跡規劃的準確性。Recogdrive介紹了一種新穎的端到端駕駛架構,該架構結合了視覺-語言模型、基于擴散的規劃器和模擬器輔助的強化學習,以生成安全且類人的軌跡。SimLingo引入了“動作夢境”(Action Dreaming)任務,以嚴格評估指令條件下的駕駛行為。此外,ORION提出了使用QT-Former和變分自編碼器(VAE)將視覺-語言推理與軌跡規劃相融合。然而,這些方法依賴于模仿學習,這限制了它們在真實世界多模態和多目標駕駛場景中的泛化能力。

自動駕駛中的強化學習:強化學習(Reinforcement Learning, RL)已成為一種有前景的方法,在大語言模型(LLMs)和游戲中已證明其成功。在自動駕駛的背景下,RL已被用于解決特定的決策挑戰和復雜的駕駛場景。RAD在基于光真實感3D高斯點陣(3DGS)的仿真框架內,采用強化學習來訓練一個端到端的自動駕駛智能體。然而,由于傳感器渲染的計算量巨大,且未解決仿真到現實(Sim2Real)的領域差距,該方法僅限于離線策略學習。其他研究提出了基于學習的軌跡規劃框架,其中動作被直接表示為以自我為中心的規劃軌跡。Car-Planner提出了一種基于RL的規劃器,在具有挑戰性的大規模真實世界數據集nuPlan上,其性能超越了模仿學習(IL)和基于規則的最先進方法(SOTAs)。DiffVLA提出了一種高效的VLA模型,該模型采用分層的由粗到精的擴散式軌跡生成,并結合VLM的導航引導。盡管它在NAVSIMv2基準測試上取得了最先進的性能,但其模仿學習的設置限制了其潛力。我們的IRL-VLA框架將RL的應用范圍從規劃器擴展到了整個VLA模型架構,從而進一步提升了模型性能的上限。?

IRL-VLA算法詳解

本節將詳細介紹我們所提出的視覺-語言-動作(VLA)模型,該模型通過一個獎勵世界模型進行閉環強化學習訓練,如圖2所示。

圖片

問題定義

在自動駕駛中,端到端駕駛系統根據傳感器輸入數據(如多視角相機圖像或激光雷達/雷達點云)和自車狀態(自車速度和自車加速度),輸出未來的軌跡或未來的動作:

其中,軌跡可以表示為當前自車坐標系下的一系列車輛路徑點(坐標和航向),其中每個路徑點定義為,表示二維位置,表示航向角。或者,一系列智能體動作也可以表示為,其中每個動作與具有相同的語義含義。參數表示預測視界,即需要預測的未來步數。?

模仿策略學習

視覺-語言-動作模型:受xx智能領域內雙重過程理論最新進展的啟發,我們提出了一種用于自動駕駛的高效VLA模型,該模型包含三個不同的模塊:(1) 用于深度場景理解的語義推理模塊(2) 用于精確幾何推斷的3D推理模塊以及(3) 一個統一的基于擴散的規劃器,用于生成多樣化的駕駛軌跡。

語義推理:如圖2.d所示,為了在自動駕駛場景中實現多模態信息的有效處理和融合,我們提出了VLM指令引導模塊。該模塊基于Senna-VLM框架構建,利用多圖像編碼策略和多視角提示機制,實現高效且全面的場景理解。

3D推理:如圖2.e所示,我們首先使用一個BEV視覺編碼器和一個適配器,將多視角圖像編碼為BEV空間中的特征圖。然后,我們利用一組檢測token(detection tokens)和地圖token(map tokens)從BEV特征空間中學習向量化的地圖元素和智能體運動信息。

統一擴散規劃器:如圖2.f所示,為了生成多樣化且信息豐富的未來軌跡分布,采用了一種基于擴散的方法,該方法對帶有高斯噪聲的anchor proposal軌跡進行處理,條件擴散模型學習一種強大的去噪機制,能夠捕捉未來運動的固有多模態性。為了增強去噪過程,我們分層地將豐富的場景語義(如BEV標記、地圖標記和檢測標記)整合到軌跡生成管道中。這確保了模型合成的軌跡與環境約束保持一致。在最終的條件解碼步驟之后,通過一個輕量級的基于MLP的回歸頭,從精細化的軌跡標記中重構出多模態軌跡。這使得每種模式都能與可行、可解釋且符合場景的運動模式對齊,從而提高了軌跡的真實性和對物理約束的遵守程度。

模仿策略學習損失:與其他基于擴散的模仿學習訓練策略類似,我們的VLA解碼器將個帶有噪聲的錨定軌跡作為輸入,并預測分類得分和去噪后的軌跡,訓練目標結合了軌跡重建和分類:

其中平衡了簡單的L1重建損失和二元交叉熵(BCE)分類損失。?

逆環境學習

獎勵數據收集:為了開發一個有效的獎勵世界模型(RWM),一個全面的數據集至關重要。IRL-VLA使用EPDMS的人類設計指標,該系統包含九個子分數:無責碰撞(No At-Fault Collision, NC)、可行駛區域合規性(Drivable Area Compliance, DAC)、駕駛方向合規性(Driving Direction Compliance, DDC)、交通燈合規性(Traffic Light Compliance, TLC)、自車進度(Ego Progress, EP)、碰撞時間(Time to Collision, TTC)、車道保持(Lane Keeping, LK)、歷史舒適度(History Comfort, HC)和擴展舒適度(Extended Comfort, EC),以及一個加權總和分數,記為EPDMS。我們排除了EC,因為其需要對每個場景進行兩次獨立的模擬。這些指標提供了關于環境和智能體交互的詳細洞察。然而,僅靠模仿數據往往缺乏多樣性,因為它們無法充分捕捉在各種場景下的多樣化軌跡。

為了增強分數和軌跡的多樣性并確保模型的泛化能力,我們采用了三種策略。首先,我們記錄擴散過程每一步的軌跡及其對應的EPDMS分數。其次,我們不使用固定的軌跡集,而是使用K-means聚類從人類演示數據中采樣多種軌跡模式,K值范圍從32到8192。第三,我們對NAVSIM數據集中的每個場景應用多個自車姿態進行模擬,以生成多樣化的樣本。

獎勵世界模型:本文提出了一種獎勵世界模型(RWM),作為一種輕量級、數據驅動的替代方案,以取代傳統的仿真器,從而實現對自動駕駛系統的閉環評估,并通過逆向強化學習收集下游駕駛統計數據(如碰撞率、交通規則合規性和駕駛舒適度)。RWM通過直接基于真實世界演示建模獎勵結構,消除了對計算密集型仿真器的需求,并緩解了仿真到現實(sim-to-real)的領域差距。其架構如圖2(b)所示,與智能體類似,使用多視角相機信息和智能體預測的未來軌跡作為輸入。RWM預測智能體在模擬環境中的未來獎勵。

RWM使用基于規則的模擬器對給定軌跡的分數與環境之間的關系進行建模。NAVSIM模擬器生成三種類型的分數。EP分數衡量自車沿中心線的行進進度,范圍為。DAC、TLC、TTC、LK和HC分數為二元值,取值為,因為它們評估自車是否遵守預定義的駕駛規則。NC和DDC分數取值為,因為當自車行為無責時,會施加較少的懲罰。這些指標的建模如下:

其中表示來自不同指標的獎勵,表示軌跡特征,代表PDMS中的不同子指標。軌跡特征是從給定軌跡路徑點上的BEV空間特征中提取的,作為軌跡、周圍智能體和環境之間交互的隱藏表示。最終獎勵計算為各個分量的加權和:

其中每個指標的權重遵循其他工作中EPDMS的定義。

獎勵世界模型優化:RWM的訓練目標是最小化預測分數與真實分數之間的誤差。在每個訓練步驟中,對一批軌跡及其對應的真實分數進行采樣,以優化RWM。RWM的訓練損失函數定義如下:

其中是第個軌跡在指標上的預測分數,是來自模擬器的相應真實分數。?

基于RWM的強化學習

盡管模仿學習提供了一個強大的基線策略,但它本質上受限于離線演示中的偏差和不完全覆蓋。為了克服這些局限性,我們采用基于RWM的閉環強化學習來微調VLA策略,如圖2.c所示。我們采用近端策略優化(Proximal Policy Optimization, PPO)算法,因為其具有穩定性和樣本效率——這對于在訓練一個容易產生近似誤差的學習型獎勵模型時至關重要。

策略優化:策略優化過程包括從VLA策略中迭代采樣軌跡,通過RWM對其進行評估,并更新策略參數以最大化預期的累積獎勵。通過提供實時獎勵反饋,RWM消除了對計算成本高昂的傳感器渲染和基于物理的仿真的需求。這使得訓練變得可擴展且高效,使VLA模型能夠探索多樣化的駕駛場景并優化多目標(安全、效率、交通規則合規性)。我們使用PPO算法和RWM來訓練策略,選擇PPO是因為其在與可能引入近似誤差的學習型環境交互時具有穩定性和樣本效率。優化過程遵循以下步驟:

圖片

借鑒DiffusionDrive,擴散策略可以被視為一個內部的馬爾可夫決策過程,它從高斯噪聲開始,逐步去噪以產生一個動作序列。具體來說,我們采樣條軌跡并獲得它們的擴散鏈。單條軌跡的擴散鏈表示為

其中是去噪步驟的總數。對于該鏈:

軌跡獎勵由RMW預測,RMW通過NC、DAC、DDC、TLC、EP、TTC、LK、HC等子獎勵評估每條軌跡,并返回一個EPDMS作為獎勵。然后我們計算組標準化的優勢:

擴散鏈中的每個條件步驟都遵循一個高斯策略:

其中是模型預測的均值,是固定的協方差。

因此,完整鏈在下的概率密度為

最后計算策略損失,其中包含一個行為克隆(behavior cloning)損失,以防止在探索過程中發生崩潰:

其中是折扣系數(用于緩解早期去噪步驟中的不穩定性),是從參考策略中采樣的。

通過RWM輔助的強化學習,擴散規劃器通過探索學習預測安全、舒適的軌跡,超越了單純的模仿,從而將認知能力注入到我們的框架中。

最終的策略優化損失結合了強化學習目標和一個行為克隆項,以保持穩定性并防止對預訓練策略的災難性遺忘:

其中是行為克隆損失的權重。這種組合損失確保了穩定、有效的策略優化,利用RWM引導VLA模型實現最優的駕駛行為。?

實現細節

IRL-VLA模型采用V2-99作為主干網絡,并處理分辨率為256 × 704的多視角相機輸入。模仿學習階段(IRL-VLA-PT)使用AdamW優化器進行100個周期的預訓練,學習率為10??,批量大小為32。獎勵世界模型(Reward World Model, RWM)通過逆向強化學習進行訓練,對于EPDMS中取值范圍為{0, 1}的指標,使用二元交叉熵損失;對于取值范圍為[0, 1]的指標,使用均方誤差損失;對于取值范圍為{0, 0.5, 1}的指標,使用交叉熵損失。訓練過程利用了專家演示數據和模擬器反饋。在強化學習階段(IRL-VLA-RL),我們采用近端策略優化(Proximal Policy Optimization, PPO)算法,其截斷參數= 0.2,折扣因子= 0.99,廣義優勢估計(Generalized Advantage Estimation, GAE)參數= 0.95。訓練在8塊NVIDIA A100 GPU上進行。?

實驗結果分析

在我們的實驗中,我們重點關注以下幾個問題:

  1. IRL-VLA在常見的開環和閉環自動駕駛基準測試上的表現如何?
  2. 所提出的技術和實現細節如何影響IRL-VLA的性能??

實驗設置

數據集與指標:NAVSIM是一個基于OpenScene(nuPlan的新版本)構建的、以規劃為導向的自動駕駛數據集。它提供了八個1920×1080的相機和一個由五個傳感器在當前及前三幀中聚合而成的融合激光雷達點云。該數據集被劃分為navtrain(1,192個訓練場景)和navhard(136個評估場景)。

NAVSIM基準測試提供了一個非交互式仿真環境,并采用擴展預測駕駛員模型分數(Extend Predictive Driver Model Score, EPDMS)作為其閉環規劃指標:

圖片

其中,EPDMS集成了兩個子指標組:?和?。該指標通過結合無責碰撞(NC)、可行駛區域合規性(DAC)、駕駛方向合規性(DDC)、車道保持(LK)、碰撞時間(TTC)、歷史舒適度(HC)、擴展舒適度(EC)、交通燈合規性(TLC)和自車進度(EP)來生成一個綜合的閉環規劃分數。?

與SOTA對比

圖片

表1展示了IRL-VLA在Navhard基準測試上與基線方法的性能對比。我們的預訓練模型(IRL-VLA-PT)在多個指標上取得了具有競爭力的結果,EPDMS得分為74.4,優于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)等幾種最先進的方法。與GTRS-Dense和GTRS-Aug等基于評分的模型相比,這些模型通過評分機制在提升安全指標(如無碰撞NC,GTRS-Aug為98.9)的同時,犧牲了舒適性相關分數(如擴展舒適度EC,GTRS-Aug為54.2),而我們的IRL-VLA-PT模型在保持近乎相當的安全性能(NC:98.3 vs. 98.9)的同時,顯著提升了自車進度(EP:83.9 vs. 76.1)和擴展舒適度(EC:76.0 vs. 54.2)。這種平衡凸顯了我們的VLA架構在優化安全性和舒適性方面的有效性,且無需依賴顯式的評分機制。?

消融實驗

圖片

為了評估所提出的技術和實現細節對IRL-VLA性能的影響,我們進行了兩項消融研究。這些研究考察了最佳VLA結構、獎勵世界模型的效果,以及結合強化學習(RL)和模仿學習(IL)的重要性。

分層推理擴散VLA智能體的消融研究:表2展示了我們提出的IRL-VLA分層推理擴散VLA智能體的消融研究。僅使用3D推理并通過人類駕駛演示數據進行訓練時,模型在Navhard-real基準測試上取得了70.0的EPDMS。引入語義推理模塊和我們的高層駕駛指令查詢后,EPDMS提升了1.4。最后,引入用于連續軌跡預測的擴散規劃器后,EPDMS進一步達到了74.4,提升了3.0。這證明了我們分層推理擴散VLA方案的價值,該方案在產生更安全、更舒適的駕駛行為方面具有強大的預訓練性能。

模仿學習損失權重的消融研究:表3考察了模仿學習損失權重的影響。當時,模仿學習與強化學習貢獻相等。當時,模仿學習項會減弱,導致訓練崩潰。最后,將設置為0.5,在模仿學習和強化學習之間實現了最佳權衡,從而獲得了最高的74.9 EPDMS。?

結論

在本文中,我們提出了IRL-VLA,一種新穎的閉環強化學習框架,該框架通過獎勵世界模型(Reward World Model)為端到端自動駕駛中的視覺-語言-動作(VLA)模型服務。我們的三階段方法——模仿策略學習、逆向環境學習和閉環強化學習——解決了開環模仿學習和基于仿真器訓練的局限性。通過使用語義和3D推理模塊以及基于擴散的規劃器對VLA模型進行預訓練,通過逆向強化學習構建一個輕量級的獎勵世界模型(RWM),并使用PPO微調策略,IRL-VLA在NAVSIM v2 CVPR挑戰賽基準測試上取得了最先進的性能,獲得了45.0 EDPMS,并在CVPR 2025自動駕駛大獎賽中獲得亞軍。同時,在NAVSIM Navhard real基準測試上也表現出最先進水平,得分為74.9。據我們所知,IRL-VLA是首個在不依賴仿真器的情況下、結合傳感器輸入的閉環VLA方法。我們的貢獻包括一個開創性的VLA模型強化學習框架、一個用于可擴展獎勵計算的高效RWM,以及所證明的通用性,為閉環自動駕駛的未來發展鋪平了道路。

#NVIDIA英偉達進入自動駕駛領域二三事

如今Orin訂單火爆,上汽的R和智己,理想L9、蔚來ET7、小鵬新一代P7,威馬M7、比亞迪、沃爾沃XC90,還有自動駕駛卡車公司智加科技,Robotaxi等眾多明星企業Cruise、Zoox、滴滴、小馬智行、AutoX、軟件公司Momonta等等,都搭載Orin平臺進行開發。

但誰還記得黃仁勛NVIDIA公司創始人兼首席執行官起初并沒有看得上自動駕駛領域呢。?

1 特斯拉與Mobileye的裂縫

2013 年 9 月,馬斯克公開宣布特斯拉正式加入到自動駕駛賽道,而特斯拉也開始招聘自動駕駛領域的工程師——馬斯克強調,特斯拉將自行內部開發這一技術,而不是采用外部任何其他公司的技術。

但在當時的市面上卻沒有能夠支持特斯拉進行自研開發的自動駕駛芯片,無奈之下,特斯拉只得選擇與當時地位十分強勢的 Mobileye 合作。與 Mobileye 的其他車企客戶不同,特斯拉并非是被動采用 Moblileye 的方案,而是基于 Mobileye 的方案在數據積累和軟件算法層面做了很多獨到的增強型創新,讓 Autopilot 具備自學習(self-learning)的能力。舉例來說,當時特斯拉在車內增加了 Fleet Learning 功能,其本質就是在 Autopilot 的動作與人類的實際決策不一致時,能夠通過軟件記錄并學習人類操作;這個功能,已經有點類似于特斯拉后來推出的「影子模式」。

2015 年 4 月,馬斯克還專門從微軟挖來了一個名為 David Nister 的計算機視覺技術大牛,成立了 Tesla Vision 團隊。

自然,馬斯克的做法遭到了 Mobileye 的強烈反對,因為 Mobileye 希望把芯片和算法都控制在自己手中,而不希望車企具備自研算法的能力。

為此,Mobileye 和特斯拉在 2015 年鬧了不少矛盾,強勢的 Mobileye 要求特斯拉暫停 Tesla Vision,否則就斷供技術支持。

馬斯克再次意識到與Mobileye的合作不可能持久,也希望找到一顆能夠提供足夠算力、但同時也能夠允許特斯拉自研視覺算法的芯片,于是他找到了本就是特斯拉供應商的英偉達(2012 年量產發布的特斯拉 Model S,其 12.3 英寸液晶儀表盤和可觸控的 17 英寸中控信息娛樂屏幕使用兩顆不同的英偉達 Tegra 芯片)。?

2 英偉達有意自動駕駛領域

2012年,對于端側部署的執念,讓黃仁勛開始尋求不同方向的落地機會,包括安防、機器人、汽車等領域。在看了一圈之后,考慮到英偉達芯片的高功率問題,黃仁勛認定:基于電動汽車的自動駕駛是英偉達在端側最好的方向。

在 2012 年到 2013 年之間,有一些團隊找到英偉達,表示要通過 GPU 做基于深度學習的計算機視覺。這讓黃仁勛意識到,深度學習可能會迎來爆發,而英偉達的 GPU 技術也會因為對深度學習和計算機視覺算法的支持而開辟出一個廣闊的市場。

2013 年 11 月,英偉達財報電話會議,黃仁勛在談到汽車業務的發展時表示:

其實考慮汽車的方式,應該是自動化。如今的汽車是聯網汽車,因此數字計算比以往任何時候都更加重要。我們的數字集群將為汽車產業提供現代化駕駛體驗的機會,而并非是使用傳統的機械儀表。 同時,因為 GPGPU 的存在,我們處理器中的可編程 GPU 將會使各種新的駕駛員輔助功能成為可能。基于計算機視覺、駕駛輔助、人工智能等方面的能力,我們將會讓汽車變得更加安全,我們讓汽車駕駛變得有趣。

2015 年 1 月,英偉達發布 DRIVE 品牌和它旗下的兩款汽車計算平臺,其中 DRIVE PX 基于 Terga X1 芯片和 Maxwell GPU,擁有超過 1 TOPS 的算力,而且可以支持計算機視覺和機器學習技術。

據說,2016 年 1 月,黃仁勛帶著英偉達的初代自動駕駛計算平臺 DRIVE PX,率領團隊來到特斯拉位于加州的辦公室,見到了馬斯克。馬斯克用它跑了幾遍當時 Autopilot 團隊訓練出來的一個神經網絡模型。

2016 年年初,英偉達發布了 DRIVE PX 2——黃仁勛稱之為「世界上第一個面向自動駕駛汽車的超級計算機」。?

3 英偉達與特斯拉的雙向奔赴- 英偉達牽手特斯拉

2016 年 5 月,一起與 Autopilot 密切相關的 Model S 事故發生。兩個月后,Mobileye 宣布終止了與特斯拉之間的合作。

可以想到,馬斯克選擇了英偉達作為新的合作伙伴。

2016 年 10 月,特斯拉宣布:包括 Model 3 在內的所有量產車型將會搭載能夠實現完全自動駕駛(Full Self-Driving)能力的硬件(也就是 HW2.0),其中傳感器包括 8 顆環視攝像頭、12 顆超聲波雷達和一顆前向雷達。

與此同時,HW2.0 還內置一個算力比前代產品增加了四十多倍的計算設備(即英偉達 DRIVE PX 2),它能夠運行特斯拉最新開發的面向 Autopilot 進行視覺、超聲波和雷達融合處理的神經網絡。需要說明的是,雖然也叫 DRIVE PX 2,但特斯拉所用的這個版本是它與英偉達聯合定制的。?

4 特斯拉不是英偉達的終點

2017 年底,特斯拉對外公開自研芯片計劃。

但英偉達也不是全無準備。

在把 Drive PX 2 成功地落地到特斯拉上之后,黃仁勛一直在緊鑼密鼓地準備下一代產品。與此同時,英偉達也花了大量的=功夫,不斷拓展汽車領域朋友圈。根據英偉達在 GTC 2017 大會上的統計,與英偉達就自動駕駛解決方案達成合作關系的公司達到了 225 家——除了汽車企業、零部件供應商、互聯網公司和圖商之外,還有一些創業公司。

2018 CES,黃仁勛放出了英偉達在自動駕駛領域的一枚重磅產品:全新的自動駕駛 SoC 平臺 DRIVE Xavier。與 DRIVE PX 2 相比,DRIVE Xavier 是一顆集成了多個模塊的自動駕駛 SoC,在計算性能顯著提升的同時,功耗也減少了很多。

2018 年 8 月17日,馬斯克在推特上稱:英偉達做出了非常棒的硬件,對黃仁勛和他的公司有很高的敬意;但我們的硬件需求非常獨特,需要跟我們的軟件緊密地匹配。

2018 年 12月10日,馬斯克在推特上稱:自動駕駛需要特斯拉HW3,這個平臺將取代英偉達,并具有10倍的圖像處理能力。

2019 年 4 月,在特斯拉自動駕駛日上,被馬斯克稱之為「FSD Computer」的 HW3 正式發布——按照馬斯克的說法,這是「世界上專門面向自動駕駛x之目的而設計的最先進的計算機」。

至此,英偉達與特斯拉在智駕平臺上的合作告一段落。

#GMF-Drive

全面超越DiffusionDrive!中科大GMF-Drive:全球首個Mamba端到端SOTA方案

端到端自動駕駛已經成為行業中普遍認同的方案,它能夠直接將原始傳感器輸入映射成為駕駛動作,從而減少對多階段中間表示的依賴以及信息損失。最新的工作中,比如像?DiffusionDrive?和?GoalFlow?這樣的擴散式規劃模型,展現出了在生成多樣且高質量駕駛軌跡方面的強大能力。展開來說,VLA的架構也可以基于VLM+軌跡生成的模塊實現,所以近來的很多工作都聚焦在端到端和、VLA兩個大方向上。

然而,盡管軌跡規劃模塊取得了顯著進步,一個關鍵的瓶頸依然沒有被充分解決:多模態融合架構(multi-modal fusion architecture),也就是?如何整合不同傳感器的異構輸入。當前的主流方法大多采用?TransFuser?風格的傳感器融合架構,這類方法通常是直接將圖像特征與 LiDAR 特征拼接,然后通過自注意力機制進行處理(如圖 1a)。

圖片

這種方式主要存在兩個問題:

  1. 信息損失:傳統基于直方圖(histogram-based)的 LiDAR 預處理方法,會將空間網格中點的高度進行平均,從而丟失了關鍵的 3D 幾何信息,比如物體形狀和結構的重要線索。這會限制模型的感知能力。
  2. 缺乏空間感知:標準的自注意力機制在處理鳥瞰圖數據時缺少足夠的空間先驗,它會對所有位置均勻地關注,而忽略了駕駛場景中的重要空間規律,例如前方區域通常比后方區域更重要,近處的障礙物比遠處的更需要優先處理。

作者的實驗還揭示了一個矛盾:相比單模態架構,現有的多模態融合架構在性能上提升有限,這說明 TransFuser 風格的方法更像是在做簡單的特征拼接,而不是結構化的信息整合。

為了解決這些問題,中科大和中國礦業大學的團隊提出了?GMF-Drive,它包含三個模塊:

  • 數據預處理模塊:將原始點云處理為增強幾何信息的 14 維柱狀表示,保留豐富的幾何場景信息。
  • 感知模塊:引入?GM-Fusion?模塊,利用具備空間感知能力的狀態空間模型(Spatial-aware State Space Model, SSM),在保持全局感受野的同時實現線性??復雜度的空間建模。
  • 軌跡規劃模塊:采用類似 DiffusionDrive 的截斷擴散策略(truncated diffusion),結合錨點軌跡(anchor trajectories)生成合理的駕駛軌跡。

基于上述分析,作者的主要貢獻如下:

  • 設計了一種幾何增強的點云表示,并證明了它在多模態融合中的有效性。
  • 提出了一種新型的融合架構?GM-Fusion,基于空間感知的狀態空間模型(BEV-SSM),在自動駕駛任務中實現了比傳統 Transformer 更優的精度。
  • 在 NAVSIM 基準測試中通過大量消融實驗驗證了各個組件(幾何增強柱狀表示、BEV-SSM、分層可變形跨模態注意力)的有效性,證明它們對最終的高精度結果都有顯著貢獻。
  • 論文題目: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
  • 論文鏈接:https://arxiv.org/pdf/2508.06113?

相關工作回顧?

端到端自動駕駛

端到端自動駕駛的發展已經從早期基于 CNN 的方法,演進到更先進的多模態系統。早在 1997 年,Chua 等人就證明了 CNN 可以直接將圖像映射到轉向指令,但這些方法的泛化能力十分有限。條件模仿學習(Conditional Imitation Learning)提升了性能,例如?CILRS?利用導航指令來引導駕駛策略,而?LBC?則引入了帶有“特權信息”的教師-學生學習框架。

將表示方式轉向鳥瞰圖是一個重要的里程碑。例如?TransFuser?將圖像和 LiDAR 數據結合在一起,通過 Transformer 進行融合,啟發了許多新的 BEV 方法。UniAD?將多個感知任務整合到一起以提升規劃效果,VAD?引入了高效的向量化表示。近期的研究重點轉向多模態決策,例如?SparseDrive?探索稀疏表示,而?GoalFlow?可以生成多樣化的軌跡。然而,大多數方法依然依賴計算量龐大的 Transformer 架構,作者的工作則嘗試用更高效的模型來解決這個問題。?

自動駕駛中的多模態融合

多模態融合在自動駕駛中的方法主要分為三類:早期融合(early fusion)、后期融合(late fusion)、以及中期融合(intermediate fusion)。

  • 早期融合:在原始傳感器數據階段直接融合,但不同模態數據格式差異較大,處理困難。
  • 后期融合:在高層決策階段進行融合,但錯過了跨模態特征交互的機會。
  • 中期融合:目前最常用的方法,在中間特征層面使用 Transformer 進行結合。

例如,TransFuser?在多個尺度上融合圖像和 LiDAR 數據,通過注意力機制實現,性能優于早期的基于幾何的方法。之后的?BEVFusion?和?FUTR3D?在共享特征空間中提升了融合效果。但這些方法依賴計算量龐大的自注意力機制,迫使它們只能使用低分辨率特征,從而丟失了重要細節。

作者的工作不同于以 Transformer 為核心的范式,提出了?GM-Fusion,利用具備空間感知能力的狀態空間模型(Spatial-aware State Space Model, SSM),在保持長程依賴建模能力的同時,實現了線性復雜度的計算。?

GMF-Drive算法詳解?

模型概述

GMF-Drive(見圖 2)使用兩個獨立的 ResNet-34 主干網絡分別對相機圖像和幾何信息豐富的 14 維 LiDAR 柱狀表示進行編碼。在四個尺度上,作者的?GM-Fusion?模塊通過通道注意力(Channel Attention)BEV-SSM(用于線性復雜度的空間建模)以及?分層可變形跨注意力(Hierarchical Deformable Cross-Attention, HCA)?來融合多模態信息。融合后的特征與自車狀態及錨點軌跡結合后,輸入到擴散解碼器,通過截斷擴散生成最終軌跡。

圖片

幾何增強的柱狀表示

傳統的多模態融合方法在將 LiDAR 點云離散化為體素時,常常會丟失關鍵的幾何信息。為了解決這個問題,作者提出了一種?14 維柱狀表示,在保持計算效率的同時,完整保留 3D 幾何特征。

給定點云?,其中每個點??包含三維坐標、反射強度和雷達環索引,作者首先將 BEV 空間離散化為規則的柱狀網格,分辨率為?,其中??表示每米的像素數。

對于網格位置??的每個柱狀單元,作者提取一個 14 維特征向量?,包括點特征池化結果統計特征

(1)點特征池化
對于柱狀單元??中的點?,作者計算柱心??和平均高度?。相對偏移為:

然后對增強后的點特征做最大池化:

(2)統計特征
為了捕捉直方圖方法無法體現的局部幾何結構,作者計算反射強度的均值與方差:

此外,作者基于 PCA 計算四個幾何形狀描述符??至?,包括線性度(linearity)平面度(planarity)球形度(sphericity)各向異性(anisotropy),分別用于識別桿狀物體與邊緣、檢測地面與墻面、衡量體積散布程度,以及區分結構化物體與噪聲。

這種?14 維表示?保留了傳統直方圖方法中常被丟棄的關鍵信息,不僅包含高度變化和強度模式,還包括局部表面幾何,從而讓模型更好地區分點密度相似但幾何結構不同的物體,提升感知精度和軌跡規劃的安全性。?

Gated Mamba Fusion模塊

GM-Fusion?模塊通過三部分來整合多模態特征:

  1. 門控通道注意力(Gated Channel Attention):對齊并融合相機與 LiDAR 特征。
  2. BEV-SSM:利用方向感知(direction-aware)與雙掃描模式(dual-pattern scanning)并結合距離衰減(distance decay)高效建模空間依賴。
  3. 分層可變形跨注意力(HCA):查詢多尺度圖像特征,進一步精細化融合結果。

圖片

BEV 位置編碼

標準位置編碼往往不能有效表示自動駕駛場景中復雜的空間結構。作者提出一種?自車中心極坐標系?的編碼方法,結合距離和方向信息。對于每個空間位置,作者計算其與自車原點的歐幾里得距離和方位角(使用???atan2????計算)。這些極坐標通過多頻率正弦編碼(sine-cosine)映射到高維空間,波長呈指數衰減。
關鍵創新在于維度交錯(dimensional interleaving),即將距離和角度編碼交替排列,而不是分塊拼接,從而在每個特征層都強制聯合學習空間大小與方向信息。?

雙掃描模式

為了將二維 BEV 特征序列化供順序處理,作者使用兩種互補掃描模式:

  • 光柵掃描(Raster Scan):按行依次從左到右掃描,適合捕捉沿行駛方向的長程依賴。
  • Z 字掃描(Zigzag Scan):蛇形路徑掃描,保持局部鄰近像素在序列中的連續性,有助于保留局部幾何細節。

兩者互補,使模型既能獲得全局場景結構(光柵掃描)又能保留局部細節(Z 字掃描),BEV-SSM 會并行處理并自適應融合它們。?

AwareSSM 模塊

AwareSSM?處理序列化后的 BEV 特征,包含方向感知分支距離衰減分支,再經過并行狀態空間模型(SSM)生成空間信息增強的輸出。

方向感知通過三個可學習的狀態轉移矩陣實現:

根據掃描模式組合:

其中權重??按方向重要性設定,前向最高,側向次之,后向最低。

距離衰減機制為:

其中??為自車到位置??的距離,?為網格最大距離,?為可學習參數。

并行狀態更新公式為:

其中?、?依賴輸入,?為第??步的狀態轉移矩陣。?

自適應特征融合模塊(Adaptive Feature Fusion Module)

該模塊會根據全局場景上下文自適應調整來自不同掃描模式的特征權重,避免簡單平均。首先聚合全局上下文,再通過小型神經網絡生成歸一化融合權重,然后加權合成輸出特征,實現對不同路況下特征貢獻度的動態調整。?

實驗結果分析?

實驗設置

作者在公開可用的 NAVSIM 數據集上進行了實驗。為了確保公平比較,作者采用了與 DiffusionDrive 相同的評估指標。GMF-Drive 基于 DiffusionDrive 的代碼庫,將其中的 TransFuser 模塊替換為作者的 GM-Fusion 架構。?

定量比較

如表 1 所示,GMF-Drive 在 NAVSIM navtest 集上的 PDMS 得分達到 88.9,在 ResNet-34 主干和相同傳感器輸入條件下,較之前最佳的 DiffusionDrive 提高了 0.8 分,證明了 GM-Fusion 架構相較于傳統基于 Transformer 的融合方式的優越性。

圖片

作者方法的優勢在一些關鍵子指標上尤為明顯。GMF-Drive 在可行駛區域符合率(DAC)上得分 97.3(相比 DiffusionDrive 提升 +1.1),驗證了保留精細空間特征能夠提高場景理解能力。它還在自車推進率(EP)上獲得了 83.3 的最高分,表明高效的融合提升了安全性和駕駛效率。

此外,GMF-Drive 顯著超越了基于軌跡詞匯的方法。它比一個經過大量調優、額外使用規則監督和加權置信度后處理的 Hydra-MDP 變體高出 2.3 PDMS 分。?

消融實驗?

整體系統組件分析

如表 2 所示,基線 DiffusionDrive 模型經過多個關鍵創新的逐步增強,每一步都在評估指標上帶來了可衡量的性能提升。

圖片

首先,將基線 LiDAR 編碼替換為作者的 8 維 pillar 表示,使得 PDMS 從 88.10 提升到 88.61,驗證了更豐富的幾何輸入即使在標準融合模塊下也能提升感知性能。

接著,集成作者的 Gated Mamba Fusion(GMF)模塊后,PDMS 進一步提升至 88.82。盡管 EP 略有下降,整體性能的提升表明作者的空間感知融合機制能夠有效利用這些幾何特征。

最后,采用完整的 14 維 pillar 表示使 PDMS 達到最高的 88.85。相較于 8 維版本的增益較小(+0.03),但在所有指標上均帶來了一致的小幅提升。這表明 8 維表示捕獲了最關鍵的幾何信息,而額外的統計特征提供了細微的優化。

總體而言,這些組件相較于基線帶來了 0.75 分的 PDMS 提升,證明了數據表示和融合架構對于實現最優性能都至關重要。?

融合架構設計分析

表 3 對融合策略的系統性評估為作者的架構設計提供了有力證據。從基線自注意力(SA)機制開始,切換到跨注意力(CA)帶來了可觀的性能提升,PDMS 從 88.10 提升到 88.39。這一提升源于跨注意力在相機和 LiDAR 模態間建立直接特征對應關系的優勢,相較于基線的拼接融合,跨模態交互更有效。

圖片

C-EffiMamba 的方法嘗試用通用狀態空間模型替代 Transformer 架構。PDMS 降至 88.02,表明簡單套用標準序列模型無法捕捉駕駛場景固有的復雜空間關系。

CA+EffiMamba 的提升有限(88.04),但其分層版本(HCA+EffiMamba)顯著提升至 88.44。性能差距突出了多尺度處理在傳感器融合中的重要性,分層注意力機制能在不同空間分辨率下自適應聚焦于相關區域,同時保持上下文感知能力。

最大提升來自 HCA+BEV-SSM 配置,它引入了作者專門優化的 BEV 狀態空間模型,PDMS 達到 88.69。這種針對 BEV 優化的掃描模式與空間先驗對于處理 BEV 表示特別有效,從而在軌跡預測與障礙物檢測任務中獲得更優表現。?

GM-Fusion 組件分析

表 4 量化了 GM-Fusion 各組件的貢獻。僅添加分層可變形跨注意力(HCA)即可將 PDMS 從 88.10 提升至 88.46,得益于 DAC 和 EP 的提升。

圖片

將 HCA 與通道注意力結合進一步提升到 88.67,主要提升了 NC 和 TTC,說明在融合前顯式對齊相機與 LiDAR 特征的重要性。

將 HCA 與作者的 BEV-SSM 結合也達到了類似的 88.69,說明 BEV-SSM 的空間建模能力與通道對齊在融合中同樣有效,同時由于其線性復雜度而具備更高計算效率。

最后,完整集成所有三個組件的 GM-Fusion 模塊,PDMS 達到最高的 88.85。最終的性能提升驗證了通道注意力與 BEV-SSM 的互補性:前者跨模態對齊特征,后者在融合表示中建模空間依賴,兩者的協同作用是作者取得最優性能的關鍵。?

定性比較

為了直觀展示作者方法的優勢,作者在圖 4 中給出了軌跡的可視化比較。
在左轉場景 (a) 中,DiffusionDrive 生成的軌跡偏離了真實軌跡,表現出方向不一致。在直行場景 (b) 中,基線方法出現了意外的左偏;在右轉場景 (c) 中,DiffusionDrive 生成的軌跡保持直行,與所需的軌跡幾何不符。這些模式表明,基于 Transformer 的融合框架在空間推理方面存在局限。

圖片

相比之下,GMF-Drive 在所有場景中都實現了準確的路徑對齊。作者的方法能夠正確完成左轉 (a) 和右轉 (c),同時在直行 (b) 中保持穩定的直線運動。
這種表現直接得益于作者的架構創新:幾何增強的柱狀表示保留了關鍵的 3D 結構信息,而 GM-Fusion 通過方向掃描序列實現了空間感知的特征融合,并能在多模態處理過程中自適應地優先關注前方區域,從而生成更符合空間約束的軌跡。?

結論

在這項工作中,作者提出了?GMF-Drive?—— 一個新型的端到端自動駕駛框架,它將幾何增強的柱狀表示具備空間感知能力的門控狀態空間模型相結合,用于多模態感知融合。該融合方式有效替代了當前依賴 Transformer 的融合框架。通過在?NAVSIM?基準上的全面實驗,作者的消融研究驗證了融合架構設計的合理性,而定量結果表明,GMF-Drive 在性能上達到了新的最優水平。

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92898.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92898.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92898.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

k8s基本概念

k8s 的基本概念 Kubernetes是一個可以移植、可擴展的開源平臺&#xff0c;使用 聲明式的配置 并依據配置信息自動地執行容器化應用程序的管理。在所有的容器編排工具中&#xff08;類似的還有 docker swarm / mesos等&#xff09;&#xff0c;Kubernetes的生態系統更大、增長更…

Easysearch 數據遷移之數據比對

上一篇我們通過 INFINI Gateway 進行了索引數據遷移&#xff0c;對索引遷移結果進行了初步且直觀的校驗--對比索引的文檔數是否一致。今天介紹個實實在在的數據比對方法&#xff0c;通過網關對比索引文檔的內容在兩個集群是否一致。話不多說&#xff0c;就拿上次遷移的兩個索引…

Codeforces Round 1042 (Div. 3)

ABCD 略E注意到每個操作最多執行一次&#xff0c;ifa[i]!b[i]&#xff0c;要么a[i]^a[i1]要么a[i]^b[i1]G設消除1~i的數的操作次數為f[i]&#xff0c;可以推出f[i]2*f[i-1]1&#xff0c;那么消除1~i的數的分數乘的數為g[i]&#xff0c;g[i]g[i-1]*g[i-1]*i s雖然很大&#xff0…

AJAX:讓你的網頁“靜悄悄”變聰明,體驗絲滑升級

大家好&#xff0c;今天想聊聊一個讓網頁“活”起來的小秘密——AJAX。你可能遇到過這種情況&#xff1a;點個按鈕&#xff0c;頁面就刷新&#xff0c;等得心急火燎。但用了AJAX的網站&#xff0c;比如購物車更新或搜索建議&#xff0c;數據嗖嗖就來了&#xff0c;整個頁面卻紋…

【iOS】Block基礎知識和底層探索

文章目錄前言Block的聲明和創建問題引入Block的底層結構Block的執行流程Block的創建與存儲Block的傳遞與調用Block的捕獲機制捕獲局部變量捕獲全局變量小結Block的類型__block修飾符__block變量的包裝結構體block的實例結構體block的執行邏輯Block循環引用造成的原因解決方法小…

1.Ansible 自動化介紹

1-Ansible 自動化介紹 Ansible 自動化介紹 手動執行任務和自動化執行任務 手動執行任務的麻煩事&#xff1a; 很容易漏掉某個步驟&#xff0c;或者不小心執行錯步驟&#xff0c;而且很難驗證每個步驟是不是真的按預期完成了。管理一大堆服務器時&#xff0c;很容易出現配置…

2025年云手機場景適配的行業觀察

2025年的市場中&#xff0c;云手機品牌百花齊放&#xff0c;不同品牌在性能、功能和場景適配性上的差異日益顯著。隨著云計算技術的快速發展&#xff0c;云手機已從 嘗鮮工具 演變為游戲、辦公、企業運營等場景的剛需工具。現市面上也有著更多的云手機品牌&#xff0c;結合實測…

Date/Calendar/DateFormat/LocalDate

作用說明Date用于定義時間&#xff0c;提供date對象間的比較方法Calendar(日歷類),提供對時間的運算方法DateFormat是接口&#xff0c;它的實現類SimpleDateFormat用來規范時間輸出形式LocalDate&#xff0c;在JDK1.8之后引入&#xff0c;方便了對時間的運算方法介紹Date常用方…

在Python 3.8環境中安裝Python 3.6兼容包的方法

在Python 3.8環境中安裝Python 3.6兼容包的方法 用戶的需求是&#xff1a;在Python 3.8環境中重新安裝原本為Python 3.6設計的包。這通常涉及兼容性問題&#xff0c;因為Python 3.8可能引入了一些語法或API變更&#xff0c;導致舊包無法直接運行。以下是逐步解決方案&#xff…

三種DuckDB電子表格插件的union all查詢性能對比

我選取了最穩定、兼容性最好的三種&#xff1a;官方excel對應函數read_xlsx()、官方spatial對應函數st_read()、rusty_sheet對應函數read_sheet。 1.建立兩個包含前50萬和后54萬的xlsx文件&#xff0c;用于比較。利用官方excel的copy()to進行。 D copy (from v1 order by l_ord…

Python 中使用多進程編程的“三兩”問題

文章目錄一、簡介二、選擇合適的啟動方式三、手動終止所有的進程小結一、簡介 這里簡單介紹在Python中使用多進程編程的時候容易遇到的情況和解決辦法&#xff0c;有助于排查和規避某類問題&#xff0c;但是具體問題還是需要具體分析&#xff0c;后續會補充更多的內容。 二、…

Ansible部署應用

目錄Ansible概述1&#xff1a;什么是Ansible2&#xff1a;Ansible的架構組成3&#xff1a;Ansible與SaltStack的對比安裝部署Ansible服務1&#xff1a;系統環境設置2&#xff1a;安裝Ansible&#xff08;第一臺&#xff09;2&#xff1a;配置主機清單3&#xff1a;修改Ansible配…

疏老師-python訓練營-Day44預訓練模型

浙大疏錦行 知識點回顧&#xff1a; 預訓練的概念常見的分類預訓練模型圖像預訓練模型的發展史預訓練的策略預訓練代碼實戰&#xff1a;resnet18 作業&#xff1a; 嘗試在cifar10對比如下其他的預訓練模型&#xff0c;觀察差異&#xff0c;盡可能和他人選擇的不同嘗試通過ctrl進…

AI入門學習--如何寫好prompt?

寫好Prompt&#xff08;提示詞&#xff09;是駕馭AI模型的核心技能。以下是結合測試工程師需求的 結構化方法論 和 黃金模板一、prompt設計金字塔終極心法&#xff1a; Prompt 對AI的測試需求文檔&#xff0c;需像設計測試用例一樣&#xff1a;可執行&#xff1a;明確輸入輸出…

Linux編程 IO(標準io,文件io,目錄io)

標準IO C語言標準IO概述標準IO&#xff08;Standard Input/Output&#xff09;是C語言中用于處理文件和數據流的一組函數庫&#xff0c;定義在<stdio.h>頭文件中。與低級IO&#xff08;如read/write&#xff09;相比&#xff0c;標準IO提供了緩沖機制&#xff0c;提高了數…

C# WPF本地Deepseek部署

模型下載地址 using LLama; using LLama.Common; using System; using System.IO; using System.Threading.Tasks; using System.Windows; using System.Windows.Input;namespace YF_Talk {public partial class MainWindow : Window{private LLamaWeights _model;private LLa…

【Abp.VNext】Abp.Vnext框架模塊學習

1、Abp.Vnext-集成 Volo.Abp.Core2、Abp.vNext-Web模塊 Volo.Abp.AspNetCore.MVC框架&#xff08;framework文件夾&#xff09; 七、Abp.vNext-應用模塊-Identity身份認證 業務模塊&#xff08;modules文件夾->identity&#xff09; 1、添加領域模型 Volo.Abp.Identity.Doma…

【完整源碼+數據集+部署教程】火柴實例分割系統源碼和數據集:改進yolo11-rmt

背景意義 研究背景與意義 在計算機視覺領域&#xff0c;實例分割技術作為一種重要的圖像處理方法&#xff0c;近年來得到了廣泛的關注和應用。實例分割不僅能夠識別圖像中的物體類別&#xff0c;還能精確地分割出每個物體的輪廓&#xff0c;提供更為細致的視覺信息。這一技術在…

飛算JavaAI云原生實踐:基于Docker與K8s的自動化部署架構解析

一、飛算JavaAI詳細介紹 1.1 飛算JavaAI飛算JavaAI是飛算云智推出的一款革命性Java開發輔助工具&#xff0c;它通過人工智能技術深度賦能傳統軟件開發流程&#xff0c;特別為大學生課程設計、畢業設計等實踐教學環節提供了強有力的技術支持。在當前高校計算機相關專業教學中&am…

小程序打通美團核銷:解鎖到店綜合業態私域密碼,賦能6000+門店破局增長

數字化浪潮奔涌而來&#xff0c;棋牌室、臺球廳、親子樂園等線下綜合業態面臨經營轉型的關鍵節點。小程序與美團核銷功能的深度耦合&#xff0c;正成為撬動私域流量的核心杠桿&#xff0c;為超6000家門店打通了一條低成本、高轉化的經營快車道。過往經營模式中&#xff0c;線上…