從深度學習的角度看自動駕駛

從深度學習的角度看自動駕駛

A Survey of Autonomous Driving from a Deep Learning Perspective
我們探討了深度學習在自主駕駛中的關鍵模塊,例如感知,預測,規劃以及控制。我們研究了自主系統的體系結構,分析了如何從模塊化,基于管道的框架到綜合端到端模型組織的知識和信息。通過詳盡地概述自動駕駛的進步領域并橋接各個研究領域,我們的調查旨在將各種研究線程綜合為統一的敘述。

一、引言

盡管在安全性、軌跡規劃以及視覺與感知數據處理等方面已取得顯著進展,但仍面臨諸多嚴峻障礙,包括:維持最高的安全標準,對突發道路情況進行實時響應,以及在不斷變化的天氣條件下確保系統始終如一的性能表現。本綜述全面探討了多種先進深度學習技術對自動駕駛的影響,重點介紹了當前最先進的方法,并強調了人工智能與先進神經網絡在其中所扮演的關鍵角色。這些算法和模型在多個自動駕駛應用場景中被系統地評估,包括場景理解、車輛定位、路徑規劃和決策過程等,分析了它們的能力、優勢與局限性。此外,文章還深入討論了將深度學習應用于實際場景中所面臨的各種挑戰。
在這里插入圖片描述

本綜述的研究分支及相關方法如圖2所示。自動駕駛過程被劃分為四個階段:(1)環境感知,(2)目標定位與建圖,(3)決策制定,以及(4)深度學習中的效率考量。接下來的各章節將對這些階段進行深入探討。第3節詳細介紹了感知算法及其應用;第4節聚焦于定位與建圖技術;第5節探討了支持決策制定過程的方法論;第6節則討論了與計算效率、內存與存儲解決方案相關的問題;最后,第7節總結了當前仍存在的挑戰以及未來的潛在發展方向。

二、自主駕駛系統的概述

自動駕駛汽車作為未來交通的象征,依賴于復雜的傳感器系統、控制系統 和最前沿的算法在環境中自主導航。然而,深入了解這些車輛的具體能力至關重要。2014 年,國際自動機工程師學會(SAE)發布了 J3016 標準,這是目前關鍵的自動駕駛分級體系。該標準提供了一套全球通用的術語,用于解釋不同層級的自動化水平,從而消除混淆并促進快速發展的自動駕駛領域內部的一致性。

目前,業界主要處于 L2(第二級)自動駕駛階段,向 L5(第五級)推進則面臨著極為復雜的挑戰,不僅涉及技術層面的難題,還包括倫理問題、高昂的成本、自動化等級定義模糊,以及公眾對自動駕駛系統的接受度與認知問題。現代計算方法,尤其是深度學習 ,在自動駕駛產業中扮演著至關重要的角色。這些方法顯著提升了系統對環境的理解能力、對未來事件的預測能力以及基于預測的決策能力。然而,深度學習算法通常被視為“黑箱”,這使得自動駕駛在面對突發變化或環境擾動時容易出現不穩定。因此,提升深度學習系統的可靠性與安全性是當前研究的關鍵課題。與此同時,業界也面臨傳感器質量提升、以及基于云系統構建穩定車與車(V2V)通信的挑戰。這些問題可能會拖慢關鍵功能的實現速度,并需通過復雜且緊迫的解決方案加以應對 [37]。

在這里插入圖片描述

因此,邁向高階自動駕駛的過程(如圖3所示)不僅僅是技術能力的比拼,更需要全方位的保障,確保其在真實世界中的安全性、可靠性和實用性。隨著自動駕駛技術的持續進步,深度學習方法正越來越多地用于管理更高自動化等級下的復雜任務。不過,要實現更高等級的自動駕駛,特別是 L4 和 L5,僅靠算法突破是遠遠不夠的。實現完全自主駕駛的成功過渡,還需要一個集成式的系統架構,涵蓋模型性能、先進硬件、強大的數據處理能力以及嚴格的安全標準。這樣的全面框架對于真正釋放自動駕駛技術的潛力至關重要。克服這些挑戰將標志著自動駕駛從新興技術邁入商業可行的成熟產業的關鍵一步。


自動駕駛模塊劃分方式對比

? 一、系統工程視角劃分(更宏觀)

  1. Perception and Detection(感知與檢測)

    • 處理傳感器數據(攝像頭、雷達、激光雷達等)
    • 完成目標檢測、語義分割、多傳感器融合等
    • 識別車輛、行人、障礙物、交通標志等周圍環境信息
  2. Localization and Mapping(定位與建圖)

    • 精確定位:GNSS + IMU + 視覺/LiDAR融合
    • 構建和維護高精地圖(HD Map)
    • 提供車輛在環境中的精準位姿參考
  3. Decision-making and Control(決策與控制)

    • 高層決策:換道、停車、避障等策略選擇
    • 路徑規劃與軌跡生成
    • 控制執行層(如油門、制動、轉向控制)

📌 特點:強調系統級功能模塊,適合描述自動駕駛全棧架構,這種劃分將預測、行為決策、路徑規劃、控制等都歸入了最后一類,聚焦的是功能鏈條的主流程,常見于機器人學、系統設計文獻。


? 二、算法實現視角劃分(更細致)

  1. 感知(Perception)

    • 處理攝像頭、雷達等傳感器原始數據
    • 輸出靜態和動態障礙物檢測、語義分割結果
  2. 預測(Prediction)

    • 預測其他交通參與者(車輛、行人等)未來幾秒的運動軌跡
    • 用于判斷潛在沖突,輔助規劃決策
  3. 規劃(Planning)

    • 路徑規劃:決定行駛路線
    • 軌跡規劃:生成具體的可行駛軌跡,滿足舒適、安全、規控要求
  4. 控制(Control)

    • 低延遲地將規劃軌跡轉化為車輛控制命令
    • 精確控制轉向、加減速、跟車等行為

📌 特點:貼近研發與工程實現,適用于模型開發與算法模塊設計。這種方式體現了數據處理從感知到執行的詳細流程,適用于算法設計、模塊工程實現層面。


三、感知

(一)感知和檢測算法

目標檢測對自動駕駛車輛的安全至關重要,因為它能確保對車輛和障礙物的準確識別,尤其在惡劣天氣條件下更為重要。這一過程采用了多種技術,如視頻幀分析、航空圖像以及多模態傳感。深度學習極大推動了目標檢測的發展,通過實現層次化特征提取,能夠處理二維和三維表示,從而克服傳統方法中的許多挑戰。然而,目標檢測系統的性能在很大程度上依賴于特定的操作設計域(ODDs),包括城市環境、高速公路、天氣狀況以及速度限制等。這些 ODDs 帶來了獨特的挑戰,例如惡劣天氣可能會影響傳感器的可見性,進而降低模型性能。因此,有必要開發能夠適應多種環境條件的深度學習模型,以保障安全標準。

為應對這些挑戰,近期研究提出了一種結構化方法,用于定義和優化自動駕駛系統的 ODDs。一項研究引入了一個架構框架,通過建立可量化的環境模型來提升 ODD 表現 [53]。該框架利用任務場景來引導 ODD 的適應與驗證,從而增強自動駕駛系統的穩健性。此方法采用基于學習的智能體實現,強調了自動駕駛系統迭代開發的可行性,并指出持續監控 ODD 以確保在多樣駕駛條件下的穩定性能至關重要。另一項綜述也指出,當前 ODDs 仍處于發展初期,缺乏統一框架 [54],因此需進一步研究以彌補空白,并提升自動駕駛系統的安全性與效率。

在目標檢測領域,早期模型如 ResNet-50、Faster R-CNN 和 YOLO 對于提升檢測效率和增強網絡泛化能力發揮了重要作用。這些模型通常通過 Flask、Layui 等框架實現,支持實時目標檢測與計數。對這些 CNN 網絡的一個關鍵要求,是其必須能輸出可靠的不確定性估計,這對保障機器人和自動系統的安全運行至關重要。這包括對標簽和邊界框尺寸的不確定性進行準確量化,從而實現更可靠的操作。

盡管如此,目標檢測系統仍面臨諸多挑戰,包括目標外觀多變、環境復雜度高、以及實時處理的限制,這些都可能引發安全風險。在自動駕駛中,在惡劣天氣下實現穩健感知尤其關鍵。雨、雪、霧、強烈陽光等天氣狀況對激光雷達(LiDAR)、毫米波雷達和攝像頭等核心傳感器構成重大挑戰。這些條件會影響目標檢測、定位與導航等關鍵任務,因此需開發出在復雜環境下依然可靠的感知模型。此外,新興技術如調頻連續波激光雷達(FMCW LiDAR)、高動態范圍相機(HDR Camera)以及高光譜成像技術,預計將進一步提升極端條件下的檢測能力。但這些技術各自也面臨獨特挑戰,需要持續的研究與開發。例如,波長為 1,550 納米的激光雷達在某些光照條件下性能欠佳且成本高昂,這進一步突顯了該領域對技術持續進步的迫切需求。

多種視覺Transformer(ViT)技術已被證明在目標檢測及其他自動化系統應用中極具潛力。例如,DETR(Detection Transformer)將目標檢測視為一個直接的集合預測問題,通過移除傳統的非極大值抑制和錨框生成組件,簡化了檢測流程。它的核心創新包括基于集合的全局損失(通過二分匹配確保預測結果唯一)和Transformer的編碼器-解碼器架構。DETR使用固定的目標查詢集合,以并行方式捕捉目標間的關系和圖像上下文,從而生成最終預測結果。例如,有研究提出了適用于自動駕駛的交通標志檢測-DETR模型,該模型輕量、準確,能夠應對交通標志尺寸小、背景復雜的挑戰。該模型通過多尺度模塊強化特征提取、優化小目標檢測,并通過高效多尺度注意力機制優化通道加權,在清華-騰訊100K數據集上達到了96.8%的平均精度,在中國交通標志檢測基準上達到99.4%,模型參數量減少了906萬,顯著提升了準確性并保持了實時性能。

Swin Transformer是一種分窗處理圖像的Transformer架構,其分層ViT框架可高效處理高分辨率輸入。它與傳統Transformer不同,將圖像劃分為不重疊的窗口,并在每個窗口內執行自注意力機制,實現局部與全局特征提取。在自動駕駛中,Swin Transformer的窗口機制能夠降低計算成本,同時捕捉細致的空間信息,非常適用于目標檢測和語義分割等任務。其靈活性和高效性使其特別適用于動態駕駛環境中的實時高分辨率數據處理。例如,Swin Transformer已被應用于車輛檢測,尤其適用于發展中地區常見的無序交通條件。為應對傳統CNN和視覺Transformer在多尺度特征提取和復雜交通環境下面臨的挑戰,有研究提出了基于Swin Transformer的車輛檢測框架。該框架利用其分層特征圖與雙向特征金字塔網絡(BIFPN)增強多尺度特征提取,并結合全連接檢測頭,在多種真實交通場景中表現出優于現有模型的準確率。

SAM(Segment Anything Model)是基于ViT主干構建的強大模型,能夠通過點、框或文本等最小提示,實現對圖像中任意物體的識別與分割。其具備廣泛的泛化能力,適用于包括計算機視覺、醫學圖像、自動駕駛等多個領域。近期有研究評估了SAM在自動駕駛語義分割中的對抗魯棒性,表明其海量參數和大規模訓練數據極大提升了對抗攻擊下的穩健性。隨后推出的SAM-2是一種面向圖像與視頻的視覺分割基礎模型,采用簡化的Transformer架構和數據引擎,支持實時視頻處理并能通過用戶交互持續優化。SAM-2實現了迄今最大的視頻分割數據集,在視頻分割中以三分之一的交互次數獲得更高精度,圖像分割速度為原SAM的六倍。該模型及其數據、代碼和演示的發布標志著視頻分割與感知任務的重要突破,展現了其在安全自動駕駛和通用人工智能系統構建中的潛力。

3D目標表示對于安全導航至關重要,它提供了深度信息,使系統能夠判斷物體的距離和位置。然而,3D檢測面臨目標任意朝向的挑戰,這是傳統檢測器難以處理的。CenterPoint通過深度學習檢測和追蹤3D目標,首先使用關鍵點檢測器定位目標中心,然后估計其尺寸、朝向與速度,并通過點特征進一步精化這些屬性。在nuScenes基準測試中,CenterPoint表現優異,在Waymo Open Dataset中也位列激光雷達-only方案首位。多傳感器融合能夠進一步增強預測精度,Transformer技術在建模不同坐標系下傳感器之間的交互中發揮重要作用。一項研究提出了時間-通道Transformer,其編碼器處理多幀的時間-通道數據,解碼器則在當前幀中采用體素級方法專注于空間細節,從而提升視頻序列中使用激光雷達進行目標檢測的準確性。

在這里插入圖片描述

多攝像頭目標檢測等3D視覺感知任務是實現自動駕駛導航和決策的核心,其關鍵在于鳥瞰圖(BEV)表示,它能提供完整的空間視角。BEVFormer通過時空Transformer學習統一的BEV表示,支持多種感知任務。該模型通過網格化BEV查詢整合時空數據,空間交叉注意力提取不同攝像頭視角的相關特征,時間自注意力則融合歷史BEV信息,在nuScenes測試集中取得了56.9%的NDS成績,超越以往模型9個百分點,表現可與激光雷達系統相媲美。BEVFormer v2進一步引入透視監督,優化BEV檢測器,與現代圖像主干更兼容。Fast-BEV專注于在車端運行效率,通過輕量級視角變換、多尺度圖像編碼和高效BEV編碼器,在nuScenes驗證集上實現了52.6FPS的速度和47.3%的NDS。SparseBEV則采用稀疏策略,通過查詢驅動的尺度自適應注意力機制、時空采樣與動態特征混合,在nuScenes測試集上實現67.5的NDS,并在驗證集上實現23.5FPS,展現了高準確性與實時性能的良好平衡。

BEVFusion在BEV表示基礎上,提出了多任務、多傳感器融合框架,整合攝像頭與激光雷達信息,同時保留幾何與語義信息,顯著提升感知任務性能。該框架優化BEV池化機制,延遲降低40倍,在nuScenes基準測試中,3D目標檢測精度提升1.3%,BEV地圖分割IoU提升13.6%,計算成本降低1.9倍,為多傳感器感知提供了高效、實用的解決方案,并公開了代碼供研究社區使用。

激光雷達-攝像頭融合也成為多傳感器融合研究的熱點。例如,DeepFusion方法將深度激光雷達特征而非原始點云與圖像融合,通過InverseAug和LearnableAlign實現精確對齊與動態注意力機制,達成領先性能。TransFusion則在圖像質量受損的條件下,通過軟關聯機制替代傳統標定,使用Transformer檢測頭自適應融合圖像與激光雷達信息,在大數據集上取得優異成績并在nuScenes 3D追蹤挑戰中排名第一。還有研究提出融合Transformer的雙特征交互模塊,采用不確定性驅動的IoU度量提升了魯棒性,在KITTI數據集上顯著增強了3D目標檢測與BEV感知能力,特別是在挑戰性場景下。

除了感知融合,研究也在探索端到端感知系統的全面方案。這類方法不僅整合多傳感器數據,還直接從原始輸入學習完整感知流程,有助于簡化系統流程、提升整體效率與準確性。例如,ST-P3是一種基于視覺的端到端自動駕駛模型,結合時空特征學習與自車坐標對齊積累機制,并通過雙路徑建模捕捉過去運動變化,從而同步優化感知、預測與規劃。

為提升惡劣天氣下的感知性能,另一研究提出了三種策略:使用真實惡劣天氣圖像訓練、利用解析方法、GAN與風格遷移合成數據進行增強、將目標檢測與圖像去噪聯合優化。這些方法在BDD100K和未見樣本上均展現良好效果,強調了真實多樣數據的重要性。

進一步地,多模態策略融合提出了一種結合多傳感器決策策略的方法,不只是對齊特征,而是利用強化學習從各傳感器的決策中選取最優動作,從而增強系統在傳感器失效時的可靠性。

GenAD則將自動駕駛轉化為生成建模問題,使用變分自編碼器與時序模型聯合建模自車與環境之間的交互,統一實現運動預測與規劃,提出了一種更高效的一體化端到端方法。

目標檢測作為計算機視覺中的核心任務,在安全監控與自動駕駛等應用中至關重要。然而,在復雜多變的現實環境下,目標檢測面臨諸多挑戰,如光照變化、遮擋、視角改變等。不同尺度的目標會由于距離不同而呈現不同大小,進一步加大檢測難度。同時,實時檢測對計算效率要求極高,這對資源密集型的算法提出嚴苛挑戰。

研究正不斷優化卷積神經網絡(CNN)架構,力圖在加深網絡的同時保持計算效率,從而提升特征提取能力。此外,遷移學習和小樣本學習等新型訓練策略也在發展,使模型能通過少量樣本快速適應新類別,增強系統泛化能力。

將目標檢測與語義分割、深度估計等任務結合,有望實現更強的環境理解能力。為滿足實時應用需求,需開發專用硬件與優化軟件,如圖像加速芯片與輕量算法。此外,邊緣計算的引入可將數據處理近源進行,降低延遲,特別適用于自動駕駛等對實時反應要求極高的場景,有望顯著提升檢測系統的響應速度與整體效率。

(二)語義分割和占據網格算法

語義分割在自動駕駛中發揮著關鍵作用,使車輛能夠理解并與其視覺環境進行交互。這一過程將圖像劃分為代表現實世界中不同物體的多個區域,對于導航、障礙物規避等任務至關重要。深度學習通過其自動從大規模數據中學習復雜特征的能力,徹底改變了語義分割的發展方向,無需手工設計特征。

在自動駕駛場景中,根據安全重要性區分物體類別尤為關鍵。有研究提出了一種分層重要性感知損失機制(IAL),在訓練過程中根據各類別對駕駛安全的影響,策略性地為其分配不同的權重。該方法提升了對關鍵目標的檢測精度,優于傳統的語義分割方法,同時具有良好的靈活性,可集成到現有算法中,適用于需要類別優先級的各類場景。

多項研究回顧了深度學習在圖像分割中的代表性架構,如FCN、Mask R-CNN、U-Net、SegNet、DeepLab等,提供了數據集與評估指標的詳盡概述,為從事圖像分割研究的人士提供了寶貴參考。

ResUnet結合了殘差學習與U-Net結構的優勢,通過在編碼器和解碼器路徑中引入跳躍連接,促進信息高效流通,提升了訓練效率。與U-Net相比,ResUnet在參數更少的情況下表現更優。另一研究使用語義分割網絡從雷達數據中分類靜態基礎設施,結果顯示SegNet優于FCN和U-Net,說明該方法在不依賴傳統聚類的情況下能有效提升性能,也反映出建立標準雷達數據集的迫切性。

還有研究探索了膠囊網絡在新西蘭奧克蘭交通數據集上的應用。該模型利用姿態與空間關系的矩陣表示來提升場景理解,在交并比指標上超過了U-Net和SegNet,展現了其在提高自動駕駛安全性方面的潛力。

另一項重要進展是結合視覺與觸覺信息的道路識別系統,該系統將道路圖像與嵌入輪胎的壓電傳感器的觸覺數據融合,構建了一個多模態分割網絡。該網絡基于CNN與Transformer架構,由SE-CNN提取并加權重要特征,通過融合Transformer編碼器完成特征整合。在四種不同路面環境下進行實地測試后,該系統在道路識別任務中達到了99.48%的準確率,表現出極高的魯棒性和實用價值。

Transformer架構,特別是視覺Transformer(ViT),在語義分割中展現了強大能力。已有研究將預訓練ViT應用于激光雷達的3D語義分割中,采用投影方式將點云映射為圖像數據。盡管數據域存在巨大差異,ViT在未修改架構的前提下也能適應,通過自定義的分詞器和預處理方法結合簡單的卷積解碼器,實現了在激光雷達分割中的可競爭性能。未來可以通過靈活調整分塊大小或直接處理3D數據進一步提升效果。
在這里插入圖片描述

語義占據預測是語義分割的擴展形式,近年來在自動駕駛中受到越來越多關注。它不僅為場景中各區域(如道路、人行道、車輛)賦予語義標簽,還判斷這些區域是否被占用。相較于傳統語義分割提供的靜態場景視圖,語義占據預測能增強自動駕駛中的空間感知與動態決策能力。

例如,TPV(三視角)模型提出了一種僅基于RGB圖像的3D語義占據預測方法。它通過結合三個正交視角提供更豐富的三維場景表示。TPVFormer編碼器基于Transformer架構,將圖像特征投影至增強的三維空間,分別在每個平面上聚合特征,實現全面的空間理解。在稀疏激光雷達數據的輔助下,該方法實現了與激光雷達基方法相媲美的準確性,能夠精確捕捉遠近物體的位置與大小。

另一研究提出SurroundOcc模型,利用多攝像頭圖像實現全面的3D占據預測。與傳統3D檢測方法不同,SurroundOcc能識別任意形狀和類別的物體占據情況。該方法為每張圖像提取多尺度特征,利用二維至三維的空間注意力機制將其投影到三維空間,并通過3D卷積逐步上采樣生成占據圖。為避免依賴大量手工標注,該研究還設計了基于多幀激光雷達融合與泊松重建的密集標簽生成流程,在nuScenes與SemanticKITTI數據集上均取得良好表現。

在此基礎上,進一步研究開發了用于3D占據預測的高級標簽生成流程,包括體素稠密化、遮擋建模以及圖像引導的體素精化,建立了兩個新基準數據集 Occ3D-Waymo 與 Occ3D-nuScenes。配套的粗到細占據預測網絡在多個任務上實現了新SOTA成績,展示了其在自動駕駛感知中的有效性。

最近,OccWorld框架通過建模3D占據空間而非傳統3D邊界框,實現了對自動駕駛場景動態演化的模擬。它不僅預測自車軌跡,也預測環境中其他元素的變化。該方法的三大優勢包括:表達力強(能捕捉細節結構)、效率高(可從稀疏激光雷達經濟獲得)、通用性強(可適應視覺與激光雷達輸入)。OccWorld采用重建型分詞器將3D占據空間轉化為離散場景token,并利用類GPT的時空生成式Transformer預測未來場景變化與車輛行為軌跡。在nuScenes數據集上的實驗結果表明,該方法在無需實例或地圖監督的前提下,表現出了極強的場景建模能力與規劃效果。

語義分割是計算機視覺的核心任務,旨在為圖像中每個像素分配具體類別。但在實際應用中,受限于場景多樣性與復雜性,目標形狀多樣、大小不一且可能發生遮擋,精確的像素級分類仍具挑戰性。此外,光照、天氣變化及物體部分可見性等因素也會影響分割精度,圖像細節的處理對計算資源提出更高要求,限制了其實時應用能力。

深度學習的發展,尤其是高效CNN架構的設計,有助于提升語義分割精度。將語義分割與目標檢測、深度估計等任務集成,可增強對復雜場景的理解能力。遷移學習與領域自適應技術也可緩解數據匱乏問題,減少標注需求,通過在一個數據集上訓練得到的模型遷移至新環境。

例如,SePiCo(一種語義引導的像素對比框架)專為領域自適應語義分割設計,解決偽標簽噪聲與跨域語義差異問題。通過引入質心感知與分布感知的像素對比機制,SePiCo促進了類別判別性強且均衡的像素表示,提升了模型的魯棒性與泛化能力。其擴展版本還成功應用于天氣自適應目標檢測任務,在多個場景下取得了與專用檢測算法相當的效果。

此外,利用生成對抗網絡(GAN)創建增強與合成數據集,有助于提升分割模型在多樣化現實條件下的魯棒性與泛化能力。同時,模型壓縮、高效網絡結構設計與硬件優化等研究方向,也有望降低計算資源需求,推動語義分割技術在實時自動駕駛等高時效性場景中的實際部署。

(三)車道線檢測算法

車道線檢測在自動駕駛中至關重要,它使車輛能夠識別和跟蹤車道標記,從而實現準確導航,提升行駛安全與效率。深度學習,尤其是卷積神經網絡(CNN),極大地推動了車道檢測的發展。這些網絡擅長識別圖像中的復雜模式,并能適應多變的光照和天氣條件,這是傳統計算機視覺方法難以處理的。此外,深度學習還引入了循環神經網絡(RNN),能夠建模視頻幀之間的時間依賴性,從而提升動態場景下的車道檢測精度。近年來,越來越多研究將語義分割與先進的深度學習模型結合,以增強車道檢測系統在各種駕駛條件下的魯棒性和可靠性。
在這里插入圖片描述

在車道檢測領域,深度學習推動了多個關鍵進展。一項方法CNN-LD基于CNN進行車道線檢測與追蹤,專注于邊緣特征提取,并采用獨特的歸一化過程來優化結果。另一項研究提出了一種端到端的車道檢測系統,采用實例分割技術處理多車道線與車道變換問題,并引入自適應透視變換來應對地面坡度的變化,擺脫傳統鳥瞰圖(BEV)方法的限制。

針對惡劣天氣條件,一項研究使用YOLOv5深度學習算法進行雨天車道線檢測。YOLOv5因其高檢測精度和快速推理速度而被選用,能識別并分類不同類型的車道線(如單實線、虛線、虛實線),在復雜環境中仍表現出較強魯棒性。類似地,另一研究提出了輕量級CNN模型,旨在在保證高檢測精度的同時實現低執行時間。該模型在NVIDIA DGX V100超算上訓練,并通過超參數調優以獲得最佳F1分數與最短運行時間,驗證了輕量模型在實際智能駕駛系統中的實用性與可部署性。

在解決特定環境下的二維車道檢測問題基礎上,近年來的研究也拓展到了三維車道檢測與遠距離車道分割。例如,3DLaneNet提出了一個端到端的三維車道檢測方案,能夠適應多種駕駛情境,盡管在城市交叉口仍存在挑戰。其雙通道結構為提升三維檢測能力提供了新思路。

Att-GenLaneNet采用兩階段網絡結構,結合Enet語義分割網絡與加權交叉熵損失函數,專為遠距離車道檢測設計,在復雜交通場景中展現出良好的三維預測效果,具備較強的通用性與適應能力。

為提升CNN模型的表示學習能力,有研究提出了簡潔注意力蒸餾(SAD)方法。該方法在多個模型和基準測試中均帶來顯著性能提升,尤其對細粒度注意力需求強的任務表現突出。另一項研究將膨脹卷積-VGG(DC-VGG)結構與SAD機制結合,用于優化編碼器-解碼器網絡架構,在不引入復雜后處理的前提下,實現了檢測速度翻倍和精度提升。

還有研究引入了IBN-Net結構,在編碼器階段融合實例歸一化與批歸一化,并加入注意力層,以提升檢測精度。針對擁堵路段與極端光照條件,一項研究設計了擴展自注意力(ESA)模塊,該模塊能夠結合車道幾何結構,在垂直與水平方向上預測車道置信度,具備推理遮擋區域的能力,尤其適用于加入到編碼器-解碼器網絡中。

另一研究提出了基于Transformer的輕量級模型,專為車道相關風險感知場景設計。該模型結合深度可分離卷積與Transformer模塊,有效提取軌跡序列中的語義信息,用于理解車道動態。配合深度強化學習框架,該系統可在變道過程中識別最小風險策略,在三個真實變道場景中展現出良好的安全性與精度。

車道檢測不僅有助于車輛保持在指定車道內,也是提升道路安全的重要保障。然而,真實世界駕駛環境的復雜性為該任務帶來了諸多挑戰。例如,在雨、霧等惡劣天氣下,或在夜間、弱光等條件下準確檢測車道線具有較高難度。此外,車道線磨損、被遮擋、陰影干擾、反光等情況也會影響檢測精度。不同地區的車道線在顏色、寬度、類型等方面的多樣性進一步增加了算法的適應難度。再加上道路環境的動態變化,如附近車輛遮擋車道線,使得實時檢測變得更加困難。

有前景的研究方向包括:開發更先進的圖像處理算法以增強車道線可見性,利用深度學習,尤其是CNN提升車道信息的解析能力。將車道檢測系統與雷達、激光雷達等其他傳感器融合,有助于彌補視覺感知的局限,增強系統的魯棒性。

此外,開發具備自適應能力的算法,能夠學習并適應持續變化的道路環境,對于提高車道檢測技術的全球適用性至關重要。例如,能根據交通流變化和駕駛行為預測車道變換的機器學習模型,有望增強自動駕駛系統的預判能力,實現更平穩、更安全的導航。

盡管目前仍存在諸多挑戰,但隨著機器學習、傳感器技術與算法優化的不斷進步,車道檢測將逐步突破技術瓶頸,為自動駕駛系統帶來革命性的提升

(四)行人識別算法

識別行人對于自動駕駛車輛的安全至關重要,不僅能保護乘客,也能保障行人的安全。深度學習的引入顯著提升了在各種環境中行人檢測的精度和速度,這一進步主要得益于卷積神經網絡(CNN),它能直接分析視覺數據,優于傳統圖像處理方法。現代深度學習模型,如 YOLO 和 SSD,也大幅縮短了響應時間,這對于快速變化的駕駛環境尤為關鍵。目前的研究正不斷推進,通過融合多種傳感器輸入和不斷演化的神經網絡結構,提升行人識別系統在各種情況下的可靠性。

近年來,基于深度學習的行人識別技術取得了顯著進展,例如 Faster R-CNN、SSD 和 YOLO。在一項研究中,Mask R-CNN 被改進以提升對汽車、公交車和行人的檢測與分割能力,應用于防碰撞預警系統。該方法引入了 ResNet-86 作為主干網絡,并設計了側向融合特征金字塔網絡(SF-FPN)用于特征提取,在速度和準確率方面均優于原始的 Mask R-CNN。

另一項研究對 YOLO、YOLO-Tiny 和 YOLO-SPP 三種架構進行了比較。YOLO 和 YOLO-SPP 擁有較高的召回率和置信度,但其計算開銷較大。而 YOLO-Tiny 雖然在召回率和置信度上略有遜色,卻因網絡結構更輕量而在實時處理能力上表現出色。

RSA-YOLO 是一種為應對圖像縱橫比變化對行人檢測影響而設計的方法。通過引入縱橫比信息,RSA-YOLO 在標準行人數據集上表現出更優的檢測效果,尤其在圖像縱橫比差異較大的場景中尤為突出。

為解決低照度條件下的行人檢測問題,CCIFNet(跨模態互補信息融合網絡)結合了可見光與熱成像數據,充分利用兩者的互補特性。該網絡引入跨模態融合機制,能夠捕捉遠距離交互并精確保留位置信息,同時維持空間關系的完整性。此外,照度感知權重生成模塊可根據光照條件自適應調整兩種模態的貢獻比例,特征對齊模塊則緩解了輸入圖像弱配準帶來的位置偏移問題。在 KAIST、CVC-14、FLIR 和 LLVIP 等多個數據集上的評估結果表明,CCIFNet 在不同光照條件下都表現出色,具備在實時應用中實現速度與精度平衡的能力。

另一種基于 SSD 的方法旨在應對密集場景下行人重疊問題。該方法創新性地引入水平密集的默認框,并將傳統卷積核替換為 5×1 卷積核,在處理遮擋或大面積重疊行人時效果顯著。

為應對自動導航中的動態問題,一項研究聚焦于移動機器人在擁擠區域中導航時的時空狀態編碼。研究中提出了空間-時間 Transformer(ST2),用于編碼狀態并結合深度強化學習(DRL)制定最優導航策略。ST2 包含全局空間狀態編碼器與時間狀態編碼器,分別負責捕捉行人與機器人之間的交互關系,以及跨時間的空間動態變化。通過基于價值的強化學習,ST2 能優化導航決策。

行人識別是先進駕駛輔助系統(ADAS)的核心組成部分,在多樣化環境下準確檢測行人對道路安全具有關鍵意義。然而,該任務面臨諸多挑戰,包括在復雜環境中檢測被遮擋的行人、應對多樣化的光照與天氣條件、以及識別穿著各異的行人。盡管 CNN 是眾多檢測系統的基礎,但獲取涵蓋現實世界各種情況的訓練數據仍面臨資源消耗大、難度高的問題。

提升對小目標或部分遮擋人形的識別能力,是當前研究的重點方向之一。提升圖像分辨率、開發更能從背景中分辨出行人的算法,是提升性能的關鍵。多尺度檢測(對不同分辨率圖像進行分析)以及上下文感知系統(預測特定場景中行人的典型行為模式)等技術正被用于提高系統的可靠性。

多模態傳感器融合,如將攝像頭的視覺數據與雷達或激光雷達數據結合,有助于增強行人檢測能力。這種融合能提供更全面的信息,特別是在霧霾或大雨等可見性差的條件下,彌補單一傳感器的局限性。

此外,該領域也正朝著動態學習系統方向發展,使模型能夠在無需大量重訓練的情況下適應新環境。增量學習與在線學習方法使系統可在運行中不斷更新模型,逐步優化行人識別性能。綜上所述,行人識別的復雜性要求將機器學習、傳感器技術和數據處理等多個前沿技術整合,構建能夠在真實駕駛環境中穩定運行的高可靠性系統。

四、定位與構圖

定位與建圖是自動駕駛車輛理解周圍環境的基礎組成部分。傳統方法通常依賴于顯式算法和人工設計的特征。然而,深度學習的引入徹底改變了這一領域,在精度和魯棒性方面實現了顯著提升。深度學習采用數據驅動的方法進行地圖的生成與更新,從而實現車輛在地圖中的精確定位。
在這里插入圖片描述

(一)視覺定位算法

視覺定位對自動駕駛至關重要,它為導航和避障提供了精確的位置信息。本節探討了深度學習在提升視覺定位技術方面的進展,重點介紹了專門設計的神經網絡架構如何處理和分析序列圖像數據,從而實現高精度的車輛定位。近年來的研究(詳見下表 )對這一技術進行了深入分析與討論。深度學習使系統能夠學習并適應復雜環境,顯著超越了傳統 GPS 方法的局限性,特別是在城市高樓密集區域或衛星信號受限的地區。通過利用深度學習的優勢,這一集成方式提升了自動系統在動態變化環境中的魯棒性和精度,增強了其實時決策能力和環境交互能力。
在這里插入圖片描述

在自動系統中,追求準確、魯棒和高效的視覺定位始終是核心目標。深度學習的進步為克服傳統困難帶來了顯著突破。一項基于激光雷達的定位技術展示了從傳統手工算法到學習驅動方法的轉變。該方法在定位精度上可與已有先進系統媲美,并具備可產業化的水平,提出的“概率偏移體積”特征可提升多傳感器融合下的匹配置信度。

另一項研究提出了一種基于視覺驅動的定位方法,采用注意力機制進行關鍵點選擇,并通過端到端深度神經網絡提取特征,達到了厘米級的定位精度,與近期的激光雷達方法相比毫不遜色。這項技術不僅適用于自動駕駛車輛,還著眼于未來將車道感知與特征驅動方法相結合的潛力。

在圖像變換方面,有研究開發了一種方法,通過神經網絡預測傳統匹配器在圖像對上的性能,從而提升在復雜光照條件下的定位表現,延長了定位系統的使用周期。相關綜述指出,在長期定位任務中,分層方法優于結構化或圖像檢索方法。然而,夜間和植被豐富區域的定位仍是當前的技術挑戰,未來研究方向仍需進一步探索。另有研究提出了一種基于本質矩陣的框架,實現了無需依賴三維場景結構的靈活、輕量化視覺定位方案,并設計了一種適用于長周期地點識別與晝夜圖像檢索任務的全局圖像描述符。

預測交通參與者未來行為對于自動駕駛車輛的安全至關重要。傳統軌跡預測方法在面對密集目標候選時往往收斂緩慢或效率低下。為此,研究提出了運動 Transformer(MTR)框架,通過可學習的運動查詢對來優化全局意圖和局部動作的精度,利用空間意圖先驗提升訓練穩定性和預測準確性。在 Waymo 開放運動數據集上的大量測試表明,該模型在邊緣和聯合運動預測任務中都處于領先地位。

視覺定位在機器人和增強現實(AR)等領域也至關重要,它依賴視覺數據來精確確定設備的位置和姿態,是自動駕駛、無人機導航以及移動 AR 應用的基礎技術。然而,由于現實環境的復雜性和當前技術的局限,視覺定位仍面臨諸多挑戰。動態環境中頻繁變化的場景元素(如移動車輛、光照變化、季節更替)會影響基于地圖匹配的定位算法的魯棒性。此外,高分辨率圖像的實時處理對計算資源提出了較高要求,尤其是對于車載等計算能力受限的設備。

為應對這些挑戰,研究正集中于開發更具魯棒性的特征提取方法,并采用先進的機器學習模型,特別是深度學習模型。這些模型擅長從復雜環境中學習具有區分性的特征,能夠在環境變化下仍保持有效。通過在多樣化數據集上的訓練,可顯著增強模型的泛化能力,從而提升視覺定位系統的精度與穩定性。

此外,通過融合 GPS、慣性測量單元(IMU)、深度傳感器等多源數據的混合定位方法,可進一步提升系統在視覺受限環境下的定位可靠性。在算法效率方面,視覺定位的發展也包括實時處理的優化。例如,邊緣計算的應用使得數據處理更接近數據源,從而降低延遲,減輕中央服務器或云端系統的負載,這對自動駕駛或交互式 AR 等對響應時間要求較高的應用尤為重要。邊緣計算還提升了數據隱私和安全性,因為減少了數據在網絡中的傳輸。

最后,將語義信息融入定位系統中——即理解如建筑物、道路等場景對象之間的空間關系——也能夠提升定位系統在新環境或已改變環境下的適應性和精度,從而無需進行大量的重新建圖。

(二)傳感器融合定位算法

傳感器融合定位對自動駕駛至關重要,它提升了車輛定位系統的精度,是實現安全導航的基礎。本節回顧了深度學習在傳感器融合定位領域的發展,重點討論了深度學習模型,特別是神經網絡如何整合來自多個傳感器(如攝像頭、激光雷達、毫米波雷達和 GPS)的數據,從而構建出全面的實時環境地圖。這種多源信息融合不僅克服了單一傳感器在惡劣天氣或視野受限等條件下的局限性,還顯著提升了物體檢測與分類的準確性與魯棒性。在復雜駕駛場景中,這一技術不僅提高了定位精度,也增強了其可靠性。本節將深入探討深度學習在傳感器融合定位中的最新進展與仍待解決的挑戰。

整合傳感器與數據源是提升定位能力的關鍵。一項調研聚焦于射頻識別(RFID)技術,系統地歸類了基于 RFID 的解決方案,強調其在車輛定位、跟蹤和導航等任務中的多樣性與廣泛應用。另一項研究指出了高精度車輛定位在滿足高級駕駛輔助系統(ADAS)安全與性能標準中的關鍵作用,分析了傳統雷達與攝像頭系統的局限性,并提出了更適用于真實場景的新方法。

進一步的分析比較了在自適應蒙特卡洛定位(AMCL)框架中融合 GPS/IMU 和激光雷達數據的兩種方法,針對 GPS 多路徑干擾等問題,通過調整粒子權重以適應 GPS 協方差與雷達觀測值,提升了數據精度。還有研究設計了一種用于多車輛協同定位與追蹤的雙層架構,通過車輛之間的數據共享提高了整體追蹤精度。針對使用多個低位激光雷達傳感器的車輛,研究提出結合基于正態分布變換(NDT)的雷達定位與航跡推算的方法,在城市環境中實現了穩定精準的定位。

此外,一項雙階段方法引入了用于減震的預處理算法,以及融合最小二乘支持向量機非線性自回歸外部輸入模型(LS-SVM-NARX)與卡爾曼濾波的策略,以在 GPS 信號丟失時修正定位誤差,提供了魯棒的解決方案。

為了提升在惡劣天氣下的自動駕駛定位性能,最新研究結合了視覺與雷達傳感器數據,并引入基于注意力機制的學習方法,抵消各傳感器在復雜天氣條件下的性能缺陷。在雨、霧、雪、光照變化等多種情境中的測試表明該方法表現出色。此外,通過博弈論方法分析多模態傳感系統,能識別并應對獨立故障模式,從而提升系統的整體可靠性,推動自動駕駛朝著全天候安全運行的方向邁進。

未來技術發展有多個值得期待的方向。例如,將測距傳感器的信噪比納入 GRAMME 系統的遮罩模塊,可提供量化的傳感器置信度,從而提升整體系統可靠性;結合多普勒雷達測量結果有助于區分靜止與移動物體,提升環境理解的精度;將 GRAMME 擴展至更高層次的學習策略,如終身學習和持續學習,使得自動駕駛車輛能夠不斷自主協作優化其人工智能能力。這類進展有望推動適應性和進化型 AI 系統的發展,是實現更安全、更高效自動駕駛的關鍵。

傳感器融合在自動駕駛車輛與智能設備的感知系統中也具有重要作用。通過整合不同傳感器采集的數據,能夠構建出比任何單一傳感器更全面、準確的環境理解。然而,由于涉及的傳感器類型、分辨率、頻率和數據格式各異,這一過程非常復雜。為了確保來自不同數據流的信息能形成一致且可靠的輸入數據集,需借助精密的數據對齊與同步技術,這是依賴準確感知系統正常運行的基礎。

多傳感器數據的同步與對齊是傳感器融合面臨的主要挑戰。例如,在整合來自高分辨率攝像頭的圖像數據與低分辨率雷達或激光雷達數據時,需采用高級算法以協調它們之間的差異。此外,確保融合數據在面對傳感器故障或誤差時依然保持魯棒性也至關重要,因為即使是微小的故障也可能影響整體系統的準確性。

當前研究逐步轉向更先進的數據融合技術。深度學習在這一過程中發揮了核心作用,為多源數據的整合與理解提供了先進方法,并能通過與環境的交互不斷優化融合效果。此外,貝葉斯網絡與概率模型也被應用于評估各傳感器的不確定性,使得系統可根據當前可靠性動態調整不同傳感器數據的權重,從而優化決策過程。

另一方面,研究也在探索適應性融合算法,能夠根據環境條件或傳感器性能在實時中進行融合策略的調整,這在動態應用場景中尤為關鍵。為實現實時應用,對計算效率的優化也成為關注重點,研究者正在開發專用硬件與軟件優化方案,以降低計算負擔和功耗。盡管仍面臨諸多挑戰,但在計算方法、機器學習與硬件研發方面的持續進步正推動傳感器融合技術發揮其全部潛力,這些創新將顯著提升各類技術領域中感知系統的可靠性、精度與效率。

(三)三維建圖與重建算法

三維建圖與重建對于自動駕駛至關重要,因為它們在構建車輛用于導航和決策的詳細環境模型中發揮核心作用。本節探討了深度學習在三維建圖與重建中的最新進展(見表7),重點展示了深度卷積神經網絡(CNN)等技術如何處理來自激光雷達和立體攝像頭的大量數據,以生成高精度的三維地圖。這些深度學習方法具備出色的物體與障礙物檢測與分類能力,成功突破了傳統方法在空間和時間分辨率方面的限制。將深度學習融入三維重建的過程,能夠實時更新環境模型,是適應環境變化的關鍵。

近年來,深度學習與三維建圖重建的結合取得了顯著進展。一項研究強調了三維激光雷達定位在自動駕駛中的重要性。研究分析了采用三維激光雷達的系統,鑒于其在感知和定位中的高精度表現,已經成為主流趨勢。通過對 KITTI 里程計數據集的評估發現,盡管深度學習展現出巨大潛力,但三維特征提取與匹配方法在實際應用中仍因其可靠性而占據主導地位。

基于點云的學習正成為計算機視覺與機器人等領域的研究熱點。近期進展已在三維形狀識別、物體檢測與追蹤、點云分割等核心任務上取得顯著突破。例如,一種名為 “Retriever” 的方法聚焦于高效的三維點云壓縮,采用緊湊的特征表示和內存高效的感知器架構進行建模。另一項綜合性綜述系統地梳理了用于處理激光雷達點云的深度學習結構,涵蓋了分割、檢測、分類等方向,展現了當前該領域的發展態勢與技術趨勢。

ApolloScape 數據集以其任務種類豐富、復雜度高而廣受認可,包含詳細的三維點云、語義圖像標簽、車道線等元素。該數據集配套的標注系統提高了標簽效率,相關算法在定位和分割任務中表現良好。HDMapNet 則提出了一種從攝像頭圖像或激光雷達點云直接生成高精度語義地圖的新方法,為傳統地圖構建模式提供了替代方案。LiDARsim 將真實場景、物理建模與機器學習融合,生成逼真的激光雷達傳感器數據,為仿真訓練與測試提供了有力工具。此外,研究還提出了一種僅使用魚眼攝像頭進行實時高精度建圖的方法,在保持速度的同時保證了精度,為激光雷達提供了一種高效替代方案,適用于車載實時應用。

總的來說,深度學習驅動的三維建圖與重建技術正在快速發展,從基于激光雷達的技術到點云處理和多樣化的數據集,這些進展正對自動駕駛等領域產生深遠影響。

位置識別對于自動駕駛車輛至關重要,它支持回環檢測和全局定位。通過車載傳感器獲取的序列式三維激光雷達掃描數據,一項研究提出了基于 Transformer 的網絡 SeqOT,該網絡能高效利用激光雷達序列中的時間和空間信息。SeqOT 采用多尺度 Transformer 生成每個序列的全局特征描述符,并通過與地圖中存儲的描述符進行比對實現實時匹配。在四個不同激光雷達和環境下的公開數據集上測試表明,SeqOT 在效果與速度上均優于現有方法,其處理速度甚至快于激光雷達的幀率,適用于在線處理。

三維建圖與重建在多個領域具有基礎性作用,其核心是將二維數據轉換為三維空間模型。其中一項主要挑戰是處理與管理生成高精度三維模型所需的大規模數據集,這些數據通常體積龐大,對處理與存儲能力提出極高要求。在自動駕駛仿真或城市數字孿生等應用中,對模型的全面性與精細度要求極高,因此亟需開發更高效的計算算法,以在保證質量的前提下加快大數據處理速度。

另一個重大挑戰是處理不完整或含噪聲的數據,這可能因光照不足、遮擋或傳感器性能限制而產生,從而導致數據缺失或重建失真。先進的機器學習技術,尤其是深度學習,正被用于增強模型對缺失信息的補全能力與對原始輸入噪聲的抑制能力。

此外,融合多種傳感器(如激光雷達、攝像頭與毫米波雷達)采集的數據,對于提升三維模型的準確性與魯棒性至關重要。這種多源數據融合需精準同步與配準,才能生成可靠且細致的三維地圖。對實時三維建圖與重建系統的開發也越來越受到重視,尤其是在自動駕駛導航或增強現實界面等需要即時更新環境模型的場景下。這不僅需要更快的數據處理算法,也依賴更高效的硬件系統支撐。

此外,人工智能在自動化與優化三維建圖流程中的應用前景廣闊。AI 系統有望通過反饋機制和持續學習,不斷提升建圖精度與效率。加速開發更快、更精準且更具魯棒性的系統,將顯著推動數字世界與物理世界的深度融合。

(四)基于遷移學習的同時定位與建圖(SLAM)

同時定位與建圖(SLAM)對自動駕駛車輛至關重要,顯著提升了它們理解和穿越環境的能力。本節探討了將遷移學習與深度學習策略融合在 SLAM 應用中的作用(見表8),強調該技術通過將一個場景中的知識遷移至其他相似場景,從而加快模型的學習速度。這種能力在車輛需快速適應變化環境的場景下尤為寶貴。討論內容涵蓋了深度學習驅動的 SLAM 系統在應用遷移學習時所面臨的挑戰與前景,重點分析其在維持高精度與高可靠性的同時,快速適應新環境的潛力。

遷移學習在視覺 SLAM(vSLAM)技術中正發揮越來越重要的作用。vSLAM 是自動駕駛汽車和無人機實現視覺理解與環境導航的關鍵,使機器能夠“看見”并構建周圍環境的地圖。有研究提出了一種針對自動駕駛的集成框架,結合了遷移學習與卷積神經網絡(CNN),用于識別具備旋轉不變性的特征,即使物體發生旋轉也能保持穩定。該系統在運動處理中采取雙重策略:對于簡單的直線運動使用 ORB 特征,對于旋轉運動則啟用 CNN 特征,并通過專注于靜態背景特征來減少誤差,借助三維點的深度信息更準確地確定車輛的位置。

另一項研究展示了一個完全基于深度學習組件構建的靈活 vSLAM 系統,引入了嵌入距離損失函數這一關鍵模塊以提升系統訓練效果。在 KITTI 數據集上,該系統表現出良好的泛化能力與誤差修正能力,例如通過圖優化實現回環檢測。

為了提升自動系統中的特征提取效率,一項研究提出在視覺里程計階段動態調整匹配閾值的方法,從而提升了設備的運動感知能力。該方法使系統可根據數據自動調整,無需對每個數據集進行復雜的微調。另一研究聚焦于單目攝像頭的深度估計,結合了 DenseNet 與 CNN,并借助遷移學習與編碼器-解碼器結構來提高深度估計效果。該模型在已有知識的基礎上進一步優化,通過結合快速旋轉不變描述子(ORB)與后端的顏色-深度聯合優化過程,增強了 RGB-D SLAM 的效果,盡管詳細重建仍存挑戰,但為單鏡頭攝像系統提供了較為完善的解決方案。
在這里插入圖片描述

此外,一項采用對抗性遷移學習(ATL)的方法提升了語義分割的性能,其網絡結構基于 ResNet,能在不同特征空間中實現無監督學習。同時,還有研究構建了一個適用于大規模動態戶外環境的先進語義 SLAM 系統。該系統是在 ORB-SLAM 的基礎上演進而來,融合了遷移學習技術,將幾何約束與語義特征結合,使其在復雜動態場景中的導航能力更為出色。系統還整合了 S2R-DepthNet 和特征點過濾機制,使其能關注關鍵細節,增強了整體魯棒性。

SLAM 技術在機器人與自動系統中起著核心作用,使設備無需依賴 GPS 即可完成未知環境中的建圖與定位,尤其適用于水下、室內或高樓林立等 GPS 信號不可靠的場景。然而,SLAM 在真實世界中也面臨許多挑戰,如動態環境中的移動物體或結構變化可能破壞 SLAM 流程;傳感器噪聲與測量不確定性也會干擾定位精度,特別是在復雜空間中更易出現錯誤。在技術層面,SLAM 算法需在實時條件下高效處理來自多個傳感器(如攝像頭、激光雷達或毫米波雷達)的數據,并持續更新地圖與位置信息,對計算資源和算法效率提出了極高要求。

當前,SLAM 研究日益聚焦于通過先進的機器學習技術提升其魯棒性與精度。例如,深度學習顯著優化了特征提取與數據關聯,增強了 SLAM 在復雜環境中的表現能力。此外,多模態 SLAM 系統的發展通過整合不同類型的傳感器來彌補單一傳感器的局限性,例如在低光條件下使用其他傳感器輔助視覺感知。語義 SLAM 的探索也日益受到關注,不僅完成地圖構建,還能識別并標注環境中的關鍵物體,有望提升自動系統與環境的交互能力,特別適用于家庭機器人或城市導航等場景。

為減輕 SLAM 的計算壓力,研究者還在不斷優化算法并提升硬件效率。盡管挑戰依舊存在,持續的研究與技術創新正逐步推動 SLAM 系統的發展邊界,拓展其在復雜動態環境中的實際應用能力。

五、決策與控制

當自動駕駛車輛在動態環境中行駛時,其做出安全且最優決策的能力至關重要。決策不僅僅是對感知信息的反應,更涵蓋了一系列任務:選擇合適的駕駛操作、預測其他交通參與者的行為、適應環境的變化等(見下圖)。借助復雜的神經網絡結構和強大的數據處理能力,深度學習已成為實現自動駕駛車輛高級認知功能不可或缺的工具。
在這里插入圖片描述

(一)深度強化學習決策算法

決策過程涉及復雜的系統,使車輛能夠實時感知、分析并響應周圍環境,從而實現安全高效的導航。本節探討了深度強化學習(DRL)在自動駕駛中的發展,強調了該技術如何通過與環境的試錯交互,使車輛學習最優行為。DRL結合了深度學習的感知能力與強化學習的目標導向算法,使系統能夠進行復雜的導航與駕駛決策。

深度強化學習已展現出在應對自動駕駛難題方面的巨大潛力。該技術可分為基于模型和無模型的方法,包括探索策略、逆強化學習和遷移強化學習等。例如,有研究提出了隨機潛變量行為者-評論家模型(SLAC),專為處理大規模圖像輸入設計。該方法通過序列化的隨機狀態空間模型,將表示學習與強化學習結合,提高了訓練效率,并有助于復雜任務的學習。此外,另一項研究利用深度強化學習框架開發了非線性控制器,將控制問題轉化為馬爾可夫決策過程,并通過PPO算法訓練神經網絡策略,快速掌握了急轉彎和避障等復雜駕駛動作。

在高層決策方面,一項研究評估了DeepSet-Q架構在如變道等決策任務中的表現,發現其在面對陌生或未標注場景時優于傳統CNN和注意力模型,并探討了其嵌入瓶頸與最大集合規模之間的關系,展示了其在處理動態不確定輸入方面的可擴展性和有效性。此外,“智能物聯網”(AIoT)概念也借助DRL實現傳感器自主感知與控制決策,為多種AIoT應用提供了通用框架。

通過將決策建模為強化學習問題,研究者利用DQN與PPO自主學習并優化駕駛策略。DQN近似狀態-動作值函數,引導最優動作選擇;PPO則通過優化策略函數提升決策性能。為了進一步提高戰術決策能力,另一方法將蒙特卡洛樹搜索與深度強化學習相結合,在多樣化高速公路場景中表現優于傳統規劃方法,并顯著減少了所需訓練樣本數。此外,有研究提出Fast-RDPG方法,用于提升大規模環境中無人機導航效率。該方法允許在回合結束前更新策略參數,從而提升了樣本利用率。

為了在復雜城市駕駛中應用無模型DRL,研究者提出了鳥瞰視角的環境表示,壓縮為低維狀態以提升樣本效率,并在高保真模擬器中利用DDQN、TD3和SAC等算法完成復雜環島場景導航。盡管初步效果良好,但在多樣化環境中的適應能力仍需提升。另一研究提出了啟發式規劃強化學習方法,在三車道高速場景中制定超車策略,引入Dyna-H算法,將改進的Q學習與啟發式規劃結合,實現了更快的收斂速度和更優的控制效果。

針對城市交通中的不確定性與復雜道路結構,一項研究提出了Scene-Rep Transformer。該方法將先進的場景表示與預測性分析相結合,用多階段編碼器捕捉車輛與環境間的動態交互,包括對周圍車輛意圖的預測,從而增強了情境感知。其順序潛變量Transformer通過自監督學習整合預測與實時場景,使用SAC算法實現了數據效率、任務表現、安全性和駕駛效果的全面提升。

雖然DRL因其能持續學習與適應復雜環境的能力而備受關注,但仍面臨重大挑戰,尤其是如何安全全面地訓練這些系統。其中一個關鍵問題是如何生成充足、真實的訓練場景來反映現實駕駛中的復雜性。為此,研究正在開發高逼真度的仿真平臺,不僅模擬真實物理環境,還能模擬不同交通參與者行為,確保所學策略可遷移至實際應用。

由于強化學習本身的不可預測性可能導致不安全行為,因此研究者正推動“安全強化學習”的發展,將安全約束納入訓練與部署過程。此外,DRL系統對算力需求高,也推動了算法優化與專用硬件的發展。

將DRL與其他學習或決策系統相結合,是未來的重要研究方向。例如,將DRL與監督學習或規則系統結合,可提升決策系統的穩定性與魯棒性。而在自動駕駛等復雜應用中,系統的可解釋性也變得至關重要。讓系統的決策邏輯變得透明,有助于技術人員理解模型行為,同時滿足監管與倫理需求,提升公眾信任。發展可解釋人工智能(XAI)的方法將是推動DRL在關鍵安全場景中落地應用的關鍵一步。

(二)端到端決策算法

隨著深度學習技術的不斷發展,其在自動駕駛中的端到端決策能力愈發重要。相比傳統將感知、定位和控制分離處理的模塊化策略,端到端系統通過神經網絡直接將傳感器輸入與車輛動作(如轉向、加速和制動)相連接,大幅提升了決策鏈路的效率與響應速度。

本節探討了深度學習在端到端系統中的演變,展示了神經網絡如何承擔整個決策過程,利用來自攝像頭和其他傳感器的原始數據,直接輸出控制命令。

研究表明,端到端深度學習在處理復雜任務時表現突出,能夠實現輸入到輸出的直接映射。有研究提出了一種面向多任務的高效端到端感知網絡 BiFPN,并通過精細調整的寬高比和特有的損失函數進行訓練,發展出“HybridNets”結構,在準確率和計算效率方面均超越以往模型。此外,另一項綜述系統梳理了端到端自動駕駛方法的研究進展,指出單一神經網絡已可替代整個駕駛處理流程。

通過對CARLA仿真平臺上的單模態(RGB)與多模態(RGB+D)感知數據進行對比,研究發現多模態輸入在端到端駕駛任務中的表現更優,啟發了對單傳感器和多模態融合(如GNSS等)的進一步探索。另一研究則利用深度確定性策略梯度(DDPG)算法,在開源賽車模擬器 TORCS 上測試了一個可將駕駛狀態轉化為動作的端到端模型,展示了該方法在自動駕駛決策中的有效性,并可視化了其“評論者網絡”的內部行為。

端到端深度學習的最大優勢在于可直接從原始感知數據中學習與運行,這種統一模式使得自動駕駛系統能夠自適應處理復雜環境。其中,卷積神經網絡(CNN)用于處理空間數據,LSTM或Transformer用于建模時序動態,從而實現持續學習與更新。但與此同時,系統需將圖像、雷達、激光雷達等多種數據融合為統一模型,遠比傳統模塊化結構更具挑戰性。因此,研究者正致力于開發能夠準確高效處理多模態輸入的專用神經網絡。

此外,訓練端到端模型所需的數據量龐大,對數據多樣性與質量要求極高,同時模型驗證與可解釋性問題也極為重要,特別是在自動駕駛等安全關鍵場景中。因此,如何使模型的決策邏輯清晰可追溯,是滿足法規認證與贏得公眾信任的關鍵所在。

當前研究也聚焦于多個關鍵方向,包括通過仿真技術生成合成訓練數據、采用可視化與層級相關傳播(LRP)等方法提升神經網絡可解釋性,幫助理解與調試模型行為,推動其通過安全認證。盡管端到端學習在設計上可簡化流程,但數據整合、模型訓練與驗證、計算效率等方面仍面臨嚴峻挑戰。

為解決端到端系統在復雜環境下的任務調度問題,有研究提出了 AutoRS 實時調度框架。該框架采用嵌套控制結構:內循環根據環境復雜度動態調度任務以確保時限響應,外循環使用強化學習調整任務頻率,以提升資源利用率與系統效率。實驗顯示,AutoRS 在仿真與硬件平臺上均顯著提高了自動駕駛性能,是端到端決策的一種穩健解決方案。

在動態不可預測的駕駛環境中,實現實時處理至關重要。端到端系統消除了模塊之間的數據傳輸與轉換過程,顯著降低了延遲。但這也要求模型具備極高的計算效率,因此輕量級Transformer、CNN、模型壓縮與硬件加速技術成為研究重點。

此外,多模態傳感器融合(如激光雷達、雷達、攝像頭)是系統魯棒性的關鍵。未來研究應聚焦于提升融合算法的效率,在保證感知準確性的前提下控制計算成本。

安全性同樣是端到端系統落地的核心要素。系統必須在面對傳感器噪聲、遮擋、惡劣天氣和突發狀況時保持穩定運行。為此,需構建嚴格的驗證框架,引入形式化驗證流程,確保模型能夠在實際部署中做出安全、可解釋的決策。大型高保真仿真與多樣化實景數據集將有助于訓練與評估系統,尤其是在標準數據難以覆蓋的極端場景中。

為進一步提升系統安全性,將可解釋人工智能(XAI)方法引入端到端自動駕駛系統變得尤為重要。具備透明決策能力的系統在高風險場景中更易獲得監管認可與公眾信任。同時,增強不確定性建模與因果推理能力,也將幫助車輛更準確地預測并規避潛在風險。

從長遠來看,結合端到端學習靈活性的混合架構可能是未來發展方向。這類架構兼具端到端系統的效率與模塊化系統的安全性與可解釋性,有望成為自動駕駛系統的新范式。要實現真正意義上的實時與安全端到端系統,亟需在計算效率、模型解釋性、系統魯棒性和合規性方面取得全面突破。隨著這些難題逐步被攻克,自動駕駛技術將更進一步走入現實,邁向安全、高效的交通未來。

(三)可解釋深度學習決策算法

可解釋的深度學習對自動駕駛中的決策制定至關重要,它提升了人們對人工智能系統的信任與理解。本節回顧了深度學習在可解釋性方面的最新進展,并介紹了用于揭示神經網絡決策機制的方法(見下表 )。這些方法幫助人們理解具體特征如何影響深度學習模型的輸出,從而緩解了傳統“黑箱”模型缺乏透明度的問題。可解釋方法的引入使利益相關方能夠驗證并信任模型決策,確保其行為具有透明性與可理解性。

在這里插入圖片描述

可解釋人工智能(IAI)在自動駕駛領域尤為重要,它能提升系統在復雜環境中做出快速、安全決策的可信度。IAI為車輛行為提供清晰解釋,有助于用戶和監管機構理解其背后的邏輯,促進技術的落地與社會接受。一項系統綜述對現有可解釋機器學習技術進行了分類,強調以用戶為中心的解釋方式,并提出了可評估可解釋性的指標。

近期研究顯著推動了模型可解釋性的提升。例如,有研究基于累積前景理論(CPT)提出了一種模型,用于預測交互駕駛場景中的人類行為,較傳統方法在準確性與貼合實際行為方面均表現更優。另一項研究提出了可解釋的目標導向預測與規劃系統(IGP2),通過理性逆向規劃方法(RIP)實現對周圍車輛意圖的理解,提升了長遠規劃與預測能力,同時簡化了預測解釋,便于人類理解其決策流程。

還有研究將類腦神經計算與深度學習相結合,開發了一種簡潔的神經控制器,將高維輸入直接轉化為轉向指令,實現了通用性、可解釋性和魯棒性的兼顧。為了將人類價值觀納入自動駕駛的工程設計決策,研究者還提出了“價值敏感設計”方法,推動工程實踐與社會倫理、法律標準相一致,使工程師在多方參與的設計中扮演關鍵角色。

一項面向城市駕駛場景的端到端強化學習方法尤為突出,不僅學習了駕駛策略,還提供了可解釋的環境建模能力。該模型輸出基于鳥瞰圖的語義遮罩,從視覺上明確了對環境的理解,在CARLA模擬平臺上的表現優于傳統基準強化學習方法,具備現實應用潛力。

對行人行為的理解同樣重要。一項利用虛擬現實模擬無信號人行橫道場景的研究,采集了高維度行為數據,同時保障了參與者安全,深入探討了從自動化水平到天氣狀況等多重因素對行人行為的影響。

自動駕駛算法中,可解釋性與性能的平衡至關重要。一項研究引入了基于注意力機制的模塊,用于揭示交通主體之間的互動邏輯。該模塊與全局視角結合,準確預測駕駛行為的同時,也提供了關注區域的可視化表示,提升了透明度與系統間的互操作性。

為了破解深度神經網絡“事后難解釋”的難題,有研究引入人類參與,通過人機協作提取具象概念。這一方法名為ConceptExtract,通過融合人類直覺與機器學習訓練概念提取器,改善了對模型行為的理解與預測能力。

由于模型缺乏可解釋性導致用戶信任不足,研究者還提出了一種基于Transformer架構的可解釋自動駕駛系統,可從視覺數據中推導駕駛決策并提供相應解釋,不僅提升用戶信任,也有助于在模型開發階段發現潛在弱點。

IAI 的目標是讓人類理解復雜的深度神經網絡。這種透明性在自動駕駛等關鍵領域尤其重要。深度神經網絡需處理高維復雜數據,導致其決策過程常被稱為“黑箱”或“灰箱”。研究方向主要包括:一是簡化模型結構但不損失性能,二是提升決策路徑的可追溯性。例如,特征重要性映射和層級相關傳播(LRP)等方法可以幫助定位關鍵輸入并解釋決策路徑。

此外,研究者還探索構建“本身可解釋”的模型結構,如決策樹和廣義加法模型(GAM),它們具有更清晰的決策邏輯,但在準確率上可能不及復雜神經網絡。為此,一些方法嘗試將深度學習集成到這些模型中,以在保留透明度的同時提升性能。

混合模型被認為是有前景的解決方案,結合了深度學習的強大表現力與可解釋模型的透明性,實現高性能與高可理解性的兼容。研究者還嘗試將專家知識嵌入神經網絡架構中,引導模型產生更具可解釋性的結果。同時,為了讓利益相關方更好地理解模型的運行機制,開發直觀的可視化工具也變得至關重要。這類工具能清晰展現輸入與輸出之間的關系,有助于模型調試、優化與信任構建。

盡管深度神經網絡的復雜性帶來了挑戰,但方法論、模型結構與教育工具的持續進步正逐步提升AI系統的透明性與可問責性。這一進展將大幅改善自動決策系統的可靠性與公平性,為多領域的落地應用奠定基礎。

(四)多智能體決策算法

多智能體決策中的深度學習在自動駕駛中扮演著基礎性角色,因為它在協調多輛車輛與基礎設施之間的行為方面至關重要。本節回顧了多智能體決策背景下深度學習的發展(見下表),重點介紹了采用強化學習(RL)與圖神經網絡(GNN)的框架,如何促進自動體之間的復雜交互與協作行為。這些方法使車輛在做出決策時,不僅能考慮自身目標,也能綜合周圍其他車輛與行人的行為,從而提升整體交通效率與安全性。該領域的研究正在持續探索更高效的算法與網絡結構,以提升多智能體系統在動態駕駛環境中的可擴展性與可靠性。

在這里插入圖片描述

深度學習在多智能體決策中的應用正不斷增長,尤其集中在交通控制與自動駕駛運營等關鍵領域。有研究將混合交通情境下的變道任務建模為一個在線策略的多智能體強化學習問題,采用 A2C 架構并引入局部獎勵機制與參數共享策略,以適應多智能體環境。類似地,另一個強化學習變體將圖卷積網絡(GCN)與深度 Q 網絡(DQN)融合,用于協同控制多輛聯網自動駕駛車輛(CAV)執行變道操作。該方法通過協作感知整合局部與全局信息,使變道行為更安全、更高效且更可靠,且在不同交通密度下均表現穩健,無需重新訓練。

在更廣泛的層面上,聯網自動駕駛車輛的交叉路口管理能夠顯著提升安全性與通行效率。車輛可與基礎設施或彼此交換信息,有效安排穿越時間,避免不必要的停車,提高通行效率、減少能耗,并降低因人為錯誤造成的事故風險。圍繞界面設計、車輛建模、沖突檢測、多路口協同、人車混合情境、安全性、魯棒性、應急響應、信息安全與評估方法的研究,為提升交通系統的安全性與穩健性提供了強有力的工具。

為提升端到端多任務學習能力,有研究同時關注自動駕駛中的感知與控制部分。在 CARLA 模擬器上的測試顯示,該模型可基于全局規劃器提供的路徑執行點到點導航,并展現出處理多任務的強大能力。另一項研究表明,即便僅有 5% 的車輛為自動駕駛系統,就能在瓶頸路段顯著改善交通流出效果,效果可媲美 40% 市場滲透率下新交通信號燈的影響。

此外,有研究探索了智能環境下的智能車交互,利用確定性狀態演化與風險溢價將其整合進效用函數中,實現子博弈完美納什均衡。該研究提出了一種自適應優化方法,在降低計算開銷的同時,適應不同代理偏好與場景設定,并在雙車道高速場景中展現出面對突發障礙的強魯棒性。針對車-行人互動,另一項研究提出了一種基于多智能體強化學習的自動駕駛行人過街系統。盡管行人行為不可預測,系統依然能有效避免碰撞,并建議通過更先進的仿真工具與更廣泛的道路使用者建模進一步提升性能。

為了提升多智能體系統的可擴展性,有研究采用參數共享策略,在長期互動任務中展現出較單智能體模型更真實的表現。另一項交通管理研究利用基于 A2C 的多智能體強化學習方法,引入鄰近代理信息與空間折扣因子,提升了學習效果。不過,在現實部署前,交通仿真精度與算法魯棒性仍面臨挑戰。

基于深度學習的多智能體決策正在快速發展,解決涉及多個自主實體交互的復雜情境,這對于自動駕駛與機器人系統等應用至關重要。在這些場景中,多輛車或機器人需協調行動以實現系統最優。面臨的核心挑戰包括交互行為的高度動態性、代理數量增加帶來的可擴展性問題、通信負載控制,以及隱私與安全保障。

在環境信息或他方意圖有限的情況下開發魯棒決策策略更具挑戰性。當前研究正探索多種創新路徑。例如,多智能體強化學習允許代理通過試錯學習與他方交互以獲得最優策略;策略梯度法與 Q 學習正被不斷調整,以更好支持代理間的協調與競爭。循環神經網絡(RNN)與注意力機制的進展使系統能更好地處理不完整與序列化信息,聚焦關鍵要素以提升學習效率。博弈論被用于建模策略性互動,幫助代理預測并響應他方行為。

此外,聯邦學習逐漸成為構建共享模型的重要工具,在保護數據隱私的同時提升系統可擴展性與安全性。

六、自動駕駛計算效率研究

自動駕駛中的深度學習模型在實現過程中面臨一系列與效率相關的獨特挑戰。盡管在目標檢測、語義分割和決策制定等任務中追求高性能至關重要,但這些模型必須在嚴格的計算資源、能耗和存儲限制下運行,尤其是在車載設備等資源受限的環境中。為了使自動駕駛系統能夠及時響應動態道路狀況,同時有效管理功耗與處理負載,實現軟件(如深度學習算法)和硬件(如車載或邊緣設備)層面的整體效率至關重要。

本節將回顧近年來為提升自動駕駛應用效率而取得的研究進展,并重點介紹該領域中的重要成果。

(一)計算效率與模型優化

在自動駕駛中實現實時性能至關重要,而降低深度學習模型的計算負載在其中起著關鍵作用。輕量級網絡架構越來越多地被采用,以在計算效率與視覺任務的準確率之間取得平衡。例如,YOLOv4-5D 框架專注于優化自動駕駛中的實時目標檢測,在保證精度的同時提升處理速度。它采用了可變形卷積、特征融合模塊等先進技術,尤其提升了對小目標的檢測能力,并集成了一種剪枝算法,可在特定車輛平臺上提高計算效率。該框架不僅在基準數據集上的平均精度得到提升,還顯著提高了推理速度,確保在幾乎無精度損失的前提下,以超過 66 幀每秒的速度運行。

同時,最近的一項創新“Conv-Adapter”為傳統卷積網絡提供了一種參數高效的微調方案。通過僅增加極少量的參數,它在多種分類任務中實現了可比擬甚至優于全模型訓練的效果,并能有效適應檢測與分割任務。這些方法特別適合在計算能力有限的硬件上部署復雜的視覺模型,這是自動駕駛系統中的常見情況。

為了在性能與能耗之間取得平衡,MobileNet 系列顯著推動了實時目標檢測模型在資源受限平臺上的應用,這類平臺在自動駕駛中十分常見。例如,MobileNetV1 處理一張標準圖像僅需 5.69 億次浮點運算,遠低于傳統卷積神經網絡,同時仍能提供穩健的視覺任務表現。隨后推出的 MobileNetV2 引入了反向殘差結構與線性瓶頸,進一步將運算量壓縮至 3 億次浮點運算,并在幾乎不犧牲精度的前提下提升了效率,非常適合嵌入式應用。

MobileNetV3 進一步在效率與精度之間優化,采用了神經結構搜索與面向硬件限制的優化策略,在 ImageNet 數據集上實現了 3.2% 的精度提升和 20% 的延遲降低,并在多個任務上表現優越,包括目標檢測速度提升 25%,語義分割速度提升 34%。針對極端資源受限的環境,MobileNetV3-Small 在保持相似延遲的前提下,實現了 6.6% 的精度提升。后續版本 MobileNetV4 引入了針對移動平臺優化的結構,提升了架構靈活性,并融合了一種專門的注意力機制,使處理速度提升了 39%。該版本在 ImageNet-1K 數據集上取得了 87% 的精度,并具備快速運行能力,適用于從智能手機到高性能加速器的各種計算平臺。

與此同時,EfficientNet 提出了一種網絡維度(深度、寬度、分辨率)協同縮放的方法,有效優化了模型的精度與計算效率。基礎模型 EfficientNet-B0 在僅需 3.9 億次浮點運算的條件下,在 ImageNet 數據集上達到了 77.1% 的 top-1 精度,標志著效率方面的重大突破。其后續版本 EfficientNetV2 在減小模型體積與加快訓練速度方面進一步優化,為實時應用提供了極大優勢。

這些模型展示了在構建高性能、資源高效架構方面的最新進展,滿足了自動駕駛平臺在計算能力與能耗方面日益嚴苛的要求。

(二)面向節能的自動駕駛應用

在自動駕駛中,能源效率至關重要,深度學習模型的功耗直接影響車輛的續航能力。為實現這一目標,研究人員從模型設計和特定應用適配兩個層面提出了多種優化策略。其中一種基礎性技術是模型量化,它通過將神經網絡中的權重和激活從32位數據轉換為更低精度(如8位),顯著降低了計算負載和內存需求,從而減少能耗。量化技術使深度學習模型在不犧牲準確率的前提下,實現了高效的實時性能,成為降低自動駕駛中深度學習能耗的重要手段。

除了模型級別的優化,應用層面的能效提升也同樣關鍵。一項能效優化的變道運動規劃策略通過精細化軌跡設計,提升了能耗表現。該策略采用軌跡跟蹤與五次多項式,將變道操作轉化為一個綜合考慮變道時長與車輛動態特性的優化問題。實驗結果表明,該方法可降低 2.87% 至 5.73% 的能耗,同時滿足駕駛安全性和個性化偏好需求。

此外,自適應算法選擇也是一種高效節能的方法,它根據交通密度和駕駛場景動態調整檢測模型的復雜度,實現精度與能耗之間的平衡。例如,在城市交通測試中,自適應模型選擇相較于精度最高的配置(YOLOv5x CBAM),節能率分別達到了 46.08% 和 53.82%。在每秒30幀、T4 GPU功耗為每GFLOP僅0.003瓦的條件下,YOLOv5x在低流量階段表現出最優性能,尤其適合行人較少的城市環境。

與此同時,一種專門針對小目標檢測優化的輕量化檢測框架 IS-YOLOv5,通過多樣化網絡剪枝進一步降低計算成本,同時提升檢測速度與準確率。該框架引入了結構性改進,如組深度可分離卷積和基于注意力機制的空洞CSP模塊,使其在能耗極低的條件下,依然能高效檢測如交通標志等小型物體。通過網絡剪枝技術,模型復雜度降低了 47.81%,模型體積減少了 39.29%,幀率提升達 52.14%,幾乎不影響準確率。這一方案特別適用于計算資源有限的移動平臺中的實時自動駕駛任務。

綜上所述,模型量化、能效運動規劃、自適應算法選擇和輕量化模型設計共同構成了面向自動駕駛的多層次節能策略體系。它們在保持高性能和場景適應性的同時,有效減少了功耗,為構建高效、可靠的自動駕駛系統提供了堅實支撐。

(三)內存效率與存儲優化

存儲限制是自動駕駛面臨的一項關鍵挑戰,特別是在管理大規模自動駕駛數據集和在資源受限設備上部署復雜模型時。為應對這一問題,有研究對存儲需求進行了深入分析,為未來自動駕駛車輛的存儲系統設計奠定了基礎。該研究結合理論建模與實證數據,提出了滿足自動駕駛系統獨特需求的存儲解決方案思路,并計劃擴大數據收集范圍,引入更多類型的傳感器,以進一步提升存儲模型的準確性,從而推動高效、戰略性數據管理方案的發展。

在此基礎上,HydraSpace 計算存儲系統通過多層架構和先進壓縮算法,有效應對自動駕駛傳感器產生的海量數據。該系統在不犧牲性能的前提下將存儲空間需求減少了 88.6%,滿足了當前自動駕駛應用對數據量與精度不斷提升的需求,是保障自動駕駛車輛安全、高效運行的重要支撐工具。

與此同時,為實現實時處理,優化內存效率同樣至關重要。諸如模型壓縮技術(例如知識蒸餾和低秩分解)可顯著降低模型的內存占用與計算負擔,同時基本保持模型的準確性,因此在自動系統中實現高效數據處理方面發揮著重要作用。

此外,近期一項研究提出了一種面向實時效率與精度的多任務學習模型,用于目標檢測、可行駛區域分割和車道線檢測等任務。該模型采用編碼器-解碼器架構,構建共享特征表示,能夠高效整合多種傳感器輸入。在 Berkeley Deep Drive (BDD100K) 數據集上測試時,該模型在計算效率、能耗和準確率方面均表現優異,分別達到了 77.5 的目標檢測 mAP50、91.9 的可行駛區域分割 mIoU 和 33.8 的車道線檢測 mIoU。其推理速度高達每秒 112.29 幀,全面超越現有多任務模型,展現出在實時自動駕駛系統中優化內存效率的有效策略。

考慮到自動駕駛車輛在大規模落地應用中對存儲和內存提出的嚴苛要求,未來在內存與存儲優化方面的持續進展仍至關重要。圍繞高效數據管理、模型壓縮以及實時處理的研究將是實現自動駕駛系統可擴展性和穩定運行的核心動力。

(四)面向特定硬件的優化與邊緣部署

鑒于汽車級硬件的資源限制及其特定需求,優化模型在專用硬件架構(如 GPU、TPU 和 FPGA)上的部署顯得尤為關鍵。基于平臺感知的神經網絡架構設計與優化已成為提升效率的重要手段,確保深度學習模型能夠適配不同硬件平臺的計算能力和約束條件。一種常見策略是,在硬件與軟件架構中平衡延遲、安全性與成本。有研究表明,施加安全性約束可能導致延遲增加 17%、組件成本上升 18%,從而顯著影響實時決策能力。為進一步提升效率,采用強化學習的自主硬件資源分配方法,在保持性能的同時,優化速度比傳統方法快了 24 倍,有效降低了計算成本。

此外,面向硬件的神經網絡設計(如 EfficientRep)專為高性能計算平臺如 GPU 優化,已被應用于 YOLOv6 等系統中。這些設計能夠充分利用硬件的計算能力與內存帶寬,提升目標檢測速度與能效,對實時自動駕駛至關重要。在算法與硬件協同優化方面,資源受限的 FPGA 也展現出巨大潛力,其能效達 79 GOPS/W,吞吐量為 158 GOPS,同時保持低功耗運行。這些策略凸顯了針對硬件特性的優化對于提升自動駕駛系統的可擴展性、可靠性與運行能力的重要性。未來持續推進硬件高效設計,將成為實現自動駕駛系統高性價比、強性能落地應用的關鍵路徑。

自動駕駛技術正快速演進,邊緣計算在其中扮演著關鍵角色。通過在車輛本地而非遠程服務器處理數據,邊緣設備大幅提升了系統的實時響應能力。這種本地化處理降低了通信延遲、加快了響應速度,顯著增強了動態高速場景下的安全性與運行效率。感知、地圖構建與決策等關鍵功能在邊緣側完成,不僅提升了整車性能,還節省了帶寬資源,減少了對持續網絡連接的依賴。

研究指出,在資源受限的邊緣設備上,計算需求與能耗成為核心挑戰。對低秩近似、剪枝、量化與稀疏化等技術的深入分析表明,這些方法對優化模型參數以適應邊緣設備的受限能力至關重要。此外,諸如資源分配策略、設備異構感知以及聯邦學習等 AI 部署創新,也有助于優化數據處理過程,從而提升車聯網系統(CAVs)的整體性能。

在推進邊緣智能實際應用方面,另一項研究聚焦于提升自動駕駛車輛的目標檢測與圖像分割能力。該研究將邊緣 AI 與 5G 技術融合,在網絡邊緣提升了處理速度與數據傳輸效率。通過引入高效通道注意力機制和高分辨率網絡,對 YOLOv4 檢測算法進行了優化,顯著提升了檢測精度。同時,研究還提出了基于 MobileNetv2 和 softpool 方法的改進版 DeepLabv3+ 圖像分割模型,不僅減少了網絡規模,還提升了分割精度。實驗結果顯示,車輛檢測準確率從 82.03% 提升至 86.22%,圖像分割平均交并比(mIoU)從 73.32% 提升至 75.63%。

這些研究成果共同表明,邊緣計算正在深刻變革自動駕駛的發展路徑。通過邊緣側的 AI 驅動處理,顯著提升了車輛系統的響應速度與感知準確性,為構建更高效、更智能、更安全的自動駕駛系統提供了堅實支撐。

七、現實基準測試

在真實世界和閉環場景中評估先進學習方法的性能,對于理解 AI 模型如何應對實際駕駛環境中的復雜性至關重要。這類評估不僅揭示了各方法的優勢與局限,也反映了其落地部署的準備程度。通過分析不同學習范式下的代表性研究,我們可以更細致地比較它們的效果。

例如,有研究將端到端強化學習模型在合成環境中訓練后部署于全尺寸自動駕駛車輛。該系統依賴視覺輸入(包括 RGB 圖像和語義分割)在可控的現實低速駕駛場景中導航,共評估了 10 種強化學習模型變體,覆蓋 9 種不同場景,進行了超過 400 次測試。這項大規模實驗揭示了正則化、動作表達方式與模型架構等設計選擇對“從仿真到現實”策略遷移可行性的影響及其限制。

模仿學習是另一種有潛力實現現實部署的路徑。某研究采用了分層結構,使用超過十萬英里、涵蓋復雜城市環境的專家駕駛數據進行訓練。在與交互式智能體閉環模擬中,該策略展現出穩健性能,即使在全新的路線中也能進行零樣本泛化,表現接近平均水平的專家駕駛員。但在罕見或高度復雜情境下仍存在性能瓶頸,突顯了應對“長尾事件”的持續挑戰。研究也強調了損失函數平衡與訓練多樣性對實現穩健規劃行為的重要性。

評估框架在衡量規劃算法的實用性方面起著核心作用。有研究提出了一個綜合性基準,用以克服現有運動預測評估中常見的依賴開放環指標、難以衡量長期規劃準確性的問題。該基準涵蓋響應式智能體、閉環模擬以及多個地區的城市級駕駛數據,并聚焦于目標條件下的規劃任務與標準化評估流程,成為公平可復現地比較機器學習規劃器的重要工具。

運動預測研究也在持續進展,注意力機制驅動的模型家族已在多個主流數據集上取得領先性能。此類模型采用緊湊的編碼器-解碼器結構,完全基于注意力機制,通過詳細消融實驗,分析了輸入模態融合策略的權衡,并提出潛在查詢注意力機制,有效降低計算延遲,同時保持預測精度,驗證了輕量級高性能預測模型在自動駕駛系統中實時應用的可行性。

協同感知成為解決遮擋和傳感器故障兩大自動駕駛難題的有力手段。最新研究系統性地回顧了協同感知框架,在理想化與現實場景中提出了設計選擇與實現策略的分類方法。研究的關鍵貢獻是基于大規模公共數據集對協同模塊進行量化評估,提供了有關系統效率、通信瓶頸及噪聲或數據缺失情形下魯棒性的實用洞察。這類研究標志著自動駕駛研究正從理論探討轉向面向真實部署的應用評估,揭示了學術原型與落地需求之間的差距。

仿真仍是自動駕駛系統安全高效開發的基石,尤其在多智能體規劃任務中。某研究提出了一個基于現實數據、完全運行于硬件加速器上的靈活數據驅動仿真框架。該系統面向大規模訓練與可微分仿真,支持模仿學習與強化學習,并在動作表達與動力學建模方面進行了深入消融研究。通過利用真實軌跡數據構建仿真場景,旨在縮小“仿真到現實”差距。然而,領域泛化仍面臨挑戰,需進一步整合合成與真實數據,結合領域隨機化等技術。

為了提升規劃能力,新的世界模型被提出用于未來預測與風險評估。某模型通過聯合時空學習與視角因子分解,構建了高保真的多視角駕駛視頻仿真。訓練于真實數據,該模型可根據駕駛意圖預測多種可能的未來,并通過視覺獎勵信號支持軌跡選擇。實驗表明,該模型能生成連貫可控的可視化結果,在不確定性與罕見條件下提升規劃準確性。

進一步拓展世界建模理念,另有研究提出一種基于擴散的模型,僅在真實駕駛場景中訓練。該方法采用兩階段訓練流程:第一階段編碼交通結構約束,第二階段預測未來狀態。所生成的視頻不僅支持安全軌跡預測,還為下游感知模型提供真實多樣的訓練數據。該方法從傳統的游戲仿真轉向真實世界復雜性的建模,強化了生成模型在規劃與決策管線中的作用。

總體來看,這些研究展示了自動駕駛算法在真實環境中經受嚴格、量化評估的趨勢。隨著領域邁向感知、預測與規劃一體化系統,在逼真環境中的穩健驗證將成為推動研究成果落地部署的關鍵。

八、挑戰和前景

在自動駕駛領域,深度學習技術的進步起著關鍵作用。研究這些技術如何在不久的將來實現類人學習能力至關重要。復雜的人工智能和深度學習方法的融合,預計不僅會提升自動駕駛車輛的功能,還將應對其發展和部署過程中面臨的重大挑戰和倫理問題。

(一)決策中的安全性與可解釋人工智能

在自動駕駛領域,人工智能驅動的決策直接關系到安全,因此透明性和可解釋性至關重要。隨著人工智能系統承擔起關乎生命安全的關鍵角色,先進的可解釋人工智能(XAI)技術成為平衡高性能模型與利益相關者理解和信任需求的關鍵。最近在自動駕駛領域的XAI進展采用復雜方法來闡明AI決策背后的邏輯。諸如層次相關傳播(LRP)等技術可以追蹤神經網絡的決策路徑,SHAP值則量化單個特征對結果的影響,這些工具在提升透明度方面發揮基礎作用。這些工具不僅幫助解釋復雜決策,還通過識別關鍵數據特征輔助調試和優化模型性能,確保決策符合預期模式。此外,結合因果推斷模型能夠應對自動駕駛中典型的動態多變量決策復雜性。因果模型揭示路況、車輛操作及周邊交通等因素之間的相互作用,為滿足監管和倫理標準提供重要洞見。通過允許系統評估輸入變化對結果的影響,如因果推理驅動測試(CART)所示,開發者可以設計出在安全關鍵場景中表現可預測且能合理說明決策的自動駕駛系統。除了滿足監管要求外,可解釋性框架還增強了責任感,建立了用戶、政策制定者和公眾的信任。隨著自動駕駛技術邁向復雜的實際應用,這些能力尤為關鍵。可解釋性不僅是技術特性,更是負責任且合乎倫理部署的核心組成部分。隨著自動系統的持續發展,優先考慮透明性和責任性的框架將在促進社會接受度和確保技術安全集成方面發揮關鍵作用。

(二)提升韌性與真實環境魯棒性的課程學習

課程學習是一種訓練方法,通過讓模型從簡單任務逐步過渡到復雜任務,類似于人類在結構化教育體系中的學習過程。在自動駕駛領域,這種方法在提升模型的魯棒性和適應性方面表現出特別的潛力。課程學習框架通常包含難度測量器,用于評估數據的復雜程度,以及訓練調度器,負責安排數據順序,幫助模型先建立基礎技能,再逐步進入更具挑戰性的場景。自動課程學習方法主要分為四類:自適應學習、遷移教師、強化學習教師和其他自動化策略。每種方法都通過根據模型性能和不斷變化的需求動態調整訓練,減少了人工干預。例如,基于強化學習的課程學習使用動態教師,根據實時表現調整目標,提高自動系統在不同運行需求下的適應能力。

然而,在自動駕駛中應用課程學習也面臨獨特挑戰。與靜態環境不同,自動駕駛需要持續適應不可預測的因素,如多樣的道路狀況、天氣變化和突發障礙。有效實施課程學習需要構建真實反映各種駕駛場景的基準,從基礎的城市導航到復雜的混合交通交互。此外,還需要理論模型來預測課程的有效性,確保訓練符合安全和可靠性標準。要充分發揮課程學習在自動駕駛中的潛力,必須設計針對高維傳感器數據處理和實時決策支持的定制方法。例如,適應性算法可以安排訓練順序,逐步引入復雜的駕駛環境。這樣結構化的進階過程能使模型先掌握車道保持、避碰、多智能體協調等關鍵技能,再逐步應對動態路線優化和與人駕駛車輛的交互等復雜任務。

將課程學習整合進更廣泛的智能交通框架,還能進一步擴大其對城市交通的影響。通過與交通管理系統及其他智慧城市基礎設施的協調,課程學習可以幫助自動駕駛車輛優化路線、適應交通流量并實時響應城市環境變化。這種集成不僅能提升安全性和效率,還將支持未來智慧城市中自動駕駛的規模化部署。

(三)面向陌生道路場景自適應反應的人類式概念學習

實現機器具有人類般的概念學習仍然是一個重大挑戰。盡管人工智能取得了進展,但當前的機器學習系統仍依賴大量數據才能有效泛化,而人類往往只需一個示例就能掌握新概念。人類能夠從極少的輸入中理解新概念并靈活應用,支持行動、創造場景并提供解釋。這種適應性與大多數人工智能系統的剛性和數據密集型特性形成鮮明對比。一種有前景的解決方案是基于貝葉斯框架下的概率程序歸納方法,通過觀察示例生成簡單的程序來表示概念。一項研究提出了一個計算模型,利用該技術從極少數據中學習多種視覺概念,模擬了人類“一次學習”的高效性。這種方法通過使模型能夠用有限數據泛化概念,縮小了人類與機器學習之間的差距。

在自動駕駛中,人類般的概念學習對于需要高度適應性的任務至關重要,比如一次性分類。例如,自動系統必須在觀察到一次后識別并響應陌生的道路標志或障礙物,而傳統的人工智能方法難以應對這一任務。除了識別,概念學習還賦予車輛認知能力,如因果推理和在未知場景中創造性地解決問題,從而增強其決策的靈活性。這種先進的學習方法融入了組成性、因果性和元學習等關鍵認知特征。概念由反映現實駕駛環境中典型因果關系的更簡單元素構建。例如,通過理解障礙物可能導致突然變道,模型能夠預測駕駛員的行為反應。通過基于過往經驗的持續優化,系統不斷進化以應對日益復雜的駕駛條件,提升安全性和響應速度。

這些概率方法的發展標志著自動駕駛技術向人類般靈活性和創造力邁出了重要一步。通過嵌入這些受人類啟發的學習能力,自動系統能夠更快適應新情境,有助于實現更安全、更直觀的駕駛體驗。

(四)復雜場景中增強自主性的持續學習

終身學習,也稱為持續學習,是一種人工智能范式,指系統在不斷獲取新知識的同時保留之前學到的內容。這種方法使機器能夠處理新的任務和環境,而不會丟失已有的信息。在自動駕駛領域,終身學習的價值日益凸顯,它能夠提升系統在多變且不斷變化的駕駛環境中的適應能力。該范式允許自動駕駛系統在其生命周期內融合來自多種傳感器的數據,這對于在不可預測環境中實現有效導航和決策至關重要。不同于傳統神經網絡模型需要定期重新訓練以納入新數據,終身學習賦予系統實時處理和整合連續多傳感數據流的能力。

這一能力在自動駕駛中特別有益,使系統能夠應對動態情況,如突發天氣變化、交通模式演變和意外障礙物,同時保持已學技能。將終身學習應用于自動駕駛系統的一個主要挑戰是克服“災難性遺忘”——這是當前神經網絡模型的普遍問題,指的是模型在學習新信息時往往會遺忘舊知識。解決這一問題需要創新的方法,促進增量式和自適應學習,類似于人類技能隨時間發展的過程。新興的神經網絡架構,包括帶記憶增強的網絡和持續學習算法,在幫助機器跨任務保存和優化知識方面發揮著重要作用。

此外,雖然人類能夠輕松地在不同任務和環境之間遷移知識,但人工系統通常難以做到這一點,往往需要大量重新訓練以適應新場景。為彌合這一差距,關鍵在于利用多傳感器數據并部署模擬人類神經認知功能的神經網絡架構。這些系統不僅能夠響應即時的傳感輸入,還能利用積累的知識來應對變化的環境,從而提升自動駕駛在實際中的運行效率和安全性。終身學習技術在自動駕駛中的發展標志著向著構建能夠在實際環境中智能進化的人工智能系統邁出了關鍵一步。通過基于現實世界輸入不斷適應和改進,這些系統有望在可靠性、適應性和韌性方面達到新的高度,這些都是自動駕駛成功部署及其長期信任的關鍵特征。

參考文獻

  1. A Survey of Autonomous Driving from a Deep Learning Perspective
  2. End-to-End Autonomous Driving: Challenges and Frontiers
  3. Autonomous driving system: A comprehensive survey
  4. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey
  5. A Survey of Autonomous Driving: Common Practices and Emerging Technologies
  6. A Survey on Autonomous Driving Datasets_Statistics, Annotation Quality, and a Future Outlook
  7. https://github.com/HaoranZhuExplorer/World-Models-Autonomous-Driving-Latest-Survey?tab=readme-ov-file

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87978.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87978.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87978.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java+vue+SpringBoo基于Hadoop的物品租賃系統(程序+數據庫+報告+部署教程+答辯指導)

源代碼數據庫LW文檔(1萬字以上)開題報告答辯稿ppt部署教程代碼講解代碼時間修改工具 技術實現 開發語言:后端:Java 前端:vue框架:springboot數據庫:mysql 開發工具 JDK版本:JDK1.8 數…

【文獻筆記】Automatic Chain of Thought Prompting in Large Language Models

Automatic Chain of Thought Prompting in Large Language Models 原文代碼:https://github.com/amazon-research/auto-cot 標題翻譯:大規模語言模型中的自動思維鏈提示 1. 內容介紹 在提示詞中提供思考步驟被稱為思維鏈(CoT)&…

【Behavior Tree】-- 行為樹AI邏輯實現- Unity 游戲引擎實現

行為樹簡易敵人AI 前言: 有些天沒更新新文章了,主要是最近科一有些頭疼,而且最近琢磨這個行為樹代碼有些難受,但是終于熬出頭了,MonoGame的系列會繼續更新的,今天不說別的就說困擾我兩三天的行為樹 有限狀態…

百度大模型開源,倆條命令、本地啟動

百度大模型開源 本地啟動手冊 安裝依賴: python -m pip install paddlepaddle-gpu3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_…

rabbitMQ讀取不到ThreadLocal消息的bug

rabbitMQ讀取不到ThreadLocal消息的bug 當使用消息隊列時,監聽隊列不會運行到主線程上,線程消息之間是不會共享的,故屬于主線程的ThreadLocal就讀取不到數據的值 主線程名字:main使用消息隊列的線程名字:ntContainer#2…

IDEA Maven報錯 無法解析 com.taobao:parent:pom:1.0.1【100%解決 此類型問題】

IDEA Maven報錯 無法解析com.taobao:parent:pom:1.0.1【100%解決 此類型問題】 報錯日志 PS D:\Learn_Materials\IDEA_WorkSpace\Demo\spring_test_demo> mvn clean install -U [INFO] Scanning for projects... [WARNING] [WARNING] Some problems were encountered whi…

函數-1-字符串函數

函數-1-字符串函數字符串函數函數語法字符串函數的使用字符串函數語法案例演示實戰練習字符串函數 函數 函數是一段可以直接被另一端程序調用的程序或代碼 語法 SELECT 函數名(參數名)大家可能會有那么一點點疑惑, 為什么執行函數還需要加上SELECT語句? 總結一下, 因為SEL…

打破AI落地困局:易路iBuilder的“垂直深耕+開箱即用”破壁之道

中國企業的數字化轉型已步入深水區,人力資源管理作為企業核心競爭力的關鍵引擎,正經歷從“信息化”向“智能化”的范式躍遷。在這場以AI為驅動的組織效能革命中,??易路人力資源科技??憑借前瞻性的“軟件AI服務”戰略,推出國內…

Higress離線部署

1.前提條件檢查docker和docker compose是否已經具備 [roothost151 ~]# docker -v Docker version 26.1.4, build 5650f9b [roothost151 ~]# docker composeUsage: docker compose [OPTIONS] COMMANDDefine and run multi-container applications with DockerOptions:--all-res…

利用AI技術快速提升圖片編輯效率的方法

通過更換背景或進行其他創意編輯,可以為圖片賦予新的生命力和視覺效果,使得創意表達更加自由靈活。這款AI摳圖工具堪稱強大,依托先進的阿爾法通道技術,能夠精準、自然地實現圖像摳取與背景更換。操作也非常簡單,只需將…

Wend看源碼-RAGFlow(上)

前言 最近在github上搜羅Rag相關項目的時候,我根據star 搜索到了目前star 最高的一些RAG 項目 ,其中穩居榜首的就是RAGFlow。 RAG stars:>1000 language:Python pushed:>2025-01-01 github RAG 相關項目搜索結果 為了系統性的學習RAG 技術棧&#…

LangChain實現RAG檢索增強

1:啟動vllm的openai兼容server: export VLLM_USE_MODELSCOPETrue python -m vllm.entrypoints.openai.api_server --model qwen/Qwen-7B-Chat-Int4 --trust-remote-code -q gptq --dtype float16 --gpu-memory-utilization 0.6 2:構建向量數據庫 from langchain_…

Redis基礎(6):SpringDataRedis

SpringDataRedis簡介 SpringData是Spring中專門進行數據操作的模塊,包含了對于各種數據庫的集成。其中對Redis的集成模塊叫做SpringDataRedis(官網地址:Spring Data Redis)。其最核心的特點就是提供了不同Redis客戶端的整合&…

B. Shrinking Array/縮小數組

B. Shrinking Array讓我們稱一個數組 b 為 i 美麗 ,如果它至少包含兩個元素,并且存在一個位置 |bi?bi1|≤1 使得 |x| (其中 x 是 #10# #11# 的絕對值)。給定一個數組 a ,只要它至少包含兩個元素,你就可以執行以下操作&#xff1a…

【學習筆記】Linux系統中SSH服務安全配置

一、背景知識 以ubuntu為例,查看ssh服務是否安全并配置,執行 ssh -V ssh的配置文件路徑:/etc/ssh/sshd_config 二、SSH服務配置文件 1.端口和監聽設置 Port 22 含義:指定SSH服務監聽的端口號(默認是22&#xff09…

FastAPI + Tortoise-ORM + Aerich 實現數據庫遷移管理(MySQL 實踐)

在 FastAPI 項目中,Tortoise-ORM 是一個輕量的異步 ORM 框架,適用于 async/await 場景。結合數據庫遷移工具 Aerich,可以優雅地管理數據庫表結構演進,本文將通過完整流程演示如何在 MySQL 環境下使用。📦 一、環境準備…

7.7日 實驗03-Spark批處理開發(2)

使用Spark處理數據文件檢查數據檢查$DATA_EXERCISE/activations里的數據&#xff0c;每個XML文件包含了客戶在指定月份活躍的設備數據。拷貝數據到HDFS的/dw目錄樣本數據示例&#xff1a;<activations><activation timestamp"1225499258" type"phone&q…

C語言可變參數感悟

#include <stdio.h> #include <stdarg.h> #if 1 /* *在C語言中&#xff0c;可變參函數是指參數數量不固定的函數&#xff0c;比如printf\scanf *可變參函數的語法&#xff1a; *返回類型 函數名&#xff08;固定函數&#xff0c;.....) { //函數體 } *1、包含頭文件…

LeetCode 1248.統計優美子數組

給你一個整數數組 nums 和一個整數 k。如果某個連續子數組中恰好有 k 個奇數數字&#xff0c;我們就認為這個子數組是「優美子數組」。 請返回這個數組中 「優美子數組」 的數目。 示例 1&#xff1a; 輸入&#xff1a;nums [1,1,2,1,1], k 3 輸出&#xff1a;2 解釋&#xf…

FastAPI Docker環境管理腳本使用指南

作者: 源滾滾AI編程 創建時間: 2025年07月08日 版本: v1.0.0 文檔狀態: 完成 版權聲明 本文檔由源滾滾AI編程創作,版權所有。未經作者書面許可,不得復制、分發或用于商業用途。 免責聲明 本文檔僅用于技術交流和學習目的。作者不對使用本文檔內容導致的任何問題承擔責任。…