51c視覺~3D~合集4

自己的原文哦~? ? ? ? ?https://blog.51cto.com/whaosoft/14084543

#VGGT-Long

首次將單目3D重建推向公里級極限!南開、南大提出:分塊、循環、對齊,開源

近年來,3D視覺基礎模型(Foundation Models)在3D感知任務中展現了驚人的能力,但由于顯存的限制,將這些強大的模型應用于大規模、長序列的RGB視頻流3D重建仍然是一個巨大的挑戰。今天,介紹一項來自南開大學和南京大學的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。該研究提出了一個名為VGGT-Long的系統,它簡單而有效,首次將僅使用單目RGB視頻的3D重建能力推向了公里級別的、無邊界的室外環境。

  • 論文標題:?VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
  • 作者:?Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
  • 機構:?南開大學;南京大學
  • 論文地址:???https://arxiv.org/pdf/2507.16443v1??
  • 項目地址:???https://github.com/DengKaiCQ/VGGT-Long??

研究背景與意義

3D場景重建是自動駕駛、機器人導航和增強現實等領域的關鍵技術。基于學習的,特別是基于基礎模型的方法,如VGGT,在小規模場景中表現出色。然而,當面對長達數公里的視頻序列時,這些模型往往會因為顯存溢出(Out-of-Memory)而崩潰,或者因為誤差的不斷累積而產生嚴重的漂移,導致重建失敗。

如下圖所示,在處理大規模室外場景時,先前的方法(如CUT3R, Fast3R)存在嚴重的漂移問題,而其他基于基礎模型的方法(如MASt3R-SLAM, VGGT)則無法完成整個長序列的處理。相比之下,本文提出的VGGT-Long能夠成功完成公里級場景的重建,并保持了場景的準確性。

圖片

VGGT-Long的巧妙之處在于,它無需相機標定、無需深度監督、也無需重新訓練基礎模型,僅通過一套高效的后處理系統,就解決了現有模型的可擴展性瓶頸,實現了與傳統SLAM方法相媲美的軌跡和重建性能。

VGGT-Long:核心方法

VGGT-Long系統的核心思想可以概括為其標題中的三個動詞:分塊(Chunk it)、循環(Loop it)、對齊(Align it)。

圖片

1. 分塊處理 (Chunk it):?為了克服顯存限制,VGGT-Long將長視頻序列分割成多個有重疊的、固定長度的短視頻塊(chunks)。然后,它以滑動窗口的方式,將這些視頻塊依次送入預訓練的VGGT模型進行處理,得到每個塊的局部3D點圖(pointmap)和相機軌跡。

圖片

2. 重疊對齊 (Align it):?得到一系列獨立的局部重建結果后,需要將它們拼接成一個全局一致的場景。VGGT-Long利用相鄰視頻塊之間的重疊部分進行對齊。值得一提的是,研究者提出了一種置信度感知對齊(Confidence-aware alignment)策略。VGGT模型會為每個預測的點生成一個置信度分數,該策略可以有效抑制場景中高速運動的物體(如車輛)對對齊過程的干擾,從而提高拼接的魯棒性和準確性。

圖片

3.回環優化 (Loop it):?即使每個塊都精確對齊,在長達公里的軌跡上,微小的誤差也會不斷累積,導致全局尺度的漂移(例如,起點和終點無法閉合)。為了解決這個問題,VGGT-Long引入了輕量級的回環閉合優化(Loop Closure Optimization)。當車輛回到先前經過的位置時,系統會檢測到回環,并建立約束。然后通過全局LM(Levenberg-Marquardt)優化,一次性校正整個軌跡的累積誤差,確保全局地圖的一致性。

圖片

實驗設計與結果

研究團隊在自動駕駛領域極具挑戰性的KITTI、Waymo和Virtual KITTI數據集上對VGGT-Long進行了全面評估。

在相機軌跡跟蹤精度(ATE)方面,如下表所示,VGGT-Long在KITTI和Waymo數據集上均取得了與傳統SLAM方法(如ORB-SLAM3)相當甚至更好的性能,并且顯著優于其他基于學習的方法。許多方法在長序列上直接因顯存溢出(OOM)或跟蹤丟失(TL)而失敗。

圖片

圖片

在3D重建質量方面,VGGT-Long同樣表現出色。有趣的是,在Waymo數據集的評估中,研究者發現由于車載激光雷達(LiDAR)的掃描高度和范圍有限,其采集的真值點云有時甚至不如視覺方法重建的場景完整(例如,無法感知到天橋的3D結構)。這表明VGGT-Long能夠生成比某些真值數據更完整、更精確的幾何結構。

圖片

在運行效率方面,VGGT-Long的所有組件幾乎都能實現實時運行。特別是其輕量級的回環優化,僅需3次迭代即可收斂,達到毫秒級的性能,這對于實際應用至關重要。

圖片

圖片

消融實驗也證明了系統中每個組件的必要性,特別是回環閉合,它顯著減少了累積誤差,是實現公里級精確重建的關鍵。

圖片

論文貢獻與價值

  • 突破尺度限制:?提出VGGT-Long系統,成功將基于基礎模型的單目3D重建擴展到公里級長序列,解決了現有方法的關鍵瓶頸。
  • 零成本擴展:?該方法無需任何模型重訓練、相機標定或深度真值,即可直接應用于新的長視頻序列,具有極強的泛化性和易用性。
  • 性能卓越且高效:?在多個大規模自動駕駛數據集上,實現了與傳統方法相媲美的性能,同時保持了近乎實時的運行效率。
  • 推動實際應用:?該研究展示了利用基礎模型進行可擴展、高精度單目3D場景重建的巨大潛力,尤其是在自動駕駛等真實世界場景中,為低成本、純視覺的建圖與定位方案鋪平了道路。
  • 代碼開源:?研究團隊已將代碼開源,將極大地推動社區在這一方向上的進一步發展。

總而言之,VGGT-Long是一項優雅而實用的工作,它沒有去設計一個更龐大、更復雜的網絡,而是通過一套巧妙的系統級設計,釋放了現有3D基礎模型的全部潛力,為大規模單目3D重建這一難題提供了令人信服的解決方案。

#HybridTM

魚與熊掌亦可兼得,Transformer與Mamba混合模型登頂3D語義分割

在3D語義分割領域,Transformer以其強大的全局注意力機制(Attention)著稱,能夠有效捕捉長距離依賴關系,但其二次方計算復雜度在處理大規模點云時顯得力不從心。而新興的Mamba架構,憑借其線性復雜度的狀態空間模型(SSM),在處理長序列數據時展現出極高的效率,但在3D特征提取的表示能力上有所欠缺。如何將二者的優勢結合起來,一直是學界和業界探索的難題。

近日,來自華中科技大學和香港大學的研究者們提出了一種名為HybridTM的全新混合架構,首次將Transformer和Mamba的優勢成功融合,應用于3D語義分割任務。該方法不僅在ScanNet、ScanNet200和nuScenes等多個權威基準測試中取得了SOTA(State-of-the-Art)的性能,還通過一種新的層內混合策略(Inner Layer Hybrid Strategy),實現了對長距離依賴和細粒度局部特征的同步捕獲。

  • 論文標題:?HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
  • 作者團隊:?Xinyu Wang, Jinghua Hou, Zhe Liu, Yingying Zhu
  • 所屬機構:?華中科技大學、香港大學
  • 論文地址:???https://arxiv.org/pdf/2507.18575v1??
  • 項目地址:???https://github.com/deepinact/HybridTM??
  • 錄用信息:?IROS 2025

研究背景與意義

3D語義分割是理解3D場景的關鍵技術,在自動駕駛、機器人、增強現實等領域有著廣泛的應用。其目標是為點云中的每一個點分配一個語義標簽(如“建筑”、“車輛”、“行人”等)。

近年來,Transformer憑借其強大的全局建模能力,在3D語義分割任務中取得了顯著的成功。然而,其核心的自注意力機制需要計算每個點與其他所有點之間的關系,導致計算量和內存消耗隨著點云規模的增大而呈二次方增長,這極大地限制了其在動輒包含數百萬個點的大規模場景中的應用。

為了解決這一問題,研究者們開始探索更高效的架構。Mamba作為一種新興的序列建模方法,其線性復雜度使其在處理長序列時具有天然的優勢。然而,直接將Mamba應用于3D點云時,其在捕捉局部幾何結構和細粒度特征方面的能力又不如Transformer。

因此,如何設計一個能夠兼具Transformer的強大表示能力和Mamba的高效計算能力的混合模型,成為了一個極具價值的研究方向。

核心方法:HybridTM

HybridTM的整體架構采用了經典的UNet結構,包含編碼器、解碼器以及跳躍連接,能夠有效處理多尺度的特征。其核心創新在于編碼器和解碼器中使用的混合層(Hybrid Layer)。

圖片

HybridTM 整體架構圖

層內混合策略(Inner Layer Hybrid Strategy)

與之前工作嘗試在不同層級(inter-layer)或不同分支(parallel)上結合不同模型不同,HybridTM提出了一種更細粒度的層內混合(Inner Layer Hybrid)策略。在一個混合層內部,數據會依次經過注意力模塊和Mamba模塊,從而實現優勢互補。

圖片

混合層(Hybrid Layer)結構圖

一個混合層的具體流程如下:

  1. 條件位置編碼(xCPE):?首先,通過一個條件位置編碼層來增強體素(Voxel)的位置信息。
  2. 注意力模塊(Attention Layer):?接著,將體素劃分為多個小的分組(group),在每個分組內應用注意力機制。這樣做的好處是,既可以利用注意力機制強大的局部特征提取能力,又可以通過分組操作將計算復雜度控制在可接受的范圍內。
  3. Mamba模塊(Mamba Layer):?在注意力模塊處理完后,將體素恢復到原始尺寸,并重新劃分為幾個更大的分組。然后,在這些更大的分組上應用Mamba,利用其線性復雜度的優勢來高效地捕捉長距離的全局上下文信息。
  4. 前饋網絡(FFN):?最后,通過一個前饋網絡來進一步融合和增強特征。

通過這種“先局部精雕(Attention),后全局總覽(Mamba)”的策略,HybridTM成功地在一個統一的層內,以一種高效的方式同時捕獲了細粒度的局部特征和長距離的全局依賴。

圖片

不同混合策略的對比,證明了層內混合(Inner Layer Hybrid)的優越性

實驗結果與分析

研究者在多個大規模室內和室外3D點云數據集上對HybridTM進行了全面的評估。

圖片

HybridTM在室內外數據集上均超越現有基于Transformer、3D稀疏卷積和Mamba的方法

實驗結果表明,HybridTM在所有測試的數據集上都取得了SOTA的性能,顯著優于之前基于Transformer或Mamba的單一模型。

SCANNET驗證集結果

SCANNET驗證集結果

HybridTM在ScanNet驗證集上以77.8% mIoU刷新SOTA記錄,較Point Transformer v3[14]提升0.3%,較Swin3D[11]和Serialized Point Mamba[26]分別提升2.3%和1.0%,展現了其在3D語義分割領域的突破性性能。

ScanNet200驗證集結果

ScanNet200驗證集結果

HybridTM在更復雜的ScanNet200驗證集上以36.5% mIoU再創SOTA,較Point Transformer V3和OctFormer分別領先1.3%和3.9%。

nuScenes驗證集結果

nuScenes驗證集結果

HybridTM在室外大規模數據集上以80.9% mIoU取得最優結果,較Point Transformer v3和SphereFormer分別提升0.7%和1.4%。

S3DIS驗證集結果

S3DIS驗證集結果

HybridTM在小規模數據集上獲得72.1% mIoU,較Serialized Point Mamba[26]提升1.5%,驗證了其泛化能力。

消融實驗也充分驗證了混合層中每個組件的有效性。去掉注意力模塊或Mamba模塊都會導致性能下降,證明了二者結合的必要性和互補性。

圖片

混合層中各組件的有效性分析

定性可視化結果也直觀地展示了HybridTM的優勢。相比于基線模型,HybridTM能夠生成更完整、更精確的語義分割結果,尤其是在處理一些細小的或者遠距離的物體時,表現得更加出色。

圖片

與Point Transformer V3的可視化對比,HybridTM在細節和完整性上表現更優

論文貢獻與價值

HybridTM的提出,為3D語義分割乃至更廣泛的3D視覺領域帶來了重要的貢獻:

  1. 開創性的混合架構:首次成功地將Transformer和Mamba在層內級別進行融合,為如何結合不同架構的優勢提供了一個全新的、有效的范例。
  2. SOTA性能:?在多個具有挑戰性的基準上刷新了記錄,為3D語義分割任務樹立了新的性能標桿。
  3. 高效與強大的平衡:?通過巧妙的設計,實現了計算效率和模型性能的完美平衡,使得處理大規模點云成為可能。
  4. 開源貢獻:研究團隊承諾將開源代碼,這將極大地促進社區對混合架構的研究,并為相關應用提供強大的工具。

總而言之,HybridTM不僅是一個性能卓越的3D語義分割模型,更重要的是,它展示了一條如何博采眾長、融合不同AI模型優勢的創新之路。

#Dens3R

終結幾何孤島,阿里提出統一3D幾何預測基礎模型

在密集的3D重建領域,盡管技術日新月異,但如何實現統一且精確的幾何預測,一直是懸而未決的核心挑戰。現有方法大多“各自為戰”,孤立地從圖像中預測深度、表面法線或點云等單一幾何量。然而,這些幾何屬性在物理世界中本就緊密耦合,孤立的預測不僅難以保證結果的一致性,也限制了最終的精度和實用性。

針對這一痛點,來自阿里巴巴集團和上海交通大學的研究者們提出了Dens3R,一個專為聯合幾何密集預測而生的3D基礎模型。它通過一個統一的框架,顯式地建模不同幾何屬性間的結構關聯,實現了從單視角到多視角輸入的高度一致且精確的幾何感知。

  • 論文標題:?Dens3R: A Foundation Model for 3D Geometry Prediction
  • 作者:?Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv
  • 機構:?阿里巴巴集團;上海交通大學
  • 論文地址:???https://arxiv.org/pdf/2507.16290v1??
  • 項目主頁:???https://g-1nonly.github.io/Dens3R/??
  • 代碼地址:???https://github.com/G-1nOnly/Dens3R??

研究背景與方法

Dens3R的核心思想是構建一個統一的骨干網絡,該網絡能夠逐步學習到一個既具有泛化能力又具備內在不變性(intrinsic-invariant)的點云圖表示(pointmap representation),并在此基礎上聯合預測多個幾何量。為此,研究者設計了一個包含輕量級共享編解碼器和多個任務特定頭的架構,并采用了一個巧妙的兩階段訓練策略。

圖片

第一階段:學習尺度不變的點云圖

在第一階段,模型通過強制執行多視角間的跨視圖映射一致性,學習到一個尺度不變的點云圖。這意味著模型理解了場景的相對結構,但這個階段的幾何信息還不夠精細。如下圖所示,直接從這個階段的點云圖推導出的法線信息是不夠準確的。

圖片

第二階段:學習內在不變的點云圖

在第二階段,模型引入了表面法線的預測,并利用“一對一”的對應關系約束,將表示從“尺度不變”提升為“內在不變”。這使得點云圖不僅包含了場景結構,還蘊含了更豐富的表面幾何細節。

為了增強模型對高分辨率輸入的魯棒性和表達能力,Dens3R還引入了位置插值旋轉位置編碼(position-interpolated rotary positional encoding)。基于這個統一且強大的骨干網絡,可以無縫集成額外的幾何預測頭和下游任務分支,展現了其作為基礎模型的巨大潛力。

圖片

實驗結果與分析

大量的實驗證明了Dens3R在多種密集3D預測任務上的卓越性能。

表面法線預測:無論是在室內還是室外場景,Dens3R生成的法線圖都比先前的方法更準確、更富細節。如下圖所示,它甚至能為反光表面和背景區域預測出準確的法線。

圖片

量化指標也證實了這一點,Dens3R在平均和中值角度誤差上均取得了SOTA(State-of-the-art)或次優的成績。

圖片

單目深度預測:在單目深度預測任務上,Dens3R同樣表現出色,在相對點誤差(REL)、均方根誤差(RMSE)以及inliers比例等多項關鍵指標上都名列前茅。

圖片

圖像匹配:作為一個基礎模型,其學習到的特征也應具備強大的匹配能力。在ZEB數據集上的圖像匹配基準測試中,Dens3R在幾乎所有AUC指標上都超越了之前的方法。

論文貢獻與價值

  • 提出3D基礎模型Dens3R:?首次提出了一個專為聯合幾何密集預測設計的3D基礎模型,能夠同時、一致地預測深度、法線等多個幾何量。
  • 創新的兩階段訓練框架:?通過兩階段訓練,逐步構建了一個從尺度不變到內在不變的強大幾何表示,有效解決了多任務學習中的一致性問題。
  • 性能卓越:?在表面法線預測、單目深度預測、圖像匹配等多個基準測試中取得了SOTA性能,驗證了其作為基礎模型的有效性和泛化能力。
  • 廣泛的應用潛力:?Dens3R作為一個通用的骨干網絡,可以輕松擴展到各種下游應用,為3D視覺領域的諸多任務提供了一個堅實的基礎。
  • 代碼與項目開源:?研究團隊開源了代碼和項目主頁,將極大地促進社區在統一3D幾何感知方向的研究。

總而言之,Dens3R通過其創新的統一框架和兩階段訓練策略,為解決密集3D重建中的核心挑戰——幾何一致性問題,提供了一個強有力的答案,并為未來的3D視覺研究和應用奠定了堅實的基礎。

#SGCDet

浙大等提出 :自適應3D體素構建,重新定義多視圖室內3D檢測

多視圖室內3D目標檢測是實現場景理解、增強現實和機器人導航的關鍵技術。然而,如何高效且準確地將多張2D圖像信息“提升”到3D空間,一直是該領域的瓶頸。傳統方法通常采用固定的投影方式構建3D體素(Voxel),這不僅計算冗余,而且限制了特征的表達能力。

近日,一篇被計算機視覺頂級會議ICCV 2025接收的論文《Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction》提出了一種全新的解決方案。該研究由浙江大學、浙大寧波理工學院和香港城市大學的研究者們共同完成,他們提出了一個名為SGCDet的新型框架。該框架通過自適應3D體素構建,巧妙地解決了上述難題,在ScanNet、ScanNet200和ARKitScenes等多個權威數據集上均取得了SOTA(State-of-the-Art)的性能。

  • 論文標題:?Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction
  • 作者團隊:?Runmin Zhang, Zhu Yu, Si-Yuan Cao, Lingyu Zhu, Guangyi Zhang, Xiaokai Bai, Hui-Liang Shen
  • 所屬機構:?浙江大學、浙大寧波理工學院、香港城市大學
  • 論文地址:???https://arxiv.org/pdf/2507.18331v1??
  • 項目地址:???https://github.com/RM-Zhang/SGCDet??
  • 錄用會議:?ICCV 2025

研究背景與意義

在多視圖3D目標檢測任務中,核心步驟是將從不同2D視角拍攝的圖像特征,轉換并融合到統一的3D空間中,形成所謂的“3D體素(3D Volume)”。過去的許多方法,如ImVoxelNet,通常是將3D空間中的每個體素中心點,直接投影回2D圖像的固定位置來提取特征。

這種方法的弊端顯而易見:

  1. 感受野受限:?一個3D體素只能從2D圖像上的一個固定點采樣特征,忽略了該點周圍豐富的上下文信息。
  2. 計算冗余:?無論是物體表面還是空無一物的自由空間,所有體素都被同等對待,導致大量計算資源被浪費在無效區域。

SGCDet正是為了解決這兩個核心痛點而設計的。

傳統稠密體素構建(c)與SGCDet的稀疏體素構建(d)對比

傳統稠密體素構建(c)與SGCDet的稀疏體素構建(d)對比

核心方法:SGCDet

SGCDet的創新之處在于其“自適應”的體素構建方式,它包含兩個核心模塊:幾何與上下文感知聚合模塊,以及稀疏體素構建策略。

SGCDet框架概覽圖

SGCDet框架概覽圖

1. 幾何與上下文感知聚合模塊 (Geometry and Context Aware Aggregation)

為了解決感受野受限的問題,研究者設計了這個模塊,它包含兩個關鍵部分:

  • 幀內特征采樣(Intra-view Feature Sampling):?傳統方法將3D體素投影到2D圖像的一個固定點,而SGCDet則引入了可變形注意力機制(Deformable Attention)。這使得每個3D體素在投影到2D圖像后,能夠自適應地在投影點周圍的多個位置進行采樣。這就像讓體素擁有了“主動觀察”的能力,可以根據需要去“看”周圍的上下文信息,從而獲得更豐富、更具代表性的特征。

幀內特征采樣示意圖:綠色點為固定投影點,紅色點為自適應的采樣點

幀內特征采樣示意圖:綠色點為固定投影點,紅色點為自適應的采樣點

  • 多視圖注意力(Multi-view Attention):?對于同一個3D體素,不同視角的圖像對其可見性、清晰度都不同。該模塊能動態地評估并調整來自不同視圖的特征貢獻權重,讓信息更可靠的視圖擁有更高的話語權,從而優化最終融合的體素特征。

2. 稀疏體素構建策略 (Sparse Volume Construction)

為了解決計算冗余的問題,SGCDet采用了一種由粗到精(Coarse-to-Fine)的稀疏構建策略。

  • 占用概率預測:?首先,網絡會初步構建一個粗糙的3D體素,并訓練一個占用預測網絡(Occupancy Prediction Network)來判斷每個體素是屬于“自由空間”還是“可能被物體占據”。
  • 聚焦精煉:?然后,網絡會只選擇那些占用概率高的體素,集中計算資源對它們進行特征精煉(即執行更復雜的幾何與上下文感知聚合)。

通過這種方式,大量的計算被從空曠區域中解放出來,使得模型能夠更高效地運行,同時將“算力”用在刀刃上。

稀疏體素構建可視化:模型能有效過濾掉自由空間,聚焦于物體所在的區域進行特征細化

稀疏體素構建可視化:模型能有效過濾掉自由空間,聚焦于物體所在的區域進行特征細化

更值得一提的是,整個網絡的監督僅需3D邊界框(Bounding Box)真值,無需依賴難以獲取的場景幾何(如稠密深度圖)真值,這大大增強了其在實際應用中的便利性。

實驗結果與分析

SGCDet在多個主流室內3D目標檢測數據集上都展現了卓越的性能。

ScanNet數據集的定量結果和計算成本

ScanNet數據集的定量結果和計算成本

ScanNet200數據集的定量結果

ScanNet200數據集的定量結果

在ARKitScenes數據集上的性能對比

在ARKitScenes數據集上的性能對比

大量的消融實驗也驗證了SGCDet中各個創新模塊的有效性。例如,實驗證明,同時使用可變形注意力和多視圖注意力,比單獨使用任何一個的效果都要好。稀疏體素構建策略也被證明能夠在不犧牲甚至提升精度的前提下,有效提高模型的運行效率。

幾何與上下文感知聚合模塊的消融實驗

幾何與上下文感知聚合模塊的消融實驗

不同方法的定性結果對比,SGCDet能更準確地檢測出物體

不同方法的定性結果對比,SGCDet能更準確地檢測出物體

論文貢獻與價值

SGCDet的提出,為多視圖室內3D目標檢測領域帶來了顯著的推動作用:

  1. 范式創新:?提出了一個全新的自適應3D體素構建框架,打破了傳統固定感受野的限制。
  2. 有效且高效:?通過幾何與上下文感知聚合模塊提升了特征質量,通過稀疏體素構建策略提升了計算效率,實現了“魚與熊掌兼得”。
  3. SOTA性能:?在三大權威基準上均取得了當前最佳性能,為該領域樹立了新的標桿。
  4. 實用性強:?僅需3D Bbox監督,降低了對數據標注的要求,且代碼已開源,便于社區研究和應用。

總而言之,SGCDet通過其精巧的自適應設計,為如何從多視圖2D圖像中高效、準確地構建3D世界表征,提供了一個極具啟發性的答案。

#MuStD

融合激光雷達與相機的3D檢測新SOTA

在自動駕駛和機器人技術中,精確感知周圍環境是實現安全可靠運行的基石。其中,3D目標檢測,即在三維空間中識別并定位物體(如車輛、行人),是核心挑戰之一。為了提升檢測精度,融合激光雷達(LiDAR)提供的精確深度信息和相機提供的豐富紋理信息,已成為業界共識。

本文介紹一篇收錄于?IROS 2025?的論文《Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes》。該研究由西澳大學和墨爾本大學的研究者們提出,設計了一種名為?MuStD (MultiStream Detection)?的多流網絡,旨在高效、精細地融合兩種模態數據,在著名的KITTI數據集上取得了新的SOTA或極具競爭力的結果。

  • 論文標題: Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes
  • 作者: Muhammad Ibrahim, Naveed Akhtar, Haitian Wang, Saeed Anwar, Ajmal Mian
  • 機構: 西澳大學;墨爾本大學
  • 論文地址: https://arxiv.org/pdf/2507.19304v1
  • 項目代碼: https://github.com/IbrahimUWA/MuStD.git
  • 錄用會議: IEEE/RSJ IROS 2025 (Oral Presentation)

研究背景與意義

戶外3D目標檢測任務中,LiDAR和相機是兩種最主流的傳感器。LiDAR通過發射激光束來測量距離,能夠生成精確的3D點云,為物體提供準確的空間幾何信息,但其點云數據通常是稀疏的,且缺乏顏色和紋理細節。相反,RGB相機能夠捕捉到高分辨率的圖像,包含豐富的顏色、紋理信息,有助于物體分類,但從2D圖像中精確推斷3D位置和尺寸非常困難。

因此,如何有效融合這兩種互補的數據源,一直是研究的熱點和難點。早期的融合方法通常較為簡單,例如將點云投影到圖像上進行特征拼接,但這往往不能充分利用兩種模態的內在優勢。本文提出的MuStD網絡,正是為了解決這一深度融合問題,旨在從兩種數據中精心提取與檢測任務最相關的信息。

MuStD:三流并行的精細化融合架構

MuStD網絡的核心是一個并行的三流(three-stream)結構,分別處理LiDAR數據和多模態數據,最后進行高效融合。

圖片

上圖展示了MuStD的整體架構,包含三個并行的數據處理流:

LiDAR-PillarNet流:

該分支借鑒了PillarNet的思想,將LiDAR點云數據轉換為稀疏的2D“柱狀”特征(pillar features)。這種方式在保留關鍵高度信息的同時,將3D問題轉化為2D問題,能高效地利用2D卷積網絡進行特征提取。

圖片

LiDAR-Height Compression流:

該分支首先使用3D稀疏卷積處理原始LiDAR點云,以提取豐富的3D幾何特征。隨后,通過一個高度壓縮模塊(height compression block)將3D特征圖沿Z軸(高度方向)聚合,生成鳥瞰圖(Bird's-Eye View, BEV)特征。這種方法保留了重要的空間布局信息,同時降低了計算復雜度。

圖片

3D多模態 (MM) 流:

這是實現深度融合的關鍵。該分支同時處理RGB圖像和LiDAR點云。它通過?UV映射?將3D LiDAR點與2D圖像特征對齊,從而為稀疏的點云賦予豐富的紋理和外觀信息。同時,它還引入了?極坐標索引 (polar coordinate indexing)?來編碼點的方向和深度信息,增強了幾何表示能力。

圖片

最終,這三個流提取出的包含全面空間、紋理和幾何信息的特征被精心融合在一起,送入一個統一的檢測頭(Detection Head),完成最終的3D目標檢測任務。

實驗與結果分析

該方法在極具挑戰性的KITTI目標檢測基準上進行了廣泛評估,并使用其官方測試服務器驗證了性能。

如下表所示,MuStD在Car類別的2D、3D和BEV檢測任務中,無論是在簡單(Easy)、中等(Moderate)還是困難(Hard)樣本上,均取得了SOTA或極具競爭力的結果。

圖片

下圖更直觀地展示了MuStD在精度和速度上的權衡。紅星代表的MuStD在實現了卓越檢測精度的同時,保持了具有競爭力的推理速度,展示了其高效性。

KITTI數據集上推理時間(ms)與目標檢測精度(AP)的比較,標記為紅星的MuStD在保持競爭性推理速度的同時實現了卓越的準確性。

KITTI數據集上推理時間(ms)與目標檢測精度(AP)的比較,標記為紅星的MuStD在保持競爭性推理速度的同時實現了卓越的準確性。

KITTI測試集2D車輛檢測與方向估計結果分析

圖片

上表對比數據顯示:

  • 在中等(Moderate)和高(Hard)難度級別下,所提出方法在2D檢測和車輛方向估計兩項任務上均超越現有最優方法
  • 在簡單(Easy)難度下,所提出方法性能與最優方法相當
  • 整體平均精度(mAP)在兩項任務中均保持領先

這些結果充分證明了所提出方法在處理具有挑戰性的場景(如存在遮擋或遠距離物體)時的卓越性能。

圖片

上圖直觀展示了三個難度等級下的精確率-召回率曲線和方向相似度曲線。值得注意的是,所提出方法在保持50毫秒極快推理速度的同時,其精度表現遠超同類競爭方法(如VirConv-T和SDF等)。

KITTI數據集3D與鳥瞰圖(BEV)檢測結果

圖片

上表對比了所提出方法在KITTI測試集上的3D和鳥瞰圖檢測性能(服務器生成結果)與現有最優方法。提出的MuStD網絡在3D和BEV車輛檢測的Hard難度類別中均取得最佳性能。

圖片

上圖展示的精確率-召回率曲線進一步表明,所提出方法在不同召回率水平下均保持高精度,充分體現了多模態融合策略的優勢。

KITTI數據集多類別檢測結果

圖片

結果表明,所提出方法在三類目標檢測上均持續超越對比方法,證明其能同等有效地捕捉復雜城市場景中大小物體的幾何結構與空間紋理特征。

消融研究

此外,論文還通過消融實驗證明了每個流以及多模態融合策略的有效性。實驗結果表明,三個流的組合以及精細的融合策略對于最終的高性能至關重要。

圖片

論文貢獻與價值

  • 提出MuStD網絡: 設計了一種新的三流并行網絡架構,能夠從LiDAR和相機數據中精細地提取和融合互補特征。
  • 創新的多模態融合: 3D多模態流中使用的UV映射和極坐標索引為點云和圖像的特征級深度融合提供了有效的新思路。
  • SOTA性能: 在KITTI基準上取得了頂尖的3D目標檢測性能,同時兼顧了較高的運行效率,為自動駕駛等實際應用提供了強大的技術方案。
  • 代碼開源: 承諾將發布代碼,這將極大地便利社區的研究者們進行復現和在此基礎上的進一步探索。

總而言之,MuStD通過其精心設計的多流架構,為LiDAR與相機數據的融合提供了一個高效且強大的解決方案,在推動戶外3D目標檢測技術發展方面邁出了堅實的一步。

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90801.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90801.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90801.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

實時云渲染將UE像素流嵌入業務系統,實現二維管理系統與數字孿生三維可視化程序的無縫交互

在數字孿生大屏可視化項目中,將實時云渲染技術嵌入業務系統已成為提升用戶體驗和工作效率的關鍵策略之一。將云渲染嵌入業務系統,用戶可以在執行業務操作時實時看到云渲染畫面的響應,同時對云渲染畫面的操作也能立即反饋到業務系統中。這種無…

Apache POI 介紹與使用指南

文章框架一、Apache POI 概述定義&#xff1a;Java API操作Microsoft Office格式文件核心功能&#xff1a;讀寫Excel&#xff08;.xls, .xlsx&#xff09;操作Word、PowerPoint等文檔優勢&#xff1a;開源免費、跨平臺、功能全面二、環境準備Maven依賴配置&#xff1a;<!-- …

Redis--哨兵機制詳解

1. 哨兵機制簡介Redis Sentinel&#xff08;哨兵&#xff09;是Redis的高可用性解決方案&#xff0c;它提供了監控、通知、自動故障轉移和配置提供者等功能。Sentinel系統可以監控多個Redis主服務器及其從服務器&#xff0c;并在主服務器失效時自動進行故障轉移&#xff0c;確保…

無人機機體結構設計要點難點分析

一、 設計要點1.輕量化&#xff1a;核心目標&#xff1a; 最大程度減輕結構重量&#xff0c;提升有效載荷能力、續航時間、飛行速度和機動性。實現手段&#xff1a; 選用高比強度/比剛度材料&#xff08;碳纖維復合材料、航空鋁合金、鈦合金、工程塑料&#xff09;、拓撲優化、…

AI時代的數據庫革命:電科金倉的“融合+AI“戰略解析

在人工智能時代的大變局下&#xff0c;數據庫要走向何方&#xff1f; 7月15日&#xff0c;中國電科旗下金倉數據庫以一場名為“融合進化 智領未來”的發布會&#xff0c;提出了自己的核心主張&#xff1a;真正的未來數據庫&#xff0c;是“融合”為體&#xff0c;“AI”為用。電…

與deepseek的問答:dot net與Borland VCL的關系

Borland VCL與.NET/C#關系分析borland delphi如神一般地存在&#xff01;試分析.net、c#與Borland VCL的關系。Borland Delphi及其VCL&#xff08;Visual Component Library&#xff09;框架在軟件開發史上確實具有傳奇地位&#xff0c;尤其在Windows桌面應用開發領域。而隨著.…

SAP在未啟用負庫存的情況下,庫存卻出現了負數-補充S4 1709 BUG

SAP在未啟用負庫存的情況下&#xff0c;庫存卻出現了負數-補充S4 1709 BUG共用物料合并發料&#xff1a;單行發料數量沒有超過庫存數量&#xff0c;但合計發料數量超過庫存數量了&#xff0c;系統還是可以過賬&#xff0c;沒有任何提示&#xff0c;如下圖所示&#xff1a;庫存數…

SpringBoot項目中常見注解

RequiredArgsConstructor 注解 類上添加該注解&#xff0c;Lombok 會自動生成一個構造函數&#xff0c;用于注入 final 或 NonNull 修飾的字段 ConfigurationProperties注解 用于將配置文件中的屬性注入到某個類的字段上 sky:jwt:admin-secret-key: itcastadmin-ttl: 7200000ad…

一鍵修復ipynb,Jupyter Notebook損壞文件

背景最近在寫一個數據分析項目時&#xff0c;不幸遇到了 斷電導致電腦重啟 的突發情況。當我再次打開 Jupyter Notebook 文件&#xff08;.ipynb&#xff09;時&#xff0c;發現文件已經損壞&#xff0c;Jupyter 無法正常讀取它&#xff0c;甚至有時直接報錯&#xff1a;Unread…

React入門學習——指北指南(第三節)

React 組件 在前面的內容中,我們了解了 React 的基礎知識和入門案例。本節將深入探討 React 中最核心的概念之一 —— 組件。組件是構建 React 應用的基礎,理解組件的工作原理和使用方法,對于掌握 React 開發至關重要。 什么是組件? 在 React 中,組件是具有獨立功能和 …

容器化環境下的服務器性能瓶頸與優化策略

更多云服務器知識&#xff0c;盡在hostol.com在容器化環境中&#xff0c;性能優化并不是一個簡單的“加硬件”或“增加資源”就能解決的問題。隨著技術的進步&#xff0c;越來越多的公司選擇使用容器技術&#xff08;如Docker、Kubernetes&#xff09;來提高應用的靈活性、可移…

GaussDB 數據庫架構師修煉(八) 等待事件(2)-ASP報告分析

1 ASP報告簡介ASP-Active Sesion Profile &#xff08;活躍會話檔案信息&#xff09;&#xff0c;ASP每秒獲取活躍會話事件&#xff0c;放到內存中&#xff0c;內存中的數據達閾值&#xff0c;會落盤gs_asp表中。ASP Report根據輸入的時間段與slot個數&#xff0c;從內存和磁盤…

CentOS7 安裝 Redis

在 CentOS 7 上配置 Redis 服務器需要完成安裝、配置和服務管理。以下是詳細步驟&#xff1a;安裝 Redis安裝依賴&#xff1a;yum install -y gcc tcl下載并解壓 Redis&#xff1a;cd /usr/local/wget https://download.redis.io/releases/redis-6.2.6.tar.gztar -zxvf redis-6…

《C++ list 完全指南:從基礎到高效使用》

《C list 完全指南&#xff1a;從基礎到高效使用》 文章目錄《C list 完全指南&#xff1a;從基礎到高效使用》一、forward_list和list比較二、list的接口介紹1.list的構造2.list iterator的使用3.list的容量操作4.list的訪問操作5.list的其他操作接口三、list的迭代器失效四、…

CIU32L051 DMA+Lwrb環形隊列實現串口無阻塞性數據的收發 + 數據百分百不丟失的實現

1.Lwrb的介紹&#xff08;博主功能的實現是基于RT-thread系統實現&#xff09; Lwrb是由Tilen Majerle編寫的一個線程安全的環形隊列&#xff0c;通常與DMA配合實現數據的無阻塞性收發&#xff0c;同時&#xff0c;配合DMA的傳輸過半中斷&#xff0c;傳輸完成中斷&#xff0c;以…

【C++】C++ 的入門知識2

本篇文章主要講解 C 的入門語法知識引用、inline 關鍵字與 nullptr 關鍵字。 目錄 1 引用 1&#xff09; 引用的概念與定義 &#xff08;1&#xff09; 引用的概念 &#xff08;2&#xff09; 引用的定義 2&#xff09; 引用的特性 3&#xff09; 引用的使用場…

基于Kafka實現動態監聽topic功能

生命無罪&#xff0c;健康萬歲&#xff0c;我是laity。 我曾七次鄙視自己的靈魂&#xff1a; 第一次&#xff0c;當它本可進取時&#xff0c;卻故作謙卑&#xff1b; 第二次&#xff0c;當它在空虛時&#xff0c;用愛欲來填充&#xff1b; 第三次&#xff0c;在困難和容易之間&…

機械學習初識--什么是機械學習--機械學習有什么重要算法

一、什么是機械學習機器學習&#xff08;Machine Learning&#xff09;是人工智能&#xff08;AI&#xff09;的一個重要分支&#xff0c;它使計算機能夠通過數據自動學習規律、改進性能&#xff0c;并在沒有明確編程的情況下完成特定任務。其核心思想是讓機器從數據中 “學習”…

普通大學生大三這一年的想法

目錄 大三期間的經歷與反思 公益活動&#xff1a;社會責任感的體現 比賽&#xff1a;個人成長的助推器 培訓與思想提升 大學教育的本質與人才培養 構建自我的道與未來規劃 大學教育的未來與個人定位 結語 大三期間的經歷與反思 大三&#xff0c;大學生活的分水嶺&#…

Python——入門

目錄 變量 變量類型 動態類型 注釋 輸出輸入 運算符 算術運算符 關系運算符 邏輯運算符 賦值運算符 條件語句 循環語句 函數 函數作用域 函數嵌套調用 函數默認參數 關鍵字參數 列表 切片 列表遍歷 新增元素 查找元素 刪除元素 列表拼接 元組…