51c視覺~3D~合集4

自己的原文哦~? ? ? ? ?https://blog.51cto.com/whaosoft/14084543

#VGGT-Long

首次將單目3D重建推向公里級極限！南開、南大提出：分塊、循環、對齊，開源

近年來，3D視覺基礎模型（Foundation Models）在3D感知任務中展現了驚人的能力，但由于顯存的限制，將這些強大的模型應用于大規模、長序列的RGB視頻流3D重建仍然是一個巨大的挑戰。今天，介紹一項來自南開大學和南京大學的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。該研究提出了一個名為VGGT-Long的系統，它簡單而有效，首次將僅使用單目RGB視頻的3D重建能力推向了公里級別的、無邊界的室外環境。

論文標題：?VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
作者：?Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
機構：?南開大學；南京大學
論文地址：???https://arxiv.org/pdf/2507.16443v1??
項目地址：???https://github.com/DengKaiCQ/VGGT-Long??

研究背景與意義

3D場景重建是自動駕駛、機器人導航和增強現實等領域的關鍵技術。基于學習的，特別是基于基礎模型的方法，如VGGT，在小規模場景中表現出色。然而，當面對長達數公里的視頻序列時，這些模型往往會因為顯存溢出（Out-of-Memory）而崩潰，或者因為誤差的不斷累積而產生嚴重的漂移，導致重建失敗。

如下圖所示，在處理大規模室外場景時，先前的方法（如CUT3R, Fast3R）存在嚴重的漂移問題，而其他基于基礎模型的方法（如MASt3R-SLAM, VGGT）則無法完成整個長序列的處理。相比之下，本文提出的VGGT-Long能夠成功完成公里級場景的重建，并保持了場景的準確性。

VGGT-Long的巧妙之處在于，它無需相機標定、無需深度監督、也無需重新訓練基礎模型，僅通過一套高效的后處理系統，就解決了現有模型的可擴展性瓶頸，實現了與傳統SLAM方法相媲美的軌跡和重建性能。

VGGT-Long：核心方法

VGGT-Long系統的核心思想可以概括為其標題中的三個動詞：分塊（Chunk it）、循環（Loop it）、對齊（Align it）。

1. 分塊處理 (Chunk it):?為了克服顯存限制，VGGT-Long將長視頻序列分割成多個有重疊的、固定長度的短視頻塊（chunks）。然后，它以滑動窗口的方式，將這些視頻塊依次送入預訓練的VGGT模型進行處理，得到每個塊的局部3D點圖（pointmap）和相機軌跡。

2. 重疊對齊 (Align it):?得到一系列獨立的局部重建結果后，需要將它們拼接成一個全局一致的場景。VGGT-Long利用相鄰視頻塊之間的重疊部分進行對齊。值得一提的是，研究者提出了一種置信度感知對齊（Confidence-aware alignment）策略。VGGT模型會為每個預測的點生成一個置信度分數，該策略可以有效抑制場景中高速運動的物體（如車輛）對對齊過程的干擾，從而提高拼接的魯棒性和準確性。

3.回環優化 (Loop it):?即使每個塊都精確對齊，在長達公里的軌跡上，微小的誤差也會不斷累積，導致全局尺度的漂移（例如，起點和終點無法閉合）。為了解決這個問題，VGGT-Long引入了輕量級的回環閉合優化（Loop Closure Optimization）。當車輛回到先前經過的位置時，系統會檢測到回環，并建立約束。然后通過全局LM（Levenberg-Marquardt）優化，一次性校正整個軌跡的累積誤差，確保全局地圖的一致性。

實驗設計與結果

研究團隊在自動駕駛領域極具挑戰性的KITTI、Waymo和Virtual KITTI數據集上對VGGT-Long進行了全面評估。

在相機軌跡跟蹤精度（ATE）方面，如下表所示，VGGT-Long在KITTI和Waymo數據集上均取得了與傳統SLAM方法（如ORB-SLAM3）相當甚至更好的性能，并且顯著優于其他基于學習的方法。許多方法在長序列上直接因顯存溢出（OOM）或跟蹤丟失（TL）而失敗。

在3D重建質量方面，VGGT-Long同樣表現出色。有趣的是，在Waymo數據集的評估中，研究者發現由于車載激光雷達（LiDAR）的掃描高度和范圍有限，其采集的真值點云有時甚至不如視覺方法重建的場景完整（例如，無法感知到天橋的3D結構）。這表明VGGT-Long能夠生成比某些真值數據更完整、更精確的幾何結構。

在運行效率方面，VGGT-Long的所有組件幾乎都能實現實時運行。特別是其輕量級的回環優化，僅需3次迭代即可收斂，達到毫秒級的性能，這對于實際應用至關重要。

消融實驗也證明了系統中每個組件的必要性，特別是回環閉合，它顯著減少了累積誤差，是實現公里級精確重建的關鍵。

論文貢獻與價值

突破尺度限制：?提出VGGT-Long系統，成功將基于基礎模型的單目3D重建擴展到公里級長序列，解決了現有方法的關鍵瓶頸。
零成本擴展：?該方法無需任何模型重訓練、相機標定或深度真值，即可直接應用于新的長視頻序列，具有極強的泛化性和易用性。
性能卓越且高效：?在多個大規模自動駕駛數據集上，實現了與傳統方法相媲美的性能，同時保持了近乎實時的運行效率。
推動實際應用：?該研究展示了利用基礎模型進行可擴展、高精度單目3D場景重建的巨大潛力，尤其是在自動駕駛等真實世界場景中，為低成本、純視覺的建圖與定位方案鋪平了道路。
代碼開源：?研究團隊已將代碼開源，將極大地推動社區在這一方向上的進一步發展。

總而言之，VGGT-Long是一項優雅而實用的工作，它沒有去設計一個更龐大、更復雜的網絡，而是通過一套巧妙的系統級設計，釋放了現有3D基礎模型的全部潛力，為大規模單目3D重建這一難題提供了令人信服的解決方案。

#HybridTM

魚與熊掌亦可兼得，Transformer與Mamba混合模型登頂3D語義分割

在3D語義分割領域，Transformer以其強大的全局注意力機制（Attention）著稱，能夠有效捕捉長距離依賴關系，但其二次方計算復雜度在處理大規模點云時顯得力不從心。而新興的Mamba架構，憑借其線性復雜度的狀態空間模型（SSM），在處理長序列數據時展現出極高的效率，但在3D特征提取的表示能力上有所欠缺。如何將二者的優勢結合起來，一直是學界和業界探索的難題。

近日，來自華中科技大學和香港大學的研究者們提出了一種名為HybridTM的全新混合架構，首次將Transformer和Mamba的優勢成功融合，應用于3D語義分割任務。該方法不僅在ScanNet、ScanNet200和nuScenes等多個權威基準測試中取得了SOTA（State-of-the-Art）的性能，還通過一種新的層內混合策略（Inner Layer Hybrid Strategy），實現了對長距離依賴和細粒度局部特征的同步捕獲。

論文標題：?HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
作者團隊：?Xinyu Wang, Jinghua Hou, Zhe Liu, Yingying Zhu
所屬機構：?華中科技大學、香港大學
論文地址：???https://arxiv.org/pdf/2507.18575v1??
項目地址：???https://github.com/deepinact/HybridTM??
錄用信息：?IROS 2025

研究背景與意義

3D語義分割是理解3D場景的關鍵技術，在自動駕駛、機器人、增強現實等領域有著廣泛的應用。其目標是為點云中的每一個點分配一個語義標簽（如“建筑”、“車輛”、“行人”等）。

近年來，Transformer憑借其強大的全局建模能力，在3D語義分割任務中取得了顯著的成功。然而，其核心的自注意力機制需要計算每個點與其他所有點之間的關系，導致計算量和內存消耗隨著點云規模的增大而呈二次方增長，這極大地限制了其在動輒包含數百萬個點的大規模場景中的應用。

為了解決這一問題，研究者們開始探索更高效的架構。Mamba作為一種新興的序列建模方法，其線性復雜度使其在處理長序列時具有天然的優勢。然而，直接將Mamba應用于3D點云時，其在捕捉局部幾何結構和細粒度特征方面的能力又不如Transformer。

因此，如何設計一個能夠兼具Transformer的強大表示能力和Mamba的高效計算能力的混合模型，成為了一個極具價值的研究方向。

核心方法：HybridTM

HybridTM的整體架構采用了經典的UNet結構，包含編碼器、解碼器以及跳躍連接，能夠有效處理多尺度的特征。其核心創新在于編碼器和解碼器中使用的混合層（Hybrid Layer）。

HybridTM 整體架構圖

層內混合策略（Inner Layer Hybrid Strategy）

與之前工作嘗試在不同層級（inter-layer）或不同分支（parallel）上結合不同模型不同，HybridTM提出了一種更細粒度的層內混合（Inner Layer Hybrid）策略。在一個混合層內部，數據會依次經過注意力模塊和Mamba模塊，從而實現優勢互補。

混合層（Hybrid Layer）結構圖

一個混合層的具體流程如下：

條件位置編碼（xCPE）：?首先，通過一個條件位置編碼層來增強體素（Voxel）的位置信息。
注意力模塊（Attention Layer）：?接著，將體素劃分為多個小的分組（group），在每個分組內應用注意力機制。這樣做的好處是，既可以利用注意力機制強大的局部特征提取能力，又可以通過分組操作將計算復雜度控制在可接受的范圍內。
Mamba模塊（Mamba Layer）：?在注意力模塊處理完后，將體素恢復到原始尺寸，并重新劃分為幾個更大的分組。然后，在這些更大的分組上應用Mamba，利用其線性復雜度的優勢來高效地捕捉長距離的全局上下文信息。
前饋網絡（FFN）：?最后，通過一個前饋網絡來進一步融合和增強特征。

通過這種“先局部精雕（Attention），后全局總覽（Mamba）”的策略，HybridTM成功地在一個統一的層內，以一種高效的方式同時捕獲了細粒度的局部特征和長距離的全局依賴。

不同混合策略的對比，證明了層內混合（Inner Layer Hybrid）的優越性

實驗結果與分析

研究者在多個大規模室內和室外3D點云數據集上對HybridTM進行了全面的評估。

HybridTM在室內外數據集上均超越現有基于Transformer、3D稀疏卷積和Mamba的方法

實驗結果表明，HybridTM在所有測試的數據集上都取得了SOTA的性能，顯著優于之前基于Transformer或Mamba的單一模型。

SCANNET驗證集結果

HybridTM在ScanNet驗證集上以77.8% mIoU刷新SOTA記錄，較Point Transformer v3[14]提升0.3%，較Swin3D[11]和Serialized Point Mamba[26]分別提升2.3%和1.0%，展現了其在3D語義分割領域的突破性性能。

ScanNet200驗證集結果

HybridTM在更復雜的ScanNet200驗證集上以36.5% mIoU再創SOTA，較Point Transformer V3和OctFormer分別領先1.3%和3.9%。

nuScenes驗證集結果

HybridTM在室外大規模數據集上以80.9% mIoU取得最優結果，較Point Transformer v3和SphereFormer分別提升0.7%和1.4%。

S3DIS驗證集結果

HybridTM在小規模數據集上獲得72.1% mIoU，較Serialized Point Mamba[26]提升1.5%，驗證了其泛化能力。

消融實驗也充分驗證了混合層中每個組件的有效性。去掉注意力模塊或Mamba模塊都會導致性能下降，證明了二者結合的必要性和互補性。

混合層中各組件的有效性分析

定性可視化結果也直觀地展示了HybridTM的優勢。相比于基線模型，HybridTM能夠生成更完整、更精確的語義分割結果，尤其是在處理一些細小的或者遠距離的物體時，表現得更加出色。

與Point Transformer V3的可視化對比，HybridTM在細節和完整性上表現更優

論文貢獻與價值

HybridTM的提出，為3D語義分割乃至更廣泛的3D視覺領域帶來了重要的貢獻：

開創性的混合架構：首次成功地將Transformer和Mamba在層內級別進行融合，為如何結合不同架構的優勢提供了一個全新的、有效的范例。
SOTA性能：?在多個具有挑戰性的基準上刷新了記錄，為3D語義分割任務樹立了新的性能標桿。
高效與強大的平衡：?通過巧妙的設計，實現了計算效率和模型性能的完美平衡，使得處理大規模點云成為可能。
開源貢獻：研究團隊承諾將開源代碼，這將極大地促進社區對混合架構的研究，并為相關應用提供強大的工具。

總而言之，HybridTM不僅是一個性能卓越的3D語義分割模型，更重要的是，它展示了一條如何博采眾長、融合不同AI模型優勢的創新之路。

#Dens3R

終結幾何孤島，阿里提出統一3D幾何預測基礎模型

在密集的3D重建領域，盡管技術日新月異，但如何實現統一且精確的幾何預測，一直是懸而未決的核心挑戰。現有方法大多“各自為戰”，孤立地從圖像中預測深度、表面法線或點云等單一幾何量。然而，這些幾何屬性在物理世界中本就緊密耦合，孤立的預測不僅難以保證結果的一致性，也限制了最終的精度和實用性。

針對這一痛點，來自阿里巴巴集團和上海交通大學的研究者們提出了Dens3R，一個專為聯合幾何密集預測而生的3D基礎模型。它通過一個統一的框架，顯式地建模不同幾何屬性間的結構關聯，實現了從單視角到多視角輸入的高度一致且精確的幾何感知。

論文標題：?Dens3R: A Foundation Model for 3D Geometry Prediction
作者：?Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv
機構：?阿里巴巴集團；上海交通大學
論文地址：???https://arxiv.org/pdf/2507.16290v1??
項目主頁：???https://g-1nonly.github.io/Dens3R/??
代碼地址：???https://github.com/G-1nOnly/Dens3R??

研究背景與方法

Dens3R的核心思想是構建一個統一的骨干網絡，該網絡能夠逐步學習到一個既具有泛化能力又具備內在不變性（intrinsic-invariant）的點云圖表示（pointmap representation），并在此基礎上聯合預測多個幾何量。為此，研究者設計了一個包含輕量級共享編解碼器和多個任務特定頭的架構，并采用了一個巧妙的兩階段訓練策略。

第一階段：學習尺度不變的點云圖

在第一階段，模型通過強制執行多視角間的跨視圖映射一致性，學習到一個尺度不變的點云圖。這意味著模型理解了場景的相對結構，但這個階段的幾何信息還不夠精細。如下圖所示，直接從這個階段的點云圖推導出的法線信息是不夠準確的。

第二階段：學習內在不變的點云圖

在第二階段，模型引入了表面法線的預測，并利用“一對一”的對應關系約束，將表示從“尺度不變”提升為“內在不變”。這使得點云圖不僅包含了場景結構，還蘊含了更豐富的表面幾何細節。

為了增強模型對高分辨率輸入的魯棒性和表達能力，Dens3R還引入了位置插值旋轉位置編碼（position-interpolated rotary positional encoding）。基于這個統一且強大的骨干網絡，可以無縫集成額外的幾何預測頭和下游任務分支，展現了其作為基礎模型的巨大潛力。

實驗結果與分析

大量的實驗證明了Dens3R在多種密集3D預測任務上的卓越性能。

表面法線預測：無論是在室內還是室外場景，Dens3R生成的法線圖都比先前的方法更準確、更富細節。如下圖所示，它甚至能為反光表面和背景區域預測出準確的法線。

量化指標也證實了這一點，Dens3R在平均和中值角度誤差上均取得了SOTA（State-of-the-art）或次優的成績。

單目深度預測：在單目深度預測任務上，Dens3R同樣表現出色，在相對點誤差（REL）、均方根誤差（RMSE）以及inliers比例等多項關鍵指標上都名列前茅。

圖像匹配：作為一個基礎模型，其學習到的特征也應具備強大的匹配能力。在ZEB數據集上的圖像匹配基準測試中，Dens3R在幾乎所有AUC指標上都超越了之前的方法。

論文貢獻與價值

提出3D基礎模型Dens3R：?首次提出了一個專為聯合幾何密集預測設計的3D基礎模型，能夠同時、一致地預測深度、法線等多個幾何量。
創新的兩階段訓練框架：?通過兩階段訓練，逐步構建了一個從尺度不變到內在不變的強大幾何表示，有效解決了多任務學習中的一致性問題。
性能卓越：?在表面法線預測、單目深度預測、圖像匹配等多個基準測試中取得了SOTA性能，驗證了其作為基礎模型的有效性和泛化能力。
廣泛的應用潛力：?Dens3R作為一個通用的骨干網絡，可以輕松擴展到各種下游應用，為3D視覺領域的諸多任務提供了一個堅實的基礎。
代碼與項目開源：?研究團隊開源了代碼和項目主頁，將極大地促進社區在統一3D幾何感知方向的研究。

總而言之，Dens3R通過其創新的統一框架和兩階段訓練策略，為解決密集3D重建中的核心挑戰——幾何一致性問題，提供了一個強有力的答案，并為未來的3D視覺研究和應用奠定了堅實的基礎。

#SGCDet

浙大等提出：自適應3D體素構建，重新定義多視圖室內3D檢測

多視圖室內3D目標檢測是實現場景理解、增強現實和機器人導航的關鍵技術。然而，如何高效且準確地將多張2D圖像信息“提升”到3D空間，一直是該領域的瓶頸。傳統方法通常采用固定的投影方式構建3D體素（Voxel），這不僅計算冗余，而且限制了特征的表達能力。

近日，一篇被計算機視覺頂級會議ICCV 2025接收的論文《Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction》提出了一種全新的解決方案。該研究由浙江大學、浙大寧波理工學院和香港城市大學的研究者們共同完成，他們提出了一個名為SGCDet的新型框架。該框架通過自適應3D體素構建，巧妙地解決了上述難題，在ScanNet、ScanNet200和ARKitScenes等多個權威數據集上均取得了SOTA（State-of-the-Art）的性能。

論文標題：?Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction
作者團隊：?Runmin Zhang, Zhu Yu, Si-Yuan Cao, Lingyu Zhu, Guangyi Zhang, Xiaokai Bai, Hui-Liang Shen
所屬機構：?浙江大學、浙大寧波理工學院、香港城市大學
論文地址：???https://arxiv.org/pdf/2507.18331v1??
項目地址：???https://github.com/RM-Zhang/SGCDet??
錄用會議：?ICCV 2025

研究背景與意義

在多視圖3D目標檢測任務中，核心步驟是將從不同2D視角拍攝的圖像特征，轉換并融合到統一的3D空間中，形成所謂的“3D體素（3D Volume）”。過去的許多方法，如ImVoxelNet，通常是將3D空間中的每個體素中心點，直接投影回2D圖像的固定位置來提取特征。

這種方法的弊端顯而易見：

感受野受限：?一個3D體素只能從2D圖像上的一個固定點采樣特征，忽略了該點周圍豐富的上下文信息。
計算冗余：?無論是物體表面還是空無一物的自由空間，所有體素都被同等對待，導致大量計算資源被浪費在無效區域。

SGCDet正是為了解決這兩個核心痛點而設計的。

傳統稠密體素構建（c）與SGCDet的稀疏體素構建（d）對比

核心方法：SGCDet

SGCDet的創新之處在于其“自適應”的體素構建方式，它包含兩個核心模塊：幾何與上下文感知聚合模塊，以及稀疏體素構建策略。

SGCDet框架概覽圖

1. 幾何與上下文感知聚合模塊 (Geometry and Context Aware Aggregation)

為了解決感受野受限的問題，研究者設計了這個模塊，它包含兩個關鍵部分：

幀內特征采樣（Intra-view Feature Sampling）：?傳統方法將3D體素投影到2D圖像的一個固定點，而SGCDet則引入了可變形注意力機制（Deformable Attention）。這使得每個3D體素在投影到2D圖像后，能夠自適應地在投影點周圍的多個位置進行采樣。這就像讓體素擁有了“主動觀察”的能力，可以根據需要去“看”周圍的上下文信息，從而獲得更豐富、更具代表性的特征。

幀內特征采樣示意圖：綠色點為固定投影點，紅色點為自適應的采樣點

多視圖注意力（Multi-view Attention）：?對于同一個3D體素，不同視角的圖像對其可見性、清晰度都不同。該模塊能動態地評估并調整來自不同視圖的特征貢獻權重，讓信息更可靠的視圖擁有更高的話語權，從而優化最終融合的體素特征。

2. 稀疏體素構建策略 (Sparse Volume Construction)

為了解決計算冗余的問題，SGCDet采用了一種由粗到精（Coarse-to-Fine）的稀疏構建策略。

占用概率預測：?首先，網絡會初步構建一個粗糙的3D體素，并訓練一個占用預測網絡（Occupancy Prediction Network）來判斷每個體素是屬于“自由空間”還是“可能被物體占據”。
聚焦精煉：?然后，網絡會只選擇那些占用概率高的體素，集中計算資源對它們進行特征精煉（即執行更復雜的幾何與上下文感知聚合）。

通過這種方式，大量的計算被從空曠區域中解放出來，使得模型能夠更高效地運行，同時將“算力”用在刀刃上。

稀疏體素構建可視化：模型能有效過濾掉自由空間，聚焦于物體所在的區域進行特征細化

更值得一提的是，整個網絡的監督僅需3D邊界框（Bounding Box）真值，無需依賴難以獲取的場景幾何（如稠密深度圖）真值，這大大增強了其在實際應用中的便利性。

實驗結果與分析

SGCDet在多個主流室內3D目標檢測數據集上都展現了卓越的性能。

ScanNet數據集的定量結果和計算成本

ScanNet200數據集的定量結果

在ARKitScenes數據集上的性能對比

大量的消融實驗也驗證了SGCDet中各個創新模塊的有效性。例如，實驗證明，同時使用可變形注意力和多視圖注意力，比單獨使用任何一個的效果都要好。稀疏體素構建策略也被證明能夠在不犧牲甚至提升精度的前提下，有效提高模型的運行效率。

幾何與上下文感知聚合模塊的消融實驗

不同方法的定性結果對比，SGCDet能更準確地檢測出物體

論文貢獻與價值

SGCDet的提出，為多視圖室內3D目標檢測領域帶來了顯著的推動作用：

范式創新：?提出了一個全新的自適應3D體素構建框架，打破了傳統固定感受野的限制。
有效且高效：?通過幾何與上下文感知聚合模塊提升了特征質量，通過稀疏體素構建策略提升了計算效率，實現了“魚與熊掌兼得”。
SOTA性能：?在三大權威基準上均取得了當前最佳性能，為該領域樹立了新的標桿。
實用性強：?僅需3D Bbox監督，降低了對數據標注的要求，且代碼已開源，便于社區研究和應用。

總而言之，SGCDet通過其精巧的自適應設計，為如何從多視圖2D圖像中高效、準確地構建3D世界表征，提供了一個極具啟發性的答案。

#MuStD

融合激光雷達與相機的3D檢測新SOTA

在自動駕駛和機器人技術中，精確感知周圍環境是實現安全可靠運行的基石。其中，3D目標檢測，即在三維空間中識別并定位物體（如車輛、行人），是核心挑戰之一。為了提升檢測精度，融合激光雷達（LiDAR）提供的精確深度信息和相機提供的豐富紋理信息，已成為業界共識。

本文介紹一篇收錄于?IROS 2025?的論文《Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes》。該研究由西澳大學和墨爾本大學的研究者們提出，設計了一種名為?MuStD (MultiStream Detection)?的多流網絡，旨在高效、精細地融合兩種模態數據，在著名的KITTI數據集上取得了新的SOTA或極具競爭力的結果。

論文標題: Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes
作者: Muhammad Ibrahim, Naveed Akhtar, Haitian Wang, Saeed Anwar, Ajmal Mian
機構: 西澳大學;墨爾本大學
論文地址: https://arxiv.org/pdf/2507.19304v1
項目代碼: https://github.com/IbrahimUWA/MuStD.git
錄用會議: IEEE/RSJ IROS 2025 (Oral Presentation)

研究背景與意義

戶外3D目標檢測任務中，LiDAR和相機是兩種最主流的傳感器。LiDAR通過發射激光束來測量距離，能夠生成精確的3D點云，為物體提供準確的空間幾何信息，但其點云數據通常是稀疏的，且缺乏顏色和紋理細節。相反，RGB相機能夠捕捉到高分辨率的圖像，包含豐富的顏色、紋理信息，有助于物體分類，但從2D圖像中精確推斷3D位置和尺寸非常困難。

因此，如何有效融合這兩種互補的數據源，一直是研究的熱點和難點。早期的融合方法通常較為簡單，例如將點云投影到圖像上進行特征拼接，但這往往不能充分利用兩種模態的內在優勢。本文提出的MuStD網絡，正是為了解決這一深度融合問題，旨在從兩種數據中精心提取與檢測任務最相關的信息。

MuStD：三流并行的精細化融合架構

MuStD網絡的核心是一個并行的三流（three-stream）結構，分別處理LiDAR數據和多模態數據，最后進行高效融合。

上圖展示了MuStD的整體架構，包含三個并行的數據處理流：

LiDAR-PillarNet流:

該分支借鑒了PillarNet的思想，將LiDAR點云數據轉換為稀疏的2D“柱狀”特征（pillar features）。這種方式在保留關鍵高度信息的同時，將3D問題轉化為2D問題，能高效地利用2D卷積網絡進行特征提取。

LiDAR-Height Compression流:

該分支首先使用3D稀疏卷積處理原始LiDAR點云，以提取豐富的3D幾何特征。隨后，通過一個高度壓縮模塊（height compression block）將3D特征圖沿Z軸（高度方向）聚合，生成鳥瞰圖（Bird's-Eye View, BEV）特征。這種方法保留了重要的空間布局信息，同時降低了計算復雜度。