來gongzhonghao【圖靈學術計算機論文輔導】,快速拿捏更多計算機SCI/CCF發文資訊~
多模態學習(Multimodal Learning)是通過整合多種數據模態來提升模型對復雜場景感知與理解能力的技術,其核心是利用不同模態的互補性突破單一模態局限,模擬人類多感官協同認知,其中多模態融合通過整合異質數據增強感知精度,跨模態對齊則確保不同模態信息的準確對應,為有效融合奠定基礎。
本文整理了3篇聚焦多模態融合在視覺任務的新論文,旨在幫助大家把握前沿思路,為相關研究提供參考,滿滿干貨,點贊收藏不迷路~
LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks
方法:LIDAR 先以 RGB、紅外、深度等多模態圖像為輸入,經輕量 LacaVSS 提取裂紋形態與紋理特征,其中 EDG-SS 在預處理階段為每幅圖像生成一次四向掃描序列;隨后 LD3CF 利用 AFDP 在頻域分離裂紋高頻與背景低頻,并通過雙池化動態融合各模態特征,最后以 LDMK 卷積逐級融合跨尺度特征并上采樣輸出像素級裂紋分割圖。
創新點:
首次設計 EDG-SS 預掃描策略,根據裂紋掩碼動態生成四向自適應掃描路徑,使 Mamba 路徑與圖像紋理精準對齊。
提出 LD3CF 雙域協同融合模塊,結合可學習頻域掩碼與雙向池化門控,在極低計算量下抑制背景噪聲、強化裂紋高頻細節。
構建 LDMK 動態多核卷積,通過通道重要性 Top-K 選擇與可重參數化核,將參數量壓縮至 5.35 M 仍保持 SOTA 精度。
總結:這篇文章提出輕量級多模態裂紋分割框架?LIDAR,用自適應 Mamba 掃描與頻域-空域協同策略,一舉破解高分辨率場景下跨模態噪聲干擾與計算開銷過大的雙重難題。
Multistream Network for LiDAR and Camera-based 3D Object?Detection in Outdoor Scenes
方法:MuStD 先將 RGB 深度補全生成的偽點與原始 LiDAR 點云融合成混合點,隨后由三條并行路徑分別提取特征;三路輸出的特征在檢測頭前通過拼接與 2D CNN 融合,由 RPN 生成候選框,RoI 池化后最終輸出 3D 框與類別,實現準確且實時的室外 3D 目標檢測。
創新點:
設計 3D Multimodal 流,首次在同一網絡層內聯合 UV 映射與極坐標索引。
提出 UV-Polar 可逆投影模塊,把稀疏 3D 卷積特征同時映射到 2D 圖像平面和極坐標網格,再用 2D 稀疏卷積提純后返融合。
構建并行三流架構,各流互補提取 2D pillar、BEV 及 3D 混合特征,最終以輕量級拼接達到精度和速度的帕累托最優。
總結:這篇文章提出了一種三流融合網絡 MuStD,專門解決室外場景下僅靠 LiDAR 稀疏點云導致的遠距、遮擋物體檢測精度低的問題,用 LiDAR+RGB 雙模態協同刷新 KITTI 榜單。
糾結選題?導師放養?投稿被拒?對論文有任何問題的同學,歡迎來gongzhonghao【圖靈學術計算機論文輔導】,獲取頂會頂刊前沿資訊~
SDGOCC: Semantic and Depth-Guided Bird’s-Eye View Transformation for 3D
Multimodal Occupancy Prediction
方法:SDG-OCC 首先用 ResNet-50 提取多視角圖像特征,在同一語義類內做局部擴散并雙線性離散化生成虛擬點;接著通過 SPVCNN 壓縮 LiDAR 點云得到 BEV 特征,利用門控鄰域注意將跨模態特征融合并在 LiDAR 占用區域單向蒸餾回圖像特征;最終由輕量 BEV 編碼器與通道-高度變換頭輸出 3D 占用結果,在 83 ms 內完成推理且 mIoU 領先現有方法 5% 以上。
創新點:
提出語義-深度聯合引導的 SDG 視圖變換,通過 LiDAR 深度擴散與雙線性離散化生成高精度虛擬點,顯著壓縮 LSS 冗余虛擬特征并提升深度估計。
設計融合到占用的主動蒸餾 FOAD,用門控鄰域注意動態對齊跨模態特征,并僅在 LiDAR 識別區域單向蒸餾。
構建 SDG-Fusion 與 SDG-KL 雙版本,前者純融合奪得 SOTA 精度,后者加蒸餾實現實時推理,在 Occ3D-nuScenes 與 SurroundOcc-nuScenes 均刷新榜單。
總結:這篇文章提出 SDG-OCC,用語義-深度雙引導的鳥瞰視角變換與主動蒸餾,一舉破解現有方法在稀疏激光點與單目深度估計失準導致的 3D 語義占用預測精度低、實時性差的難題。
來gongzhonghao【圖靈學術計算機論文輔導】,快速拿捏更多計算機SCI/CCF發文資訊~