關注gongzhonghao【CVPR頂會精選】
剛入門遙感建模時,總好奇別人為什么總能提出新方法?慢慢摸索后才發現,創新點并不是硬憋出來的,而是要從數據特性、傳感器差異、地物細節以及環境變化中發現機會。不同波段、不同分辨率、不同時相的數據里,都可能隱藏著提升模型性能的關鍵。
今天小圖就分享3個關于CVPR挖掘遙感建模創新點的思路,讓新手也能快速上手,少走彎路,快速找到研究突破口~
論文一:RobSense: A Robust Multi-modal Foundation Model for Remote Sensing with?Static, Temporal, and Incomplete Data Adaptability
方法:
文章首先設計了兩個并行的基于Vision Transformer的單模態編碼器和一個多模態編碼器,以處理多光譜和合成孔徑雷達數據。接著,通過時間分布對齊和掩碼自編碼器策略對模型進行預訓練,以增強多模態數據的時間特定表示。最后,通過在大規模數據集上進行預訓練,并在多個下游任務上進行微調,驗證了模型的性能。
創新點:
提出了RobSense,一個能夠支持從靜態到時序、從單模態到多模態以及不完整數據的多模態基礎模型,極大地提升了模型的適應性。
引入了基于時間分布對齊的時序多模態學習方法,通過多變量Kullback-Leibler散度對齊不同模態的時間序列分布,保留了時間特定的分布信息。
設計了兩個單模態潛在重構器,能夠從因光譜帶變化或時間序列不規則性導致的稀疏表示中恢復豐富的表示,有效應對數據不完整問題。
論文鏈接:
https://cvpr.thecvf.com/virtual/2025/poster/33916
圖靈學術論文輔導
論文二:XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large?Ultra-High-Resolution Remote Sensing Imagery?
方法:
文章首先收集了1400張真實世界的超高分辨率遙感圖像,涵蓋檢測、分割和變化檢測等多種下游任務數據。接著,通過45位專家進行手工標注和交叉驗證,生成了涵蓋10個感知指標和6個推理維度的45942個標注。最后,基于XLRS-Bench對多種通用和遙感領域特定的MLLMs進行了深入評估,揭示了現有模型在超高分辨率遙感影像理解中的局限性,并為未來的研究方向提供了重要參考
創新點:
XLRS-Bench擁有目前的平均圖像尺寸,為評估模型在真實世界遙感場景中的長距離空間語義認知能力提供了獨特視角。
該基準測試涵蓋了16個子任務,促進模型在真實世界決策和時空變化捕捉中的應用。
采用半自動化流程結合人工驗證的方式生成高質量標注,確保了標注的準確性和可靠性,極大地提升了基準測試的適用性和實用性。
論文鏈接:
https://cvpr.thecvf.com/virtual/2025/poster/35068
圖靈學術論文輔導
論文三:Effective Cloud Removal for Remote Sensing Images by an Improved Mean-Reverting Denoising Model with Elucidated Design Space
方法:
文章首先通過重新構建均值回歸擴散模型的前向過程和基于常微分方程的后向過程,構建了一個新的擴散過程,將目標圖像與云層圖像直接聯系起來。接著,通過引入預處理技術,使模型能夠根據噪聲水平自適應地調整輸入和輸出,從而提高了模型的穩定性和有效性。最后,為了實現多時相云層去除,文章設計了一個新的網絡架構,能夠并行處理序列圖像,并通過時間融合自注意力機制有效地整合時間信息,進一步提升了模型在多時相數據上的表現。
創新點:
EMRDM提供了一個模塊化框架,具有可更新的模塊和清晰的設計空間,這使得模型能夠靈活地適應不同的任務需求。
該模型通過重新設計關鍵模塊,優化訓練過程,以及引入確定性和隨機采樣器來改進采樣過程,從而顯著提升了云層去除的性能。
文章進一步開發了一個能夠同時對序列圖像進行去噪的網絡,能夠更好地利用多時相信息。
論文鏈接:
https://cvpr.thecvf.com/virtual/2025/poster/33230
本文選自gongzhonghao【CVPR頂會精選】