我自己的原文哦~? ? ??https://blog.51cto.com/whaosoft/13954440
#SceneTracker
在4D時空中追蹤萬物!國防科大提出首個長時場景流估計方法?
本篇分享 TPAMI 2025 論文??SceneTracker: Long-term Scene Flow Estimation Network?
?,國防科大提出首個長時場景流估計方法 SceneTracker。
- 作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu
- 機構:國防科技大學
- 原文鏈接:https://arxiv.org/abs/2403.19924v4
- 代碼鏈接:https://github.com/wwsource/SceneTracker
論文簡介
在時間與空間組成的4D時空中,精確、在線地捕捉和分析長時且細粒度的物體運動,對機器人、自動駕駛、元宇宙、具身智能等領域更高水平的場景理解起到至關重要的作用。
本研究提出的SceneTracker,是第一個公開的(2024.03)有效解決在線3D點跟蹤問題或長時場景流估計問題(LSFE)的工作。其能夠快速且精確地捕捉4D時空(RGB-D視頻)中任意目標點的3D軌跡,從而使計算機深入了解物體在特定環境中的移動規律和交互方式。本工作現已發表在人工智能頂級期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IF=20.8)上。
SceneTracker是一個新穎的基于深度學習的LSFE方法,它采用迭代的方式逼近最優軌跡。同時其動態索引和構建表觀相關性特征和深度殘差特征,并利用Transformer挖掘和利用軌跡內部和軌跡之間的遠程聯系。通過詳細的實驗,SceneTracker在處理3D空間遮擋和抗深度噪聲干擾方面顯示出卓越的能力,高度符合LSFE任務的需求。同時,本研究構建了第一個真實世界的LSFE評估數據集LSFDriving,進一步證明了SceneTracker在泛化能力上的優勢。
所提方法介紹
我們的目標是跟蹤一個3D視頻中的3D點。我們形式化該問題如下:一個3D視頻是一個幀的RGB-D序列。估計長時場景流旨在生成已知初始位置的個查詢點的相機坐標系下的3D軌跡。我們方法的整體架構如圖1所示。
圖1
軌跡初始化
初始化的第一步是將整個視頻劃分為若干滑動窗口。我們以長度、滑動步長進行劃分。如圖1左側所示,我們需要跟蹤個查詢點,以三個綠色點為例。
對于第一個滑動窗口,軌跡會被初始化為查詢點的初始位置。對于其他滑動窗口,其前幀會根據前一個滑動窗口的后幀的估計結果進行初始化,而其后幀會根據前一個滑動窗口的最后一幀估計結果進行初始化。
以任意一個滑動窗口為例,我們得到相機坐標系下的初始軌跡。進一步的,我們結合相機內參將其轉換為坐標系下的初始軌跡。
降采樣和降尺度
我們網絡推理在的粗分辨率上。這里是一個降采樣系數。
首先我們使用一個編碼器網絡來提取圖像特征。編碼器網絡是一個卷積神經網絡,包括8個殘差塊和5個下采樣層。無需特征提取,我們直接對幀的原始深度圖進行間隔為的等間隔采樣,從而得到降采樣的深度圖。
進一步的,我們在維度上對初始軌跡進行倍的降尺度操作,得到初始降尺度軌跡。
模板特征和軌跡的更新
在流迭代模塊(FIM)中,我們迭代式地更新查詢點的模板特征和降尺度軌跡。當處理第一個滑動窗口的第一幀時,我們使用查詢點的坐標在特征圖上進行雙線性采樣,從而獲得第一幀的模板特征。
然后我們將該特征在時間維度上復制次,獲得所有后續滑動窗口的初始模板特征。所有滑動窗口都有一個統一的和獨立的。經過FIM的次迭代后,它們會被更新為和。
軌跡輸出
我們首先將更新后的降尺度軌跡放大得到當前滑動窗口的3D軌跡片段,以匹配原始輸入分辨率。然后我們結合相機內參,將其轉換為相機坐標系下的3D軌跡片段。
最后我們將所有滑動窗口生成的軌跡片段鏈接起來形成完整的3D軌跡。其中相鄰窗口中重疊部分采用后一個窗口的結果。
所提數據集介紹
給定一個自動駕駛數據的序列,我們的目標是構建一個幀的RGB-D視頻以及第一幀中感興趣點的3D軌跡。具體地說,我們會分別從靜態背景、移動的剛性車輛以及移動的非剛性行人上采樣感興趣點。
背景上的標注
首先,我們利用相機內參和外參來提取第一幀的LiDAR點,這些點可以被正確地投影到圖像上。然后我們使用2D目標檢測中的包圍框來過濾掉所有前景LiDAR點。以一個LiDAR點為例,我們根據車輛位姿將其投影到剩余的幀上。正式地,在時刻的投影點為:
這里,是時刻從車體到世界坐標系的轉換矩陣。
車輛上的標注
與背景不同,車輛具有自己獨立的運動。我們引入3D目標跟蹤中的3D包圍框來提供時刻從世界到包圍框坐標系的轉換矩陣。我們使用3D包圍框來過濾出所有車輛的LiDAR點。以一個LiDAR點為例,在時刻的投影點為:
行人上的標注
行人運動的復雜性和非剛性決定了其標注的困難性,這從現有場景流數據集不包含該類數據中可以進一步驗證。我們使用雙目視頻來間接地解決該挑戰。
首先,我們準備一段幀的矯正雙目視頻。然后我們采用一個半自動的標注框架來高效且準確地標記左右目視頻中感興趣點的2D軌跡。
框架的第一步是標記感興趣點,我們開發了一個定制化的標注軟件并標記第一幀左目圖像中感興趣點的2D坐標。
第二步是計算粗左目軌跡,我們利用CoTracker來計算左目視頻的粗軌跡。
第三步是計算粗右目軌跡,我們利用LEAStereo來逐幀計算感興趣點的視差,從而推導出粗軌跡。
第四步是人工細化階段,左右粗軌跡會在標注軟件中顯示,其中所有低質量的標注都會被人類標注師修正。
最后,我們結合細化后的左軌跡和視差序列來構造3D軌跡。圖2展示了行人的LSFE標注過程。
圖2?
實驗結果?
所提數據集LSFDriving示例
圖3為所提LSFDriving數據集在三種類別(背景、車輛、行人)上的示例。
圖3?
所提方法SceneTracker估計效果
圖4為所提方法SceneTracker在LSFOdyssey測試集上的估計效果示例。我們等間隔地展示了40幀視頻中的12幀點云。方法估計出的軌跡用藍色顯示在對應點云上。從圖4可以看出,面對相機和場景中動態物體同時進行的復雜運動,我們方法始終能夠輸出平滑、連續且精確的估計結果。
圖4?
與SF、TAP方法的定性比較
圖5是我們方法與scene flow基線、tracking any point基線方法在LSFOdyssey測試集上的定性結果。我們可視化了最后一幀的預測和真值軌跡。軌跡使用jet著色。實線框標記了SF基線由于遮擋或超出邊界導致的顯著錯誤區域。從圖5可以看出,相比其他方法,我們方法能夠估計出厘米級別精度的3D軌跡。
圖5?
與SF、TAP方法的定量比較
表1為在LSFOdyssey測試集上3D指標的定量結果。所有數據均來自于Odyssey訓練流程。從表1可以看出,我們方法在所有數據集指標上均顯著超越其他方法。
表1?
在真實場景數據集LSFDriving上的表現
表2為不同推理模式下我們方法在LSFDriving上的評估結果以及與近期相關方法的比較。從表2可以看出,在僅依賴合成數據進行訓練的條件下,我們方法具有真實場景中高泛化能力的優勢。
表2