51c視覺~3D~合集3

我自己的原文哦~? ? ??https://blog.51cto.com/whaosoft/13954440

#SceneTracker

在4D時空中追蹤萬物!國防科大提出首個長時場景流估計方法?

本篇分享 TPAMI 2025 論文??SceneTracker: Long-term Scene Flow Estimation Network??,國防科大提出首個長時場景流估計方法 SceneTracker。

  • 作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu
  • 機構:國防科技大學
  • 原文鏈接:https://arxiv.org/abs/2403.19924v4
  • 代碼鏈接:https://github.com/wwsource/SceneTracker

論文簡介

在時間與空間組成的4D時空中,精確、在線地捕捉和分析長時且細粒度的物體運動,對機器人自動駕駛元宇宙具身智能等領域更高水平的場景理解起到至關重要的作用。

本研究提出的SceneTracker,是第一個公開的(2024.03)有效解決在線3D點跟蹤問題或長時場景流估計問題(LSFE)的工作。其能夠快速且精確地捕捉4D時空(RGB-D視頻)中任意目標點的3D軌跡,從而使計算機深入了解物體在特定環境中的移動規律和交互方式。本工作現已發表在人工智能頂級期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IF=20.8)上。

SceneTracker是一個新穎的基于深度學習的LSFE方法,它采用迭代的方式逼近最優軌跡。同時其動態索引和構建表觀相關性特征和深度殘差特征,并利用Transformer挖掘和利用軌跡內部和軌跡之間的遠程聯系。通過詳細的實驗,SceneTracker在處理3D空間遮擋和抗深度噪聲干擾方面顯示出卓越的能力,高度符合LSFE任務的需求。同時,本研究構建了第一個真實世界的LSFE評估數據集LSFDriving,進一步證明了SceneTracker在泛化能力上的優勢。

所提方法介紹

我們的目標是跟蹤一個3D視頻中的3D點。我們形式化該問題如下:一個3D視頻是一個幀的RGB-D序列。估計長時場景流旨在生成已知初始位置的個查詢點的相機坐標系下的3D軌跡。我們方法的整體架構如圖1所示。

圖1

圖1

軌跡初始化

初始化的第一步是將整個視頻劃分為若干滑動窗口。我們以長度、滑動步長進行劃分。如圖1左側所示,我們需要跟蹤個查詢點,以三個綠色點為例。

對于第一個滑動窗口,軌跡會被初始化為查詢點的初始位置。對于其他滑動窗口,其前幀會根據前一個滑動窗口的后幀的估計結果進行初始化,而其后幀會根據前一個滑動窗口的最后一幀估計結果進行初始化。

以任意一個滑動窗口為例,我們得到相機坐標系下的初始軌跡。進一步的,我們結合相機內參將其轉換為坐標系下的初始軌跡。

降采樣和降尺度

我們網絡推理在的粗分辨率上。這里是一個降采樣系數。

首先我們使用一個編碼器網絡來提取圖像特征。編碼器網絡是一個卷積神經網絡,包括8個殘差塊和5個下采樣層。無需特征提取,我們直接對幀的原始深度圖進行間隔為的等間隔采樣,從而得到降采樣的深度圖。

進一步的,我們在維度上對初始軌跡進行倍的降尺度操作,得到初始降尺度軌跡。

模板特征和軌跡的更新

在流迭代模塊(FIM)中,我們迭代式地更新查詢點的模板特征和降尺度軌跡。當處理第一個滑動窗口的第一幀時,我們使用查詢點的坐標在特征圖上進行雙線性采樣,從而獲得第一幀的模板特征。

然后我們將該特征在時間維度上復制次,獲得所有后續滑動窗口的初始模板特征。所有滑動窗口都有一個統一的和獨立的。經過FIM的次迭代后,它們會被更新為和。

軌跡輸出

我們首先將更新后的降尺度軌跡放大得到當前滑動窗口的3D軌跡片段,以匹配原始輸入分辨率。然后我們結合相機內參,將其轉換為相機坐標系下的3D軌跡片段。

最后我們將所有滑動窗口生成的軌跡片段鏈接起來形成完整的3D軌跡。其中相鄰窗口中重疊部分采用后一個窗口的結果。

所提數據集介紹

給定一個自動駕駛數據的序列,我們的目標是構建一個幀的RGB-D視頻以及第一幀中感興趣點的3D軌跡。具體地說,我們會分別從靜態背景、移動的剛性車輛以及移動的非剛性行人上采樣感興趣點。

背景上的標注

首先,我們利用相機內參和外參來提取第一幀的LiDAR點,這些點可以被正確地投影到圖像上。然后我們使用2D目標檢測中的包圍框來過濾掉所有前景LiDAR點。以一個LiDAR點為例,我們根據車輛位姿將其投影到剩余的幀上。正式地,在時刻的投影點為:

這里,是時刻從車體到世界坐標系的轉換矩陣。

車輛上的標注

與背景不同,車輛具有自己獨立的運動。我們引入3D目標跟蹤中的3D包圍框來提供時刻從世界到包圍框坐標系的轉換矩陣。我們使用3D包圍框來過濾出所有車輛的LiDAR點。以一個LiDAR點為例,在時刻的投影點為:

行人上的標注

行人運動的復雜性和非剛性決定了其標注的困難性,這從現有場景流數據集不包含該類數據中可以進一步驗證。我們使用雙目視頻來間接地解決該挑戰。

首先,我們準備一段幀的矯正雙目視頻。然后我們采用一個半自動的標注框架來高效且準確地標記左右目視頻中感興趣點的2D軌跡。

框架的第一步是標記感興趣點,我們開發了一個定制化的標注軟件并標記第一幀左目圖像中感興趣點的2D坐標。

第二步是計算粗左目軌跡,我們利用CoTracker來計算左目視頻的粗軌跡。

第三步是計算粗右目軌跡,我們利用LEAStereo來逐幀計算感興趣點的視差,從而推導出粗軌跡。

第四步是人工細化階段,左右粗軌跡會在標注軟件中顯示,其中所有低質量的標注都會被人類標注師修正。

最后,我們結合細化后的左軌跡和視差序列來構造3D軌跡。圖2展示了行人的LSFE標注過程。

圖2

圖2?

實驗結果?

所提數據集LSFDriving示例

圖3為所提LSFDriving數據集在三種類別(背景、車輛、行人)上的示例。

圖3

圖3?

所提方法SceneTracker估計效果

圖4為所提方法SceneTracker在LSFOdyssey測試集上的估計效果示例。我們等間隔地展示了40幀視頻中的12幀點云。方法估計出的軌跡用藍色顯示在對應點云上。從圖4可以看出,面對相機和場景中動態物體同時進行的復雜運動,我們方法始終能夠輸出平滑、連續且精確的估計結果。

圖4

圖4?

與SF、TAP方法的定性比較

圖5是我們方法與scene flow基線、tracking any point基線方法在LSFOdyssey測試集上的定性結果。我們可視化了最后一幀的預測和真值軌跡。軌跡使用jet著色。實線框標記了SF基線由于遮擋或超出邊界導致的顯著錯誤區域。從圖5可以看出,相比其他方法,我們方法能夠估計出厘米級別精度的3D軌跡。

圖5

圖5?

與SF、TAP方法的定量比較

表1為在LSFOdyssey測試集上3D指標的定量結果。所有數據均來自于Odyssey訓練流程。從表1可以看出,我們方法在所有數據集指標上均顯著超越其他方法。

表1

表1?

在真實場景數據集LSFDriving上的表現

表2為不同推理模式下我們方法在LSFDriving上的評估結果以及與近期相關方法的比較。從表2可以看出,在僅依賴合成數據進行訓練的條件下,我們方法具有真實場景中高泛化能力的優勢。

表2

表2

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82774.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82774.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82774.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

cf2059B

原題鏈接:https://codeforces.com/contest/2059/problem/B 題目背景: 將一個長度為 n 的數組 a 劃分為 k 個數組,再將所有偶數索引的數組合并成 b 數組,定義代價為 的最小索引 i ,可得到的最小代價為多少。 思路&am…

爬蟲到智能數據分析:Bright Data × Kimi 智能洞察亞馬遜電商產品銷售潛力

前言 電商數據分析在現代商業中具有重要的戰略價值,通過對消費者行為、銷售趨勢、商品價格、庫存等數據的深入分析,企業能夠獲得對市場動態的精準洞察,優化運營決策,預測市場趨勢、優化廣告投放、提升供應鏈效率,并通…

從解決一個分享圖片生成的歷史bug出發,詳解LayoutInflater和View.post的工作原理

問題背景 最近在項目中遇到一個問題:在檔口分享功能中,需要動態生成一個分享圖片。代碼是這樣寫的: // 項目中的代碼 val shareView LayoutInflater.from(thisStallMainActivityV1).inflate(R.layout.share_header_stall_main_layout, nul…

2.linux目錄切換命令:cd與pwd以及路徑與路徑符

cd 切換當前工作目錄 cd [linux路徑0] cd沒有選項,直接執行,只有參數.如果沒有參數,表示回到用戶的home目錄 pwd 無參,無選項,直接打印當前工作目錄的絕對路徑 路徑 相對路徑 以當前目錄為起點,路徑描述無需使用/開頭 # cd Desktop 絕對路徑 路徑描述需要以/開頭 cd…

摩爾條紋 原理以及matlab 實現

一、簡介 莫爾條紋的形成原理-CSDN博客 “莫爾”一詞源于法文“Moire”,其原本的含義是“波動”或者“起波紋的”。早在古代時期,人們便偶然發現,當把兩塊薄的絲綢織物相互疊加放置時,能夠看到一種呈現不規則形態的花紋。此后&a…

【海康USB相機被HALCON助手連接過后,MVS顯示無法連接故障。】

在Halcon里使用助手調用海康USB相機時,如果這個界面點擊了【是】 那么恭喜你,相機只能被HALCON調用使用,使用MVS或者海康開發庫,將查找不到相機 解決方式: 右鍵桌面【此電腦】圖標 ->選擇【管理】 ->選擇【設備…

數據治理是什么意思?數據治理平臺有哪些?

目錄 一、數據治理的概念 1. 數據治理的定義 2. 數據治理的目標 二、數據治理的實施流程 1. 規劃階段 2. 評估階段 3. 執行階段 4. 監控與評估階段 三、常見的數據治理平臺 1. FineDataLink 2. IBM InfoSphere Information Governance Catalog 四、總結 隨著企業業…

高效工具-tldr

喜歡使用命令操作的小伙伴,肯定會遇到一個問題,查看命令如何使用時,會列出一堆,特別是英文,看的直發懵。前段時間我也是研究git命令,也遇到了類似的問題。好在有大數據,幫我普及相關的知識。 在…

安卓添加設備節點權限和selinux訪問權限

# 1 修改設備節點權限及配置屬性設置節點值 ## 1.1 修改設備節點權限 ### 1.1.1 不會手動卸載的節點 在system/core/rootdir/init.rc中添加節點權限 在on boot下面添加 chown system system /sys/kernel/usb/host chmod 0664 /sys/kernel/usb/host ### 1.1.2 支持熱插拔的…

ssm學習筆記(尚硅谷) day1

創建新項目 maven的聚合 1. 標記父類項目 標簽<packaging>pom</packaging>表示將該項目標記為父類項目&#xff0c;必須添加。 以下是標簽<packing>的常見取值 groupId在pom.xml中&#xff0c;可以從pom.xml直接修改。 2. 通過<modules>添加子項目…

基于Java,SpringBoot,Vue,UniAPP醫院預約掛號買藥就診病例微信小程序系統設計

摘要 隨著醫療信息化的不斷推進以及“互聯網醫療”模式的廣泛普及&#xff0c;傳統醫院掛號流程中存在的排隊時間長、資源分配不均等問題日益凸顯&#xff0c;急需通過數字化手段加以解決。本研究設計并實現了一套基于Java、SpringBoot、Vue與UniAPP技術棧的醫院預約掛號微信小…

Axure項目實戰:運輸統計頁引入echarts實現高保真設計(JS代碼ctrl+c ctrl+v懂得來)

親愛的小伙伴,在您瀏覽之前,煩請關注一下,在此深表感謝!如有幫助請訂閱專欄! Axure產品經理精品視頻課已登錄CSDN可點擊學習https://edu.csdn.net/course/detail/40420 案例視頻: 數據統計引入echarts示例演示 課程主題:運輸統計頁引入echarts實現高保真設計 主要內容…

python打卡day39

圖像數據與顯存 知識點回顧 圖像數據的格式&#xff1a;灰度和彩色數據模型的定義顯存占用的4種地方 模型參數梯度參數優化器參數數據批量所占顯存神經元輸出中間狀態 batchisize和訓練的關系 作業&#xff1a;今日代碼較少&#xff0c;理解內容即可 在 PyTorch 中&#xff0c;…

15.1 【基礎項目】使用 HTML、CSS 和 TypeScript 構建的簡單計數器應用

一個簡單的計數器應用是學習如何集成 HTML、CSS 和 TypeScript 的絕佳項目。該應用允許用戶對計數值進行增加、減少和重置&#xff0c;展示了 TypeScript 中基本的 DOM 操作和事件處理。 我們將構建的內容 我們將創建一個具有以下功能的計數器應用&#xff1a; 增加計數值減…

RT-Thread源碼閱讀(3)——內核對象管理

_object_container對象容器數組 在RT-Thread操作系統中&#xff0c;_object_container數組的作用是按類型分類管理內核對象&#xff0c;提供高效的類型檢查、資源管理和統計功能 struct rt_list_node {struct rt_list_node *next; /**< point to…

《智能醫學》征稿通知:7天可見刊,專科及以上可發表

香港科學出版社(Hong Kong Scientific Publishers Journals)是一家全球獨立高質量的學術出版機構&#xff0c;遵循國際開放獲取的出版(OA)原則。現已與科檢易學術攜手共同征集高質量文章。目前可出版來自高等學校、科研院所和企業的先進科技成果。包括理、工、農、醫、經、管、…

如何利用categraf的exec插件實現對Linux主機系統用戶及密碼有效期進行監控及告警?

需求描述 Categraf作為夜鶯監控平臺的數據采集工具&#xff0c;為了保障Linux主機的安全&#xff0c;需要實現對系統用戶密碼有效期的監控&#xff0c;并在密碼即將到期時及時告警&#xff0c;以提醒運維人員更改密碼。本章將詳細介紹如何利用Categraf的exec插件來實現這一功能…

RV1126-OPENCV 交叉編譯

一.下載opencv-3.4.16.zip到自己想裝的目錄下 二.解壓并且打開 opencv 目錄 先用 unzip opencv-3.4.16.zip 來解壓 opencv 的壓縮包&#xff0c;并且進入 opencv 目錄(cd opencv-3.4.16) 三. 修改 opencv 的 cmake 腳本的內容 先 cd platforms/linux 然后修改 arm-gnueabi.to…

如何加載私鑰為 SecKeyRef

本文介紹如何在 iOS/macOS 下將私鑰加載為 SecKeyRef&#xff0c;涵蓋 PEM 格式的 ECC 密鑰讀取、X9.63 數據構建、以及與 Keychain 的集成。 1. 使用 SecKeyCreateWithData 加載私鑰 Apple 提供的 SecKeyCreateWithData 方法可以直接將密鑰數據加載為 SecKeyRef 對象。 SecK…