論文閱讀筆記——VGGT: Visual Geometry Grounded Transformer

VGGT 論文
輸入是 N 個 RGB 圖像 I i ∈ R 3 × H × W I_i\in\mathbb{R}^{3×H×W} Ii?R3×H×W 的序列 ( I i ) i = 1 N (I_i)^N_{i=1} (Ii?)i=1N?,觀察相同 3D 場景。
VGGT 的 Transformer 是一個映射函數,將此序列映射為一組對應的 3D 標注, f ( ( I i ) i = 1 N ) = ( g i , D i , P i , T i ) i = 1 N f\left((I_i)^N_{i=1}\right)=(g_i,D_i,P_i,T_i)^N_{i=1} f((Ii?)i=1N?)=(gi?,Di?,Pi?,Ti?)i=1N? 。將每個圖像 I i I_i Ii? 映射到其相機參數 g ∈ R 9 g\in\mathbb{R}^9 gR9 (內參和外參)、深度圖、點圖和用于跟蹤的 C 維特征網格。

  • 相機參數 g = [ q , t , f ] g=[q,t,f] g=[q,t,f] 采用旋轉四元數( q ∈ R 4 q\in\mathbb{R}^4 qR4)、平移量( t ∈ R 3 t\in\mathbb{R}^3 tR3)和視場( f ∈ R 2 f\in\mathbb{R}^2 fR2)的串聯。
  • 深度圖將每個像素位置 y ∈ I ( I i ) y\in\mathcal{I}(I_i) yI(Ii?) 與其對應深度值 D i ( y ) ∈ R + D_i(y)\in\mathbb{R}^+ Di?(y)R+ 相關聯;
  • 點圖將每個像素與其對應的 3D 場景點相關聯;
  • 關鍵點跟蹤遵循 track-any-point,給定查詢圖像 I q I_q Iq? 中一個固定的查詢像素點 y q y_q yq?,網格輸出一個由所有圖像 I i I_i Ii? 中對應的二維點形成的軌跡 T ( y q ) = ( y i ) i = 1 N \mathcal{T}(y_q)=(y_i)^N_{i=1} T(yq?)=(yi?)i=1N?。(此處指軌跡特征)
    預測順序:圖像在輸入序列中的順序是任意的,除了選擇第一個圖像作為參考幀。網絡架構設計為除第一幀之外的所有幀都是置換不變(permutation equivariant) 的。
    在這里插入圖片描述
    交替注意力:逐幀自注意力分別關注每幀中的 token t k I t_k^I tkI? ,全局自注意力共同關注所有幀中的 token t I t^I tI 。這在集成不同圖像中的信息與規范化每個圖像中token的激活之間取得了平衡。默認情況下,采用 L = 24 層全局和框架級注意力。
    對每張輸入圖像進行token增強,添加相機 token t i g ∈ R 1 × C ′ t_i^g\in\mathbb{R}^{1×C'} tig?R1×C和4個 register tokens t i R ∈ R 4 × C ′ t_i^R\in\mathbb{R}^{4×C'} tiR?R4×C 來增強對應的圖像標記 t i I t_i^I tiI?。第一幀的相機 token 和寄存器 token 被設置與所有其他幀的不同的可學習的 token。(即第一幀獨立學習,其他幀共享可學習參數——讓模型知道第一幀作為基準,其他為相對于第一幀的變換)然后通過兩個預測頭分別輸出相機參數和密集預測結果(包括深度圖、點云圖和跟蹤特征)。相機預測頭通過4層自注意力網絡估計相機內參和外參,而密集預測頭則采用DPT層和3×3卷積生成深度圖、點云圖及其不確定性。跟蹤模塊基于CoTracker2架構,通過特征相關和自注意力機制實現跨視圖的點對應追蹤,且不依賴于時序信息,可處理任意圖像集合。 L = L c a m e r a ? + L d e p t h ? + L p m a p ? + λ L t r a c k ? ( λ = 0.05 ) L=L_{camera}?+L_{depth}?+L_{pmap?}+λL_{track}?(λ=0.05) L=Lcamera??+Ldepth??+Lpmap??+λLtrack??(λ=0.05) 其中 L c a m e r a ? , L d e p t h ? , L p m a p ? L_{camera}?,L_{depth}?,L_{pmap?} Lcamera??,Ldepth??,Lpmap?? 的系數根據實驗量級相近,認為無需加權。
  • L c a m e r a L_{camera} Lcamera? 采用 Huber 損失: L c a m e r a = ∑ i = 1 N ∣ ∣ g i ^ ? g i ∣ ∣ L_{camera}=\sum_{i=1}^N||\hat{g_i}-g_i|| Lcamera?=i=1N?∣∣gi?^??gi?∣∣
  • L d e p t h L_{depth} Ldepth? 是基于 DUSt3R 的不確定加權深度回歸,并額外引入梯度約束: L d e p t h = ∑ i = 1 N ( ∣ ∣ ∑ D i ⊙ ( D i ^ ? D i ) ∣ ∣ + ∣ ∣ ∑ D i ⊙ ( ? D i ^ ? ? D i ) ∣ ∣ ? α log ? ∑ D i ) L_{depth}=\sum_{i=1}^N(||\sum_D^i\odot(\hat{D_i}-D_i)||+||\sum_D^i\odot(\nabla\hat{D_i}-\nabla D_i)||-\alpha\log\sum_D^i) Ldepth?=i=1N?(∣∣Di?(Di?^??Di?)∣∣+∣∣Di?(?Di?^???Di?)∣∣?αlogDi?)
  • L t r a c k = ∑ j = 1 M ∑ i = 1 N ∣ ∣ y j , i ? y j , i ^ ∣ ∣ L_{track}=\sum_{j=1}^M\sum_{i=1}^N||y_{j,i}-\hat{y_{j,i}}|| Ltrack?=j=1M?i=1N?∣∣yj,i??yj,i?^?∣∣
    真值坐標歸一化:如果我們縮放場景或更改其全局參考系,場景的圖像完全不會受到影響,這意味著任何此類變體都是 3D 重建的合法結果。我們通過對數據進行歸一化來消除這種歧義,從而做出規范的選擇并讓 transformer 輸出這個特定的變體。首先在第一臺相機 g1 的坐標系中表示所有量。然后,我們計算點圖 P 中所有 3D 點到原點的平均歐幾里得距離,并使用此比例對相機平移 t 、點圖 P 和深度圖 D 進行歸一化。重要的是,不會將這種歸一化應用于 transformer 輸出的預測;相反,我們強制它學習我們從訓練數據中選擇的歸一化。
    實現細節:默認情況下,我們分別采用 L = 24 層全局和框架注意力。該模型總共包含大約 12 億個參數。我們通過使用 AdamW 優化器優化 160K 迭代的訓練損失 (2) 來訓練模型。我們使用一個余弦學習率調度器,峰值學習率為 0.0002,預熱為 8K 次迭代。對于每個批次,從隨機訓練場景中隨機采樣 2-24 幀。輸入幀、深度圖和點圖的大小將調整為最大尺寸為 518 像素。縱橫比在 0.33 和 1.0 之間隨機化。我們還對幀隨機應用顏色抖動、高斯模糊和灰度增強。訓練在 64 個 A100 GPU 上運行,為期 9 天。我們采用閾值為 1.0 的梯度范數裁剪來確保訓練穩定性。利用 bfloat16 精度和梯度檢查點來提高 GPU 內存和計算效率。

實驗結果

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913354.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913354.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913354.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【嵌入式電機控制#11】PID控制入門:對比例算法應用的深度理解

接下來內容需要數學功底,并且有現成結論的內容不做推導,重在講解工程實踐中的方法論,建議控制類專業或學習過相關理論的人閱讀 一、開閉環系統 (1)開環控制系統:被控對象輸出對控制器的輸出沒有影響 &…

多視圖幾何:本質矩陣與基礎矩陣

文章目錄 1. 前置知識1.1. 向量叉乘1.2. 混合積1.3. 引理證明 2. 本質矩陣3. 基礎矩陣4. 應用例子 1. 前置知識 1.1. 向量叉乘 假設 a ( a x a y a z ) \mathbf{a} \begin{pmatrix} a_x \\ a_y \\ a_z \end{pmatrix} a ?ax?ay?az?? ? 以及 b ( b x b y b z ) \mat…

Hive集群之間遷移的Linux Shell腳本

新舊 Hive 集群之前數據遷移單表腳本 migrate_hive_single_table.sh #!/bin/bash#配置參數 OLD_NAMENODE"hdfs://<old-namenode>:<old-port>" EXPORT_PATH"/tmp/hive-export/dm" NEW_DB"dm_events" TABLE_NAME"dm_usereventfi…

新時代的開始,華為開源倉頡編程語言!

7月30日&#xff0c;華為即將開源自研的倉頡編程語言。 倉頡這個名字很有意思。傳說中的倉頡創造了漢字&#xff0c;開啟了中華文明的文字時代。華為用這個名字&#xff0c;體現了對中華文化的致敬。從2020年開始研發&#xff0c;到去年首次亮相&#xff0c;再到現在的全面開源…

【python實用小腳本-128】基于 Python 的 Hacker News 爬蟲工具:自動化抓取新聞數據

引言 在技術社區中&#xff0c;Hacker News 是一個匯聚最新技術文章和討論的熱門平臺。許多開發者和技術愛好者依賴它來獲取行業動態和前沿資訊。然而&#xff0c;手動瀏覽和篩選這些文章可能耗時且低效。本文將介紹一個基于 Python 的 Hacker News 爬蟲工具&#xff0c;它能夠…

mac 電腦安裝Homebrew來安裝npm與node成功后,安裝nvm的流程

文章目錄 前言一、卸載node(如果沒下載可以忽略這步)1.官網下載安裝包的2. homebrew安裝的 二、安裝Homebrew(1) 命令安裝&#xff08;2&#xff09;出現上面提示&#xff0c;執行對應的命令&#xff08;3&#xff09;校驗是否安裝成功 三&#xff1a;安裝node&#xff08;Home…

根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作,導出.b3dm加載到谷歌地圖cesiumlab

根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作&#xff0c;導出.b3dm加載到谷歌地圖cesiumlab 根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作&#xff0c;導出.b3dm加載到谷歌地圖cesiumlab

Yocto項目:嵌入式Linux開發的“萬能烹飪手冊”

目錄 一.Yocto是什么? 二.Yocto如何運作&#xff1f; 2.1 三大核心工具 2.2 實例 三.為什么開發者愛用Yocto&#xff1f; 3.1 ?自由定制&#xff0c;拒絕“全家桶”?? 3.2 跨平臺支持&#xff1a;從x86到火星芯片? 3.3 工業級可靠性? PetaLinux是Xilinx官方推出的…

【nosql】有哪些非關系型數據庫?

非關系型數據庫Nosql 分類 鍵值存儲 (Key-Value Store): 代表: Redis, DynamoDB, RocksDB, etcd核心優勢: 極致簡單、超高讀寫性能&#xff08;尤其內存型&#xff09;、高吞吐。場景: 緩存、會話存儲、配置、計數器、分布式協調、簡單消息隊列。 列式 / 寬列存儲 (Wide-Colu…

Redis存儲Cookie實現爬蟲保持登錄 requests | selenium

前言 前面已經介紹了requests和selenium這兩種方式的基礎知識和模擬登錄,但是我們需要每次都進行登錄,這明顯是很麻煩并且不合理的,所以這次我分享一下怎么可以讓我們的程序進行一次登錄之后,和普通瀏覽器一樣下次不進行登錄直接進行對網站數據的爬取 下面的我分享的內容需要…

leetcode:474. 一和零[01背包][動態規劃]

學習要點 給定背包容量&#xff0c;裝滿背包最多有多少個物品深入理解01背包深入理解動態規劃 題目鏈接 474. 一和零 - 力扣&#xff08;LeetCode&#xff09; 題目描述 解法:01背包 class Solution { public:int findMaxForm(vector<string>& strs, int m, int …

UE5 使用過程遇到的問題

切換緩存位置 進入界面&#xff0c;選擇-編輯-編輯器偏好設置搜索緩存&#xff0c;找到通用全局&#xff0c;修改本地DCC路徑到要切換的位置 閃退報錯 Fatal: Failed to get dll export function: cuvidGetDecoderCaps [NVDEC] 因為NVIDIA驅動沒有卸載干凈&#xff0c;使用D…

2025 BSidesMumbaiCTF re 部分wp

XORyy 附件拖入ida。明文 idkwhattonamethis 附件拖入ida 前三個函數都是檢查環境&#xff0c;跳過即可 長度為5&#xff0c;可以根據flag格式求解。腳本。盡管多解但是可能的結果很少 Diff_EQ 附件拖入ida z3求解等式&#xff0c;腳本。無反調試的情況下本地可以驗證&#xff…

圖靈完備之路(數電學習三分鐘)----邏輯與計算架構

經過前面幾節的學習&#xff0c;我們已經有了簡單的數電知識&#xff0c;下面&#xff0c;我們將正式進入設計簡單圖靈完備機的工作&#xff0c;首先&#xff0c;我們要設計出具有邏輯運算與計算功能的簡單結構&#xff1a; 1.邏輯架構 首先&#xff0c;該架構能實現多種邏輯…

【C++筆記】AVL樹的深度剖析

【C筆記】AVL樹的深度剖析 &#x1f525;個人主頁&#xff1a;大白的編程日記 &#x1f525;專欄&#xff1a;C筆記 文章目錄【C筆記】AVL樹的深度剖析前言一. AVL樹的概念二.AVL樹的實現2.1 AVL樹的結構2.2 AVL樹的插入2.3 平衡因子更新三.旋轉3.1旋轉的原則3.2右單旋3.3左單…

支持向量機(SVM)在肝臟CT/MRI圖像分類(肝癌檢測)中的應用及實現

&#x1f9d1; 博主簡介&#xff1a;CSDN博客專家、CSDN平臺優質創作者&#xff0c;高級開發工程師&#xff0c;數學專業&#xff0c;10年以上C/C, C#, Java等多種編程語言開發經驗&#xff0c;擁有高級工程師證書&#xff1b;擅長C/C、C#等開發語言&#xff0c;熟悉Java常用開…

DeepSeek掃雷游戲網頁版HTML5(附源碼)

用DeepSeek幫忙生成一個網頁版的掃雷游戲&#xff0c;效果非常棒&#xff0c;基于HTML5實現&#xff0c;方便運行。 提示詞prompt 幫我做一個網頁版的 html5 掃雷游戲游戲功能說明 游戲難度&#xff1a; 1 簡單&#xff1a;1010 格子&#xff0c;10個地雷 2 中等&#xff1a;16…

Day53GAN對抗生成網絡思想

生成對抗網絡&#xff08;GAN&#xff09;是深度學習領域的一種革命性模型&#xff0c;由Ian Goodfellow等人于2014年提出。其核心思想源于博弈論中的零和博弈&#xff0c;通過兩個神經網絡&#xff08;生成器和判別器&#xff09;的對抗性訓練&#xff0c;實現數據的高質量生成…

meilisearch-輕量級搜索引擎

meilisearch是一款開源的輕量級搜索引擎&#xff0c;相比于elasticsearch等重量級搜索引擎&#xff0c;meilisearch注重數據搜索&#xff0c;從而而省去了其它不必要的功能&#xff08;如支持聚合分析、分布式搜索等特性&#xff09;&#xff0c;以便于快速上手開發和構建應用。…

51c大模型~合集150

我自己的原文哦~ https://blog.51cto.com/whaosoft/14034001 #原來Scaling Law還能被優化 Meta這招省token又提效 2017 年&#xff0c;一篇《Attention Is All You Need》論文成為 AI 發展的一個重要分水嶺&#xff0c;其中提出的 Transformer 依然是現今主流語言模型…