標題:《SPLART: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting》
項目:https://github.com/ripl/splart
文章目錄
- 摘要
- 一、引言
- 二、相關工作
- 2.1 數據驅動的鉸鏈學習
- 2.2 物體重建的表征方法
- 2.3 鉸鏈物體重建
- 三、方法
- 3.1 總覽
- 3.2 Separate per-state reconstruction
- 3.3 Cross-static formulation for mobility estimation
- 3.3. Cross-mobile formulation for articulation estimation and mobility refinement
- 3.5 真實世界應用
- 四、實驗
- 4.1 數據集
- 4.2 評估指標
摘要
??重建日常環境中普遍存在的可活動物體,對于增強/虛擬現實和機器人應用至關重要。然而現有方法面臨可擴展性局限(需要3D監督或昂貴標注)、魯棒性問題(易陷入局部最優)以及渲染缺陷(速度不足或缺乏照片級真實感)。我們提出SPLART框架——一種自監督、類別無關的解決方案,通過3D高斯潑濺(3DGS)技術, 利用兩組不同活動狀態(articulation states)下拍攝的位姿RGB圖像,實現可活動物體(articulated objects)的重建與運動學推斷,從而支持新視角和新活動狀態下的實時照片級渲染 。SPLART為 每個高斯元素引入可微分移動參數,實現了精細化的部件分割 。 采用多階段優化策略逐步處理重建、部件分割和活動結構估計(articulation estimation ),顯著提升了系統的魯棒性與精確度。 PLART利用幾何自監督機制,有效解決了無需3D標注或類別特定先驗信息的復雜場景問題 。通過在既有基準和新提出的測試平臺上進行評估,并結合手持RGB相機在真實場景中的應用,實驗證明了SPLART具備最先進的性能表現與實際應用價值。
一、引言
??articulated objects:鉸接式物體(如抽屜、門和剪刀)在日常生活中無處不在,但其動態特性給三維重建帶來了重大挑戰——這項關鍵技術對增強/虛擬現實[37,52]、機器人學[1,5,16,24,51,58]和計算機視覺[20,46]等應用領域至關重要。現有鉸接物體重建方法存在若干關鍵局限:往往需要勞動密集型監督(如部件級分割或關節標注)[23,29,41,55,57],依賴限制實際應用的三維監督[23,29,34,41,61],只能生成限制可擴展性的特定類別模型[29,41,55,60],或無法實現實時逼真渲染[6,13,23,29,30,41,55,57,60,61]。為解決這些挑戰,我們推出SPLART——一種新穎的自監督且與類別無關的框架。該框架利用三維高斯潑濺(3DGS)[26]技術,僅需最少輸入(兩組不同關節狀態下的位姿RGB圖像)即可重建鉸接物體。SPLART不僅能重建物體部件,還能推斷運動學特性,從而實現對新穎視角和關節狀態進行實時、逼真渲染。
??SPLART系統的核心創新在于對3D高斯潑濺(3DGS)[26]技術的增強——為每個高斯單元引入了可微分運動參數(differentiable mobility parameter)。這一改進通過基于梯度的優化算法,實現了靜態與動態場景要素的更精細分割。該技術不僅顯著提升了三維重建質量,同時完整保留了3DGS原有的實時照片級渲染能力,其運算速度較基于神經輻射場[39]的方法[6,30]提升了100倍以上。
??為提高魯棒性,SPLART采用多階段優化策略,將部件級重建與鉸鏈估計過程(articulation estimation processes)解耦。與容易陷入局部最優的端到端方法不同[30],SPLART首先獨立重建每個鉸鏈狀態,隨后估算每個高斯分布的運動參數以實現部件分割,最終聯合優化關節與運動參數估計。這種結構化方法確保了穩定精確的收斂,規避了現有方法對初始化的嚴苛要求,從而為復雜鉸接結構提供了實用解決方案。
??基于這一基礎,SPLART利用幾何自監督技術,無需人工標注或三維監督。通過互補的損失函數設計強制實現重建間的幾何一致性,該方法能穩健估計各類場景下的鉸鏈參數。這種自監督策略增強了可擴展性,使SPLART能夠在不依賴先驗結構或類別知識的情況下,重建多種關節化物體。
??實際場景實驗進一步驗證了其應用價值,僅通過手持RGB相機就成功實現了對各類鉸鏈物體的高質量重建。
??
貢獻:
- 對3D高斯潑濺(3DGS)的擴展——通過為每個高斯分布引入可微分移動性值,實現基于梯度優化的精確部件分割。
- 采用多階段優化策略,將重建與鉸鏈估計解耦,從而提升魯棒性與精確度。
- 提出幾何自監督的互補公式用于鉸鏈估計,無需3D監督或繁瑣標注。
- 構建具有挑戰性的數據集及新評估指標,用于關節化物體重建的綜合評測。
二、相關工作
2.1 數據驅動的鉸鏈學習
??準確估計鉸鏈物體的姿態與鉸鏈屬性對機器人操控與交互至關重要[10,11,19,31]。近期基于學習的方法[9,13,15,22,29,33,57,65]通過端到端訓練從點云推斷鉸鏈屬性。例如,Shape2Motion[57]在監督環境下從單一點云分析運動部件,而ANCSH[29]實現類別級姿態估計但需要特定類別模型。RPM-Net[63]提升了部件分割與運動學預測的跨類別泛化能力,DITTO[23]則無需標簽即可從三維點云對預測運動與幾何特征。然而這些方法都依賴昂貴的3D監督與標注。相比之下,我們的方法能重建精確的三維幾何結構與細致外觀,在無需3D監督或先驗知識的情況下捕捉鉸鏈特性。
2.2 物體重建的表征方法
??早期的三維物體重建方法通過部分觀測數據預測點云、體素或網格[3,8,17]。隱式場景表征技術的最新進展[18,26,38,39,45,66]實現了通過可微分渲染[12,44,53,56]進行精細幾何結構與外觀重建。雖然神經場存在渲染速度慢的問題,但三維高斯潑濺技術(3DGS)[26]通過使用顯式的三維高斯分布克服了這一缺陷。我們利用3DGS技術從位姿已知的RGB圖像中實現自監督鉸接物體重建,能夠實時快速生成新穎視角和關節運動的逼真合成效果。
??
2.3 鉸鏈物體重建
??近期研究利用可微分三維表示方法[26,39,45]實現關節物體的聯合重建與關節參數推斷。基于訓練的方法使用合成三維數據預測關節參數并分割部件[13,14,23,25,41,43,60]。自監督方法無需大量訓練即可優化單場景的形狀、外觀與關節結構[6,27,30,32,34,50,61],其中部分研究雖能處理多部件物體,但需預先知道部件數量和單層關節結構[6,34,61]。另有研究通過大型語言或視覺-語言模型提升關節估計精度[28,36]。相比之下,我們的自監督方法采用3D高斯潑濺技術[26],僅憑RGB圖像即可跨關節狀態重建雙部件關節物體。作為首個在無三維監督或預訓練先驗條件下將該技術應用于此任務的研究,本方法能穩健處理復雜案例并實現實時性能。
三、方法
3.1 總覽
??考慮一個由兩個剛性部件組成的任意物體:一個靜態的父部件,以及一個可通過旋轉關節或棱柱關節相對于父部件移動的子部件。兩個目標:(1) 在部件級別重建這個鉸鏈物體;(2) 估算其鉸鏈運動。在已知關節類型(即旋轉或棱柱)的假設下,我們方法的輸入由兩組位姿已知的RGB圖像(即已知相機內外參數的圖像)組成,每組圖像分別捕捉鉸鏈物體在運動兩端狀態時的形態。
??正式地,設l表示關節狀態標簽,其中 l = 0 l=0 l=0和 l = 1 l=1 l=1對應觀測關節的兩個端點狀態。為實現重建,SPLART算法采用觀測數據 O l O_l Ol?={ ( I l i , P l i , K l i ) (I_l^i, P_l^i, K_l^i) (Ili?,Pli?,Kli?)} i = 1 N l , ^{N_l}_{i=1} , i=1Nl??, l l l∈{0,1},其中 I l i I_l^i Ili?表示第i個在狀態l下觀測到的關節物體RGB圖像, P l i P_l^i Pli?與 K l i K_l^i Kli?分別代表其相機外參和內參矩陣, N l N_l Nl?表示狀態 l l l的數據樣本數量。需注意 P l i P_l^i Pli?在兩個狀態中均定義于統一的世界坐標系,而鉸鏈運動僅涉及相對于世界坐標系的一個運動部件。SPLART通過旋轉軸a(∥a∥=1)、樞軸點p和旋轉角度θ來建模旋轉鉸鏈,使得世界坐標系中移動部件上的點 x x x在狀態 l = 0 l=0 l=0時將運動至——
當狀態 l = 1 l = 1 l=1時, R a , θ R_{a,θ} Ra,θ?表示由axis-angle notation 實現的旋轉。棱柱鉸鏈(prismatic articulation)則通過其平移軸 a a a(∥a∥= 1)和距離d來建模。目標是使用選定的表示方法在部件級別重建鉸鏈對象,并估計鉸鏈運動 1 T 0 ^1T_0 1T0?,確保每個鉸鏈狀態下的渲染與觀察結果一致。
?? 同時進行部件級重建和鉸鏈估計時,容易陷入局部最小值 [6,30],因此SPLART通過三個階段,將部件級重建和鉸鏈估計分離,擴展了3DGS對于關節物體的表示方法,:(1)每個鉸鏈狀態分別進行重建,(2)使用交叉靜態公式進行運動估計,(3)使用交叉移動公式進行鉸鏈估計和運動細化。 為了使SPLART更容易應用于現實世界中的物體,我們利用現代的sfm和圖像分割技術,開發了一個框架,使普通用戶能夠僅通過手持相機設備拍攝的圖像,在周圍環境中重建關節物體。
3.2 Separate per-state reconstruction
??第一階段,除了原始3DGS的屬性外,每個高斯分布還被初始化了一個持久的二進制狀態標簽 l l l,該標簽從{ 0 , 1 0,1 0,1}中等概率選取。表示狀態l的高斯分布集合記為 G l r e f G_l^{ref} Glref?,其中 r e f ref ref強調 G r e f G^{ref} Gref是未受其他狀態影響的參考重建。利用狀態 l l l下的數據樣本進行優化:
其中 R R R是渲染函數, ? I ?_I ?I?表示光度損失。為簡化表述,從現在起將省略視圖索引 i i i 和相機參數 P l i 、 K l i P_l^i、K_l^i Pli?、Kli?。
3.3 Cross-static formulation for mobility estimation
??第二階段是每個高斯的運動估計。為了確保 G r e f G^{ref} Gref專注于單狀態重建,首先將其復制為兩個狀態(即l∈{0,1})的 G t g t G^{tgt} Gtgt作為目標表示,旨在實現部件級和鉸鏈級的重建。設計上, G t g t G^{tgt} Gtgt在創建后既不與 G r e f G^{ref} Gref共享數據存儲也不共享梯度流。
??對于 G t g t G^{tgt} Gtgt中的每個高斯基元,屬性集中加入一個移動性值 m ∈ [ 0 , 1 ] m∈[0,1] m∈[0,1],初始化為0.5。通過這一設計,m使得高斯分布可以分解為其靜態和移動部分,其中每個部分繼承了所有原始高斯分布的屬性,除了不透明度 σ σ σ。靜態部分的不透明度調整為 σ ? ( 1 ? m ) σ·(1?m) σ?(1?m),而移動部分的不透明度則調整為 σ ? m σ·m σ?m。為了簡化表述,設 M M M為 G G G的所有移動性集合,使用元素級乘法 G ? ( 1 ? M ) G·(1?M) G?(1?M)來表示 G G G的靜態部分,而 G ? M G·M G?M則表示移動部分。
??為了估算運動性M,基于直覺:即鉸鏈物體的靜態部分應由兩種狀態的靜態分量共同構成。具體而言,我們引入了交叉靜態(cs)公式,其中鉸鏈物體的靜態部分被聯合表示為:
其中⊕表示拼接。對于狀態 l l l,目標表示變為:
根據該公式,第2階段進一步分為以下兩個子階段:
??第二階段(a):通過交叉靜態幾何一致性進行粗略運動估計。為了測量兩個高斯集之間的幾何距離,設計一種加權的Chamfer距離:設 X = X= X={ ( x i , w x i ) (x_i,w_{x_i}) (xi?,wxi??)} i = 1 M ^M_{i=1} i=1M?和 Y = Y= Y={ ( y j , w y j ) (y_j,w_{y_j}) (yj?,wyj??)} j = 1 N ^N_{j=1} j=1N?為兩組點-權重對,加權Chamfer距離則定義為:
??對于每個高斯基元,采用運動修正后的不透明度 σ ′ σ′ σ′作為權重(實際上將其視為在平均位置重疊的σ′個點)。通過優化這些移動性,以促進幾何一致性:
??其中, C h a m f e r ( ? ) Chamfer(·) Chamfer(?)表示加權Chamfer距離,而 λ ∥ M ∥ λ∥M∥ λ∥M∥ 是一個正則化項,旨在鼓勵較小的移動性。請注意,M通過調整不透明度來影響加權Chamfer距離,而當M=1時,沒有正則化的情況下,這是一個簡單的解。在沒有光度監督的情況下,從方程6a得到的移動性通常較為嘈雜。然而,由于這些方法相對快速(僅需幾十秒),它們仍然可以作為下一階段的良好初始化。
??第二階段(b):通過交叉靜態渲染,實現運動性與高斯的聯合優化:
λ m p h o t o ∥ M 1 ? l ∥ λ^{photo}_m∥M_{1?l}∥ λmphoto?∥M1?l?∥表示運動正則化。
3.3. Cross-mobile formulation for articulation estimation and mobility refinement
??第三階段,估計所有高斯的移動部件共享的鉸鏈參數。基于這樣的直覺:兩個端點狀態下的移動部件,通過鉸鏈運動相互關聯。引入了交叉移動(cm)公式:狀態 l l l下,鉸鏈物體的移動部分被共同表示為:
其中 l T 1 ? l ( G ) ^lT_{1?l}(G) lT1?l?(G)表示高斯G在從狀態 1 ? l 1?l 1?l到狀態 l l l的鉸鏈運動下的變換。對于狀態 l l l,目標表示變為:
根據該公式,第3階段進一步分為以下三個子階段:
??第三階段(a):通過幾何一致性進行粗略鉸鏈估計。類似于方程6a,采用加權Chamfer距離計算交叉移動的幾何一致性,在移動性和鉸鏈參數上進行優化:
??然而,我們發現 1.當移動部分在幾何上過于微不足道時,這種表述方式仍可能陷入局部最小值。如圖3a的案例 。為解決這一問題,我們進一步提出了僅針對移動部件的幾何一致性方案,該方案僅關注兩種狀態下的移動組件:
??雖然成功解決了這些情況,但 2.僅限于移動組件的幾何一致性在其他情況下仍顯不足,尤其是在兩個狀態下的移動組件存在顯著差異時 。如圖4a的失敗案例。為了充分利用兩種方法,提高鉸鏈參數優化的魯棒性:
- 1.在 K m K^m Km次隨機嘗試中:通過下式進行鉸鏈估計
-
- 結合 K c m K^{cm} Kcm次隨機嘗試方法,再加上另一個以 T m T^m Tm初始化的方案:通過下式估計鉸鏈
- 3.最終以 T c m T^{cm} Tcm初始化:通過方程10a進行聯合的鉸鏈估計和移動行細化。
??第三階段(b):通過交叉移動渲染實現鉸鏈、運動及高斯的聯合優化。與第二階段(b)類似,利用光度監督,通過交叉移動渲染來全面優化:
??第3?階段:通過交叉移動幾何一致性進行移動校正。第3(b)階段僅依賴光度監督,這種監督方式僅限于訓練視圖。如果鉸鏈運動使高斯從大多數視角中消失,那么它可能會被誤認為是可移動的,從而有效地失去了監督。另一方面,幾何一致性不受視線限制的影響。利用這一點進行移動性校正:
3.5 真實世界應用
??為了在現實世界中重建一個鉸鏈物體,首先從物體周圍的半球拍攝圖像,收集兩組RGB圖像,每種鉸鏈狀態各一組。預處理數據,得到SPLART輸入的帶位姿圖像:使用SAM 2 [47]進行前景與背景的分割,同時去除場景中的動態元素。隨后利用COLMAP [49]和SuperPoint [7]描述符及SuperGlue [48]匹配技術,在兩組圖像的分割背景上執行SFM來確定相機的姿態,從而構建出物體在兩種狀態下的聯合坐標系。一旦我們獲得了這個聯合坐標系,并且前景目標物體被準確定位后,就運行SPLART來重建鉸鏈物體。
四、實驗
4.1 數據集
??PARIS PartNet-Mobility子集。PartNet-Mobility是一個大規模的數據集,提供了具有部件級移動性[2,40,62]的可模擬3D對象模型。PARIS [30]從中選取了10個實例用于實驗,其中8個為旋轉實例,2個為棱柱實例。我們將這個數據集稱為PARIS-PMS。對于每個鉸鏈狀態,PARIS提供了100個校準的以對象為中心的視角用于訓練,50個用于測試,這些視角是從上半球隨機選取的。然而,發布的數據集中缺少真實深度和部件分割圖。為了解決這一問題,我們遵循他們的數據生成流程,并為PARIS-PMS增加了必要的真實數據,用于深度和分割評估。盡管如此,中間關節狀態的測試視角仍未提供,這限制了對新關節合成的定量評估。
??SPLART PartNet-Mobility子集。我們從PartNet-Mobility中精選了一個額外的鉸鏈對象數據集,命名為SPLART-PMS,以實現更全面的評估,包括對新鉸鏈合成的定量評估。我們的數據集包含22個未被PARIS-PMS包含的類別中的對象實例,其中包括12個旋轉對象和10個棱柱形對象。在測試分割中,我們還生成了真實深度圖和部分分割圖,以促進相關評估。重要的是,雖然PARIS-PMS將關節狀態限制為二進制值,而SPLART-PMS從[?0.1,1.1]的范圍內均勻采樣狀態,這要求對關節、部分分割和對象重建進行準確估計,以確保正確的視圖合成。
??真實世界數據集。為了展示SPLART在實際應用中的效果,我們收集了一個包含7個真實物體和9種不同動作的數據集,這些物體包括常見的顯示器、櫥柜、眼鏡等。所有圖像均通過手持手機拍攝。
4.2 評估指標
??鉸鏈估計。根據鉸鏈類型評估其估計的準確性。
-
旋轉鉸鏈描述了在三維空間中圍繞某條線的旋轉,參數包括線上的樞軸點p、線的方向軸a和旋轉角度θ。我們報告預測軸與真實軸之間的角度誤差 e r r a ( i n × 10 ? 2 度 ) err_a(in×10^{?2}度) erra?(in×10?2度),由axis-angle ( a ? θ ) (a-θ) (a?θ)對引起的預測旋轉與真實旋轉之間的測地距離 e r r r ( i n × 10 ? 2 度 ) err_r(in×10^{?2}度) errr?(in×10?2度),以及樞軸點誤差 e r r p err_p errp?。由于軸心可以沿軸任意移動, e r r p err_p errp?通過計算 axis-pivot (a-p) pair 所引導的預測與真實line之間的最近距離來確定。
-
prismatic articulation(棱柱鉸鏈)描述了沿特定方向的平移,該平移由平移方向的軸a和平移距離d參數化。我們報告axis誤差 e r r a err_a erra?,如同旋轉鉸鏈的情況,并報告平移誤差 e r r d err_d errd?,即由axis-distance對所引導的預測平移與真實平移之間的距離。
??部件級重建。其準確性評估包括三個方面:光照渲染質量、幾何精度和部件分割精度。對于這些方面,我們采用了新視圖合成作為替代任務。我們對測試集中的每個視圖進行volume render,生成包含RGB圖像、深度圖和部件分割圖的輸出。光照渲染質量通過報告圖像質量指標PSNR來評估。幾何精度通過報告深度圖的平均絕對誤差(depth MAE)來評估。部分分割精度則通過三個類別的交并比(IoU)來評估:靜態部分(IoUs)、移動部分(IoUm)和背景(IoUbg)。這些類別的平均IoU(mIoU)被報告為這些類別的平均IoU。此外,我們還通過網格重建來評估幾何精度。為了從3DGS中提取網格,我們采取了以下步驟:(1)從均勻采樣的球形視角渲染深度圖像,(2)將渲染的深度圖像融合成TSDF表示[4,42],(3)使用Marching Cubes算法[35]提取網格。對于每次重建,我們分別提取靜態、移動和整體部分的網格。評估時,我們遵循先前研究[30,61]中使用的方法:從重建和真實網格中均勻采樣10,000個點,并計算每個類別的Chamfer距離—靜態(CDs)、移動(CDm)和整體(CDw)。
??定性與定量實驗:
??