3D 生成重建019-LERF用文本在Nerf中開啟上帝之眼
文章目錄
- 0 論文工作
- 1 論文方法
- 2 實驗結果
0 論文工作
人類利用自然語言描述物理世界,根據各種特性(視覺外觀、語義、抽象關聯)尋找具體的3D位置。在這項工作中,作者提出了語言嵌入輻射場(LERF),這是一種將來自現成模型(如CLIP)的語言嵌入整合到NeRF中的方法,從而能夠在三維空間中進行這種類型的開放式語言查詢。LERF通過沿訓練光線進行體渲染CLIP嵌入,從而在NeRF內部學習一個密集的多尺度語言場,并通過在訓練視圖中監督這些嵌入來提供多視圖一致性,并使底層語言場平滑化。優化后,LERF能夠實時交互式地提取各種語言提示的3D相關性圖,這在機器人技術、理解視覺語言模型和與3D場景交互方面具有潛在的應用案例。LERF支持像素對齊的零樣本查詢,無需區域建議或掩碼,能夠分層地處理長尾開放詞匯查詢。
LanSplat整體上是將這個論文的思想遷移到3DGS上,在這個過程中去解決一些新的問題。clip 當時出了,Sam應該還沒發表。基礎模型的進步顯著促進了應用研究的進步。
paper
github
1 論文方法
因為nerf是像素級別的渲染,所以對齊的時候和邊界這些需要做更多的考慮。論文使用多尺度的信息,當然這個和CLIP主要關注相似度有關系。SAM之后語音的定位可以更加準確了。因為nerf采用的是神經網絡架構,跟圖形渲染管道無關,在這個特征的維度上不需要額外的考慮。通過增加新的分支從CLIP中蒸餾信息就可以。
RF 的主要創新之處在于:
將CLIP語言嵌入融入NeRF: 這是LERF的核心創新。它直接將預訓練的CLIP模型的輸出嵌入到NeRF中,無需對CLIP進行微調或依賴于特定數據集,擴展了NeRF的應用范圍,使其能夠理解和響應自然語言。以往方法通常需要依賴于人工標注的數據集或其他的圖像特征提取方法。
多尺度語言場: LERF 學習一個多尺度的語言場,這使得它能夠處理不同粒度級別的語義信息。例如,它可以同時識別“杯子”和“杯子里的水”,而不需要依賴于人為定義的物體尺度或層次結構。
像素級對齊的零樣本查詢: LERF實現了像素級對齊的零樣本查詢,這意味著它能夠直接根據自然語言查詢在三維場景中定位和分割物體,而無需依賴于目標檢測或分割等中間步驟。
高效的實時查詢: 經過訓練后,LERF能夠實時地生成三維場景中物體的相關性圖,這對于機器人導航、虛擬現實等實時交互應用具有重要意義。
總的來說,LERF通過將強大的自然語言處理能力與NeRF模型結合,實現了對三維場景的開放詞匯查詢,在效率和精度方面都取得了顯著的提升。其創新之處在于其方法的簡潔性和高效性,以及其在處理開放詞匯查詢方面的出色表現。