3D 生成重建019-LERF用文本在Nerf中開啟上帝之眼

3D 生成重建019-LERF用文本在Nerf中開啟上帝之眼


文章目錄

    • 0 論文工作
    • 1 論文方法
    • 2 實驗結果

0 論文工作

人類利用自然語言描述物理世界,根據各種特性(視覺外觀、語義、抽象關聯)尋找具體的3D位置。在這項工作中,作者提出了語言嵌入輻射場(LERF),這是一種將來自現成模型(如CLIP)的語言嵌入整合到NeRF中的方法,從而能夠在三維空間中進行這種類型的開放式語言查詢。LERF通過沿訓練光線進行體渲染CLIP嵌入,從而在NeRF內部學習一個密集的多尺度語言場,并通過在訓練視圖中監督這些嵌入來提供多視圖一致性,并使底層語言場平滑化。優化后,LERF能夠實時交互式地提取各種語言提示的3D相關性圖,這在機器人技術、理解視覺語言模型和與3D場景交互方面具有潛在的應用案例。LERF支持像素對齊的零樣本查詢,無需區域建議或掩碼,能夠分層地處理長尾開放詞匯查詢。
LanSplat整體上是將這個論文的思想遷移到3DGS上,在這個過程中去解決一些新的問題。clip 當時出了,Sam應該還沒發表。基礎模型的進步顯著促進了應用研究的進步。
paper
github

1 論文方法

因為nerf是像素級別的渲染,所以對齊的時候和邊界這些需要做更多的考慮。論文使用多尺度的信息,當然這個和CLIP主要關注相似度有關系。SAM之后語音的定位可以更加準確了。因為nerf采用的是神經網絡架構,跟圖形渲染管道無關,在這個特征的維度上不需要額外的考慮。通過增加新的分支從CLIP中蒸餾信息就可以。
RF 的主要創新之處在于:
將CLIP語言嵌入融入NeRF: 這是LERF的核心創新。它直接將預訓練的CLIP模型的輸出嵌入到NeRF中,無需對CLIP進行微調或依賴于特定數據集,擴展了NeRF的應用范圍,使其能夠理解和響應自然語言。以往方法通常需要依賴于人工標注的數據集或其他的圖像特征提取方法。
多尺度語言場: LERF 學習一個多尺度的語言場,這使得它能夠處理不同粒度級別的語義信息。例如,它可以同時識別“杯子”和“杯子里的水”,而不需要依賴于人為定義的物體尺度或層次結構。
像素級對齊的零樣本查詢: LERF實現了像素級對齊的零樣本查詢,這意味著它能夠直接根據自然語言查詢在三維場景中定位和分割物體,而無需依賴于目標檢測或分割等中間步驟。
高效的實時查詢: 經過訓練后,LERF能夠實時地生成三維場景中物體的相關性圖,這對于機器人導航、虛擬現實等實時交互應用具有重要意義。
總的來說,LERF通過將強大的自然語言處理能力與NeRF模型結合,實現了對三維場景的開放詞匯查詢,在效率和精度方面都取得了顯著的提升。其創新之處在于其方法的簡潔性和高效性,以及其在處理開放詞匯查詢方面的出色表現。
請添加圖片描述

2 實驗結果

請添加圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/62243.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/62243.shtml
英文地址,請注明出處:http://en.pswp.cn/web/62243.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何選擇合適的期刊投稿?從課題組經驗到在線工具的使用全解析

~~~本文是作者個人的經驗分享,建立在導師讓自己選刊的情況下~~~ 投稿選刊是科研過程中至關重要的一步,選刊過程可能讓許多初投稿的研究者感到迷茫和困惑:期刊那么多,如何找到最合適的? 本文將從多個角度介紹如何選擇投…

024、Docker與SSH在分布式系統中的實踐指南

1. Docker SSH配置最佳實踐 Docker容器通常不需要SSH服務來運行,因為它們設計為輕量級、無狀態的,并且通常通過Docker命令行界面與宿主機進行交互。但是,在某些情況下,您可能需要通過SSH訪問Docker容器進行調試、維護或其他操作。…

【kafka】消息隊列的認識,Kafka與RabbitMQ的簡單對比

什么是消息隊列? 消息隊列(Message Queue,簡稱 MQ)是一個在不同應用程序、系統或服務之間傳遞數據的機制。 它允許系統間異步地交換信息,而無需直接交互,確保消息的可靠傳輸。 想象一下,你正在…

.NET MAUI與.NET for Android/IOS的關系

2024年11月13日微軟發布了.Net9.0,我打算體驗一下。安裝好.Net9.0 SDK后發現Visual Studio識別不到9.0,但是通過命令行dotnet --info查看是正常的,后面看到了VS有版本可以升級,把VS升級到17.12.0就可以了。更新完打開以后看到如下界面 這里…

SqlDataAdapter

SqlDataAdapter 是 .NET Framework 和 .NET Core 中提供的一個數據適配器類,屬于 System.Data.SqlClient 命名空間(或在 .NET 6 中屬于 Microsoft.Data.SqlClient 命名空間)。它的作用是充當數據源(如 SQL Server 數據庫&#xff…

【vivado】時序報告--best時序和worst時序

利用vivado進行開發時,生成best時序報告和worst時序報告。 best時序報告 slow選擇min_max,fast選擇none。 worst時序報告 fast選擇min_max,slow選擇none。

FastAPI 響應狀態碼:管理和自定義 HTTP Status Code

FastAPI 響應狀態碼:管理和自定義 HTTP Status Code 本文介紹了如何在 FastAPI 中聲明、使用和修改 HTTP 狀態碼,涵蓋了常見的 HTTP 狀態碼分類,如信息響應(1xx)、成功狀態(2xx)、客戶端錯誤&a…

力扣題庫-擲骰子模擬詳細解析

題目如下: 有一個骰子模擬器會每次投擲的時候生成一個 1 到 6 的隨機數。 不過我們在使用它時有個約束,就是使得投擲骰子時,連續 擲出數字 i 的次數不能超過 rollMax[i](i 從 1 開始編號)。 現在,給你一…

深入淺出:PHP中的數據類型全解析

文章目錄 引言理解數據類型標量類型整數 (integer)浮點數 (float)布爾值 (boolean)字符串 (string) 復合類型數組 (array)對象 (object)資源 (resource)NULL 特殊類型Callable強制類型轉換 實戰案例總結與展望參考資料 引言 在編程的世界里,數據類型是構建任何應用…

當linux可執行文件缺少或者不兼容so庫時候,如何查看版本以及缺少那些庫

解決方法: ldd 命令來驗證程序是否加載了正確的庫: 如檢查linear_elasticity可執行文件缺少的庫,用下面命令: ldd linear_elasticity 可以發現下面not found就是缺少的庫,還有對應的庫的位置已經版本 $ ldd lin…

第P1周:Pytorch實現mnist手寫數字識別

🍨 本文為🔗365天深度學習訓練營 中的學習記錄博客🍖 原作者:K同學啊 目標 1. 實現pytorch環境配置 2. 實現mnist手寫數字識別 3. 自己寫幾個數字識別試試具體實現 (一)環境 語言環境:Python…

Seq2Seq模型的發展歷史;深層RNN結構為什么出現梯度消失/爆炸問題,Transformer為什么不會;Seq2Seq模型存在問題

目錄 Seq2Seq模型的發展歷史 改進不足的地方 深層RNN結構為什么出現梯度消失/爆炸問題,Transformer為什么不會 深層RNN結構為什么出現梯度消失/爆炸問題: Transformer為什么不會出現梯度消失/爆炸問題: Seq2Seq模型存在問題 T5模型介紹 Seq2Seq模型的發展歷史 序列到…

網絡安全技術詳解:虛擬專用網絡(VPN) 安全信息與事件管理(SIEM)

虛擬專用網絡(VPN)詳細介紹 虛擬專用網絡(VPN)通過在公共網絡上創建加密連接來保護數據傳輸的安全性和隱私性。 工作原理 VPN的工作原理涉及建立安全隧道和數據加密: 隧道協議:使用協議如PPTP、L2TP/IP…

Hive 窗口函數與分析函數深度解析:開啟大數據分析的新維度

Hive 窗口函數與分析函數深度解析:開啟大數據分析的新維度 在當今大數據蓬勃發展的時代,Hive 作為一款強大的數據倉庫工具,其窗口函數和分析函數猶如一把把精巧的手術刀,助力數據分析師們精準地剖析海量數據,挖掘出深…

SCAU期末筆記 - 數據庫系統概念

我校使用Database System Concepts,9-12章不考所以跳過,因為課都逃了所以復習很倉促,只準備過一下每一章最后的概念辨析,我也不知道有沒有用 第1章 引言 數據庫管理系統(DBMS) 由一個互相關聯的數據的集合…

Android 12系統源碼_窗口管理(九)深淺主題切換流程源碼分析

前言 上一篇我們簡單介紹了應用的窗口屬性WindowConfiguration這個類,該類存儲了當前窗口的顯示區域、屏幕的旋轉方向、窗口模式等參數,當設備屏幕發生旋轉的時候就是通過該類將具體的旋轉數據傳遞給應用的、而應用在加載資源文件的時候也會結合該類的A…

河南省的教育部科技查新工作站有哪些?

鄭州大學圖書館(Z12):2007年1月被批準設立“教育部綜合類科技查新工作站”,同年12月被河南省科技廳認定為河南省省級科技查新機構。主要面向河南省的高校、科研機構、企業提供科技查新、查收查引等服務。 河南大學圖書館&#xf…

Leetcode經典題6--買賣股票的最佳時機

買賣股票的最佳時機 題目描述: 給定一個數組 prices ,它的第 i 個元素 prices[i] 表示一支給定股票第 i 天的價格。 你只能選擇 某一天 買入這只股票,并選擇在 未來的某一個不同的日子 賣出該股票。設計一個算法來計算你所能獲取的最大利潤。…

MCPTT 與BTC

MCPTT(Mission Critical Push-to-Talk)和B-TrunC(寬帶集群)是兩種關鍵通信標準,它們分別由不同的組織制定和推廣。 MCPTT(Mission Critical Push-to-Talk)標準由3GPP(第三代合作伙伴…

去除賬號密碼自動賦值時的輸入框背景色

問題描述: 前端使用賬號密碼登錄,若在網頁保存過當前頁面的密碼和賬號,那么當再次進入該頁面,網頁會自動的把賬號和密碼賦到輸入框中,而此時輸入框是帶有背景色的,與周邊的白色背景顯得很不協調&#xff1…