NeRAF、ImVid論文解讀

目錄

一、NeRAF

1、概述

2、方法

3、訓練過程

4、實驗

二、ImVid

1、概述

2、Imvid數據集

3、STG++方法


一、NeRAF

1、概述

? ? ? ? NeRF類方法僅支持視覺合成功能,缺乏聲學建模能力。對于以往的聲學建模(如NAR/INRAS)會忽略三維場景幾何對聲波傳播的本質影響。

? ? ? ? NeRAF可以在現有圖像和音頻數據中學習輻射場和聲學場信息,并且能夠在未知區域合成視聽信息,無需依賴同位置的視聽傳感器進行訓練。

2、方法

? ? ? ? NeRAF模型包含三個部分NeRF神經輻射場,網格采樣器,神經聲學場(NAcF)。

? ? ? ? 神經輻射場首先依賴于Nerfacto進行搭建,該框架整合了哈希編碼,場景收縮,相機位姿優化等技術,并且NeRAF模型也不對NeRF進行改進。NeRF通過給定xyz坐標和位姿->輸出密度和顏色信息。

? ? ? ? 網格采樣器,目的是將NeRF模型切換到一個可以提取特征的網格特征結構。對整個3D場景構建一個128x128x128的體素網格空間,并對每一個體素中心點X_{vi}=(x_{vi},y_{vi},z_{vi})查詢NeRF,不透明度為\alpha=1-exp(-\sigma\delta),并且對每一個坐標投射18個視角,并對每一個視角渲染一個顏色信息,計算均值\hat{C}_{vi},這樣就成功的將NeRF模型轉換成了一個顯式的體素網格結構,輸出7通道體素(x,y,z,\hat C,\alpha)

? ? ? ?神經聲學場部分:

? ? ? ?RIR:房間脈沖響應,描述聲波從聲源到麥克風的傳播特性,比如正常一個聲音從聲源傳到聽者,他需要經過早期反射和晚期混響兩個階段,早期反射反應聲源周圍的表面到聲源的距離信息,晚期混響則是多次散射形成的能量衰減,受場景規模,材質等影響。

????????神經聲學場(NAcF)旨在學習場景中的聲學特性的連續神經表征,也就是計算任意位置上的RIR合成,最后輸出到雙耳聲道。輸入任意位置的麥克風坐標X_m=(x_m,y_m,z_m)以及方向角d_m=(\theta_m,\phi_m),以及聲源位置的坐標X_s=(x_s,y_s,z_s)和聲源方向角d_s=(\theta_s,\phi_s),時間查詢t。上述這些信息均用作編碼。

????????NAcF函數表示:(x_m,d_m,x_s,d_s,t)->RIR(f,t),這個RIR實際上就是STFT的時頻表示,可以理解為利用上述五個信息,得到一個某一個位置的房間脈沖響應,這個響應用STFT來表示。

????????ResNet3D作為三維場景特征提取器,輸入一個體素網格,輸出1024或2048維的特征向量,他的目的是學習體素網格中的幾何特征和材質特征。

? ? ? ? Multi-modal Fusion包含兩個MLP,第一個用來輸入所有融合向量,輸出一個512維的聲學latent vector,用于學習聲波在場景中的傳播物理規律,第二個MLP分為左右兩個聲道獨立MLP,最終輸出STFT頻域系數。

? ? ? ? MLP Block1:5層全連接,LeakyReLU作激活函數

? ? ? ? MLP Block2:學習非對稱HRTF,證明空間定位能力,兩耳存在一定的聲壓差,Tanh作為激活函數。

? ? ? ? 還原RIR波形,通過Griffin-Lim算法來實現還原(參考NAcF)

3、訓練過程

損失函數

? ? ? ? NeRF損失包括重建MSE誤差和互補損失(相機位姿修正損失和多分辨率哈希損失),不修改原損失。

? ? ? ? 聲學損失計算光譜對數損失L_SL和光譜收斂損失L_SC

訓練策略

? ? ? ? 先訓練NeRF,并且分批更新體素網格。

? ? ? ? 之后聯合訓練NAcF和NeRF。

數據集

? ? ? ? SoundSpaces:仿真數據由Habitat Sim構建,包含6個室內場景信息,聲學數據提供雙耳RIR并且每隔0.5m網格進行空間采樣,視覺數據則初始128x128 的RGB-D數據,NeRAF重新渲染了512x512的。

? ? ? ? RAF:RAF之前的SoundSpaces和MeshRIR都是合成數據或者稀疏采樣,RAF是首個真實世界密集采樣視聽數據集,每平方米372個樣本,只有兩個真實房間:空房間和帶家具房間。視覺采集來自于VR-NeRF相機環,22個相機多視角共11418張圖像,帶有深度圖。聲學采集利用全向麥克風,共86K條,每個4秒鐘,48kHz采樣,RIR數據。

? ? ? ? RWAVS:來自于AV-NeRF論文,首個真實世界視聽同步數據集,包括辦公室,公寓,房屋,戶外(戶外那個視頻帶一段空房間),并且故意保留了一些設備噪聲,環境噪聲,腳步聲這種,覆蓋日常全場景聲學特性。數據量232分鐘,樣本數12319個(8:2訓練和驗證分開)。數據模態構成為相機位姿+視頻幀+雙耳音頻+單聲道源音頻。

4、實驗

性能指標

? ? ? ? 對于重建仍然用LPIPS,PSNR,SSIM

? ? ? ? 聲學指標上用有T60,C50,EDT,都是計算預測值與真實值之間的誤差百分比。STFT error計算頻域相似度。你可以理解為前三個是重建環境對音質的影響,最后一個是能重建音色,音調一致。

? ? ? ? T60:混響時間,在一個封閉空間內,當聲源突然停止發聲后,??聲能衰減60分貝(dB)所需的時間。??T60越長,空間回聲感越強,聽起來越“空曠”;T60越短,聲音消失得越快,聽起來越“干”或“死寂”??。T60的物理屬性,受空間大小和界面材質影響,空間越大聲音傳播路徑越長,衰減到同樣水平所需時間也就更長。界面材質來說,硬質光滑表面??(如混凝土墻、玻璃窗):吸聲能力差,大部分聲能被反射,導致??T60較長??。???軟質多孔表面??(如地毯、窗簾、沙發、吸音棉):吸聲能力強,將聲能轉化為熱能,導致??T60較短??。

? ? ? ? C50:語音清晰度指數,計算聲波到達后 ??前50毫秒?? 的聲能與?50毫秒后?? 的殘余聲能的對數比。正值??表示語音清晰(早期能量>混響能量),??負值??表示渾濁(如會議室回音干擾)。家具房間的C50值普遍高于空房間(圖7對比),證明物體對混響的抑制作用。

? ? ? ? EDT:聲源停止后,??前10毫秒內?? 聲能衰減曲線的斜率(通常外推至衰減60dB所需時間)。EDT短(如0.5秒)→ 空間感“緊致”;EDT長(如2秒)→ 空間感“開闊”(如教堂)

? ? ? ? STFT Error:短時傅里葉變換誤差是評估 ??生成脈沖響應(RIR)與真實RIR在頻域相似度?? 的核心指標,為什么用STFT error,是因為STFT的頻帶劃分(Bark/Mel尺度)匹配人耳非線性感知,單純計算RIR的相位信息對聽覺影響較小,頻譜幅度誤差更關鍵。一般沒有障礙的地方STFT error較低,邊緣,遮擋的地方誤差容易升高。

實驗分析

? ? ? ? 對比過去的聲光場方法中聲音的指標。

? ? ? ? 對比NeRF基礎模型的重建指標。

? ? ? ? 難道audio中也有vision信息?這兩者可以互補

二、ImVid

1、概述

? ? ? ? 動機:一方面受現有數據集稀少影響,當前數據集視角受限,固定相機陣列只能支持靜態拍攝,無法覆蓋360度背景,當前數據集缺乏同步的音頻,比如Diva-360,Replay數據集。當前數據集缺乏動態場景支持,多是單目,低分辨率,時長短的。另一方面工業上Vision Pro的推動,也需要更加全視角覆蓋的,兼顧視聽多模態的數據集。

? ? ? ? ImVid中主要貢獻:

(1)首次設計了移動式多模態采集系統

(2)高質量的動態場景視聽數據集ImViD

(3)動態光場重建STG++,無需訓練的聲場重建(不用神經網絡)

2、Imvid數據集

移動式多模態采集系統

? ? ? ? 采集系統:46臺GoPro相機安裝在可移動小車的半球形支架上,高度模擬人眼視角(1.7m)同時相機和麥克風集成,同步采集5K@60FPS視頻+48kHz音頻。遙控小車可在場景中緩慢移動(速度受限于地形安全),覆蓋??最小6m3空間??(2分鐘內采集1000+圖像)。GoPro相機可以實現誤差2ms內的同步,并且有降噪功能。

數據集

? ? ? ? 價值意義:

????????對比傳統方案,缺乏動態場景和移動視角,另外手持設備局限。該數據集是首個支持移動中的多模態采集的數據集。

? ? ? ? 數據采集

????????靜態場景高密度采集。小車固定位置,多相機同步拍攝??高分辨率靜態照片??(5568×4176),覆蓋??360°背景??(如實驗室設備、窗外景物),為動態重建提供環境先驗。

? ? ? ? 動態場景雙模式采集。固定點拍攝模式,不移動小車,捕捉細微動態細節。移動拍攝模式,緩慢移動(每秒0.1立方米),擴展交互空間。

? ? ? ? 數據處理

? ? ? ? 靜態問題上基于GoPro內參利用COLMAP進行稀疏重建,另外基于硬件同步聲音時間碼對齊。

? ? ? ? 動態數據上,對視頻切段,分別進行COLMAP重建,并用PnP拼接,但是沒有給出具體做法,近期的方法其實也可以預測了。

? ? ? ? 數據集:包含7種場景,39個攝像機,共38分46秒,包含人體動作,物體交互,反射表面,光影變化等問題。

3、STG++方法

? ? ? ? 首先這個方法對比的是4DGS的方法,不做聲光場重建,光場重建依賴從4DGS學來的,聲場重建只依賴聲源位姿和麥克風位姿,不考慮場景材質信息。

? ? ? ? STG++在STG模型基礎上,優化了多相機??顏色不一致??導致視圖切換時閃爍和分段訓練時??跨段連續性差?的問題,引入了顏色校正模塊和時變密度控制兩個策略。

? ? ? ? 聲學重建上,數據機遇39個攝像頭攜帶的多麥克風音頻,生成6-DoF的空間音頻,對預測位置的聲音則完全通過幾何計算,加聲學優化區分雙耳來實現。首先規定:

? ? ? ? 聲源方向計算相對方位角,表示聲源相對于聽者正前方的偏角(逆時針為正):

? ? ? ? 聲源距離映射:計算能量衰減系數,進而計算聲音能量下降(模擬聲音隨著距離的平方反比衰減)

? ? ? ? 雙耳音頻合成:根據SADIE II數據集中的傳遞函數,利用STFT計算左右耳的頻域譜

???????

參考論文:

[2405.18213] NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields

[2503.14359] ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94536.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94536.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94536.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

重復文件刪除查找工具 Duplicate Files Search Link v10.7.0

軟件介紹 Duplicate Same Files Searcher 是一款面向 Windows 平臺的專業重復文件檢索與清理工具,兼具符號鏈接替換與 NTFS 高級特性支持,可在無損數據的前提下大幅縮減磁盤冗余。 軟件使用 軟件打開后是英文版,手動切換中文(按…

簡易shell

目錄 一、整體功能概述 函數準備 1.env命令 2.getenv()函數 3.snprintf 4.strtok()函數 三、全局變量 四、核心功能函數解析 1. 信息獲取函數 2. 命令行交互 3. 命令解析 4. 普通命令執行 5. 內置命令處理(核心功能) 五、主函數流程 六、總…

網關資源權限預加載:從冷啟動阻塞到優雅上線的完整閉環

網關資源權限預加載:從冷啟動阻塞到優雅上線的完整閉環 基于 Spring Cloud Gateway + Spring Cloud Alibaba Nacos ——一篇可落地的技術方案與源碼級實現 1. 場景與痛點 在微服務網關層做 統一資源權限校驗 時,必須滿足: 啟動阻塞:所有權限規則加載完成前,不監聽端口,拒…

open webui源碼分析8—管道

我們可以把Open WebUI想象成一個管道系統,數據通過管道和閥門流動。管道作為open webui的插件,可以為數據構建新的通路,可以自定義邏輯和處理數據;閥門是管道的可配置部件,控制數據流過管道時的行為。管道可以理解成用…

深入理解 C 語言 hsearch 哈希表:限制、技巧與替代方案

概述 C 語言標準庫中的 hsearch 系列函數提供了一套簡單易用的哈希表實現,包含在 <search.h> 頭文件中。這組函數雖然接口簡潔,但在實際使用中存在一些重要的限制和注意事項。本文將深入探討 hsearch 的功能特點、設計局限,并提供實用的解決方案和替代建議。 hsearc…

Web網絡開發 -- HTML和CSS基礎

HTML 超文本編輯語言 HTML 介紹 HTML的英文全稱是 Hyper Text Markup Language&#xff0c;即超文本標記語言。HTML是由WEB的發明者 Tim Berners-Lee &#xff08;蒂姆伯納斯李&#xff09;和同事 Daniel W. Connolly于1990年創立的一種標記語言&#xff0c; 它是標準通用化標…

Python爬蟲實戰:研究開源的高性能代理池,構建電商數據采集和分析系統

1. 緒論 1.1 研究背景與意義 隨著互聯網技術的飛速發展,網絡數據已成為信息時代的核心資源之一。從商業角度看,企業通過分析競爭對手的產品信息、用戶評價等數據,可制定更精準的市場營銷策略;從學術研究角度,研究者通過爬取社交媒體數據、學術文獻等,可開展社會網絡分析…

項目設計文檔——爬蟲項目(爬取天氣預報)

一、項目背景以及項目意義 項目背景&#xff1a; 爬蟲技術的核心目的是自動化地從互聯網上采集&#xff0c;提取和存儲數據。網絡爬蟲是一種自動化程序&#xff0c;用于從互聯網上抓取數據并進行處理。C語言因其高效性和接近硬件的特性&#xff0c;常被用于開發高性能的網絡爬…

Python 操作 PPT 文件:從新手到高手的實戰指南

在日常工作和學習中&#xff0c;PPT 是我們展示信息和進行演示的重要工具。無論是制作報告、演講還是教學課件&#xff0c;PPT 都扮演著不可或缺的角色。然而&#xff0c;當面對大量重復性的 PPT 編輯任務時&#xff0c;手動操作不僅耗時耗力&#xff0c;還容易出錯。幸運的是&…

系統設計中的冪等性

1. 基本概念 冪等性&#xff08;Idempotence&#xff09;是系統設計中經常提到的概念。如果某個操作執行一次或多次都能產生相同的結果&#xff0c;那么它就是冪等的。2. 代碼示例 下面這段代碼是冪等的。無論你調用多少次&#xff0c;show_my_button 的最終狀態都是False。 de…

Pandas vs Polars Excel 數據加載對比報告

?? Pandas vs Polars Excel 數據加載對比報告 1. 數據基本情況 數據文件:data.xlsx 數據規模:23,670 行 3 列 字段: case_time:日期/時間 case_name:公司名稱(字符串) board:所屬板塊(字符串) 2. 加載方式與代碼 Pandas import pandas as pdfrom tools import…

Kafka 為什么具有高吞吐量的特性?

Kafka 高吞吐量原因&#xff1a;面試題總結 在面試中&#xff0c;Kafka 的高吞吐量設計是高頻考點&#xff0c;核心需圍繞“架構設計”“存儲優化”“網絡效率”“資源利用”四個維度展開&#xff0c;以下是結構化總結&#xff1a; 一、核心架構&#xff1a;并行化與分層設計分…

MCP 協議原理與系統架構詳解—從 Server 配置到 Client 應用

1. MCP MCP&#xff08;Model Context Protocol&#xff0c;模型上下文協議&#xff09;是開發 Claude 模型的(Anthropic)公司推出的一個開放標準協議&#xff0c;就像是一個 “通用插頭” 或者 “USB 接口”&#xff0c;制定了統一的規范&#xff0c;不管是連接數據庫、第三方…

uniapp安卓真機調試問題解決總結

uniapp安卓真機調試遇到各種連接不上問題&#xff1a; 手機上打開調試數據線不行&#xff0c;換數據線電腦重啟手機重啟拔出數據線&#xff0c;換個USB插口。

Linux Qt創建和調用so庫的詳細教程

一、創建so庫1.文件-->新建文件或項目-->Library->C Library&#xff0c;如下圖2.工程命名為Example3.一直下一步就可以4、工程創建完成&#xff0c;如下圖5、刪除Example_global.h6、配置.pro文件# 設置輸出目錄 DESTDIR $$PWD/output #只生成.so文件 CONFIG plugi…

【深度學習】蒙特卡羅方法:原理、應用與未來趨勢

作者選擇了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰寫的《Deep Learning》(人工智能領域的經典教程&#xff0c;深度學習領域研究生必讀教材),開始深度學習領域學習&#xff0c;深入全面的理解深度學習的理論知識。 之前的文章參考下面的鏈接&#xf…

區塊鏈技術原理(18)-以太坊共識機制

文章目錄前言什么是共識&#xff1f;什么是共識機制&#xff1f;共識機制的核心目標共識機制的類型PoW&#xff08;工作量證明&#xff09;協議&#xff1a;&#xff08;2015-2022&#xff09;PoS&#xff08;權益證明&#xff09;協議&#xff1a;&#xff08;PoS&#xff0c;…

java基礎(十五)計算機網絡

網絡模型概述 為了使得多種設備能通過網絡相互通信&#xff0c;并解決各種不同設備在網絡互聯中的兼容性問題&#xff0c;國際標準化組織&#xff08;ISO&#xff09;制定了開放式系統互聯通信參考模型&#xff08;OSI模型&#xff09;。與此同時&#xff0c;TCP/IP模型作為實際…

idea將服務封裝為一個jar包

你使用的是 IntelliJ IDEA 2018&#xff0c;這個版本雖然不是最新的&#xff0c;但完全支持通過 圖形化界面 打 JAR 包&#xff08;無需命令行&#xff09;&#xff0c;非常適合你在公司內部將 Snowflake 模塊打包成通用組件。下面我將 手把手、一步一步、圖文流程式地教你&…

ZYNQ [Petalinux的運行]

一、下載ubuntu 下載地址很多&#xff0c;這里提供了一個&#xff1a;http://mirrors.aliyun.com/ubuntu-releases/14.04/ 推薦開始瀏覽器下載之后復制下載鏈接使用迅雷下載。 二、虛擬機安裝Ubuntu vmware中安裝Ubutun–這部分不展示 安裝ssh sudo apt install openssh-s…