視頻全模態referring分割:Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

一、TL;DR

  1. 為什么要做:傳統的referring分割無法使用音頻模態,本文提出Reference audio-visual Segmentation
  2. 本文怎么做:構建首個 Ref-AVS 基準數據集+通過充分利用多模態提示,將音頻信息通過和文本融合作為載體,在時序上提供精準的分割
  3. 什么結果:在三個測試子集上進行定量與定性實驗,證明結果有效

paper:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09443.pdf

code:https://github.com/GeWu-Lab/Ref-AVS

二、方法介紹

當前對指代分割(reference segmentation)的探索仍局限于較窄的場景。如圖 1 的坐標系所示,當前針對不同模態的分割方法主要有三大研究方向:

  1. 基于視覺提示的方向視頻對象分割(Video Object Segmentation, VOS)以 “帶標注的第一幀掩碼” 為參考,引導后續視頻幀中特定對象的分割。嚴重依賴 “第一幀的精準標注”導致在實際應用中既困難又耗時。

  2. 基于文本提示的方向指代視頻對象分割(Referring Video Object Segmentation, R-VOS)以 “屬性描述語句” 為引導,探索分割能力。R-VOS 成功用自然語言替代了 VOS 中的掩碼標注,提供了更易獲取、更用戶友好的參考形式,在 “更自然的動態音視頻場景” 中定位對象的能力仍有限。

  3. 基于音頻提示的方向音視頻分割(Audio-Visual Segmentation, AVS)以音頻為引導,分割 “發出聲音的對象”。該方法有效解決了 “動態音視頻場景中對象定位” 的難題,但存在局限:無法聚焦于 “不發聲的普通對象”,也難以有效定位 “特定感興趣的對象”

motivation:

  1. 現有研究尚無法讓機器在 “自然動態音視頻場景” 中定位感興趣對象。
  2. 例如,如圖 1 所示,機器如何長期精準定位 “真正在演奏樂器的人”?這需要機器推斷 “哪件樂器在發聲” 以及 “誰在演奏這件樂器”。
  3. 提出一項 “探索自然動態音視頻場景中感興趣對象定位可能性” 的任務具備實際應用價值

怎么做:

提出像素級分割任務-指代音視頻分割(Ref-AVS)

  1. 要求網絡密集預測 “每個像素是否對應給定的多模態提示描述語句”(該語句包含動態音視頻信息)。
  2. 圖 1 左上角清晰展示了 Ref-AVS 與現有任務的區別:它要求網絡在 “更復雜、更立體的模態空間” 中精準定位并分割對象。
  3. 因此需要一個具備 “全面多模態理解能力” 的計算模型。

數據集:

本文引入Ref-AVS 基準測試集(Ref-AVS Bench):

  1. ?首個 “基于指代多模態提示描述語句定位并分割感興趣對象” 的基準。
  2. 考慮到現實音視頻場景的復雜性,從 YouTube 收集了約 4000 個含音頻的視頻片段(其中 60% 以上為 “多源聲音場景”),并由專家收集、驗證了超過 20000 條指代描述語句 —— 這些語句通過多模態提示,描述不同動態音視頻場景中的對象。
  3. 為評估模型在 “零樣本場景需求增長” 下的泛化能力,本文設計了一個 “未見過的測試集(unseen test set)”。

貢獻總結如下:

  1. 提出 Ref-AVS 這一具有挑戰性的場景理解任務 —— 基于多模態提示描述語句分割感興趣對象,并提供相應的 Ref-AVS 基準測試集,用于模型的訓練與性能驗證;
  2. 為 Ref-AVS 設計端到端框架 —— 通過跨模態 Transformer 高效處理多模態提示,為未來研究提供可行的基礎框架;
  3. 開展大量實驗,驗證 “在視覺分割中考慮多模態提示” 的優勢,同時證明本文方法在所有測試子集上的性能優越性。

三、核心框架-Ref-AVS 數據集

3.1 對象類別

為確保被指代對象的多樣性,精心篩選了涵蓋48 類可發聲對象3 類靜態無聲音對象的豐富類別體系。其中,可發聲對象具體分類如下:

  • 樂器類:20 個類別;
  • 動物類:8 個類別;
  • 機械類:15 個類別;
  • 人類類:5 個類別。

針對人類這一特殊類別,考慮到其外貌、聲音與動作的多樣性,我們采用 “形態學分類思路”,基于年齡與性別將人類劃分為 5 個細分類別。

3.2 視頻篩選

在視頻收集過程中,采用文獻 [3, 46] 提出的技術(回頭仔細看下),確保音視頻片段與目標語義的一致性。每段視頻均被剪輯為 10 秒時長。在人工收集階段,刻意排除以下幾類視頻(詳見附錄):

  1. 含大量相同語義實例的視頻;
  2. 經大量剪輯、頻繁切換鏡頭的視頻;
  3. 含合成特效的非真實場景視頻。

為更貼近現實場景分布,重點篩選 “能豐富數據集場景多樣性” 的視頻:

  • ?尤其優先選擇 “包含多對象交互” 的視頻(如樂器、人類、交通工具等對象間的互動場景)

除多樣性外,我們還通過篩選確保數據集包含 “更高復雜度、更多對象數量” 的場景:

  • 具體而言,56% 的視頻包含 2 個及以上對象,13% 的視頻包含 3 個及以上對象。

3.3 描述語句

描述語句的多樣性是 Ref-AVS 數據集構建的核心要素之一。每條描述語句融合音頻、視覺、時間三個維度的信息

  • 音頻維度:包含音量、節奏等特征;
  • 視覺維度:涵蓋對象的外觀、空間布局等屬性;
  • 時間維度:融入時序提示(如 “先發聲的那個”“后出現的那個”)。

通過整合音、視、時三維信息,我們構建了豐富的描述語句庫 —— 既準確反映多模態場景,又能滿足用戶 “精準指代” 的特定需求。圖 2 展示了不同模態組合的描述語句示例。

描述語句的準確性同樣是核心關注點。我們遵循三條規則生成高質量描述語句:

  1. 唯一性:一條描述語句僅能指代一個對象,不可同時對應多個對象;
  2. 必要性:可使用復雜語句進行指代,但句中每個形容詞需能 “縮小目標對象范圍”,避免冗余、不必要的對象描述;
  3. 清晰性:部分描述模板涉及主觀因素(如 “聲音更大的那個”),僅當場景足夠明確、無歧義時,才可使用此類語句。

除多樣性與準確性外,我們還根據 “描述語句包含的提示數量” 對其難度進行分級:簡單(easy)、中等(medium)、困難(hard)樣本在數據集中的占比分別為 20%、60%、20%。這種難度分級可為 “課程學習(curriculum learning)” 等未來研究提供支持,詳見補充材料。

3.4 分割掩碼

我們將每段 10 秒視頻均分為 10 個 1 秒片段,標注目標是獲取每個片段 “首幀的掩碼”。對于這些采樣幀,真值標簽為 “基于描述語句與多模態信息生成的二值掩碼”,用于標識目標對象。

掩碼生成流程如下:

  1. 關鍵幀手動篩選:為每段 10 秒視頻手動選擇 “目標對象清晰可見” 的關鍵幀(關鍵幀可位于視頻開頭、中間或結尾,取決于目標對象的最佳可見時刻);
  2. 自動分割與人工校驗:利用 Grounding SAM 對關鍵幀進行分割與標注,隨后通過人工檢查與修正,生成關鍵幀中多個目標對象的掩碼與標簽;
  3. 跨幀跟蹤補全:基于關鍵幀掩碼,采用跟蹤算法對前后幀中的目標對象進行跟蹤,最終得到 10 幀序列中目標對象的完整掩碼與標簽。

3.5 數據集統計

表 1 將 Ref-AVS 與其他主流音視頻基準數據集進行對比,關鍵差異如下:

  • 標注精度與數量:Flickr-SoundNet 與 VGG-SS僅提供 “(patch-level)邊界框標注”,幀級標注量約 5000 個;而 Ref-AVS 提供像素級標注,標注數量顯著更高;
  • 場景復雜度:與 AVS 數據集相比,Ref-AVS視頻的 “平均對象數量” 更高(約 1.72 個 / 視頻),意味著包含更多 “多聲源、多語義” 的復雜場景 —— 此類場景中,Ref-AVS 基準的價值尤為突出,因其能有效聚焦 “真正感興趣的對象”;此外,Ref-AVS 的視頻時長更統一,篩選流程更精細;
  • 數據規模相較于 R-VOS 任務的現有數據集 [8, 11, 13, 20, 35],Ref-AVS 在視頻數量上保持優勢,且包含更海量的 “對象、描述語句與復雜場景” 數據。

總體而言,Ref-AVS 數據集包含4000 段視頻、20000 條描述語句與像素級標注,總時長超 11 小時

3.6 數據集劃分

如表 2 所示,完整數據集分為三部分:訓練集(2908 段視頻)、驗證集(276 段視頻)、測試集(818 段視頻)。其中,測試集的視頻及其對應標注均經過資深標注人員的 “細致審核與重新標注”。

為全面評估模型在 Ref-AVS 任務上的性能,測試集進一步劃分為三個功能不同的子集:

已見子集(Seen)

“已見子集” 包含的對象類別均在訓練集中出現過,用于評估模型的 “基礎性能” 與 “對熟悉類別對象的泛化能力”。

未見子集(Unseen)

說人話:做開集分割的

為應對 “開放世界場景下模型泛化能力” 的需求增長,專門構建 “未見子集” 以評估模型對 “未見過的音視頻場景” 的適應能力。該子集的對象類別未在訓練集中出現,但它們的 “超類別(如動物、交通工具)” 可能在訓練集中存在 —— 旨在測試模型 “利用超類別知識,對新對象類別進行泛化” 的能力。

空指代子集(Null)

“空指代問題” 指 “描述語句所指代的對象在當前場景中不存在或不可見”。若模型能準確理解描述語句的引導,在空指代場景中不應分割任何對象 。基于此,我們設計 “空指代子集” 以測試模型的魯棒性:該子集的對象類別雖在訓練集中出現,但描述語句與場景完全不匹配 —— 視頻幀中的所有對象均與指代內容無關,因此真值掩碼為空,模型需避免分割任何對象

4 基于多模態提示的描述語句增強

Expression Enhancing with Multimodal Cues:

4.1 整體架構

Ref-AVS的目標:

  1. “利用多模態提示,在動態音視頻場景中定位感興趣對象”。

方法:

  1. 提出基于多模態提示的描述語句增強(EEMC)方法
  2. 核心思路是將 “動態音視頻場景中的多模態信息” 融入 “含對應多模態提示的指代描述語句”,形成全面的多模態指代特征;
  3. 同時,通過注意力機制將 “多模態指代提示” 作為 “視覺基礎模型的提示信號”,輔助完成最終的分割過程。

4.2 多模態表征

4.2.1 音頻表示(Audio)

  1. 與視頻處理方式類似,將音頻輸入按 1 秒間隔切分為片段。
  2. 音頻表征F_A通過 VGGish 模型 編碼得到(t為音頻時長,單位為秒,且與視頻幀數一致)。
  3. 音頻表征通過離線方式提取,音頻編碼器不進行微調。

4.2.2?視覺表示(Visual)

  1. 從視頻輸入中按 1 秒間隔采樣t幀,利用預訓練的 Swin-base 模型提取視覺F_V
  2. 視覺編碼器不進行微調。

4.2.3 描述語句表示(Expression)

  1. 采用 RoBERTa 模型作為文本編碼器,提取描述語句特征F_T
  2. caption表征直接采用預訓練模型的離線提取結果,不進行微調。

4.3 時序雙模態 Transformer

4.3.1 時序A-T與V-T融合

該模塊用于提取 “與caption語句相關的各模態信息”。首先,為便于后續多模態融合,我們對各模態特征進行預處理:

4.3.2 緩存記憶-Cached Memory

說人話:緩存歷史時序上的特征均值作為時序信息

4.3.3 模態編碼-Modality Encoding

說人話:將不同模態引入標識token進行區分,然后自注意力得到新的token

4.4 基于多模態提示的引導(Prompting with Multimodal Cues)

說人話:從圖上來看,使用全模態Qm+input-mask的query得到qQ新特征,再結合當前幀的視覺特征,就得到了新的mask輸出

五、Experiments

5.1 實現細節

本文采用 Mask2Former作為視覺基礎模型,提供常用的 “基于 Transformer 的分割解碼器”。默認設置如下:

  • 輸入視頻幀均縮放至 384×384 分辨率;
  • 視覺特征維度為 [H=64, W=64, d_V=256],為降低計算成本,采用 8 倍下采樣;
  • 音頻特征從單聲道波形中提取,維度 d_A=128;
  • 文本特征維度為 [L=25, d_T=768](L 為描述語句長度);
  • 為統一處理,將所有模態的特征維度均映射至 d_V;
  • 超參數 β 默認設為 1;
  • “時序雙模態 Transformer”“多模態整合 Transformer” 與 “交叉注意力 Transformer(CATF)” 的 Transformer 層數(N_L)默認均設為 4;
  • 掩碼查詢數量(N_q)固定為 100。

5.2 評價指標

為全面評估 Ref-AVS 方法的性能,采用以下指標:

  • 交并比(Jaccard Index, J)F 分數(F-score, F):作為核心性能指標,用于衡量分割結果與真值的匹配度;
  • 空指代指標(S):僅用于 “空指代測試集”,評估模型對描述語句引導的遵循能力。S 的計算方式為 “預測掩碼面積與背景面積比值的平方根”——S 值越高,表明預測掩碼占背景的比例越大,意味著模型對描述語句的精準引導能力越弱。

5.3 定量結果

在 Ref-AVS 基準上,我們將本文方法與相關領域的現有方法進行對比,關鍵結果如下:

  • 已見測試集(Seen):本文方法表現顯著優于其他方法。簡單的模態融合不足以解決 Ref-AVS 任務中 “多模態提示理解” 的難題;而本文方法未直接融合音視頻信息,而是選擇 “文本表示” 作為多模態信息的載體 —— 因其包含與 “當前音視頻環境” 相關的豐富語義與提示,故能更有效利用多模態信息。

  • 未見測試集(Unseen)與空指代測試集(Null):為驗證模型的泛化能力與 “多模態提示遵循能力”,我們在這兩個子集上進行測試:

    • Unseen測試集:本文方法仍保持領先 —— 原因在于我們以 “具有高度抽象語義能力的文本” 作為多模態信息載體,而非直接融合音視頻信息,因此生成的多模態提示能提供更穩健的語義引導;
    • Null測試集:本文方法在所有方法中表現最優,表明模型能較精準地感知多模態提示,避免在 “無目標對象” 場景中錯誤分割。

5.4 定性結果

我們在 Ref-AVS 基準的測試集上可視化分割掩碼,并與 AVSegFormer(AVS 任務方法)、ReferFormer(R-VOS 任務方法)進行對比(如圖 4 所示)。從定性結果可觀察到:

  • AVSegFormer 與 ReferFormer 均無法精準分割 “描述語句所指向的對象”:
    • AVSegFormer:難以完全理解描述語句,傾向于直接分割 “聲源對象”。例如左下角樣本中,該方法錯誤分割吸塵器,而非描述語句指向的 “男孩”;
    • ReferFormer:無法充分理解音視頻場景,易出現語義誤判。例如右上角樣本中,該方法誤將 “學步兒童” 識別為 “鋼琴演奏者”;
  • 本文 Ref-AVS 方法:具備 “同時處理多模態描述語句與場景” 的優勢,能準確解讀用戶指令,分割出目標對象。

5.5 消融實驗

為驗證 “音頻、文本雙模態信息” 對 Ref-AVS 任務的影響,以及本文方法各模塊的有效性,我們開展消融實驗,結果如表 4 所示:

5.5.1 雙模態信息的影響

  • 移除文本信息(設置②):J 值下降 11.44%,F 值下降 2.60%,性能降幅顯著;
  • 移除音頻信息(設置③):J 值下降 6.41%,F 值下降 0.70%,降幅遠小于移除文本的情況。

這一現象的核心原因是:文本信息作為 “指代源” 具有清晰性與直接性;而僅依賴音頻信息時,模型易忽略 “指代內容”,轉而聚焦于 “視覺上與發聲行為相關的對象”,導致分割偏差。

5.1.2 各模塊的有效性

  • 緩存記憶(Cached Memory):用于捕捉時序域內的顯著變化;
  • 模態編碼(Modality Encoding):用于從多模態提示中提取 “更獨特、更全面的特征”,增強模態感知能力。

表 4 中 “設置④(移除緩存記憶)” 與 “設置⑤(移除模態編碼)” 的結果表明,這兩個模塊的移除會導致性能下降,驗證了它們對模型性能的提升作用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/923593.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/923593.shtml
英文地址,請注明出處:http://en.pswp.cn/news/923593.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

A股大盤數據-20250916分析

📊 一、大盤數據深度分析1.1 🧮 市場活躍度與資金流向總成交額:滬深京合計約 2.37萬億元,市場交投活躍,深市成交(13516.4億)明顯高于滬市(9897.9億),顯示中小…

[計算機畢業設計]基于深度學習的噪聲過濾音頻優化系統研究

前言 📅大四是整個大學期間最忙碌的時光,一邊要忙著備考或實習為畢業后面臨的就業升學做準備,一邊要為畢業設計耗費大量精力。近幾年各個學校要求的畢設項目越來越難,有不少課題是研究生級別難度的,對本科同學來說是充滿挑戰。為幫助大家順利通過和節省時間與精力投…

貪心算法應用:NFV功能部署問題詳解

Java中的貪心算法應用:NFV功能部署問題詳解 1. NFV功能部署問題概述 網絡功能虛擬化(NFV, Network Function Virtualization)是一種將傳統網絡設備功能從專用硬件轉移到虛擬化軟件的技術。在NFV功能部署問題中,我們需要將各種虛擬網絡功能(VNFs)部署到有…

SeriLog測試

安裝Serilog.Sinks.Seq(5.2.3.0),Serilog.Sinks.File(7.0.0) 下載Seq安裝包并安裝(https://datalust.co/download) 代碼如下: private Logger _logger;private void button1_Click(object sender, EventArgs e){_logger new Lo…

HarmonyOS 5.0應用開發——V2裝飾器@param的使用

【高心星出品】 文章目錄V2裝飾器param的使用概念使用方法案例V2裝飾器param的使用 概念 在鴻蒙ArkTS開發中,Param裝飾器是組件間狀態管理的重要工具,主要用于父子組件間的單向數據傳遞,這一點與V1中的prop類似。 Param裝飾的變量支持本地…

SLAM | 無人機視覺/激光雷達集群SLAM技術進展綜述

主要內容如下: 無人機集群SLAM技術概述:介紹無人機集群SLAM的基本概念、重要性及面臨的挑戰,使用表格對比不同傳感器配置的特點。 多傳感器融合與協同SLAM架構:分析集中式、分布式和混合式協同架構的特點,使用表格對比不同架構的優缺點。 視覺協同SLAM的技術進展:總結直接…

信息化系統運維文檔資料,運維服務方案,運維巡檢方案

1、系統服務內容?1.1 服務目標?1.2 信息資產統計服務?1.3 網絡與安全系統運維服務?1.4 主機與存儲系統運維服務?1.5 數據庫系統運維服務?1.6 中間件運維服務?2、服務管理制度規范?2.1 服務時間管理?2.2 運維人員行為規范?2.3 現場服務支持規范?2.4 問題記錄與歸檔規…

JavaScript——document對象

DOM 是 document object model(文檔對象模型)的縮寫。它是一種與平臺、語言無關的接口,允許程序動態地訪問或更新 HTML、XML 文檔的內容、結構和樣式,且提供了一系列的函數和對象來實現增、刪、改、查操作。DOM 對象的一個特點是&…

UART,IIC,SPI總線(通信協議)

嵌 入 式 軟 件 筆 試 題要求:閉卷考試(不能翻書、不能開電腦);作答時間50分鐘;共10道題目。volatile的作用有哪些volatile: 防止編譯器對代碼進行優化,直接從內存中取最新的值 應用場景&#x…

通信模組性能調優

通信模組性能調優 1 背景 2 高通平臺軟硬加速 2.1 NSS 2.2 SFE 2.3 PPE 3 CPU 負載均衡設置 3.1 啟用內核 RPS&RFS 功能 3.2 網卡隊列修改建議 3.3 調整負載前后的 CPU 使用對比 3.4 網卡中斷均衡 3.4.1 netdev_max_backlog 3.4.2 中斷綁核 3.5 CPU性能模式 3.6 熱管理 3.7…

消息隊列kafka的事務特性

kafka的java客戶端producer也支持事務消息嗎?具體是啥事務呢? 是的,Kafka的Java客戶端Producer確實支持事務消息。讓我詳細解釋Kafka事務的概念和使用方法。 Kafka事務的主要特點: Producer Transactions:確保多個消息…

用Python實現自動化的Web測試(Selenium)

Python作為數據科學和自動化領域的主流語言,在網絡爬蟲開發中占據著重要地位。本文將全面介紹Python爬蟲的技術棧、實現方法和最佳實踐。爬蟲技術概述網絡爬蟲(Web Crawler)是一種按照特定規則自動抓取互聯網信息的程序。它可以自動化地瀏覽網…

「Memene 摸魚日報 2025.9.17」上海張江人工智能創新小鎮正式啟動,華為 DCP 技術獲網絡頂會獎項

theme: condensed-night-purple 以下內容包括「人工智能生成內容」 上海張江人工智能創新小鎮正式啟動,華為 DCP 技術獲網絡頂會獎項 👏在昨天(2025.9.16),AI領域有這些內容可能值得你關注: 上海張江人工智…

Vehiclehal的VehicleService.cpp

VehicleService.cpp 是 Android Automotive OS 中負責車輛相關功能的核心服務組件,主要處理車身信息獲取及狀態設置接口,通過 HIDL(Hardware Interface Definition Language)接口與系統框架層交互。 ?12核心功能VehicleService.c…

《LINUX系統編程》筆記p11

公共資源也稱為共享資源,是指可以被多個并發進程或線程共同訪問(讀取或寫入)的系統資源。臨界資源是公共資源的一個子集。特指那些一次僅允許一個進程或線程訪問的公共資源。如果一個進程正在使用它,其他試圖訪問該資源的進程必須…

spring-kafka消費異常處理

默認的消費異常處理 默認情況下,如果程序沒有顯式做任何的異常處理,spring-kafka會提供一個默認的DefaultErrorHandler, 它會使用FixedBackOff做重試,會不間斷的連續重試最多9次,也就是說一個消息最多會被消費10次。如果重試次數耗…

leecode73 矩陣置零

我的思路 這個題目不難,就是一句話,遍歷這個矩陣的時候,當遇到0的時候就把該行該列改為0,同時為了不影響后續的遍歷,我們可以將這個遍歷和修改分為兩個數組。使用mn的輔助空間 class Solution {public void setZeroe…

Spring Boot 與前端文件上傳跨域問題:Multipart、CORS 與網關配置

前言在前后端分離架構下,文件上傳是一個常見功能。但在 Spring Boot 項目中,我們經常會遇到前端調用接口上傳文件時出現 跨域問題,表現為:瀏覽器控制臺報錯:Access-Control-Allow-Origin 缺失或不匹配。使用 FormData …

快速解決云服務器的數據庫PhpMyAdmin登錄問題

打開PhpMyAdmin數據庫管理器登錄頁面賬號密碼就是你的用戶名(如YiXun)和密碼注意:root賬戶的密碼,點擊下面的“root密碼”即能看到或修改PhpMyAdmin無法打開如果打不開:在數據庫,點擊PHPMyAdmin&#xff0c…

vite+vue3中使用FFmpeg@0.12.15實現視頻編輯功能,不依賴SharedArrayBuffer!!!

FFmpeg0.12.15完全不依賴SharedArrayBuffer!!!強烈推薦使用 本文章主要是在vitevue3項目中使用FFmpeg,只展示了如何在項目中引入和基礎的使用 更多詳細參數可參照 ffmpeg官網https://ffmpeg.org/ 一、安裝FFmpeg 可通過npm直接安裝 npm install ffmpeg/core0.12.10…