HyperAD：學習弱監督音視頻暴力檢測在雙曲空間中的方法

文章目錄

速覽
摘要
1. 引言
2. 相關工作
- 弱監督暴力檢測
- 雙曲空間中的神經網絡
3. 預備知識
- 雙曲幾何
- 切空間（Tangent Space）
- 指數映射與對數映射（Exponential and Logarithmic Maps）
- 3.1 雙曲圖卷積網絡（Hyperbolic Graph Convolutional Networks）
4. 方法（Method）
- 4.1 公式化表達與問題定義（Formulation and Problem Statement）
- 4.2 多模態融合（Multimodal Fusion）
- - 拼接融合（Concat Fusion）
  - 加性融合（Additive Fusion）
  - 門控融合（Gated Fusion）
  - 雙線性 & 拼接（Bilinear & Concat）
  - 我們的繞行融合（Our Detour Fusion）
- 4.3 HFSG 分支（HFSG Branch）
- 4.4 HTRG 分支（HTRG Branch）
- 4.5 雙曲分類器（Hyperbolic Classifier）
- 4.6 目標函數（Objective Function）
5. 實驗（Experiments）
- 5.1 實現細節（Implementation Details）
- 5.2 數據集（Dataset）
- 5.3 定量結果（Quantitative Results）
- 5.4 定性結果（Qualitative Results）
- 5.5 消融實驗（Ablation Studies）
6. 額外結果與分析（Additional Results and Analysis）
- 6.1 復雜度分析（Complexity Analysis）
- 6.2 訓練穩定性（Training Stability）
- 6.3 不同超參數下的消融結果（Ablative Results with Different Hyper-parameters）
- 6.4 CO-SNE 和 T-SNE 可視化（CO-SNE and T-SNE Visualization）
7. 結論

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space
arxiv’23’05, Im. Vis. Comput’24
數字媒體與藝術學院，杭州電子科技大學，中國；國防科技大學工程與技術學院，中國

速覽

動機

由于特征空間的限制，傳統的歐幾里得神經網絡在捕捉高區分度的表示時遇到了困難。

以前的多模態方法可能會受到音頻信號中噪聲的影響，導致模態不平衡。

方法

提出HyperAD學習在雙曲空間中的片段嵌入以提高模型的區分性，并設計了新的繞行融合以提高視覺模型的重要性。

繞行融合：只給視覺特征做FC，音頻特征不做任何操作，然后進行concat。
雙曲特征相似性圖分支：首先通過指數映射將融合特征投影到雙曲空間，然后通過雙曲特征相似性定義鄰接矩陣，這>里還有個閾值以消除較弱的關系，然后利用雙曲線性層HL進行特征變換+聚合。
雙曲時間關系圖分支：這里與上個分支的操作幾乎一樣，僅在鄰接矩陣那里修改了一下，這里的鄰接矩陣直接基于視>頻的時間結構構建了時間關系圖。
雙曲分類器：因為分支的輸出特征還在雙曲流形上，不能直接用基于歐幾里得的分類器進行分類，所以有了雙曲分類>器進行分類。
目標函數：還是弱監督的MIL方法。

實驗

實驗只跑了XD-Violence數據集，做了很多消融實驗，還有 t-SNE 可視化。

摘要

近年來，弱監督音視頻暴力檢測任務受到了廣泛關注。該任務的目標是根據視頻級標簽，在多模態數據中識別暴力片段。盡管該領域取得了進展，但傳統的歐幾里得神經網絡在捕捉高區分度的表示時遇到了困難，主要是由于特征空間的限制。為了解決這個問題，我們提出了HyperVD，一個新的框架，學習在雙曲空間中的片段嵌入以提高模型的區分性。我們貢獻了兩個完全雙曲圖卷積網絡分支，挖掘片段之間的特征相似性和時間關系。通過在此空間中學習片段表示，框架有效地學習了暴力片段和正常片段之間的語義差異。我們在XD-Violence基準上的廣泛實驗表明，我們的方法達到了85.67%的AP，顯著超越了現有的最先進方法。

關鍵詞： 弱監督學習，雙曲空間，視頻暴力檢測

1. 引言

隨著數字內容的增加和社交媒體平臺的普及，自動化暴力檢測在安全和監控系統、犯罪預防和內容審核等各種應用中變得越來越重要。然而，給視頻中的每一幀做標注是一個耗時且昂貴的過程。為了解決這個問題，當前的方法通常利用弱監督設置將問題表述為多實例學習（MIL）任務[36, 44, 53, 47, 34, 17, 43, 4]。這些方法將視頻視為一包實例（即片段或段落），并基于視頻級標注預測它們的標簽[35]。

遵循MIL范式，提出了許多弱監督暴力檢測方法。例如，Zhu等人[55]提出了一個時序增強網絡，通過注意力塊學習運動感知特征，而Tian等人[36]提出了魯棒時序特征幅度（RTFM）方法，通過時序注意力和幅度學習增強模型的魯棒性。Li等人[21]提出了一種基于變換器的框架，并利用多序列學習來減少選擇錯誤的概率。此外，還提出了幾種多模態方法，這些方法聯合學習音頻和視覺表示，通過利用來自不同模態的互補信息來提高性能[44, 47, 27, 30]。例如，Wu等人[44]提出了一種基于GCN的方法，通過圖學習來學習多模態表示，而Yu等人[47]提出了一種方法，通過模態感知的多實例學習來解決模態異步問題。

盡管上述方法取得了良好的結果，但這些多模態方法可能會受到音頻信號中噪聲的影響，導致模態不平衡。在這種情況下，聽覺模態對暴力檢測的貢獻低于視覺模態。此外，先前的方法已經證明了使用圖表示學習來檢測暴力事件的有效性，通過將每個實例作為圖中的節點[44, 53]，但它們仍然難以區分暴力實例和非暴力實例。

我們提出了一種新的方法，通過圖表示學習來解決這些限制。根據我們的了解，所有先前的方法都在歐幾里得空間中使用深度神經網絡進行特征表示。然而，圖狀數據被證明呈現出高度非歐幾里得的潛在結構[2, 46]，這對當前的歐幾里得深度神經網絡構成挑戰。如圖1所示，正常和暴力實例之間存在隱式的層次關系和顯著的語義差異，這在歐幾里得空間中很難區分。我們認為，直接在與數據相關的空間中學習實例表示，例如雙曲流形，可以有利于模型的區分性，因為它使模型能夠捕捉并區分在歐幾里得空間中可能難以探索的細微語義差異。

在這里插入圖片描述
圖 1：直觀上，暴力實例和正常實例之間存在隱含的層次關系和顯著的語義差異。這些差異使用傳統的歐幾里得空間方法可能難以捕捉，因為這些方法可能不適合表示復雜的層次結構。

受到這些發現的啟發，我們提出了一種基于洛倫茲模型[26]的HyperVD框架，用于弱監督音視頻暴力檢測。基于雙曲幾何構建該框架可以受益于雙曲距離，該距離會成倍增加無關樣本之間的距離，相比于相似樣本之間的距離。特別地，我們的方法包括一個繞行融合模塊，在融合階段解決模態不平衡問題，然后將音視頻特征的融合嵌入投影到雙曲流形上。接下來，我們利用兩個完全雙曲圖卷積網絡分支來提取雙曲空間中實例之間的特征相似性和時間關系。此外，我們將兩個分支學習到的嵌入進行拼接，并將其輸入到一個雙曲分類器中進行暴力預測。為了評估我們提出的方法的有效性，我們在XD-Violence數據集上進行了實驗。在弱監督下，我們的方法可以實現85.67%的AP，超過了之前最先進方法2.27%。廣泛的消融實驗也證明了雙曲空間中實例表示學習的有效性。

總之，主要貢獻如下：

我們分析了使用傳統歐幾里得方法學習實例表示的局限性，并提出了一種新穎的HyperVD框架，通過雙曲幾何有效地探索實例的語義差異，從而實現弱監督暴力檢測，帶來更強的區分能力。
實驗結果表明，我們的框架在XD-Violence數據集上超越了最先進的方法。消融研究進一步揭示了每個提出的組件如何有助于模型的成功。

2. 相關工作

弱監督暴力檢測

弱監督暴力檢測旨在通過利用視頻級標簽識別視頻中的暴力片段。自從第一篇使用深度學習方法的論文[7]發布以來，暴力檢測領域取得了巨大的進展。為了消除無關信息并提高檢測的準確性，MIL [24]框架在此過程中被廣泛使用。大多數現有工作[31, 1, 6, 8, 28, 32, 43, 50, 51, 45]將暴力檢測僅視為一個視覺任務，并且使用基于CNN的網絡來編碼視覺特征。Sultani等人[35]提出了一種帶有稀疏性和平滑性約束的MIL排名損失，用于深度學習網絡學習視頻片段中的異常得分。Li等人[21]開發了一種基于Transformer[38]的多序列學習模型，以減少選擇錯誤的概率。最近的一項研究[44]發布了一個大規模音視頻暴力數據集。為了促進模態間的交互，Yu等人[47]提出了一種輕量級雙流網絡，并利用模態感知對比和自蒸餾來實現判別性多模態學習。為了關注正常數據的含義，Zhou等人[54]提出了一個具有不確定性調節的雙記憶單元模塊，用于學習正常數據的表示以及異常數據的判別特征。與先前的方法不同，我們將音視頻特征的融合嵌入投影到雙曲流形上，并使用完全雙曲圖卷積網絡有效地挖掘暴力和非暴力實例之間的語義差異。

雙曲空間中的神經網絡

雙曲空間是一種具有恒定負高斯曲率的非歐幾里得空間。近年來，由于其在表示具有隱藏層次的數據方面的吸引力，雙曲空間在機器學習和神經信息科學中引起了越來越多的關注[25, 33, 26, 40]。Nickel等人[25]開展了使用龐加萊球模型在雙曲空間中學習表示的開創性研究。Sala等人[33]分析了這些不同模型中的嵌入大小和數值精度的權衡，Ganea等人[10]將這些方法擴展到無向圖上。在此基礎上，Ganea等人[11]定義了一個雙曲神經網絡，彌合了雙曲空間與深度學習之間的鴻溝。Nickel等人[26]和Wilson等人[41]證明，使用雙曲空間的洛倫茲模型相比于龐加萊球，能得到更高效且更簡化的優化器。在近期的研究中[13]，基于各向同性空間的笛卡爾積，已開發出雙曲神經網絡。事實上，雙曲空間已被很好地融入到近期先進的深度學習模型中，如遞歸神經網絡[11]、圖神經網絡[22]和注意力網絡[15]。基于這些深度學習范式的研究，我們探索了使用雙曲神經網絡在雙曲空間中學習弱監督音視頻暴力檢測的有效性。

250318：高斯曲率是描述一個表面彎曲程度的數學量。如果一個空間的曲率是負的，意味著它是“向外彎曲”的。例如，地球表面是一個正曲率的例子（球面），而雙曲空間就像一個不斷向外擴展的“餓了的橢圓”或“彎曲的鞍形”。簡單來說，雙曲空間是一種“彎曲”得非常特殊的空間，其中每個點的曲率都是負的，并且這種彎曲在整個空間中是均勻的（恒定的）。這種空間結構特別適合用于表示具有層級關系或復雜結構的數據。

3. 預備知識

在描述我們方法的細節之前，本節將介紹雙曲幾何的背景知識及其建模方法，即洛倫茲模型，以及我們在本研究中采用的雙曲圖卷積網絡。

雙曲幾何

雙曲幾何是一種具有恒定負曲率 $K$ 的非歐幾里得幾何。雙曲幾何模型已在之前的研究中得到應用，包括龐加萊球（龐加萊圓盤）模型[9]、龐加萊半平面模型[37]、克萊因模型[14]以及洛倫茲（雙曲）模型[26]。我們選擇洛倫茲模型作為框架基礎，考慮到其指數和對數映射及距離函數的數值穩定性和計算簡便性。

我們將 $\mathbb{L}_K^n = (\mathcal{L}^n, g_{\mathbf{x}}^K)$ 表示為一個具有恒定負曲率 $K$ 的 $n$ 維洛倫茲模型，其中 $\mathcal{L}^n$ 是滿足以下條件的點集：

$\mathcal{L}^n := \left\{ {x} \in \mathbb{R}^{n+1} \mid \langle {x}, {x} \rangle_{\mathcal{L}} = \frac{1}{K}, x_i > 0 \right\}. \tag{1}$

洛倫茲標量積定義為：

$\langle {x}, {y} \rangle_{\mathcal{L}} := -x_0 y_0 + \sum_{i=1}^{n} x_i y_i, \tag{2}$

250318：右下角標 $\mathcal{L}$ 表示這是洛倫茲標量積而不是普通的標量積。標量積（也稱為內積或點積）是向量運算中的一種基本操作，用于量化兩個向量之間的相似性。
—
250318： $g_{\mathbf{x}}^K$ 表示度量張量，是用來定義雙曲空間中點之間距離的工具。度量張量和洛倫茲標量積的關系為 $\langle x, y \rangle_\mathbb{L} = g^K_{\mathbf{x}}(x, y)$ ，但是要注意，度量張量就是用于計算標量積的工具，但它并不是實際的內積公式，它只是表示內積的結構或規則。在洛倫茲空間中，內積的具體形式就是公式2。

其中 $\mathcal{L}^n$ 是位于 $(n + 1)$ 維閔可夫斯基空間中的雙曲面上，其原點為 $\left( \sqrt{-1/K}, 0, \dots, 0 \right)$ 。為簡便起見，我們將洛倫茲模型中的點 ${x}$ 記作 $\in \mathbb{L}_K^n$ 。

切空間（Tangent Space）

切空間 $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 在 ${x}$ 處被定義為一個 $n$ 維向量空間，用于在 ${x}$ 附近近似 $\mathbb{L}_K^n$ ：

$\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n := \left\{ \mathbf{y} \in \mathbb{R}^{n+1} \mid \langle \mathbf{y}, \mathbf{x} \rangle_{\mathcal{L}} = 0 \right\}. \tag{3}$

請注意， $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 是 $\mathbb{R}^{n+1}$ 的歐幾里得子空間。

250318： $\mathcal{T}_{\mathbf{x}}$ 是指與點 $x$ 相關的切向量。（疑問： $x$ 不是一個數值嗎，為什么說是一個點？當我們提到 $x$ 時，它并不是一個數字（比如 3 或 7），而是流形中的某個具體位置。比如，在二維平面上， $x$ 可以是 $x_1, x_2)$ ，即平面上的一個點。而在更復雜的幾何空間中， $x$ 就是該空間中的一個點。）
250318：切空間是一個幾何概念，它描述了在某個點附近，流形（例如曲面或多維空間）的所有可能的切線方向。簡單來說，切空間就是給定點附近的“所有方向”。如果你想在一個曲面上走，那么切空間就是你可以在該點開始走的所有方向。

指數映射與對數映射（Exponential and Logarithmic Maps）

雙曲空間 $\mathbb{L}_K^n$ 和歐幾里得子空間 $\mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 之間的點映射可以通過指數映射（Exponential Map）和對數映射（Logarithmic Map） 來完成。指數映射可以將任意切向量 $\mathbf{z} \in \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n$ 映射到 $\mathbb{L}_K^n$ ，而對數映射是一個逆映射，它將點映射回切空間。這兩個映射可以表示如下：

指數映射：
$\exp_{{x}}^K (\mathbf{z}) = \cosh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \mathbf{x} + \sinh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \frac{\mathbf{z}}{\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}}, \tag{4}$

對數映射：
$\log_{\mathbf{x}}^K (\mathbf{y}) = d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) \frac{\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} }{\|\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} \|_{\mathcal{L}}}, \tag{5}$

其中 $\|\mathbf{z}\|_{\mathcal{L}} = \sqrt{\langle \mathbf{z}, \mathbf{z} \rangle_{\mathcal{L}}}$ 表示 $\mathbf{z}$ 的洛倫茲范數，而 $d_{\mathbb{L}}^K (\cdot, \cdot)$ 表示兩個點 $\mathbf{x}, \mathbf{y} \in \mathbb{L}_K^n$ 之間的洛倫茲本征距離函數，其計算方式如下：

$d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) = \operatorname{arccosh} (K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}}). \tag{6}$

250318：cos和cosh的區別？cos就是余弦函數，cosh是雙曲余弦函數。
250318：本質上是在局部平坦的切空間和彎曲的雙曲空間之間建立聯系。
250318：洛倫茲本征距離函數和洛倫茲標量積的關系？ 在洛倫茲空間中，標量積給出了兩點的相對關系，這個值可以看作是兩點之間的“夾角”度量。然后通過反雙曲余弦函數（arccosh）將內積值轉化為實際的幾何距離（即洛倫茲本征距離）。

3.1 雙曲圖卷積網絡（Hyperbolic Graph Convolutional Networks）

近年來，已有多個雙曲 GCN（Hyperbolic GCN）被提出，以擴展歐幾里得圖卷積到雙曲模型，并在多個場景下取得了良好的效果[29]。為了適應廣泛使用的歐幾里得神經操作（如矩陣-向量乘法）在雙曲空間中的應用，現有方法主要采用混合方式執行運算，即利用對數映射（logarithmic maps）和指數映射（exponential maps）在雙曲空間與切空間之間進行特征變換，并在切空間中執行神經操作。例如，在 HGCN[4] 中，設 $h_{i,K}^n \in \mathbb{H}_K^n$ 為超雙曲流形 $\mathbb{H}_K^n$ 上節點 $i$ 的 $n$ 維節點特征， $N (i)$ 表示其鄰居集合，鄰接矩陣為 $A_{ij}$ ，權重矩陣為 $\mathbf{W}$ 。其信息傳遞規則包括特征變換（feature transformation）：

$h_{i,K}^{d} = \exp_0^K \left( \mathbf{W} \log_0^K \left( h_{i,K}^{n} \right) \right), \tag{7}$

以及鄰域聚合（neighborhood aggregation）：

$\operatorname{Agg} (h_{i,K}^{d}) = \exp_{h_i}^K \left( \sum_{j \in N(i) \cup i} A_{ij} \log_{h_i}^K \left( h_{i,K}^{d} \right) \right), \tag{8}$

其中 $\exp_0^K(\cdot)$ 和 $\log_0^K(\cdot)$ 分別表示 $\mathbb{H}_K^n$ 上的指數映射和對數映射。然而，上述混合方法并未完全滿足雙曲幾何要求，可能會導致圖中節點特征的失真，從而削弱模型的穩定性[52, 5]。

250318： $A_{ij}$ 是鄰接矩陣元素，表示節點 $i$ 和節點 $j$ 之間的連接關系。
250318：公式 8 就是對鄰居信息的一個聚合，聚合的時候先把雙曲特征映射為歐式特征，然后再聚合，聚合完后再映射回雙曲特征（雙曲特征是我自己為了方便起的名字，表示在雙曲空間中的特征）。

因此，Chen et al. [5] 提出了一種基于洛倫茲模型的完全雙曲神經網絡，該網絡通過調整洛倫茲變換（包括升速變換和旋轉變換）來形式化基本的神經操作，并證明了在雙曲空間原點的切空間中進行的線性變換等價于執行帶有放寬約束的洛倫茲旋轉。讀者可以參考[5]獲取更詳細的推導。為了簡化，他們提供了其雙曲線性層（feature transformation）的更一般公式，結合了激活函數、dropout、偏置和歸一化：

$\mathbf{y} = \operatorname{HL}(\mathbf{x}) = \begin{bmatrix} \sqrt{\|\phi(\mathbf{W} \mathbf{x}, \mathbf{v})\|^2 - 1/K} \\ \phi(\mathbf{W} \mathbf{x}, \mathbf{v}) \end{bmatrix}, \tag{9}$

其中， $\mathbf{x} \in \mathbb{L}_K^n$ ， $\mathbf{W} \in \mathbb{R}^{d \times (n+1)}$ ， $\mathbf{v} \in \mathbb{R}^{n+1}$ 表示洛倫茲變換中的速度（與光速之比）， $\phi$ 是操作函數：

對于 dropout，函數為 $\phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \mathbf{W} \operatorname{Dropout} (\mathbf{x})$ ；
對于激活和歸一化， $\phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \frac{\lambda \sigma(\mathbf{v}^{\top} \mathbf{x} + b')}{\|\mathbf{W} h(\mathbf{x}) + b\|} (\mathbf{W} h(\mathbf{x}) + b)$ ，其中 $\sigma$ 是 sigmoid 函數， $b$ 和 $b^{'}$ 是偏置項， $\lambda > 0$ 控制縮放范圍， $h$ 是激活函數。

250318：這里還是做了特征變換的事情呀。
250318：公式 9 好像少了一個除法的線，后面需要去看一下論文 [5]
250318：這里的 $\phi$ 好像是代表了激活函數、dropout、偏置和歸一化，也就是說可以通過 $\operatorname{HL}(\mathbf{x})$ 來進行3中操作，不用再像之前那樣先轉到歐式空間計算然后再轉到雙曲空間了。

此外，他們提出的鄰域聚合（neighborhood aggregation） 定義如下：

$\operatorname{HyperAgg} (\mathbf{y}_i) = \frac{\sum_{j=1}^{m} A_{ij} \mathbf{y}_j} {\sqrt{-K} \left\| \sum_{k=1}^{m} A_{ik} \mathbf{y}_k \right\|_{\mathcal{L}}}, \tag{10}$

其中， $m$ 是點的數量。由于非線性激活已經集成到雙曲線性層中，該方法在最后一步省略了非線性激活。在我們的研究中，我們將完全雙曲圖卷積網絡集成到框架中，以探索在雙曲空間中學習實例表示的有效性。

250318：這里還是對鄰居信息的一個聚合，只不過結合了曲率和洛倫茲范數。

4. 方法（Method）

在本節中，我們首先定義問題的公式化表達。然后，我們詳細介紹我們提出的框架，該框架主要由四個部分組成：繞行融合（detour fusion）、雙曲特征相似性圖分支（hyperbolic feature similarity graph branch）、雙曲時序關系圖分支（hyperbolic temporal relation graph branch）和雙曲分類器（hyperbolic classifier）。該框架的示意圖如圖 2 所示。
在這里插入圖片描述
圖 2：我們的 HyperVD 框架概述。我們的框架由四個部分組成：繞道融合、雙曲特征相似性圖分支、雙曲時間關系圖分支和雙曲分類器。通過使用從預訓練網絡中提取的音頻和視覺特征作為輸入，我們設計了一個簡單而有效的模塊來融合音視頻信息。然后，兩個雙曲圖分支分別在雙曲空間中通過特征相似性和時間關系學習實例表示。最后，部署了一個雙曲分類器來預測每個實例的暴力分數。整個框架在弱監督的方式下共同訓練，并采用多實例學習（MIL）策略進行優化。

4.1 公式化表達與問題定義（Formulation and Problem Statement）

給定一個音視頻序列 $M = \{M_i^V, M_i^A\}_{i=1}^{T}$ ，其中包含 $T$ 個不重疊的多模態片段，每個片段包含 16 幀， $M_i^V$ 和 $M_i^A$ 分別表示視覺和音頻片段。視頻級標注 $\in \{1,0\}$ 指示該視頻中是否存在暴力事件。

為了避免額外的訓練開銷，我們利用經過充分訓練的主干網絡（I3D[19] 和 VGGish[12, 18]）提取視覺特征 $X^V \in \mathbb{R}^{T \times D}$ 和音頻特征 $X^A \in \mathbb{R}^{T \times d}$ ，其中 $D$ 和 $d$ 分別表示特征維度。

與先前研究[44, 47, 35, 21]類似，我們的方法采用多實例學習（MIL） 過程，以弱監督方式判斷視頻是否包含暴力事件（實例），僅利用視頻級標簽 $Y$ 進行優化。

4.2 多模態融合（Multimodal Fusion）

在本節中，我們討論了幾種常見的多模態融合方法，這些方法在早期和中期階段用于比較實驗。

拼接融合（Concat Fusion）

一種直接的方法是簡單地連接兩種模態的所有特征，然后通過全連接層（FC）進行融合。拼接融合方案的輸出 $X$ 可表示為 $f(X^A \oplus X^V)$ ，其中 $f(\cdot)$ 是兩層全連接網絡（FC）， $\oplus$ 表示拼接操作。

加性融合（Additive Fusion）

我們使用逐元素加法來結合兩種模態的信息，即 $X = f_a(X^A) + f_v(X^V)$ ，其中 $f_a(\cdot)$ 和 $f_v(\cdot)$ 是兩個對應的全連接網絡（FC），用于保持輸入特征的維度一致。

門控融合（Gated Fusion）

我們研究了一種門控融合方法，該方法由 [20] 提出，允許一種模態對另一種模態進行“門控”或“關注（attend）” ，采用 sigmoid 非線性操作，即 $X = W(U X^A * V X^V)$ ，其中 $U, V, W$ 為權重矩陣。可以將這種方法視為從一個模態到另一個模態的注意力機制。

雙線性 & 拼接（Bilinear & Concat）

我們利用兩個線性層分別處理兩種模態的輸入特征，并保持它們的維度一致，然后進行拼接操作，即 $X^A \oplus V X^V$ ，其中 $U$ 和 $V$ 為權重矩陣。

我們的繞行融合（Our Detour Fusion）

設 $X^V$ 和 $X^A$ 分別表示由主干網絡提取的視覺和音頻特征， $X = \{ x_i \}_{i=1}^{T}$ 表示來自兩種模態特征的融合。

在音視頻暴力檢測任務中，音頻和視覺信號之間存在顯著的模態不平衡，這與典型的多模態任務不同。音頻信號常常受到捕獲設備噪聲的影響，從而降低其質量。另一方面，視覺信號往往更具信息量和可靠性，使其對暴力檢測至關重要。基于這一直覺，相較于聽覺模態，視覺模態在暴力檢測中的貢獻可能更大。因此，我們采用了一種簡單高效的繞行融合（detour fusion）方法，僅將視覺特征輸入到全連接（FC）層，確保視覺特征的維度與音頻特征相同。然后，我們將視覺和音頻特征進行拼接，以形成聯合表示，記作 $f_v(X^V) \oplus X^A$ ，其中 $f_v$ 是兩層全連接（FC）， $\in \mathbb{R}^{T \times 2d}$ 。

在一定程度上，這種繞行操作可以賦予視覺模態比音頻模態更高的重要性。實驗結果驗證了我們提出的繞行融合方法的有效性，其性能優于常見的融合技術。關于其他融合方法的具體實現細節，可在附錄中找到。

250319：為什么做個 FC 就更重要了？全連接層（FC）通過線性變換對輸入的視覺特征進行處理，并通過激活函數添加非線性。通過這種方式，視覺特征得到了增強，使其在后續的融合中具有更強的影響力。我感覺可以簡單認為做了更復雜的非線性變換，會讓該特征更重要吧。

4.3 HFSG 分支（HFSG Branch）

先前的研究表明，GCN 在視頻理解任務中展現了良好的性能 [39, 53, 48, 44]。在本研究中，我們利用完全雙曲 GCN 通過雙曲幾何學習判別性表示。我們首先通過指數映射 $\exp_{\mathbf{x}}^K (\cdot)$ 將融合特征 $X$ 投影到雙曲空間，得到 $\hat{X} \in \mathbb{L}_K^{T \times 2d}$ 。然后，我們通過雙曲特征相似性定義鄰接矩陣 $A^{\mathbb{L}} \in \mathbb{R}^{T \times T}$ ：

$A^{\mathbb{L}}_{ij} = softmax(g(\hat{x}_i, \hat{x}_j)),\tag{11}$

$g(\hat{x}_i, \hat{x}_j) = \exp(-d_{\mathbb{L}}^K (\hat{x}_i, \hat{x}_j)),\tag{12}$

其中元素 $A^{\mathbb{L}}_{ij}$ 通過洛倫茲本征距離 $d_{\mathbb{L}}^K(\cdot, \cdot)$ 衡量第 $i$ 個和第 $j$ 個片段之間的雙曲特征相似性，而不是使用余弦相似度或其他歐幾里得度量方式。由于鄰接矩陣應為非負數，我們利用指數函數 $\exp(\cdot)$ 將相似性限制在 $(0, 1]$ 之間。

在執行 $so f t ma x$ 歸一化之前，我們還采用了閾值操作，以消除較弱的關系，并加強雙曲空間中更相似對之間的相關性。閾值操作定義如下：

$g(\hat{x}_i, \hat{x}_j) = \begin{cases} g(\hat{x}_i, \hat{x}_j), & g(\hat{x}_i, \hat{x}_j) > \tau \\ 0, & g(\hat{x}_i, \hat{x}_j) \leq \tau \end{cases} \tag{13}$

其中 $\tau$ 為閾值。

250319：這部分就是告訴我們是如何再雙曲空間中求鄰接矩陣的。

鑒于雙曲嵌入 $\hat{X}$ ，我們利用雙曲線性層 $\operatorname{HL}(\cdot)$ 進行特征變換（feature transformation），其中包含用于非線性激活的激活層，并隨后執行鄰域聚合（neighborhood aggregation），即 $\operatorname{HyperAgg}$ ，如公式 10 中所述。整體操作如下：

$\hat{x}_i^l = \frac{\sum_{j=1}^{T} A^{\mathbb{L}}_{ij} \operatorname{HL} (\hat{x}_i^{l-1})} {\sqrt{-K} \left\| \sum_{k=1}^{T} A^{\mathbb{L}}_{ik} \operatorname{HL} (\hat{x}_i^{l-1}) \right\|_{\mathcal{L}}}, \tag{14}$

其中， $\hat{x}_i^l$ 表示第 $i$ 個片段在第 $l$ 層的雙曲表示。

250319：這個是把公式9和公式10放到一起的結果，順便解釋一下 $l$ 和 $l ? 1$ ，因為在 GCN 中，每一層的節點特征都表示了該節點與其鄰居的關系，而每一層之間的傳播過程讓節點能夠學習到越來越豐富的信息，所以當前層會根據上一層的信息進行聚合，然后把上一層信息的聚合結果作為當前層的輸出。

該分支的輸出計算如下：

$\hat{X}^{\mathbb{L}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{15}$

250319： $l + 1$ 應該是表示這是最后一層。

4.4 HTRG 分支（HTRG Branch）

盡管雙曲特征相似性分支可以通過測量任意兩個位置的片段之間的相似性來捕獲遠程依賴關系，而不受其時間位置信息的影響，但時間關系在許多基于視頻的任務中同樣至關重要。為了解決這一問題，我們直接基于視頻的時間結構構建了時間關系圖，并在雙曲空間中學習片段之間的時間關系。其鄰接矩陣 $A^{\mathbb{T}} \in \mathbb{R}^{T \times T}$ 僅依賴于第 $i$ 個和第 $j$ 個片段的時間位置，其定義如下：

$A^{\mathbb{T}}_{ij} = \exp(-\|i - j\|^\gamma), \tag{16}$

其中， $\gamma$ 是控制時間距離范圍的超參數。

同樣地，我們通過 $\hat{X} = \exp_{\mathbf{x}}^K (X)$ 獲得雙曲嵌入，并將 $\hat{X}$ 和 $A^{\mathbb{T}}$ 輸入到雙曲 GCN 中，以通過公式 14 學習雙曲空間中的時間關系。最終輸出計算如下：

$\hat{X}^{\mathbb{T}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{17}$

250319：這里的話，即使把鄰接矩陣換了一下，然后根據公式14和公式15得到公式17，幾乎一摸一樣的操作。
250319：這里的 $\mathbb{T}$ 應該就是一個記號表明是和這個雙曲時間關系圖分支的輸出，而且上面那個分支的 $\mathbb{L}$ 應該也是個記號吧，不過不太確定都。

4.5 雙曲分類器（Hyperbolic Classifier）

兩個分支的輸出嵌入仍位于雙曲流形上，因此無法直接使用基于歐幾里得的線性層進行分類。如圖 2 所示，為了預測暴力分數 $\in \mathbb{R}^{T \times 1}$ ，我們將這些嵌入拼接并輸入到雙曲分類器中，其數學公式如下：

$\sigma \left( (\epsilon + \epsilon < \hat{X}^{\mathbb{L}} \oplus \hat{X}^{\mathbb{T}}, W >_{\mathcal{L}}) + b \right), \tag{18}$

其中， $\sigma$ 是 Sigmoid 函數， $W$ 為權重矩陣， $b$ 和 $\epsilon$ 分別表示偏置項和超參數。

4.6 目標函數（Objective Function）

在本研究中，暴力檢測被視為在弱監督下的多實例學習（MIL） 任務。參考 [44, 35]，我們使用視頻包中 $k$ 個最大預測分數的均值作為暴力分數，其中： $\left\lfloor \frac{T}{q} + 1 \right\rfloor.$ 在正樣本包（positive bag）中，得分較高的 $k$ -max 預測值更有可能包含暴力事件，而負樣本包（negative bag）中的 $k$ -max 預測值通常是難樣本。因此，目標函數定義如下：

$L_{MIL} = \frac{1}{N} \sum_{i=1}^{N} -Y_i \log (\bar{S}), \tag{19}$

其中， $\bar{S}$ 表示視頻包中 $k$ -max 預測值的均值， $Y_i$ 為二值化的視頻級標注。

250319： $T$ 是片段個數，但是 $q$ 呢？ $N$ 呢？
250319：后面實現細節那里又說， $T$ 是輸入特征的長度， $q = 16$ 應該是個超參數。

5. 實驗（Experiments）

5.1 實現細節（Implementation Details）

特征提取（Feature Extraction）：為了公平比較，我們采用與先前方法 [36, 44, 27, 47] 相同的特征提取過程。具體來說，視覺特征使用在 Kinetics-400 數據集上預訓練的 I3D 網絡 [3] 提取。對于音頻特征，我們采用在大型 YouTube 視頻數據集上預訓練的 VGGish 網絡 [12, 18]。視覺特征以每秒 24 幀的采樣率提取，使用窗口大小為 16 幀的滑動窗口方法。對于聽覺數據，我們將每個音頻錄音劃分為 960 毫秒的片段，并計算使用 96 × 64 頻率箱的 log-mel 頻譜圖。這允許我們提取豐富且具有信息量的聽覺特征，這些特征可以與視覺特征結合，從而增強暴力檢測模型的性能。

250319：這里倒是給了一點啟發，我之前還考慮有的視頻幀率不一樣，所以在使用幀計算時間的時候很麻煩，如果直接假設一個前提，每秒24幀，那么我就這樣子強制做，應該就簡單很多了吧。

HyperVD 架構和設置（HyperVD Architecture and Settings）：對于繞行融合模塊，我們應用了兩個 1D 卷積層，使用 LeakyReLU 激活函數和 dropout 來學習視覺特征。在雙曲空間中，我們使用兩個雙曲圖卷積層來學習時序關系。

訓練細節（Training Details） ：整個網絡在 NVIDIA RTX 3090 GPU 上訓練了 50 個 epoch。我們設置訓練期間的 batch 大小為 128，并將初始學習率設置為 5e-4，該學習率通過余弦退火調度器動態調整。對于超參數，我們設置 $\gamma = 1$ ， $\epsilon = 2$ ，并設置 dropout 比例為 0.6。我們使用 Adam 優化器，無權重衰減。對于 MIL，我們將 $k$ 的值設置為 $\left\lfloor \frac{T}{16} + 1 \right\rfloor$ ，其中 $T$ 表示輸入特征的長度。

5.2 數據集（Dataset）

XD-Violence [44] 是一個最近發布的大規模音視頻暴力檢測數據集，包含來自真實世界的電影、網頁視頻、體育直播、監控攝像頭和 CCTV 視頻。該數據集包含 4754 部未經修剪的電影，訓練集中的視頻級標簽和測試集中的幀級標簽，視頻總時長近 217 小時。參考 [44, 27, 47]，我們選擇 XD-Violence 數據集作為基準，驗證我們提出的多模態框架的效率。在推理過程中，我們使用平均精度（Average Precision, AP）指標進行評估，沿用了之前的工作[36, 44, 27, 47]。需要注意的是，AP 值越高，表明在數據集上的性能越好。

5.3 定量結果（Quantitative Results）

我們將提出的方法與先前的最先進方法進行了比較，包括（1）無監督方法：SVM 基線，OCSVM[34]，和 Hasan et al. [17]；（2）單模態弱監督方法：Sultani et al. [35]，Wu et al. [43] RTFM [36]，MSL [21]，S3R [42]，UR-DMU [54] 和 Zhang et al. [49]；（3）音視頻弱監督方法：Wu et al. [44]，Pang et al. [27]，MACIL-SD [47]，UR-DMU [54] 和 Zhang et al. [49]。在 XD-Violence 數據集上的 AP 結果如表 1 所示。
在這里插入圖片描述

在視頻級標簽監督下評估時，我們的方法在 AP 上超越了所有無監督方法，達到了最先進的性能，且超出了所有方法顯著的差距。與之前的單模態弱監督方法相比，我們的方法提高了至少 4.01%。與最先進的弱監督多模態方法 MACIL-SD [47] 相比，我們的方法提高了 2.27%。這些結果證明了我們提出的學習實例表示的有效性，尤其是在雙曲空間中的學習，并且展示了它在提升暴力檢測模型性能方面的潛力。

與其他方法相比，我們的方法具有最小的模型大小（0.607M），同時仍然超越了所有先前的方法。這些結果證明了我們框架的高效性，框架利用了更簡單的網絡架構，同時達到了卓越的性能。對于模型復雜度和推理能力，表 5 給出了在測試集上計算的平均推理時間和 FLOPS（浮動點操作）。由于現有的計算工具包（如 fvcore）不支持某些特殊數學函數來計算 FLOPS，因此我們提供了推理時間的結果，并發現雙曲幾何的引入會增加一些推理成本，但模型性能的提升非常顯著。
在這里插入圖片描述
表5：模型復雜性和推理能力的消融實驗結果。推理時間（Time）是在測試集上進行一次迭代，并進行5次預熱迭代后測量的。

250319：推理時間是在進行一次完整的迭代后測量的，但為了保證測試的穩定性，進行5次“預熱”（即模型在正式開始測試之前的幾個迭代，以讓模型達到穩定狀態）來消除啟動時的影響。

5.4 定性結果（Qualitative Results）

為了進一步評估我們的方法，我們首先可視化了在 XD-Violence 上的預測結果，如圖 3 所示。如圖中所示，對于暴力視頻，我們的方法不僅生成了精確的檢測區域，還生成了更高的異常分數，且高于正常視頻中的分數。在非暴力視頻中，我們的方法幾乎沒有對正常片段產生預測。
在這里插入圖片描述
圖3：異常分數曲線的可視化。橫軸表示時間，縱軸表示異常分數。第一行包括兩段包含暴力事件的視頻樣本，第二行則包括正常視頻的樣本。藍色曲線表示視頻幀的預測異常分數，紅色區域表示異常事件的位置。

此外，我們提供了圖 4 來展示 vanilla、歐幾里得和雙曲特征空間的可視化。雙曲特征首先被轉換到歐幾里得空間進行計算，使用 t-SNE [23] 工具。結果展示了暴力和非暴力特征在雙曲空間中的清晰聚類，并且經過訓練后，未關聯的特征之間的距離增加。值得注意的是，在雙曲空間中訓練的特征需要轉換為歐幾里得空間，然后使用 t-SNE 工具進行計算。我們還提供了針對雙曲空間設計的 CO-SNE [16] 可視化工具，詳見附錄。
在這里插入圖片描述
圖4：原始特征（左）、通過歐幾里得空間訓練的特征（中）以及通過雙曲空間訓練的特征（右）的特征空間可視化。所有結果均在XD-Violence測試集上進行。紅點表示非暴力特征，綠色點表示暴力特征。

5.5 消融實驗（Ablation Studies）

為了探究提出的框架中關鍵組件的貢獻，我們進一步進行了廣泛的消融實驗，以展示其效率。

我們首先在不同的多模態融合方式上進行比較實驗，結果如表 2 所示。我們的繞行融合方法（Detour Fusion）在使用拼接（Concat）融合時的性能為 85.67%，比僅使用拼接融合提高了 2.32%。此外，Wu et al. [44] 采用了一種早期融合的拼接方式。我們使用繞行融合模塊重新實現了他們的方法，并獲得了 1.22% 的改進。
在這里插入圖片描述

然后，我們探討了完全雙曲 GCN（FHGCN）對框架的貢獻，結果如表 3 所示，揭示了與標準歐幾里得空間中的 GCN 相比，從 76.87% 提升至 85.67%的顯著性能提升。此外，配備 Lorentz 模型的 FHGCN 在數值穩定性上使得我們的方法能夠超越使用 Poincaré 模型的 HGCN，實現了 2.79% 的改進。如表 3 所示，我們還評估了使用多種特征相似度度量的模型性能。我們的研究發現，使用 Lorentz 距離進行 Lorentz 模型的特征相似度捕捉能力優于歐幾里得空間的傳統方法。
在這里插入圖片描述

250319：E 表示歐幾里得空間（Euclidean model）；B 表示龐加萊空間（Poincaré model）；L 表示洛倫茲空間（Lorentz model）

隨后，我們分析了提出的 HFSG 分支和 HTRG 分支的貢獻。表 4 中的結果表明了每個分支的重要性。當兩者結合時，我們的方法能夠達到最佳的 85.67% AP 性能。
在這里插入圖片描述

最后，在圖 5 中，我們展示了預測結果，以便進行定性分析。視覺比較顯示，我們的方法通過利用雙曲幾何，有效地減輕了暴力和非暴力片段中的預測噪聲，超越了使用歐幾里得幾何的基線和變種方法。這證明了我們方法在捕捉之前無法區分的細微語義差異方面的卓越能力。
在這里插入圖片描述

6. 額外結果與分析（Additional Results and Analysis）

6.1 復雜度分析（Complexity Analysis）

我們的方法在設計上也注重計算效率，不引入過多的參數。繞行融合模塊通過全連接層學習視覺特征，并包含主要的模型參數。相比之下，HFSG 和 HTRG 分支則相對輕量，主要由在學習到的嵌入上運行的雙曲圖卷積層組成。與其他方法相比，我們的方法具有最小的模型大小（0.607M），同時仍超越了所有先前的方法。這些結果展示了我們框架的效率，它利用了更簡單的網絡架構，同時實現了更優的性能。

6.2 訓練穩定性（Training Stability）

我們進一步提供了在 50 個 epoch 中的準確率曲線的比較結果，如圖 7 所示。值得注意的是，在 HGCN 和 FHGCN 中，雙曲特征相似度分支的相似度矩陣分別是通過 Poincaré 距離和 Lorentz 距離度量的。正如所示，基于 GCN 的方法產生了顯著的抖動結果。得益于 Lorentz 模型的數值穩定性，我們的方法配備了 FHGCN，相比其他方法，在整個訓練過程中更加穩定。
在這里插入圖片描述

6.3 不同超參數下的消融結果（Ablative Results with Different Hyper-parameters）

如表 1、表 6 和表 7 所示，我們還提供了在方法中采用的不同超參數的消融實驗結果。在表 6 中，相比歐幾里得方法（如 Wu et al. [30]），該模型在小嵌入維度（32）下能夠獲得有前景的結果（80.46%），并保持輕量級（0.609M）和快速（2.585s）。表 7 展示了 FHGCN 隱藏維度和層數對模型性能的影響。
在這里插入圖片描述
表6：我們方法中不同輸入維度的雙曲GCN的消融實驗結果。值得注意的是，為了輸入任意大小的HFSG和HTRG分支的輸入維度，我們采用了連接方式進行多模態融合。推理時間（Time）是在測試集上進行一次迭代，并進行5次預熱迭代后測量的。
在這里插入圖片描述
表7：我們方法中不同層數和隱藏維度的雙曲GCN的消融實驗結果。左側的三列是不同層數的結果，右側的三列是不同隱藏維度的結果。

6.4 CO-SNE 和 T-SNE 可視化（CO-SNE and T-SNE Visualization）

我們應用專為雙曲數據設計的 CO-SNE [16] 來可視化 vanilla 嵌入和通過雙曲神經網絡生成的訓練嵌入。對于接近 Poincaré 球邊界的高維雙曲數據點，標準的 t-SNE 通常會錯誤地低估它們之間的距離，導致低維嵌入壓縮到一個點，從而造成差的可視化 [16]。具體而言，我們采用變換函數將 Lorentz 模型的嵌入投影到 Poincaré 空間，并利用 CO-SNE 進行可視化。如圖 6 所示，左側列展示了沒有訓練的 vanilla 嵌入，右側列展示了經過我們模型訓練后的嵌入，我們可以觀察到暴力特征和非暴力特征在訓練后被很好地分開，例如，暴力特征靠近中心，而非暴力特征被推向邊界。
在這里插入圖片描述
圖6：我們模型中高維原始嵌入和輸出雙曲嵌入在二維特征空間中的投影，使用CO-SNE [16]，該方法能夠保留高維雙曲數據點的層次結構和相似性結構。紅色點表示暴力嵌入，藍色點表示非暴力嵌入。

7. 結論

在本文中，我們研究了音視頻場景下的模態不一致性和歐幾里得空間中學習實例表示的不足。然后，提出了一個結合了 detour 融合模塊和兩個雙曲圖學習分支的 HyperVD 框架來解決上述問題。具體來說，我們設計了一種 detour 融合策略，以抑制音頻信號的負面影響，緩解跨模態的信息不一致。此外，還提出了一個雙曲特征相似性圖分支和一個雙曲時序關系圖分支，分別用于學習片段間的相似特征和時序關系。我們的 HyperVD 在 XD-Violence 數據集上顯著超越了之前的方法，展示了雙曲空間中實例表示學習的優越性。

我們相信雙曲幾何在各種視頻理解和解釋任務中具有巨大的潛力，如視頻異常檢測和事件定位。我們致力于進一步探索雙曲幾何在這些以及其他相關領域中的力量。