Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection
ICCV2025
https://arxiv.org/pdf/2508.06318
https://github.com/snehashismajhi/GS-MoE
Abstract
視頻異常檢測(VAD)是一項具有挑戰性的任務,這源于異常事件的多樣性以及帶標簽數據的有限性。在弱監督視頻異常檢測(WSVAD)范式下,訓練過程中僅提供視頻級別的標簽,而預測則需在幀級別進行。盡管最先進的模型在簡單異常(如爆炸)檢測上表現出色,但在處理復雜的現實世界事件(如入店行竊)時卻存在困難。這種困境源于兩個關鍵問題:(1)當前模型無法應對異常類型的多樣性,它們使用一個共享模型處理所有類別,忽略了類別特異性特征;(2)弱監督信號缺乏精確的時間信息,限制了捕捉與正常事件混合在一起的細微異常模式的能力。為了應對這些挑戰,我們提出了高斯噴涂引導的混合專家模型(GS-MoE),這是一種新穎的框架,它采用一組專家模型,每個專家模型專門用于捕捉特定的異常類型。這些專家模型由時間高斯噴涂損失引導,使模型能夠利用時間一致性并增強弱監督。高斯噴涂方法通過聚焦最有可能包含異常事件的時間片段,促進了對異常更精確、更全面的表征。來自這些專門專家模型的預測通過混合專家機制進行整合,以建模不同異常模式之間的復雜關系。我們的方法取得了最先進的性能,在UCF-Crime數據集上的AUC為91.58%,并且在XD-Violence和MSAD數據集上也展示了優異的結果。通過利用類別特異性專業知識和時間引導,GS-MoE為弱監督下的視頻異常檢測設立了新的基準。
1. Introduction
監控視頻中的視頻異常檢測(VAD)是計算機視覺領域最具挑戰性的任務之一。隨著深度學習模型能力的不斷提升,已經出現了多種解決該任務的方法。近年來,視頻異常檢測領域的研究重點主要是對視頻中的時空依賴關系進行建模,以獲取場景中相關主體運動的有意義表征。在這方面,Transformer架構已被證明非常有效,成為多項研究工作的基礎。盡管當前最先進的模型在公開可用的數據集上取得了不錯的結果,但它們仍然無法捕捉到細微的異常,也難以檢測出異常發生的時間窗口。
我們在弱監督視頻異常檢測(WSVAD)任務的公式化表述中找到了導致這些問題的一個主要原因[37, 42]。多實例學習(MIL)在全監督方法和無監督方法之間取得了平衡:全監督方法性能良好,但需要耗費大量成本進行數據標注;無監督方法不需要人工標注,但性能通常較差。多實例學習的核心思想是創建包含正樣本和負樣本(即正常視頻和異常視頻)的“包”,且這些樣本僅帶有視頻級別的標簽。在訓練過程中,模型會為每個片段分配一個0到1之間的分數,0表示正常片段,1表示異常片段。正常包中得分最高的樣本會被引導向0,這使得模型能夠正確學習大多數正常場景;另一方面,負樣本中得分最高的樣本會被推向1。這導致模型僅在少數特定的異常事件實例上受到監督并進行學習,而忽略了相鄰片段中包含的有用信息。隨著時間的推移,這種方法已被證明是有效的,但不足以訓練模型正確捕捉不同異常類別的次要屬性和特定屬性。在最近的研究[12, 44, 46]中,不同的輔助目標被確定為視頻異常檢測任務的先驗知識,用于優化訓練過程。
為解決這一問題,我們提出將視頻中的異常建模為高斯分布,在異常視頻的估計分數的時間維度上,根據檢測到的峰值繪制多個高斯核。這種技術稱為時間高斯噴涂(Temporal Gaussian Splatting,TGS),它能構建異常事件隨時間變化的更完整表征,在訓練目標中納入異常分數較低的異常片段。圖1展示了多實例學習(MIL)任務與TGS任務的對比。高斯核是從模型生成的異常分數中提取的。另一個挑戰與異常類別之間的固有差異有關。在MIL范式下,模型被訓練以學習正常視頻和異常視頻之間的差異,而忽略了異常類別之間的特定差異。因此,這些方法主要關注異常的粗粒度表征,這種表征雖能區分正常事件和異常事件,卻忽略了細粒度的類別特異性線索。由此導致的結果是,較顯著的異常(如爆炸)可能容易被檢測到,而細微的異常(如入店行竊)則更可能與正常事件混淆。這是大多數基于弱監督視頻異常檢測(WSVAD)的最新方法存在的主要局限性。我們通過混合專家(Mixture-of-Expert,MoE)架構解決這一問題,其中每個專家模型都被訓練以建模單個異常類別,從而強化每個異常類別中常被忽視的特定屬性。為進一步利用異常之間的相關性和差異,一個門控模型在每個專家的預測與更粗粒度的異常特征之間進行協調,以學習異常之間潛在的相互作用。
圖1. 盡管最先進的方法通過視頻中最正常和最異常的片段來處理弱監督視頻異常檢測(WSVAD)任務,但本文提出的方法通過高斯核來學習異常事件更完整的表征。
本文的貢獻具有互補性:學習異常類別的特定表征有助于生成更準確的高斯核,而高斯噴涂則使專家模型能夠從那些原本可能被忽略的更細微的異常事件中學習。總之,本文的研究內容如下:
? 一種新的弱監督視頻異常檢測(WSVAD)任務公式化表述,該表述基于從估計的異常分數中提取的高斯核,以生成更具表達力和更完整的異常事件表征。沿著時間維度對核進行噴涂,使模型能夠學習片段之間更精確的時間依賴關系,并突出更細微的異常;
? 一種混合專家(MoE)架構,該架構通過專用的類別專家模型關注單個異常類型,使門控模型能夠利用這些異常類型之間的相似性和差異性;
? 通過在具有挑戰性的UCF-Crime[36]、XD-Violence[41]和MSAD[57]數據集上進行大量實驗,衡量了所提出貢獻的影響,結果顯示與之前的最先進方法相比,性能有顯著提升。
2. Related Work
弱監督視頻異常檢測(WSVAD):在弱監督視頻異常檢測任務中,異常事件包含多種類別,每種類別在空間和時間維度上都具有獨特的特征。弱監督視頻異常檢測任務由文獻[37]的開創性研究提出。在隨后的幾年里,出現了多種不同的方法,以解決數據收集的便捷性與經訓練的模型所展現的性能之間的權衡問題。文獻[54]通過使用圖卷積網絡糾正噪聲標簽并監督傳統異常分類器,解決了弱標簽的局限性。此外,文獻[39]提出學習特征幅度函數,以改進正常片段的分類,進而提升異常事件的檢測效果。該模型基于注意力模塊和金字塔卷積構建而成。文獻[23]也探索了提高弱標簽質量的思路,其設計了一種基于Transformer的方法,通過訓練來預測片段級和視頻級的異常分數,然后利用視頻級預測結果來提升模型在片段級的性能。最近,文獻[49]設計了一種多頭分類模型,該模型利用不確定性和完整性來生成并優化自身的偽標簽。文獻[30]提出了一種兩階段的基于Transformer的模型,該模型先生成感知異常的位置嵌入,再對異常事件的短程和長程關系進行建模。受點監督[2]的啟發,文獻[50]引入了“一瞥”(Glance)標注。這種標注通過定位異常事件發生的單個幀,對常見的弱標簽進行增強。盡管這類標注能使模型取得很好的性能,但需要額外的人工標注步驟。最近,文獻[31]提出了一種在異常檢測過程中納入額外數據模態的方法。
在多實例學習(MIL)范式下,這些差異使得模型難以有效區分它們。由于聚焦于視頻中最異常的片段,模型被引導關注特定且明顯的異常事件,卻未能適當地考慮導致這些異常發生的一系列前置動作以及異常發生后的后續動作。事實上,有些異常發生在較短的時間窗口內,而另一些則會在較長時間內逐漸發展;此外,在這兩種情況下,多實例學習范式選擇的異常片段數量是相同的。
混合專家模型:這種架構由文獻[9]提出,此后經過改進,被應用于從圖像分類到動作識別等多種任務中[15]。最初的混合專家模型(MoE)設計包含一系列小型專家模型和一個獨立的門控網絡,它們都接收相同的輸入數據。每個專家模型會預測一個輸出,而門控網絡則為這些輸出分配重要性分數。從那以后,這一架構通過各類研究得到了改進。不同領域的一個共同思路是讓路由網絡選擇輸入數據的哪些部分或輸入標記傳遞給每個專家模型[10, 19, 32, 35]。文獻[33]的最新研究提出,針對每個專家模型,以不同方式對輸入標記進行加權。
高斯噴涂(Gaussian Splatting):近年來受到了廣泛關注,在3D場景重建等領域被證明是非常高效的[17, 18]。高斯噴涂的核心思想是將場景中的每個三維點表示為多元正態分布,這樣就可以將場景渲染為所有三維區域貢獻的總和。此后,高斯噴涂被擴展到多個領域以納入時間維度,例如動態場景渲染[20, 24]和醫學成像[52]。
我們的方法對混合專家模型(MoE)加以利用,為每個專家模型分配特定的異常類別,從而實現細粒度、類別特異性的學習——這是傳統設計中常被忽略的一點。門控模型連接類別特異性專家模型與粗粒度特征,在利用異常之間相關性的同時,確保各專家模型得到均衡使用。我們通過時間高斯噴涂(TGS)將高斯噴涂擴展到時間維度,捕捉細微的依賴關系,并將那些不明顯、得分較低的片段納入訓練。以時間峰值為錨點,TGS能夠減輕噪聲影響、增強弱監督信號、保留急劇的過渡變化,在避免過度平滑的同時實現精準的異常檢測。
3. Methodology
我們提出的新穎的高斯噴涂引導混合專家(GS-MoE)框架旨在利用弱標記的訓練視頻準確檢測復雜異常。GS-MoE運用了兩項關鍵技術:(I)時間高斯噴涂損失,以確保在弱監督下正常實例與異常實例之間具有更優的可分離性;(II)混合專家(MoE)架構,該架構學習類別特異性表征,并能以高置信度檢測復雜異常。
3.1. Temporal Gaussian Splatting (TGS)
圖2. 訓練結束時從骨干模型在訓練視頻上獲得的異常分數。多實例學習(MIL)范式中使用的top-k片段導致模型聚焦于視頻中存在的三個異常事件中的第一個和最后一個,而忽略了第二個異常。不過,第二個異常雖然得分不如其他兩個高,但仍能被檢測到。
我們提出的時間高斯噴涂(Temporal Gaussian Splatting,TGS)技術通過利用高斯核,為多實例學習(MIL)優化范式提供了一種新穎的公式化表述。TGS的核心思想是減少對最異常片段的過度依賴,而這種過度依賴正是傳統MIL方法常出現的問題。圖2展示了這種過度依賴的一個示例。在MIL范式中,損失函數通常使用的是得分最高的k個異常分數:
topk(S)={score1,score2,...,scorek}(1)top_{k}(S)=\left\{ score _{1}, score _{2}, ..., score _{k}\right\} (1)topk?(S)={score1?,score2?,...,scorek?}(1)
其損失函數為:
Ltopk=?1N+∑i=1N+1k∑j∈topk(S+)logσ(scoreij)?Ltopk?als+?1N?∑i=1N?1k∑j∈topk(S?)log(1?σ(scoreij))?Ltopk?norm(2)\begin{aligned} L_{top_{k}}= & -\underbrace{\frac{1}{N^{+}} \sum_{i=1}^{N^{+}} \frac{1}{k} \sum_{j \in top _{k}\left(S^{+}\right)} log \sigma\left(score_{i j}\right)}_{L_{top _{k}- als }}+ \\ & \underbrace{-\frac{1}{N^{-}} \sum_{i=1}^{N^{-}} \frac{1}{k} \sum_{j \in top_{k}\left(S^{-}\right)} log \left(1-\sigma\left( score _{i j}\right)\right)}_{L_{top_{k}- norm }}(2) \end{aligned}Ltopk??=??Ltopk??als?N+1?i=1∑N+?k1?j∈topk?(S+)∑?logσ(scoreij?)??+Ltopk??norm??N?1?i=1∑N??k1?j∈topk?(S?)∑?log(1?σ(scoreij?))??(2)?
其中,S∈S+,S?S \in S^{+}, S^{-}S∈S+,S?且score1≥score2≥?≥scorekscore _{1} ≥ score _{2} ≥\cdots ≥ score _{k}score1?≥score2?≥?≥scorek?。這里,S+S^{+}S+和S?S^{-}S?分別表示從異常視頻和正常視頻中得到的分數集合,scoreiscore _{i}scorei?(i∈{1,...,k}i \in\{1, ..., k\}i∈{1,...,k})表示排名第i的片段的分數。類似地,N+N^{+}N+和N?N^{-}N?分別是異常類和正常類中視頻的數量,σ\sigmaσ是sigmoid函數。
訓練結束時,如 圖2 所示,任務編碼器能夠檢測到視頻中包含的三個異常中的兩個,為第一個和第三個異常時間窗口內的大多數片段分配了非常高的異常分數。模型對屬于第二個異常的片段信心不足,因為在訓練過程中,從未針對這些片段進行專門的監督,但模型給它們分配的異常分數仍然高于視頻中正常片段的分數。此外,異常之間的片段仍被視為部分異常。我們推測,可以利用這些情況來生成偽標簽,使模型能夠在更多信息上進行訓練,同時不超出弱監督視頻異常檢測(WSVAD)范式的數據標注范圍。借鑒文獻[50],我們提出了一種稱為時間高斯噴涂(Temporal Gaussian Splatting,TGS)的技術,該技術利用模型預測的異常分數中的峰值來精確表示異常事件發生的時間窗口。
峰值檢測:高斯核是根據模型預測的異常分數在時間軸上的局部最大值(稱為“峰值”)提取的。通過對局部最大值進行閾值處理來檢測峰值,只選擇那些相對于前兩個分數和后兩個分數超過最小顯著度閾值的峰值。每個峰值PiP_{i}Pi?的寬度WiW_{i}Wi?由min?(v1,v2)\min(v_{1}, v_{2})min(v1?,v2?)確定,其中v1v_{1}v1?是分數單調遞增的前序片段數量,v2v_{2}v2?是分數單調遞減的后序片段數量。
針對特定視頻檢測到的峰值集合P,包含了該視頻中每個峰值所對應的異常分數最高的片段位置。這可能會導致偽峰值的檢測,即視頻異常分數中出現的那些不屬于異常事件的峰值。為了緩解這一問題,可以使用標準多實例學習(MIL)訓練目標中的Ltopk?normL_{topk-norm}Ltopk?norm?組件對模型進行幾輪訓練。
這使我們能夠識別那些通常不包含在公式2所述的top-k片段中的細微異常。從檢測到的峰值中獲得的核會在異常視頻的時長范圍內進行渲染,以在時間維度上獲得對異常更準確的表征。
然后,對于與視頻異常分數中檢測到的每個峰值PiP_{i}Pi?相對應的片段,高斯核GiG_{i}Gi?被初始化為單位值。為了進一步表征異常的持續時間,如果相應峰值寬度WiW_{i}Wi?內的片段的異常分數高于峰值分數與以該峰值為中心的正態分布的標準差之間的差值,則這些片段對應的核值也被設為1:
Gi,t={1,ift=Pi,1,ifst≥sPi?σiΛt∈Wi,?t∈[1,T]0,otherwiseG_{i, t}= \begin{cases}1, & if t=P_{i}, \\ 1, & if s_{t} \geq s_{P_{i}}-\sigma_{i} \Lambda t \in W_{i}, \forall t \in[1, T] \\ 0, & otherwise \end{cases}Gi,t?=????1,1,0,?ift=Pi?,ifst?≥sPi???σi?Λt∈Wi?,?t∈[1,T]otherwise?
其中,sts_{t}st?是分配給片段t的異常分數,σi\sigma_{i}σi?是以峰值i為中心的正態分布的標準差。這使得可以分別處理每個異常,這對弱監督視頻異常檢測(WSVAD)任務很有幫助,因為不同的異常在時間維度上具有不同的特征。以這種方式計算高斯核是對top-k公式的改進,使模型能夠從整個異常事件中學習,而不僅僅是從其最異常的片段中學習。每個核通過以下方式進行噴涂:
fi(t)=Gi,t?exp(?∥t?Pi∥22σi2),?t∈[1,T](4)f_{i}(t)=G_{i, t} \cdot exp \left(-\frac{\left\| t-P_{i}\right\| ^{2}}{2 \sigma_{i}^{2}}\right), \forall t \in[1, T] (4)fi?(t)=Gi,t??exp(?2σi2?∥t?Pi?∥2?),?t∈[1,T](4)
其中,T是視頻的長度,σi\sigma_{i}σi?是在寬度WiW_{i}Wi?內以PiP_{i}Pi?為中心的峰值周圍分數的標準差。最后,通過在視頻長度上渲染K個提取的核中的每一個來生成偽標簽y^\hat{y}y^?:
y^=∥(∑i=1kfi(t))∥(5)\hat{y}=\left\| \left(\sum_{i=1}^{k} f_{i}(t)\right)\right\| \quad(5)y^?=?(i=1∑k?fi?(t))?(5)
這種偽標簽(時間高斯噴涂)的示例如圖3所示。生成的偽標簽包含視頻中每個片段0到1之間的目標異常分數,使模型能夠學習每個異常片段的嚴重程度。這相對于標準的多實例學習(MIL)訓練目標是一項重要改進,在標準MIL中,如公式2所示,只有top-k片段在訓練目標中被推向1。相反,用于訓練專家模型和混合專家模型(MoE)的時間高斯噴涂(TGS)損失函數公式為:
LTGS=Ltopk?norm+BCE(y,y^)L_{T G S}=L_{t o p k-n o r m}+B C E(y, \hat{y})LTGS?=Ltopk?norm?+BCE(y,y^?)
圖3. 從圖2所示的異常分數中提取的高斯核沿著檢測到的峰值寬度進行噴涂。這使模型能夠學習視頻中異常事件更完整的表征。
3.2. Mixture of Experts (MoE)
我們提出的混合專家(Mixture-of-Experts,MoE)架構如圖4所示,包含三個階段。第一階段是與任務無關及與任務相關的特征提取,第二階段具備類別特異性專業能力,第三階段提供一種新穎的門控機制。這種多階段框架直接應對弱監督和異常多樣性帶來的挑戰,通過豐富的表征和專用模型實現對復雜異常模式的精準檢測。
圖4. GS-MoE架構概述:首先,在特征提取階段,視頻編碼器從視頻中提取片段級特征,任務編碼器在異常檢測潛在空間中對這些特征進行優化。在第二階段,每個類別專家模型僅基于屬于其分配類別的優化特征以及正常類別的優化特征進行訓練。在最后階段,門控模型收集每個專家模型給出的分數,并將其與任務編碼器的優化特征進行比較,從而生成最終的異常分數。
第一階段:增強型時空特征提取。I3D模型與UR-DMU模型的協同作用構成了特征提取的基礎。被廣泛使用的I3D模型提供與任務無關的通用特征,能夠捕捉基本的視頻動態信息。然而,這些特征缺乏檢測復雜的空間和時間異常所需的特異性。為解決這一問題,UR-DMU[56]作為一種面向異常檢測的任務感知特征提取器發揮作用。UR-DMU最初使用標準的MIL損失[55]進行訓練,隨后利用我們提出的時間高斯噴涂(TGS)損失(公式7)進行微調,它通過利用時間一致性提取富含信息的特征。這些更豐富的特征篩選出對于區分正常事件和異常事件至關重要的運動動態信息和細粒度時間模式。盡管UR-DMU能夠粗略區分正常事件和異常事件,但它無法完全應對不同異常類型的復雜性。
第二階段:使用專家模型進行類別特異性異常檢測。為克服粗略異常檢測的局限性,我們的框架納入了多個專家模型,這些模型通過我們提出的TGS損失(公式7)進行優化,每個模型專門用于識別特定類型的異常。這種設計引入了關鍵的專業化層級,使框架能夠捕捉各個異常類別的獨特屬性。每個專家模型由一個具有四個自注意力頭的Transformer塊和一個帶有GELU激活函數的MLP[14]組成,后者將提取的特征映射到其對應類別的異常分數。這些專家模型利用豐富的UR-DMU特征,擴展了潛在異常空間的邊界。這些細粒度、專業化的專家模型使該模型能夠檢測到可能與正常事件無縫融合的細微或復雜異常,而這是通用模型無法實現的。
第三階段:通過門控模型進行協同整合。在該框架的最后階段,專家模型生成的分數被傳遞至門控模型,門控模型充當協同整合機制。這一步驟確保能充分利用各專家模型的個體優勢,形成一個可實現穩健異常檢測的統一表征。門控模型包含三個組件:(a)分數優化:將專家分數進行拼接并投射到更高維的空間中,以豐富類別特異性異常對數的表征。這種投射使門控模型能夠有效處理不同異常類別間的復雜差異。(b)雙向交叉注意力模塊:為彌合細粒度的類別特異性對數與來自任務編碼器的粗略異常對數之間的差距,門控模型融入了雙向交叉注意力機制。該模塊學習專家預測結果與粗略的異常感知特征之間的相關性和對比性,使門控模型既能利用詳細的類別特異性見解,又能利用更通用的異常感知特征。(c)最終預測:經過優化和整合的特征先通過一個Transformer塊處理,再經由一個四層的MLP(與專家模型的架構類似)處理,從而生成最終的異常分數。這一步驟確保潛在空間表征具有豐富的表達能力,能很好地捕捉各種異常模式。
4. Experiments
數據集:我們在兩個廣泛使用的弱監督視頻異常檢測(WSVAD)數據集上進行了實驗,即UCF-Crime[36]和XD-Violence[41]。我們還在最新的MSAD數據集[57]上進行了實驗。重要的是,所有數據集的訓練視頻都只標注了視頻級標簽,沒有幀級標注。
評估指標:我們遵循先前研究[28, 36, 41, 43]中確立的評估協議。為確保評估的全面性,我們采用了多種指標,例如幀級平均精度(AP)、用于XD-Violence數據集的異常平均精度((AP_{A})),以及用于UCF-Crime數據集的曲線下面積(AUC)、異常曲線下面積((AUC_{A}))。AP和AUC指標反映了方法在正常視頻和異常視頻上的穩健性。然而,(AP_{A})和(AUC_{A})能夠排除所有片段都被標記為正常的正常視頻,僅保留同時包含正常片段和異常片段的異常視頻。這對模型準確定位異常的能力提出了更有意義的挑戰。
4.1. State-of-the-art Comparison
在我們的實驗中,所提出的GS-MoE模型在多項指標上均優于現有的最先進(SoTA)方法,如表1所示。在具有挑戰性的UCF-Crime數據集上,GS-MoE的AUC達到91.58%,超過了之前表現最佳的模型VadCLIP[43]3.56%。這一顯著提升體現了我們的模型在檢測真實世界數據集中復雜視頻異常方面的有效性。此外,僅考慮在異常視頻上的性能((AUC_{A}))時,GS-MoE的得分達到83.86%,相較于排名第二的方法UR-DMU[55]的70.81%,有顯著的13.63%的提升。這一結果支持了我們研究中的一個關鍵假設:不同類型的異常需要類別特異性的精細表征才能更有效地檢測。UR-DMU的性能仍然受限,因為其基于特征幅度的優化忽略了細微線索,而強化了明顯線索。然而,我們提出的TGS損失促進了細微線索和明顯線索共同參與可分離性優化。此外,混合專家架構能夠捕捉這些類別特異性表征,從而帶來顯著的性能提升,尤其是在復雜異常上。
在XD-Violence數據集上,GS-MoE模型的AP得分為82.89%,與表現最佳的TSA[16]模型(82.89%)相當。此外,僅關注異常視頻時,GS-MoE模型的AP?得分為85.74%,優于排名第二的UR-DMU[55]模型(其AP?得分為83.94%)。由于AP指標在評估時同時考慮正常視頻和異常視頻,因此通過對大量正常視頻做出準確預測,能夠提升模型的性能表現。
因此,在AP指標上表現優異的方法在異常檢測方面可能仍然存在不足。我們提出的方法在(AP_{A})指標上優于以往的最先進方法,這進一步凸顯了其在實際場景中的實用性。在最近發布的MSAD數據集上,GS-MoE在AUC指標上超過現有基線模型高達2.74%,并在該數據集上確立了新的最先進水平。我們還報告了其他指標,以便為后續研究提供基線參考。
類別性能分析:為了更深入地分析模型在復雜異常上的表現,圖5展示了在UCF-Crime數據集上,GS-MoE與基線方法UR-DMU在不同異常類別上的性能對比。值得注意的是,在“縱火”“襲擊”“打斗”“偷竊”和“入室盜竊”等復雜類別上,模型性能顯著提升,最高達24.3%。這些性能提升證實了GS-MoE在檢測復雜視頻異常方面的優勢。圖6展示了測試集中異常視頻在GS-MoE第一階段和第三階段所獲對數幾率的t-SNE可視化圖[40]。圖6a為基線方法UR-DMU的結果,顯示出較低的可分離度。而圖6b中專家模型實現的類別分化,則體現了GS-MoE學習更優類別表征的能力。
4.2. Qualitative Results
如圖7所示,從異常分數中提取的高斯核包含了UCF-Crime數據集中視頻所存在異常事件的精確表征。核的時間激活(熱力圖)展示了該方法的能力。通過正確區分異常事件的峰值和偽峰值,模型經過訓練后能夠為相關的異常片段預測出較高的異常分數。在“Assault-010”視頻樣本中,異常分數中檢測到兩個峰值,時間高斯噴涂(TGS)發現這兩個峰值的方差都很小,導致每個峰值都形成了陡峭的正態分布。另一方面,在“Arson-011”和“Explosion-033”樣本中,時間高斯噴涂(TGS)通過讓模型估計出較大的方差,生成了更長的分布,并為異常事件產生了較長的時間窗口。
4.3. Ablation Studies
組件影響:我們進行了大量消融實驗,以評估每個組件對GS-MoE最終性能的影響,結果如表3所示。使用公式7中的TGS損失對基線模型UR-DMU進行微調后,在UCF-Crime數據集的AUC指標上性能提升了1.77%,在XD-Violence數據集的(AP_{A})指標上提升了0.48%。這些結果表明,這種新的弱監督視頻異常檢測(WSVAD)任務公式對現有方法同樣有益。類別專家模型的性能優于微調后的基線模型,在UCF-Crime數據集上提升了0.79%。值得注意的是,兩個數據集的(AP_{A})指標均有提升,UCF-Crime數據集提升了1.16%,XD-Violence數據集提升了0.76%,這進一步支持了不同類別異常應分開處理的觀點。在框架中加入門控模型帶來了最大的性能提升:在UCF-Crime數據集上,AUC提升了2.05%,(AP_{A})提升了4.46%;在XD-Violence數據集上,提升相對較小,AUC提升了0.23%,(AP_{A})提升了1.68%。
任務感知特征:為了進一步分析這一性能提升,我們分別在使用和不使用任務感知特征的情況下訓練了門控模型。實驗結果如表5所示。任務感知特征在XD-Violence數據集的(AP_{A})指標表現中似乎起到了關鍵作用。實際上,使用任務感知特征訓練的門控模型在該設置下的性能比另一種配置高出4.29%,在UCF-Crime數據集上則高出0.6%。
類別專家的影響:通過在UCF-Crime數據集上對相應類別專家進行掩蔽后得到的類別級AUC分數,來衡量專家模型對門控模型性能的影響。該實驗結果如表4所示。對專家模型進行掩蔽后,每個類別的實測AUC分數徘徊在50%左右。而當納入相關專家分數時,門控模型的預測結果得到顯著改善,性能大幅提升。
類別專家與聚類專家:在實際應用中,異常往往跨越多個類別,這使得訓練一組預定義的專業專家模型具有挑戰性。為解決這一問題,我們使用基于聚類的專家模型而非類別特異性專家模型來訓練GS-MoE。為形成數據聚類,我們計算了UCF-Crime訓練集中每個異常視頻的平均任務感知特征,并應用K-Means算法[25]對其進行分組。隨后,每個專家模型都使用來自單個聚類的視頻和正常視頻進行訓練,從而得到k個專業專家模型。這種方法使我們能夠評估模型在類別數量未定義的實際場景中的性能。結果如表6所示。在這種設置下,當將異常訓練視頻聚為7個聚類并使用7個專家模型時,GS-MoE能夠以0.56%的優勢優于當前最先進的模型;而使用更少專家模型時,其性能與其他最先進模型相當。這些結果凸顯了GS-MoE在異常事件數量未預先定義的實際應用場景中的能力。
5. Conclusion
我們提出了GS-MoE模型,旨在通過利用時間高斯噴涂(Temporal Gaussian Splatting)克服以往方法的局限性,為弱監督視頻異常檢測提供一種新穎的解決方案。具體而言,我們解決了在可分離性優化中過度依賴最異常片段這一問題。我們的框架采用混合專家架構,學習類別特異性的細粒度表征,建立粗略異常線索與細粒度線索之間的關聯,從而為每個類別學習更緊湊的表征。在具有挑戰性的數據集上,通過多種指標進行的大量實驗表明,GS-MoE模型在性能上持續優于最先進的方法,并取得了顯著的性能提升。未來,我們計劃利用大語言模型(LLMs)為異常類別提供更強的可解釋性。