【論文閱讀】Anchor Graph Network for Incomplete Multiview Clustering

摘要

近年來，不完全多視圖聚類（IMVC）受到廣泛關注。然而，現有研究仍然存在以下幾個不足之處：1) 部分方法忽略了樣本對在全局結構分布中的關聯性；2) 許多方法計算成本較高，因此無法應用于大規模不完全數據的聚類任務；3) 部分方法未對二分圖結構進行優化。

為了解決上述問題，提出了一種新穎的 IMVC 錨圖網絡（Anchor Graph Network），該方法包括一個生成模型和一個相似性度量網絡。具體而言，該方法利用生成模型構建二分圖，從而挖掘樣本對的潛在全局結構分布。隨后，使用圖卷積網絡（GCN）結合構建的二分圖來學習結構化嵌入。值得注意的是，引入二分圖可以顯著降低計算復雜度，使我們的模型能夠處理大規模數據。

與以往基于二分圖的方法不同，方法利用二分圖來引導 GCN 的學習過程。此外，還在方法中引入了一種創新的自適應學習策略，以構建穩健的二分圖。大量實驗表明，與當前最先進的方法相比，我們的方法在性能上具有可比性或更優的表現。

引言

現實世界中廣泛存在多視圖數據，其中同一樣本可以通過不同的模態和視角進行描述。多視圖數據的無監督聚類是機器學習領域的重要研究內容，其目標是利用視圖間的互補信息和視圖內的樣本關聯性，將樣本劃分到不同的簇中。

在數據采集過程中，由于傳感器損壞或人為疏忽，可能導致某些視圖缺失，從而形成不完全多視圖數據。現有的多視圖聚類方法通常假設所有視圖都是完整的，因此無法直接應用于不完全數據。與傳統的多視圖聚類相比，不完全多視圖聚類（IMVC）更具挑戰性，因為缺失的數據會導致視圖間互補性和一致性的信息丟失。為了解決這一挑戰，近年來提出了越來越多的 IMVC 方法。

根據數學建模方式，現有的 IMVC 方法可分為兩大類：傳統方法和深度學習方法。傳統 IMVC 方法又可進一步分為四類：核學習方法、矩陣分解方法、圖學習方法和張量方法。

核學習方法 關注從不完整的核函數中獲取一致的表示；
矩陣分解方法 旨在將不同視圖映射到一個共享空間；
圖學習方法 通過探索樣本之間的關系，獲得一致的相似性結構或共識表示；
張量方法 則將所有視圖的圖結構堆疊為張量，并利用張量約束來優化模型，以捕獲所有視圖之間的高階連接。

這些方法的共同目標是獲取所有視圖一致同意的聚類結果。然而，大多數傳統方法難以充分挖掘高階信息，并且計算復雜度較高，難以應用于大規模數據。

考慮到深度神經網絡強大的特征提取能力，近年來提出了一系列基于深度學習的 IMVC 方法。例如，Wen 等人利用編碼器來獲得多視圖之間的一致低維表示，而 Huang 等人則利用高斯混合模型來獲取樣本的概率分布信息。盡管這些方法在實驗中表現良好，但它們通常需要構建全局相似性矩陣，導致計算復雜度隨著樣本數呈二次增長，因此難以應用于大規模數據。

為了解決這一問題，一些 IMVC 方法引入了錨點（anchor）的概念。例如，基于錨點的稀疏子空間 IMVC 方法通過對共識圖施加稀疏約束來進行優化，而 Zhao 等人提出了無約束錨點圖卷積網絡（GCN）框架，以解決高視圖缺失率情況下的錨點選擇問題。

盡管這些方法取得了一定的進展，但仍然存在以下不足：

許多 IMVC 方法僅考慮相鄰樣本之間的關系，忽略了全局結構信息的保持；
許多 IMVC 方法計算復雜度高，難以應用于大規模數據聚類任務；
部分方法過度關注樣本嵌入的學習，而忽略了對二分圖結構的優化。

本文貢獻

針對上述問題，本文提出了一種新穎的錨點圖網絡 AGIMVC（Anchor Graph Network for IMVC），該方法主要包含一個生成模型和一個基于 GCN 的相似性度量網絡。

生成模型 用于構建二分圖，以有效捕獲大規模數據的全局結構分布；
相似性度量網絡 通過將二分圖轉換為新的圖結構，以計算拉普拉斯矩陣，從而在 GCN 訓練過程中利用二分圖指導學習，捕獲跨視圖的高階關系和潛在分布；
自適應學習策略 可動態更新錨點，以構建更加穩健的二分圖結構；
加權融合層 用于減少缺失視圖對模型的負面影響。

實驗結果表明，AGIMVC 在多個數據集上取得了遠超現有方法的性能。

模型

A. 問題陳述

不完整多視角聚類（IMVC）的目標是利用所有視角中的已有信息來推測缺失視角的信息，并最終將樣本分為 c?個簇。

B. AGIMVC

如圖 2 所示，AGIMVC 主要包含五個部分：生成模型、相似度度量網絡模塊、重建層、錨點更新模塊以及融合層。

1) 生成模型

生成模型假設每個節點具有一個潛在分布，該分布反映了該節點與其他節點的連接性。基于生成模型的方法在獲取潛在空間分布方面表現較優，并且通常具有較快的收斂速度 [45]。因此，我們利用生成模型構建二分圖，從而高效地獲取全局結構信息。
與其他測度不同，Wasserstein 距離可以衡量兩個分布之間的距離，即使它們的重疊部分很少甚至沒有 [46]。因此，我們在方法中引入 Wasserstein 距離。

在相似性學習中，一個公認的假設是：如果兩個樣本相似，它們的分布在特征空間中也應當接近 [47]。為了保持錨點和樣本之間的相似關系，我們采用如下的距離度量準則：

其中，F(?)表示樣本的理想特征映射分布，aj(v) 是第 v?視角中的第 j?個錨點。

實際上，某些樣本不應該與部分錨點具有相似性，即某些樣本應當僅與其中心錨點連接。因此，構造的圖應當是稀疏的，即僅將最相關的 k?個樣本連接到錨點。在本研究中，為了避免模型崩潰，我們嘗試通過增量 δ 動態增加 k，并構造如下的二分圖 [48]：

2) 相似度度量網絡模塊

近年來，圖卷積網絡（GCN）因其在利用圖結構信息方面的優異表現而備受關注，能夠生成更好的節點嵌入 [49]。在本方法中，相似度度量網絡包含兩個共享權重的 GCN 模塊，分別用于捕捉樣本和錨點的高階結構信息。
為了通過 GCN 獲取一個有信息量的二分圖，受馬爾科夫過程 [50] 啟發，我們將每個視角的二分圖 B(v) 轉化為新圖 G(v)：

其中，Gx(v)和 Ga(v)分別表示樣本和錨點的高階相似性圖。

然后，這些圖分別輸入到 GCN，以獲得低維結構嵌入。 u 層網絡下的非線性嵌入表達式為：

其中，Zx(v)和 Za(v) 分別表示網絡學習獲得的特征映射分布。

3) 重建層

在此層中，我們基于新的特征映射分布重建二分圖，而非恢復原始特征分布。AGIMVC 計算新的分布，使用歐式距離構建新的二分圖：

4) 錨點更新模塊（Anchors Update Module）：
在深度學習中，并非所有原始特征都適用于構建錨點與樣本之間的親和圖。為了增強重要錨點的特征分布并描繪高階結構，我們的方法引入了一種創新的自適應學習策略。具體而言，在公式 (3) 的基礎上，我們采用以下公式更新錨點：

自適應錨點更新模塊的詳細過程包括兩個步驟：首先通過公式 (8) 更新錨點分布，然后利用公式 (4) 重新更新二部圖 B(v)。最終，更新后的 B(v)將用于網絡訓練。

5) 融合層（Fusion Layer）：
為了解決多視圖學習中的不完整性問題，我們引入了一個加權融合層，以減少缺失視圖對網絡訓練的負面影響：

通過公式 (9)，所有二部圖被融合為一個通用圖。最終的二部圖 B?包含了跨視圖的高階潛在相關性以及缺失視圖的結構信息。

6) 目標損失（Objective Loss）：
不同于其他采用復雜損失函數的模型，AGIMVC 采用以下簡潔的交叉熵損失進行模型訓練：

AGIMVC 的相似度度量網絡模塊通過最小化 L進行訓練。

實驗

不完全多視圖聚類很符合真實數據情況

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/74468.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/74468.shtml
英文地址，請注明出處：http://en.pswp.cn/web/74468.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！