【論文閱讀】Anchor Graph Network for Incomplete Multiview Clustering


摘要

近年來,不完全多視圖聚類(IMVC)受到廣泛關注。然而,現有研究仍然存在以下幾個不足之處:1) 部分方法忽略了樣本對在全局結構分布中的關聯性;2) 許多方法計算成本較高,因此無法應用于大規模不完全數據的聚類任務;3) 部分方法未對二分圖結構進行優化。

為了解決上述問題,提出了一種新穎的 IMVC 錨圖網絡(Anchor Graph Network),該方法包括一個生成模型和一個相似性度量網絡。具體而言,該方法利用生成模型構建二分圖,從而挖掘樣本對的潛在全局結構分布。隨后,使用圖卷積網絡(GCN)結合構建的二分圖來學習結構化嵌入。值得注意的是,引入二分圖可以顯著降低計算復雜度,使我們的模型能夠處理大規模數據。

與以往基于二分圖的方法不同,方法利用二分圖來引導 GCN 的學習過程。此外,還在方法中引入了一種創新的自適應學習策略,以構建穩健的二分圖。大量實驗表明,與當前最先進的方法相比,我們的方法在性能上具有可比性或更優的表現。

引言

現實世界中廣泛存在多視圖數據,其中同一樣本可以通過不同的模態和視角進行描述。多視圖數據的無監督聚類是機器學習領域的重要研究內容,其目標是利用視圖間的互補信息和視圖內的樣本關聯性,將樣本劃分到不同的簇中。

在數據采集過程中,由于傳感器損壞或人為疏忽,可能導致某些視圖缺失,從而形成不完全多視圖數據。現有的多視圖聚類方法通常假設所有視圖都是完整的,因此無法直接應用于不完全數據。與傳統的多視圖聚類相比,不完全多視圖聚類(IMVC)更具挑戰性,因為缺失的數據會導致視圖間互補性和一致性的信息丟失。為了解決這一挑戰,近年來提出了越來越多的 IMVC 方法。

根據數學建模方式,現有的 IMVC 方法可分為兩大類:傳統方法和深度學習方法。傳統 IMVC 方法又可進一步分為四類:核學習方法、矩陣分解方法、圖學習方法和張量方法。

  • 核學習方法 關注從不完整的核函數中獲取一致的表示;

  • 矩陣分解方法 旨在將不同視圖映射到一個共享空間;

  • 圖學習方法 通過探索樣本之間的關系,獲得一致的相似性結構或共識表示;

  • 張量方法 則將所有視圖的圖結構堆疊為張量,并利用張量約束來優化模型,以捕獲所有視圖之間的高階連接。

這些方法的共同目標是獲取所有視圖一致同意的聚類結果。然而,大多數傳統方法難以充分挖掘高階信息,并且計算復雜度較高,難以應用于大規模數據。

考慮到深度神經網絡強大的特征提取能力,近年來提出了一系列基于深度學習的 IMVC 方法。例如,Wen 等人利用編碼器來獲得多視圖之間的一致低維表示,而 Huang 等人則利用高斯混合模型來獲取樣本的概率分布信息。盡管這些方法在實驗中表現良好,但它們通常需要構建全局相似性矩陣,導致計算復雜度隨著樣本數呈二次增長,因此難以應用于大規模數據。

為了解決這一問題,一些 IMVC 方法引入了錨點(anchor)的概念。例如,基于錨點的稀疏子空間 IMVC 方法通過對共識圖施加稀疏約束來進行優化,而 Zhao 等人提出了無約束錨點圖卷積網絡(GCN)框架,以解決高視圖缺失率情況下的錨點選擇問題。

盡管這些方法取得了一定的進展,但仍然存在以下不足:

  1. 許多 IMVC 方法僅考慮相鄰樣本之間的關系,忽略了全局結構信息的保持;

  2. 許多 IMVC 方法計算復雜度高,難以應用于大規模數據聚類任務;

  3. 部分方法過度關注樣本嵌入的學習,而忽略了對二分圖結構的優化。

本文貢獻

針對上述問題,本文提出了一種新穎的錨點圖網絡 AGIMVC(Anchor Graph Network for IMVC),該方法主要包含一個生成模型和一個基于 GCN 的相似性度量網絡。

  • 生成模型 用于構建二分圖,以有效捕獲大規模數據的全局結構分布;

  • 相似性度量網絡 通過將二分圖轉換為新的圖結構,以計算拉普拉斯矩陣,從而在 GCN 訓練過程中利用二分圖指導學習,捕獲跨視圖的高階關系和潛在分布;

  • 自適應學習策略 可動態更新錨點,以構建更加穩健的二分圖結構;

  • 加權融合層 用于減少缺失視圖對模型的負面影響。

實驗結果表明,AGIMVC 在多個數據集上取得了遠超現有方法的性能。

模型

A. 問題陳述


不完整多視角聚類(IMVC)的目標是利用所有視角中的已有信息來推測缺失視角的信息,并最終將樣本分為 c?個簇。

B. AGIMVC

如圖 2 所示,AGIMVC 主要包含五個部分:生成模型、相似度度量網絡模塊、重建層、錨點更新模塊以及融合層。

1) 生成模型

生成模型假設每個節點具有一個潛在分布,該分布反映了該節點與其他節點的連接性。基于生成模型的方法在獲取潛在空間分布方面表現較優,并且通常具有較快的收斂速度 [45]。因此,我們利用生成模型構建二分圖,從而高效地獲取全局結構信息。
與其他測度不同,Wasserstein 距離可以衡量兩個分布之間的距離,即使它們的重疊部分很少甚至沒有 [46]。因此,我們在方法中引入 Wasserstein 距離。

在相似性學習中,一個公認的假設是:如果兩個樣本相似,它們的分布在特征空間中也應當接近 [47]。為了保持錨點和樣本之間的相似關系,我們采用如下的距離度量準則:

其中,F(?)表示樣本的理想特征映射分布,aj(v) 是第 v?視角中的第 j?個錨點。

實際上,某些樣本不應該與部分錨點具有相似性,即某些樣本應當僅與其中心錨點連接。因此,構造的圖應當是稀疏的,即僅將最相關的 k?個樣本連接到錨點。在本研究中,為了避免模型崩潰,我們嘗試通過增量 δ 動態增加 k,并構造如下的二分圖 [48]:

2) 相似度度量網絡模塊

近年來,圖卷積網絡(GCN)因其在利用圖結構信息方面的優異表現而備受關注,能夠生成更好的節點嵌入 [49]。在本方法中,相似度度量網絡包含兩個共享權重的 GCN 模塊,分別用于捕捉樣本和錨點的高階結構信息。
為了通過 GCN 獲取一個有信息量的二分圖,受馬爾科夫過程 [50] 啟發,我們將每個視角的二分圖 B(v) 轉化為新圖 G(v):

其中,Gx(v)和 Ga(v)分別表示樣本和錨點的高階相似性圖。

然后,這些圖分別輸入到 GCN,以獲得低維結構嵌入。 u 層網絡下的非線性嵌入表達式為:

其中,Zx(v)和 Za(v) 分別表示網絡學習獲得的特征映射分布。

3) 重建層

在此層中,我們基于新的特征映射分布重建二分圖,而非恢復原始特征分布。AGIMVC 計算新的分布,使用歐式距離構建新的二分圖:

4) 錨點更新模塊(Anchors Update Module)
在深度學習中,并非所有原始特征都適用于構建錨點與樣本之間的親和圖。為了增強重要錨點的特征分布并描繪高階結構,我們的方法引入了一種創新的自適應學習策略。具體而言,在公式 (3) 的基礎上,我們采用以下公式更新錨點:

自適應錨點更新模塊的詳細過程包括兩個步驟:首先通過公式 (8) 更新錨點分布,然后利用公式 (4) 重新更新二部圖 B(v)。最終,更新后的 B(v)將用于網絡訓練。

5) 融合層(Fusion Layer)
為了解決多視圖學習中的不完整性問題,我們引入了一個加權融合層,以減少缺失視圖對網絡訓練的負面影響:

通過公式 (9),所有二部圖被融合為一個通用圖。最終的二部圖 B?包含了跨視圖的高階潛在相關性以及缺失視圖的結構信息。

6) 目標損失(Objective Loss)
不同于其他采用復雜損失函數的模型,AGIMVC 采用以下簡潔的交叉熵損失進行模型訓練:

AGIMVC 的相似度度量網絡模塊通過最小化 L進行訓練。

實驗


不完全多視圖聚類很符合真實數據情況

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/74468.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/74468.shtml
英文地址,請注明出處:http://en.pswp.cn/web/74468.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

15. 遠程服務器運行jemter的GUI方式

1. 問題 在 linux 服務器或遠程服務器上,安裝 Jmeter,打不開 Jmeter 的 GUI 界面。 環境: linux 服務器mac 電腦 需求:在遠程服務器中,啟動 jmeter(./bin/jmeter &)后,在 ma…

Ansible:playbook的高級用法

文章目錄 1. handlers與notify2. tags組件3. playbook中使用變量3.1使用 setup 模塊中變量3.2在playbook 命令行中定義變量3.3在playbook文件中定義變量3.4使用變量文件3.5主機清單文件中定義變量主機變量組(公共)變量 1. handlers與notify Handlers&am…

什么是msvcp140.dll?msvcp140.dll丟失的解決方法又有哪些?

msvcp140.dll 是 Microsoft Visual C Redistributable 的核心動態鏈接庫文件,許多軟件和游戲依賴它來運行。當系統提示“msvcp140.dll丟失”時,意味著該文件無法被正確加載,導致程序崩潰或無法啟動。本文將提供最全面的 msvcp140.dll丟失的解…

(九)圖形管線

一圖說明問題 頂點數據->頂點著色器->細分著色器->幾何著色器->光柵化->片元著色器->顏色混合 創建圖形管線函數放在后面位置 void MyApplication::initVulkan() { createInstance(); createSurface(); pickPhysicalDevice(); createLogicalDevice(); cre…

《inZOI(云族裔)》50+MOD整合包

載具 RebelCore - 年齡和時間 mod啟動器 優化補丁 去除霧氣 坦克模型 菜單 前置 跳過啟動 更好性能 等 共計50MOD整合 在游戲的世界里,追求更豐富、更優質的體驗是玩家們永恒的主題。RebelCore 這款游戲通過精心打造的 50MOD 整合,為玩家帶來了前所未有的…

國家天文臺攜手阿里云,發布國際首個太陽大模型“金烏”

2025年4月1日,中國科學院國家天文臺與阿里云共同宣布推出全球首個太陽物理大模型“金烏”,在太陽活動預測領域實現顛覆性突破——其針對破壞性最強的M5級太陽耀斑預報準確率高達91%,遠超傳統數值模型,標志著人類對太陽的認知邁入“…

U盤實現——BOT 常用命令

文章目錄 U盤實現——BOT 常用命令命令格式CBWCSW數據傳輸條件命令傳輸數據傳輸狀態傳輸命令匯總INQUIRY Command:12h數據格式抓包READ FORMAT CAPACITIES Command: 23h數據格式抓包READ CAPACITY Command: 25h數據格式抓包TEST UNIT READY Command: 00h數據格式抓包WRITE(10) …

【Axure元件分享】月份范圍選擇器

Axure月份范圍選擇器是一個月份范圍下拉篩選元件,支持月份范圍定義選擇。組件自動加載系統當前年月份作為默認值,用戶可通過箭頭圖標或鍵盤快捷鍵快速切換年份月份,其樣式支持高度定制,包括顏色主題、字體尺寸及交互反饋&#xff…

JavaScript基礎-移動端常用開發框架

隨著移動互聯網的發展,越來越多的應用和服務需要支持移動設備。為了提高開發效率和用戶體驗,開發者們依賴于一些成熟的JavaScript框架來構建響應迅速、功能豐富的移動Web應用。本文將介紹幾款廣泛使用的移動端開發框架,并通過具體的示例展示它…

數字人訓練數據修正和查看 不需要GPU也能運行的DH_live-加載自己訓練-

自己訓練模pth報錯 le "D:\ai\dh_live\app.py", line 42, in demo_mini interface_mini(asset_path, wav_path, output_video_name) File "D:\ai\dh_live\demo_mini.py", line 21, in interface_mini renderModel_mini.loadModel("checkpoi…

基姆拉爾森計算公式

基姆拉爾森計算公式(Zellers Congruence 的變體)是一種快速根據公歷日期計算星期幾的數學公式。其核心思想是通過對年月日的數值進行特定變換和取模運算,直接得到星期幾的結果。 公式定義 對于日期 年-月-日,公式如下&#xff1a…

數字孿生在智慧城市中的前端呈現與 UI 設計思路

一、數字孿生技術在智慧城市中的應用與前端呈現 數字孿生技術通過創建城市的虛擬副本,實現了對城市運行狀態的實時監控、分析與預測。在智慧城市中,數字孿生技術的應用包括交通流量監測、環境質量分析、基礎設施管理等。其前端呈現主要依賴于Web3D技術、…

基于CNN-LSTM的深度Q網絡(Deep Q-Network,DQN)求解移動機器人路徑規劃,MATLAB代碼

一、深度Q網絡(Deep Q-Network,DQN)介紹 1、背景與動機 深度Q網絡(DQN)是深度強化學習領域的里程碑算法,由DeepMind于2013年提出。它首次在 Atari 2600 游戲上實現了超越人類的表現,解決了傳統…

結構型設計模式。持續更新

結構型 - 外觀 提供了一個統一的接口,用來訪問子系統中的一群接口,從而讓子系統更容易使用。 public class SubSystem {public void turnOnTV() {System.out.println("turnOnTV()");}public void setCD(String cd) {System.out.println(&quo…

從零構建大語言模型全棧開發指南:第五部分:行業應用與前沿探索-5.1.2行業落地挑戰:算力成本與數據隱私解決方案

?? 點擊關注不迷路 ?? 點擊關注不迷路 ?? 點擊關注不迷路 文章大綱 從零構建大語言模型全棧開發指南-第五部分:行業應用與前沿探索5.1.2 行業落地挑戰:算力成本與數據隱私解決方案1. 算力成本挑戰與優化策略1.1 算力成本的核心問題1.2 算力優化技術方案2. 數據隱私挑戰…

量子計算與人工智能融合的未來趨勢

最近研學過程中發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊鏈接跳轉到網站人工智能及編程語言學習教程。讀者們可以通過里面的文章詳細了解一下人工智能及其編程等教程和學習方法。 在當今科技飛速發展…

六種光耦綜合對比——《器件手冊--光耦》

目錄 十二、光耦 簡述 基本結構 工作原理 主要特點 應用領域 優勢與局限性 選擇光耦時需要考慮的因素 詳盡闡述 1 柵極驅動光耦 基本結構 工作原理 主要特點 應用領域 選擇柵極驅動光耦時需要考慮的因素 典型產品示例 總結 2 邏輯輸出光耦 基本結構 工作原理 主要特點 應用…

【藍橋杯嵌入式——學習筆記一】2016年第七屆省賽真題重難點解析記錄,閉坑指南(文末附完整代碼)

在讀題過程中發現本次使用的是串口2,需要配置串口2。 但在查看產品手冊時發現PA14同時也是SWCLK。 所以在使用串口2時需要拔下跳線帽去連接CH340。 可能是用到串口2的緣故,在燒錄時發現報了一個錯誤。這時我們要想燒錄得按著復位鍵去點擊燒錄&#xff0c…

三、GPIO

一、GPIO簡介 GPIO(General Purpose Input Output)通用輸入輸出口GPIO引腳電平:0V(低電平)~3.3V(高電平),部分引腳可容忍5V 容忍5V,即部分引腳輸入5V的電壓,…

Java實戰報錯

哪錯了 Preview 在這段Java代碼中,map.put("Cc", 20); 這一行的鍵 "Cc" 被標記為錯誤。這可能是由于以下幾種原因: 鍵值類型不匹配:雖然在你的代碼中沒有顯示出來,但確保 HashMap 的鍵是 String 類型&#xf…