論文閱讀:Dual Anchor Graph Fuzzy Clustering for Multiview Data

論文地址:Dual Anchor Graph Fuzzy Clustering for Multiview Data | IEEE Journals & Magazine | IEEE Xplore

代碼地址:https://github.com/BBKing49/DAG_FC


摘要

多視角錨圖聚類近年來成為一個重要的研究領域,催生了多個高效的方法。然而,當前的多視角錨圖聚類方法仍然面臨三個主要挑戰。

首先,現實世界數據通常表現出不確定性和較差的可辨識性,導致直接從原始數據提取的錨圖質量較低,影響聚類效果。其次,大多數現有方法假設視角之間存在公共信息,并主要利用這些信息進行聚類,從而忽略了視角特有的信息。第三,如何進一步探索和利用所學習的錨圖以提升聚類性能仍然是一個開放性問題。

為了解決這些問題,本文提出了一種新的雙錨圖模糊聚類方法。首先,提出了一種基于矩陣分解的雙錨圖學習方法,以解決前兩個問題。該方法能夠提取各個視角的高度可辨識隱藏表示,并在此基礎上分別構建公共錨圖特有錨圖。然后,為了解決第三個問題,本文提出了一種錨圖模糊聚類方法,通過協同學習機制充分利用和挖掘公共與特有錨圖。此外,構建了一種基于雙錨圖的模糊隸屬度結構保持機制,以進一步提升聚類性能。最后,引入負香農熵,自適應地調整各視角的權重。

在多個數據集上的大量實驗結果表明,該方法具有良好的聚類效果和有效性。

引言

隨著數字技術的進步,收集到的數據種類大幅增加。例如,在生物信息學領域,酶可以用序列信息和結構信息來表示;同樣,腫瘤也可以通過不同的醫學成像方式(如 CT 和 MRI 掃描)進行描述。在過去的十年里,如何構建高效的模型來處理這些多表示多源數據已成為研究的重點。多視角聚類學習是一種強大的技術來處理這些數據,并基于該技術已發展出多種有效的方法。其中,基于圖的多視角子空間聚類方法是最重要的代表之一。該方法通過學習不同視角之間的公共相似性矩陣,并利用譜聚類算法來獲得最終的聚類結果。

為了提高聚類效果,研究者們提出了不同的改進策略。例如,基于多核方法,Zhou 等人提取了不同視角之間的一致性相似性矩陣用于聚類建模;基于自表示學習,Cao 等人提取了各個視角的相似性矩陣,并引入Hilbert-Schmidt 獨立性準則來增強相似性矩陣的多樣性,最終將這些矩陣融合為一個公共相似性矩陣以進行譜聚類。此外,為了解決不完整多視角數據的問題,Xu 等人將潛在表示學習公共相似性矩陣學習統一到一個過程當中。此外,為了提取高可辨識性的公共圖,Liang 等人和 Cai 等人分別探索了不同視角之間的一致性和不一致性,并去除不一致信息,融合一致信息構建公共圖進行聚類。

然而,現有的基于圖的多視角聚類方法仍然存在計算成本較高的問題。例如,在計算相似性矩陣、執行譜聚類以及離散化譜嵌入時需要較長的計算時間。為了降低計算成本,近年來研究人員提出了多種錨圖(anchor graph)方法,其高效性使其成為研究熱點。這些方法的基本思路是:從多視角數據中選擇或學習代表性錨點實例,并基于這些錨點生成錨圖進行聚類。

目前,已有多種基于錨圖的建模框架。例如,Kang 等人提出的方法通過預訓練一組聚類中心作為錨點,并為每個視角學習錨圖,最終通過后處理將其融合為公共表示;Zhang 等人則提出了一種更具靈活性的方法,該方法學習多組錨點實例并構建多級錨圖,同時設計了一種多錨點融合機制,以高效地融合這些錨圖。此外,Wang 等人在 Kang 等人的基礎上,提出了一種新的錨點匹配機制錨圖融合框架,以進一步提升聚類性能。

盡管現有的錨圖方法取得了一定的進展,但仍然面臨以下挑戰:

  1. 直接從原始數據構建錨圖的魯棒性問題:原始數據通常包含噪聲和錯誤,直接構造的錨圖可能缺乏可辨識性,進而影響聚類效果。因此,需要設計更魯棒的錨圖學習方法

  2. 公共信息和特有信息的兼顧問題:現有方法通常僅關注公共錨圖分別構建所有視角的特有錨圖并后期融合,但多視角數據同時包含公共信息特有信息,現有方法無法同時利用這兩類信息。因此,如何同時探索公共和特有錨圖成為提升聚類性能的關鍵問題。

  3. 錨圖聚類方法的優化問題:當前方法通常直接在錨圖上執行傳統的單視角聚類方法,尚缺乏針對錨圖的更有效的聚類策略,這限制了聚類性能的進一步提升。

本文貢獻

針對上述問題,本文提出了一種雙錨圖模糊聚類方法,其核心創新點包括:

  1. 提出了一種新的多視角雙錨圖學習方法,該方法不僅統一了隱藏表示學習錨圖學習,還能夠同時挖掘公共信息和特有信息

  2. 提出了一種基于錨圖的多視角模糊聚類方法,通過構建模糊隸屬度結構保持機制引入負香農熵,充分利用雙錨圖提升聚類性能。

  3. 在多個多視角數據集上的實驗驗證了所提出方法的有效性

模型

A. 提出方法的框架

為了解決引言中提出的三個問題和挑戰,本節提出了一種新的高效聚類方法,其框架如圖 2 所示。該方法包括兩個主要步驟:第一步是基于矩陣分解的多視角雙錨點圖學習,第二步是基于雙錨點圖的協同學習模糊聚類。

在第一步中,為了確保提取的錨點圖具有良好的可區分性,首先引入矩陣分解來凈化原始數據并提取每個視角的隱藏表示。同時,為了充分挖掘多視角數據,通過專門設計的雙錨點圖學習機制,提取隱藏表示之間的公共錨點圖以及每個隱藏表示的特定錨點圖。此外,隱藏表示學習和雙錨點圖學習被整合到一個優化過程中,使這兩個部分能夠相互促進學習。

隨后,在第二步中,為了充分利用雙錨點圖,引入了一種新的基于多視角模糊聚類的方法,并通過協同學習提升聚類性能。此外,設計了一種成員結構保持機制,進一步增強聚類效果。


B. 多視角雙錨點圖學習

為了解決前面提到的如何設計更穩健的錨點圖學習方法以及如何同時挖掘多視角數據中的公共和特定信息這兩個問題,本節提出了一種雙錨點圖學習框架,并定義其優化目標函數如下:

其中:

  • 第一項 J1(Bk,Hk)通過引入矩陣分解來凈化原始多視角數據。

  • 第二項 J2(Hk,Ac,Zc,Aks,Zks)負責提取雙錨點圖。

現有的多視角錨點圖學習方法大致可分為兩類:

  1. 直接學習公共錨點實例 并構建公共錨點圖。

  2. 分別學習每個視角的錨點實例和錨點圖,然后在后處理階段將所有錨點圖融合成一個公共表示。

然而,這兩類方法都存在一個局限性:無法充分挖掘多視角數據的潛在信息。研究【17】、【18】表明,多視角數據通常同時包含跨視角共享的公共信息以及每個視角獨有的特定信息,如圖 3 所示。因此,本研究借鑒這一思想,在優化目標的第二項中創新性地同時提取公共錨點圖和特定錨點圖,以充分挖掘多視角數據。

創新性

總體而言,該方法在數據凈化、隱藏錨點圖學習和聚類劃分三個方面對多視角聚類做出了貢獻,具體如下:

首先,盡管近年來已有一些多視角錨點圖學習方法被提出,但幾乎所有現有方法都是直接從原始數據中提取錨點圖,而原始數據通常包含噪聲和錯誤。這可能會削弱學習到的錨點圖的可區分性,進而影響后續聚類任務的性能。因此,開發能夠結合表示學習以凈化原始數據并提高錨點圖質量的新型錨點圖學習方法至關重要。在本研究中,我們引入矩陣分解并將其創新性地與錨點圖學習融合,使這兩個部分能夠相互作用、共同優化。

其次,如圖 1 所示,現有方法通常采用兩種策略

  1. 分別學習每個視角的獨立錨點實例矩陣,然后構造公共錨點圖用于聚類。

  2. 直接學習一個共享的錨點實例矩陣,用于所有視角的錨點圖構建。

然而,這兩種方法的共同缺陷是:它們僅關注視角間的公共信息,而忽略了每個視角的特定信息。然而,已有研究【18】表明,在聚類過程中,公共信息與特定信息同樣重要。因此,開發一種能夠同時提取公共和特定錨點圖的多視角錨點圖學習方法至關重要。為此,我們提出了一種新機制,同時挖掘公共錨點圖和特定錨點圖,使后續聚類任務能夠充分利用雙錨點圖信息,從而提升聚類性能。實驗結果進一步驗證了該機制的有效性。

最后,現有的多視角錨點圖學習方法通常使用SVD提取公共表示,并在此基礎上采用單視角聚類方法(如 K-means)進行聚類。然而,本研究提出的方法同時提取公共和特定錨點圖。盡管可以將這些錨點圖組合后采用上述傳統方法進行聚類,但這一策略可能會忽略二者之間的一致性和互補性信息。因此,設計高效的雙錨點圖聚類方法是關鍵。考慮到模糊聚類(fuzzy clustering)在處理數據不確定性方面表現優異,并且具有較強的聚類能力【26】, 本研究基于其提出了一種新的雙錨點圖模糊聚類方法。此外,為了進一步利用雙錨點圖并提升聚類效果,我們設計了一種模糊成員結構保持機制,用于優化錨點圖的聚類表現。實驗結果進一步證明了所提出方法的有效性。

綜上所述,本研究在多視角聚類領域的多個方面做出了重要貢獻。

實驗


雙錨點圖在多視圖中主要用于同時挖掘公共信息和特定信息,提升數據的可區分性,從而提高聚類的準確性和魯棒性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/74406.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/74406.shtml
英文地址,請注明出處:http://en.pswp.cn/web/74406.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

32f4,串口1,usart.c.h2025

usart.c #include "sys.h" #include "usart.h" #include "led.h" // #include "stdlib.h" #include "stdarg.h" #include "stdio.h" //加入以下代碼,支持printf函數,而不需要選擇use MicroLIB #if 1#pragma…

C語言:一組位操作宏

解析協議時&#xff0c;取得位域的值是一種常見操作&#xff0c;這些宏可以輔助我們工作。 /* ** 將x的第n位置1 ** ** x 0x00000000 ** BIT_SET(x, 7) 0x00000080 */ #define BIT_SET(x, n) ((x) | (1 << (n)))/* ** 將x的第n位置為0 ** ** x 0x00000080 ** …

記一個使用BigDecimal所有類型變為整數的問題

場景 通過 Excel 導入數據&#xff0c;數據中包含金額。數據庫類型 decimal(18, 6) 問題 Excel 導入后所有的金額列都被四舍五入。經過測試&#xff0c;只有數據有整數時所有數據才會被四舍五入&#xff0c;全部為浮點類型沒有問題。 解決 強制設置小數位數 // RoundingM…

nodejs、socket.io、express + 實時線上聊天系統(自用筆記)

留個鏈接給自己參考用&#xff1a; socket.io官方文檔&#xff1a;介紹 | Socket.IO nodejs基礎語法&#xff1a;大前端技能講解&#xff1a;NodeJS、Npm、Es6、Webpack_nodejs webpack-CSDN博客 socket.io教學&#xff1a;半小時學會socket.io【中英字幕】Learn Socket.Io …

配置網絡編輯器

網絡斷開的原因 1.由于網絡未連接的情況 解決方法 方法1&#xff1a;檢查網卡配置 cd /etc/syscongfig/network_scripts vi ifcfg_ens31 方法2&#xff1a;打開虛擬機編輯--- 虛擬網絡編輯器 查看ip地址是否在可用的網段范圍內 修改后重啟網絡 systemctl restart netwo…

vscode代碼片段的設置與使用

在 Visual Studio Code (VS Code) 中&#xff0c;可以通過自定義**代碼片段&#xff08;Snippets&#xff09;**快速插入常用代碼模板。以下是詳細設置步驟&#xff1a; 步驟 1&#xff1a;打開代碼片段設置 按下快捷鍵 Ctrl Shift P&#xff08;Windows/Linux&#xff09;或…

基于S函數的simulink仿真

基于S函數的simulink仿真 S函數可以用計算機語言來描述動態系統。在控制系統設計中&#xff0c;S函數可以用來描述控制算法、自適應算法和模型動力學方程。 S函數中使用文本方式輸入公式和方程&#xff0c;適合復雜動態系統的數學描述&#xff0c;并且在仿真過程中可以對仿真…

做題記錄:和為K的子數組

來自leetcode 560 前言 自己只會暴力&#xff0c;這里就是記錄一下前綴和哈希表的做法&#xff0c;來自靈神的前綴和哈希表&#xff1a;從兩次遍歷到一次遍歷&#xff0c;附變形題 正文 首先&#xff0c;這道題無法使用滑動窗口&#xff0c;因為滑動窗口需要滿足單調性&am…

淺淺嘗試Numpy的函數:

1.numpy.empty: numpy.empty方法用來創建一個指定形狀&#xff08;shape&#xff09;&#xff0c;數據類型&#xff08;dtype&#xff09;且未被初始化的數組&#xff1a; numpy.empty(shape,dtype float,order C) 參數說明&#xff1a; shape:數組形狀。 dtype:數據類型&am…

IM基本設計思路與有序ID的重要性

文章目錄 概要問題解析思考問題數據基礎讀取寫入總結 概要 說起IM程序我們都不陌生&#xff0c;本篇文章我們就為如何實現一個IM做一個簡單的整體方案設計以及基本的數據結構 問題解析 我們先不上一大堆牛逼哄哄的中間件。 我們先從實現角度&#xff0c;來講講設計思路。 從…

數據結構學習

鏈表 單鏈表 頭插 將x插到下標是k的點后面 將下標是k的點后面的點刪掉 代碼 // head 表示頭結點的下標 // e[i] 表示節點i的值 // ne[i] 表示節點i的next指針是多少 // idx 存儲當前已經用到了哪個點// 初始化 void init() {head -1;idx 0; }// 將x插到頭結點 void add_to_…

0.DJI-PSDK開發準備及資料說明(基于DJI經緯M300RTK和M350RTK無人機上使用)

0.DJI-PSDK開發準備及資料說明&#xff08;基于DJI經緯M300RTK和M350RTK無人機上使用&#xff09; 【資料名稱】 DJI經緯M300RTK和M350RTK無人機二次開發資料包。資料包在最下方的百度網盤 一、引言 在進行大疆無人機負載開發的過程中&#xff0c;我整理出一系列有價值的資…

Linux內核TCP/IP協議棧中的設計模式:從面向對象到系統級軟件的跨界實踐

引言 設計模式(Design Patterns)自GoF(Gang of Four)在1994年提出以來,已成為軟件工程領域的核心概念。盡管其經典定義基于面向對象編程(OOP),但設計模式的本質是解決復雜問題的經驗總結,而非局限于特定編程范式。本文以Linux內核的TCP/IP協議棧為例,探討設計模式在…

第十四屆藍橋杯大賽軟件賽省賽C/C++ 大學 B 組(部分題解)

文章目錄 前言日期統計題意&#xff1a; 冶煉金屬題意&#xff1a; 島嶼個數題意&#xff1a; 子串簡寫題意&#xff1a; 整數刪除題意&#xff1a; 總結 前言 一年一度的&#x1f3c0;杯馬上就要開始了&#xff0c;為了取得更好的成績&#xff0c;好名字寫了下前年2023年藍橋…

處理JWT Token失效需求

JWT 本身是無狀態的&#xff0c;這意味著服務器不會保存任何關于 Token 的狀態信息。但為了支持 JWT 的狀態管理&#xff08;例如&#xff1a;強制使某些 Token 失效&#xff09;&#xff0c;可以借助 Redis 這樣的外部存儲來維護一個黑名單或白名單。 安裝必要的 NuGet 包 首…

PHP代碼審計-01

&#x1f338; 連接方式 PHP Mysql連接方式&#xff1a; Mysql&#xff08;廢棄&#xff09;MysqliPDO &#x1f338; 常見過濾 intval/addslashes/mysql_real_escape mysqli_escape_string/mysqli_real_escape_string/mysqli::escape_string PDO::quote 參數化查詢 a…

SpringKafka錯誤處理:重試機制與死信隊列

文章目錄 引言一、Spring Kafka錯誤處理基礎二、配置重試機制三、死信隊列實現四、特定異常的處理策略五、整合事務與錯誤處理總結 引言 在構建基于Kafka的消息系統時&#xff0c;錯誤處理是確保系統可靠性和穩定性的關鍵因素。即使設計再完善的系統&#xff0c;在運行過程中也…

藍橋杯2024JavaB組的一道真題的解析

文章目錄 1.問題描述2.問題描述3.思路分析4.代碼分析 1.問題描述 這個是我很久之前寫的一個題目&#xff0c;當時研究了這個題目好久&#xff0c;發布了一篇題解&#xff0c;后來很多人點贊&#xff0c;我都沒有意識到這個問題的嚴重性&#xff0c;我甚至都在懷疑自己&#xf…

性能比拼: Go標準庫 vs Python FastAPI(第二輪)

本內容是對知名性能評測博主 Anton Putra Python (FastAPI) vs Go (Golang) (Round 2) Performance Benchmark 內容的翻譯與整理, 有適當刪減, 相關指標和結論以原作為準 介紹 這是第二輪關于 FastAPI 和 Golang 的對比測試。我幾天前運行了前一次的基準測試&#xff0c;到目…

DeepSeek與ChatGPT的優勢對比:選擇合適的工具來提升工作效率

選DeepSeek還是ChatGPT&#xff1f;這就像問火鍋和披薩哪個香&#xff01; "到底該用DeepSeek還是ChatGPT?” 這個問題最近在互聯網圈吵翻天!其實這就跟選手機系統-樣&#xff0c;安卓黨iOS黨都能說出一萬條理由&#xff0c;但真正重要的是你拿它來干啥&#xff01;&am…