【論文閱讀】Deep Adversarial Multi-view Clustering Network


摘要

多視圖聚類通過挖掘多個視圖之間的共同聚類結構,近年來受到了越來越多的關注。現有的大多數多視圖聚類算法使用淺層、線性嵌入函數來學習多視圖數據的公共結構。然而,這些方法無法充分利用多視圖數據的非線性特性,而這種特性對于揭示復雜的聚類結構非常重要。本文提出了一種新穎的多視圖聚類方法——深度對抗多視圖聚類(Deep Adversarial Multi-view Clustering, DAMC)網絡,用于學習嵌入在多視圖數據中的內在結構。具體而言,我們的模型采用深度自編碼器來學習由多個視圖共享的潛在表示,同時利用對抗訓練進一步捕獲數據分布并解耦潛在空間。在多個真實數據集上的實驗結果表明,該方法優于當前最先進的方法。

引言

1 引言

聚類分析是機器學習、模式識別、計算機視覺和數據挖掘等多個領域中的一項基礎任務。在這一主題上,研究人員投入了大量精力,其中多視圖聚類(multi-view clustering, MVC)[Yang and Wang, 2018] 受到了特別的關注。多視圖數據能夠為聚類任務提供互補信息,這在許多真實應用中是可以獲取的。例如,一張圖像可以由多種描述符來表征,如 SIFT [Lowe, 2004]、方向梯度直方圖(HOG)[Dalal and Triggs, 2005]、GIST [Oliva and Torralba, 2001] 和局部二值模式(LBP)[Ojala et al., 2002]。由于這些特征從不同角度描述了對象的屬性,因此它們被視為多視圖數據。近年來,多視圖聚類方法 [Zhao et al., 2017; Luo et al., 2018] 得到了快速發展,其核心在于挖掘多視圖之間共享的互補信息。在此基礎上,過去幾十年中,已經有許多先進的多視圖聚類算法被提出。

例如,[Liu et al., 2013b] 從非負矩陣分解的角度解決了這一問題,通過在多個視圖間進行非負矩陣分解來尋找公共潛在因子;一致性與特定性多視圖子空間聚類(CSMSC)[Luo et al., 2018] 則利用一個公共一致性表示和一組特定性表示來刻畫多視圖數據的自表達特性,更好地適配了真實的多視圖數據集。雖然傳統的多視圖聚類算法已取得了較好效果,但它們主要使用淺層、線性嵌入函數來揭示數據的內在結構,無法有效建模復雜數據的非線性特性。

近年來,深度聚類方法被提出,用于利用深度神經網絡建模數據樣本之間的關系,從而獲得聚類結果。在單視圖聚類方法中,DSC [Ji et al., 2017] 以堆疊自編碼器為基礎模型,利用自表達特性在潛在空間中學習數據的相似度;DAC [Chang et al., 2017] 將聚類問題轉化為二值對分類框架,推動相似的圖像對歸入同一簇;DEC [Xie et al., 2016] 通過最小化預測簇標簽分布與預定義分布之間的 KL 散度設計了一種新的聚類目標函數。另一方面,一些最新研究嘗試將深度學習引入多視圖聚類問題。例如,[Andrew et al., 2013] 提出了典型相關分析(CCA)的深度神經網絡擴展——深度 CCA,用于多視圖聚類;[Abavisani and Patel, 2018] 則使用卷積神經網絡進行無監督多模態子空間聚類。然而,利用深度神經網絡在多視圖間學習低維潛在空間的研究仍然較少。

在本文中,我們提出了一種新穎的深度對抗多視圖聚類(Deep Adversarial Multi-view Clustering, DAMC)網絡,用于學習嵌入在多視圖數據中的內在結構(見圖1)。我們的模型通過共享權重的多視圖自編碼器網絡,從原始特征有效映射到公共低維嵌入空間。與傳統算法相比,該方法能夠揭示多視圖數據的非線性特性,這對于處理復雜和高維數據至關重要。此外,我們采用對抗訓練 [Goodfellow et al., 2014] 作為正則化器來引導編碼器訓練,從而捕獲每個單視圖的數據分布,并進一步解耦公共潛在空間。在圖像和文本數據集上的實驗結果表明,該方法優于其他多視圖聚類方法。

我們的主要貢獻如下:

  • 提出一種新穎的 DAMC 網絡:不同于現有的多視圖聚類方法,所提方法能夠充分建模任意視圖之間的多層非線性相關性。

  • 針對每個視圖設計判別器網絡:能夠進一步捕獲數據分布并解耦潛在空間。

  • 設計聚類損失約束公共表示:通過最小化預測標簽分布與預定義分布之間的相對熵,實現公共表示的優化。

方法

?網絡架構

給定一個包含 VV 個視圖的數據集 χ={X1,…,Xv,…,XV},其中 Xv∈Rdv×n表示來自第 vv 個視圖的 n?個樣本(每個樣本維度為 dv),我們構建了一個 DAMC 網絡,該網絡由以下部分組成:

  • 一個全連接的多視圖去噪編碼器 EE;

  • 一個全連接的多視圖去噪生成器 GG;

  • VV 個全連接判別器;

  • 以及位于編碼器頂部的深度嵌入聚類層。

圖 1 展示了在 VV 視圖場景下的 DAMC 網絡結構。

1. 多視圖去噪編碼器 E

在多視圖去噪編碼器網絡中,每個視圖包含 M 層獨立全連接網絡N 層共享參數的全連接網絡。獨立層用于處理各視圖不同的特征維度。對于第 v?個視圖,給定 Xv={x1(v),x2(v),…,xn(v)},多視圖去噪編碼器 E 旨在學習該視圖的潛在表示 Zv={z1(v),z2(v),…,zn(v)},即將 dv?維的輸入數據 xi(v)映射到低維表示 zi(v):

其中 fv表示由參數 ΘE 定義的第 v 個視圖的編碼網絡。

2. 多視圖去噪生成器 G

多視圖去噪生成器的結構與編碼器相反,由 N 層共享參數的全連接網絡M 層每個視圖獨立的全連接網絡 組成,可根據各視圖的潛在表示生成相應的重構樣本:

{Y1,Y2,…,Yv,…,YV}=G(Zv)

其中 Yv 表示第 v個視圖的重構樣本矩陣。

3. 判別器網絡 Dv

判別器網絡由 V個全連接判別器組成,每個判別器 Dv包含 3 層全連接層,用于區分生成樣本 yi(v)和真實樣本 xi(v)。GAN 損失定義為:

訓練過程中,編碼器和生成器生成與真實數據相似的假樣本,各判別器學習區分真假樣本,二者進行對抗直至收斂。由于 GAN 本身并不能在樣本級別保證輸出的可控性,這對聚類任務是不利的,因此我們將 GAN 損失與 AE(自編碼器)損失結合,以提升重構數據的可靠性。


聚類損失(Clustering Loss)

AE 損失和 GAN 損失鼓勵生成器生成與真實樣本更相似的樣本,從而使嵌入表示盡可能保留原始特征信息。但它們無法保證編碼后的低維空間具備良好的聚類結構。為了獲得有利于聚類劃分的表示空間,我們在 DAMC 網絡中引入基于 KL 散度的聚類損失。

首先,針對每個視圖學習潛在表示:

Z1=f1(X1;θE),?Z2=f2(X2;θE),…,ZV=fV(XV;θE)

然后得到公共潛在表示:

給定初始簇中心 {μj}j=1k,根據 [Xie et al., 2016],采用 Student’s t 分布作為核函數來計算公共潛在表示點 zi 與簇中心 μj?的相似度:

其中 α為自由度(實驗中取 α=1),qij 表示樣本 i?屬于簇 j?的概率(軟分配)。

為了優化聚類結構,我們引入輔助目標分布 pij,并通過最小化 qij與 pij 之間的 KL 散度來訓練模型:

其中,pij 通過提升高置信度樣本的權重獲得:

這樣可以使同類數據在表示空間中更加集中,從而獲得更有效的公共表示。

訓練流程

  • 步驟 1:訓練多視圖去噪編碼器 E?和生成器 G,最小化 AE 損失。輸入 {x1,x2,…,xV} 得到潛在特征 {z1,z2,…,zV},再輸入生成器得到重構樣本,更新 E?和 G。然后在公共表示 Z 上運行 k-means 獲取初始簇中心 {μj}。

  • 步驟 2:聯合訓練 E、G?和判別器 D1,…,DV,優化 AE 損失與 GAN 損失之和。將生成樣本與真實樣本送入各判別器,交替更新生成網絡與判別器。

  • 步驟 3:在步驟 2 的基礎上,加入嵌入聚類層訓練整個網絡。每次迭代更新聚類中心,最終在獲得的公共表示上使用譜聚類得到最終聚類結果。

實驗


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92733.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Redis - 使用 Redis HyperLogLog 進行高效基數統計

文章目錄引言HyperLogLog 工作原理Spring Boot 集成 Redis1. 添加依賴2. 配置 Redis 連接3. Redis 配置類HyperLogLog 實戰應用1. 基礎操作服務類2. 網站日活躍用戶統計3. 性能測試與誤差分析應用場景分析適用場景不適用場景性能優化技巧與傳統方案對比結論引言 在數據分析和監…

後端開發技術教學(三) 表單提交、數據處理

上回:後端開發技術教學(二) 條件指令、循環結構、定義函數 -CSDN博客 必要資源: trae中文版下載網址: TRAE - The Real AI Engineer phpStudy 2018 : phpStudy - Windows 一鍵部署 PHP 開發環境 小皮出品 目錄 一、表單提交 1.1 get & post 1.…

Python訓練Day39

浙大疏錦行 圖像數據的格式:灰度和彩色數據模型的定義顯存占用的4種地方 模型參數梯度參數優化器參數數據批量所占顯存神經元輸出中間狀態 batchisize和訓練的關系 一、 圖像數據的介紹 圖像數據,相較于結構化數據(表格數據)他的特…

十八、MySQL-DML-數據操作-插入(增加)、更新(修改)、刪除

DML數據操作添加數據更新(修改)數據刪除數據總結代碼: -- DML:數據操作語言-- -- DML:插入數據-insert -- 1.為tb_emp表的username,name,gender 字股插入值insert into tb_emp(username,name,gender,create_time,update_time) values (Toki,小時,2,now()…

Linux 安裝 JDK 8u291 教程(jdk-8u291-linux-x64.tar.gz 解壓配置詳細步驟)?

一、準備工作 ?下載 JDK 安裝包? 去 Oracle 官網或者可信的鏡像站下載: ?jdk-8u291-linux-x64.tar.gz? (這是一個壓縮包,不是安裝程序,解壓就能用) ?jdk-8u291-linux-x64.tar.gz?下載鏈接:https://pa…

藍橋杯----鎖存器、LED、蜂鳴器、繼電器、Motor

(七)、鎖存器1、原理藍橋杯中數據傳入口都是P0,也就是數碼管段選、位選數據、LED亮滅的數據、蜂鳴器啟動或禁用的數據,外設啟動或者關閉都需要通過P0寫入數據,那么如何這樣共用一個端口會造成沖突嘛,答案是肯定的。所以藍橋杯加入…

AI熱點周報(8.3~8.9):OpenAI重返開源,Anthropic放大招,Claude4.1、GPT5相繼發布

名人說:博觀而約取,厚積而薄發。——蘇軾《稼說送張琥》 創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊) 目錄一、OpenAI的"開源回歸":時隔5年的戰略大轉彎1. GPT-OSS系列&a…

《Kubernetes部署篇:基于x86_64+aarch64架構CPU+containerd一鍵離線部署容器版K8S1.33.3高可用集群》

總結:整理不易,如果對你有幫助,可否點贊關注一下? 更多詳細內容請參考:企業級K8s集群運維實戰 一、部署背景 由于業務系統的特殊性,我們需要針對不同的客戶環境部署基于containerd容器版 K8S 1.33.3集群&a…

Linux抓包命令tcpdump詳解筆記

文章目錄一、tcpdump 是什么?二、基本語法三、常用參數說明四、抓包示例(通俗易懂)1. 抓所有數據包(默認 eth0)2. 指定接口抓包3. 抓取端口 80 的數據包(即 HTTP 請求)4. 抓取訪問某個 IP 的數據…

抖音、快手、視頻號等多平臺視頻解析下載 + 磁力嗅探下載、視頻加工(提取音頻 / 壓縮等)

跟你們說個安卓上的下載工具,還挺厲害的。它能支持好多種下載方式,具體多少種我沒細數,反正挺全乎的。? 平時用得最多的就是視頻解析,像抖音、快手、B 站上那些視頻,想存下來直接用它就行,連海外視頻的也能…

【iOS】JSONModel源碼學習

JSONModel源碼學習前言JSONModel的使用最基礎的使用轉換屬性名稱自定義錯誤模型嵌套JSONModel的繼承源碼實現initWithDictionaryinit__doesDictionaryimportDictionary優點前言 之前了解過JSONModel的一些使用方法等,但是對于底層實現并不清楚了解,今天…

SmartMediaKit 模塊化音視頻框架實戰指南:場景鏈路 + 能力矩陣全解析

?? 引言:從“內核能力”到“模塊體系”的演進 自 2015 年起,大牛直播SDK(SmartMediaKit)便致力于打造一個可深度嵌入、跨平臺兼容、模塊自由組合的實時音視頻基礎能力框架。經過多輪技術迭代與場景打磨,該 SDK 已覆…

【第5話:相機模型1】針孔相機、魚眼相機模型的介紹及其在自動駕駛中的作用及使用方法

相機模型介紹及相機模型在自動駕駛中的作用及使用方法 相機模型是計算機視覺中的核心概念,用于描述真實世界中的點如何投影到圖像平面上。在自動駕駛系統中,相機模型用于環境感知,如物體檢測和場景理解。下面我將詳細介紹針孔相機模型和魚眼相…

推薦一款優質的開源博客與內容管理系統

Halo是一款由Java Spring Boot打造的開源博客與內容管理系統(CMS),在 GitHub上擁有超過36K Start的活躍開發者社區。它使用GPL?3.0授權開源,穩定性與可維護性極高。 Halo的設計簡潔、注重性能,同時保持高度靈活性&a…

【GPT入門】第43課 使用LlamaFactory微調Llama3

【GPT入門】第43課 使用LlamaFactory微調Llama31.環境準備2. 下載基座模型3.LLaMA-Factory部署與啟動4. 重新訓練![在這里插入圖片描述](https://i-blog.csdnimg.cn/direct/e7aa869f8e2c4951a0983f0918e1b638.png)1.環境準備 采購autodl服務器,24G,GPU,型號3090&am…

計算機網絡:如何理解目的網絡不再是一個完整的分類網絡

這一理解主要源于無分類域間路由(CIDR)技術的廣泛應用,它打破了傳統的基于類的IP地址分配方式。具體可從以下方面理解: 傳統分類網絡的局限性:在早期互聯網中,IP地址被分為A、B、C等固定類別,每…

小米開源大模型 MiDashengLM-7B:不僅是“聽懂”,更能“理解”聲音

目錄 前言 一、一枚“重磅炸彈”:開源,意味著一扇大門的敞開 二、揭秘MiDashengLM-7B:它究竟“神”在哪里? 2.1 “超級耳朵” 與 “智慧大腦” 的協作 2.2 突破:從 “聽見文字” 到 “理解世界” 2.3 創新訓練&a…

mysql出現大量redolog、undolog排查以及解決方案

排查步驟 監控日志增長情況 -- 查看InnoDB狀態 SHOW ENGINE INNODB STATUS;-- 查看redo log配置和使用情況 SHOW VARIABLES LIKE innodb_log_file%; SHOW VARIABLES LIKE innodb_log_buffer_size;-- 查看undo log信息 SHOW VARIABLES LIKE innodb_undo%;檢查長時間運行的事務 -…

華為網路設備學習-28(BGP協議 三)路由策略

目錄: 一、BGP路由匯總1、注:使用network命令注入的BGP不會被自動匯總2、主類網絡號計算過程如下:3.示例 開啟BGP路由自動匯總bgp100 開啟BGP路由自動匯總import-route 直連路由 11.1.1.0 /24對端 為 10.1.12.2 AS 2004.手動配置BGP路…

微信小程序中實現表單數據實時驗證的方法

一、實時驗證的基本實現思路表單實時時驗證通過監聽表單元素的輸入事件,在用戶輸入過程中即時對數據進行校驗,并并即時反饋驗證結果,主要實現步驟包括:為每個表單字段綁定輸入事件在事件處理函數中獲取當前輸入值應用驗證規則進行…