數據挖掘 6.1 其他降維方法(不是很重要)

6.1 Other dimensionality reduction methods
6.1 其他降維方法

其他降維方法

  • 前言
    • 問題
    • 答案
  • 流形
  • 3 降維大綱
    • 3.1 線性方法
    • 3.2 非線性方法
      • 3.2.1 流形學習方法(Manifold Learning)
      • 3.2.2 概率方法(Probabilistic Approaches)
      • 3.2.3 拓撲數據分析(Topological Data Analysis)
    • 3.3 監督降維方法
  • 不相關與獨立
  • 核化PCA(Kernelized PCA)
    • PCA 與核化PCA

前言

問題

降維與相關性的哲學問題
核心問題
為什么我們實際上能夠降維?
不同事物之間的相關性從何而來?

不僅僅是 PCA
不只是 PCA,還有其他機器學習方法也依賴相關性。
如果數據完全是隨機的、沒有結構,那么所有相關性都不存在,我們就無法降維。

舉例說明
即使兩個樣本在外觀或訓練測試上差異很大,看起來非常不同,但它們可能仍然遵循同樣的潛在規則。

結論
降維方法依賴于數據中的潛在相關性。
問題在于:這種潛在相關性到底從何而來?
類似的問題:為什么一個人的身高和體重之間會有關聯?

答案

數據中存在結構
在所謂“流形”的東西上,流形本身就是一種結構。
數據不是完全隨機的,而是有某種潛在結構。

PCA 的作用
PCA 能發現這種結構,盡管它假設的是線性關系,但現實中并不總是線性的。
因此,除了 PCA,我們還需要學習其他方法來處理這種“流形結構”。

核心問題
這些相關性(數據結構、流形)從何而來?
為什么我們能通過數據去推斷出維度?

答案
因為背后有物理約束。
數據的產生過程不是完全自由或隨機的,而是受到物理規律、自然法則的限制。如果數據真的完全是隨機的,就不會呈現出任何結構,也就談不上降維或發現相關性。

流形

數據所在的結構稱為流形。
在這里插入圖片描述
如果我們有兩個不同的變量,可以將其視為線性流形。但如果這個類型的數據結構或底層表面相當復雜。比如上圖經典的瑞士卷數據集,就是一個三維度數據和變量。
數據肯定有一個結構,數據所在的結構稱為它的流形。
我們感興趣的是有關物理數據約束信息的生成過程,希望幫助我們更好的進行預測任務。所以這個流形可能并不總是線性,因為我們有不同類型的維數或流形。

3 降維大綱

在真實數據集中,許多變量可能是相關的。因此,數據集的有效維度可能比特征數目更低。所以,數據實際上存在于某個 流形(manifold) 上。

降維方法

3.1 線性方法

PCA(主成分分析)
LDA(線性判別分析)
CCA :Canonical Component Analysis 典型相關分析

3.2 非線性方法

3.2.1 流形學習方法(Manifold Learning)

目標:揭示隱藏在高維數據中的低維結構

Kernel PCA(核主成分分析)
MDS(多維尺度分析)
LLE(局部線性嵌入)
t-SNE

3.2.2 概率方法(Probabilistic Approaches)

ICA(獨立成分分析)

3.2.3 拓撲數據分析(Topological Data Analysis)

目標:保持數據的拓撲結構

方法:UMAP

3.3 監督降維方法

結合監督學習的降維技術

不相關與獨立

在這里插入圖片描述
第二列相關性為0,但它們依然具有物理關系。

核化PCA(Kernelized PCA)

在下圖的情況中,在上面應用PCA,不會能找到最大方差的任何方向,因為所有方向都差不多。
在這里插入圖片描述
如何找到流形在哪里?
通過觀察,我們知道,如果我們能夠找到一個圓形曲線而不是直線,將會是流形。
我們可以講數據投影到該圓弧上,實現縮小。
在這里插入圖片描述

PCA 與核化PCA

區別在于把 協方差矩陣 CCC 換成了核函數 f(x)f(x)f(x)

PCA(主成分分析)
假設數據結構是 線性 的,通過協方差矩陣分解找到最大方差方向。
協方差矩陣:
C=1N∑i=1N(xi?xˉ)(xi?xˉ)TC = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})(x_i - \bar{x})^T C=N1?i=1N?(xi??xˉ)(xi??xˉ)T
優化目標:
max?wwTCwsubjectwTw=1\max_w \ w^T C w \\ subject \quad w^T w = 1 wmax??wTCwsubjectwTw=1

核化PCA(Kernel PCA)
使用核函數將數據隱式映射到高維特征空間,在高維空間中做線性PCA,從而實現 非線性降維

核矩陣:
Kij=k(xi,xj)K_{ij} = k(x_i, x_j) Kij?=k(xi?,xj?)

優化目標:
max?ααTKαsubjectαTα=1\max_\alpha \ \alpha^T K \alpha \\ subject \quad \alpha^T \alpha = 1 αmax??αTKαsubjectαTα=1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94462.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94462.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94462.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Unity中的特殊文件夾

一.工程路徑獲取print(Application.dataPath);只用于游戲開發編輯器模式下,游戲發布后此路徑就不存在了二.Resources 資源文件夾//路徑獲取: //一般不獲取 //只能使用Resources相關API進行加載 //如果硬要獲取 可以用工程路徑拼接print(Application.dataPath "…

Seaborn數據可視化實戰:Seaborn高級使用與性能優化教程

Seaborn最佳實踐與技巧 學習目標 本課程將深入探討Seaborn庫的高級使用技巧,包括性能優化、常見問題解決方法等,旨在幫助學員掌握如何高效地使用Seaborn進行數據可視化,提升圖表的美觀度和信息傳達效率。 相關知識點 Seaborn最佳實踐與技巧 學…

分布式系統與單機系統的優劣勢對比

近期有遇到一個本地部署的需求,他們希望用主備方案,這就涉及到了備用系統怎么收費的問題。我們是單機系統,其他友商是分布式系統,那20坐席的手撥需求到底是選單機系統好,還是選分布式系統好呢?了解了兩者的…

深度學習:從手寫數字識別案例認識pytorch框架

目錄 一、PyTorch 核心優勢與框架定位 二、實戰基礎:核心庫與數據準備 1. 關鍵庫導入與功能說明 2. MNIST 數據集加載與可視化 (1)數據集下載與封裝 (2)數據集可視化(可選) 3. DataLoade…

二分|組合|旋轉數組

lc1976dijk min_pathpq. min_wlcr187同lc1823.約瑟夫環class Solution { public:int iceBreakingGame(int num, int target) {int x0;for(int i2;i<num;i){x(xtarget)%i;} return x;} };lc2972計算數組中可移除的子數組數量先找最長遞增前綴&#xff0c;再結合遞增后綴…

【C語言16天強化訓練】從基礎入門到進階:Day 10

&#x1f525;個人主頁&#xff1a;艾莉絲努力練劍 ?專欄傳送門&#xff1a;《C語言》、《數據結構與算法》、C語言刷題12天IO強訓、LeetCode代碼強化刷題、洛谷刷題、C/C基礎知識知識強化補充、C/C干貨分享&學習過程記錄 &#x1f349;學習方向&#xff1a;C/C方向學習者…

云計算與云原生技術探索

&#x1f31f; Hello&#xff0c;我是蔣星熠Jaxonic&#xff01; &#x1f308; 在浩瀚無垠的技術宇宙中&#xff0c;我是一名執著的星際旅人&#xff0c;用代碼繪制探索的軌跡。 &#x1f680; 每一個算法都是我點燃的推進器&#xff0c;每一行代碼都是我航行的星圖。 &#x…

STM32之ADC詳解

一、ADC概述 ADC&#xff08;模擬量轉數字量轉換器&#xff09;&#xff0c;在 STM32 開發中&#xff0c;利用 ADC 端口的電壓數據&#xff0c;轉換為對應的具體數字量數據內容。可通過 ADC 方式獲取常用數據內容有&#xff1a; 光敏電阻、電池電量、油箱油量 ADC 轉換…

深入理解計算機網絡:從基礎到應用的全面解析

標題&#xff1a;深入理解計算機網絡&#xff1a;從基礎到應用的全面解析 引言 計算機網絡已經滲透到我們生活的方方面面。從家庭Wi-Fi到全球互聯網&#xff0c;我們每天都在通過各種設備進行數據交換。本文將帶領你走進計算機網絡的世界&#xff0c;深入探討網絡的基礎知識、常…

以結構/序列/功能之間的關系重新定義蛋白質語言模型的分類:李明辰博士詳解蛋白質語言模型

上海交通大學第三屆「AI for Bioengineering 暑期學校」于 2025 年 8 月 8—10 日正式開啟。本次暑期學校匯聚了自全球 70 余所高校、 10 余所科研機構及 10 余家行業領軍企業的 200 余位青年才俊、科研學者和產業代表&#xff0c;共同聚焦于人工智能&#xff08;AI&#xff09…

【大語言模型 15】因果掩碼與注意力掩碼實現:深度學習中的信息流控制藝術

【大語言模型 15】因果掩碼與注意力掩碼實現&#xff1a;深度學習中的信息流控制藝術 關鍵詞&#xff1a;因果掩碼、注意力掩碼、下三角掩碼、Padding掩碼、序列建模、GPT解碼器、BERT編碼器、批量處理優化、自回歸語言模型、信息流控制 摘要&#xff1a;在Transformer架構中&a…

大型電動化工程機械設備智能施工試驗場的網絡設計方案

隨著工程機械設備逐步邁向智能化、電動化和無人化&#xff0c;傳統施工試驗場已經難以滿足現代化施工設備的研發、測試和驗證需求。為了適應這一趨勢&#xff0c;建設一個基于高性能網絡架構的大型智能施工試驗場成為關鍵。本文將從網絡架構、設備選型和功能實現等方面&#xf…

SPMI總線協議(一)

1、簡單說明 系統電源管理接口( System Power Management Interface簡稱SPMI)是一種雙線串行接口,用于連接片上系統(SoC)處理器系統的集成電源控制器(PC)與一個或多個電源管理集成電路(PMIC)電壓調節系統。SPMI 使系統能夠使用單個 SPMI 總線動態調整 SoC 內部電壓域的…

數據存儲的思考——從RocketMQ和Mysql的架構入手

數據存儲是后臺服務系統永遠繞不開的知識 筆者希望能夠從宏觀的角度出發&#xff0c;思考數據存儲系統的共性和設計方案&#xff0c;嘗試從Mysql和RocketMQ的角度去思考談談系統存儲架構的設計哲學 前置的知識 什么是RocketMQ、什么是Mysql&#xff0c;他們對于后端系統的主用…

MySQL 面試題系列(二)

目錄1: SQL 中常見的 JOIN 類型有哪些&#xff1f;請分別說明其連接邏輯和適用場景。2: UNION 和 UNION ALL 有什么區別&#xff1f;它們各自的適用場景是什么&#xff1f;3: 什么是視圖 (View)&#xff1f;它的作用和優缺點是什么&#xff1f;4: 什么是索引 (Index)&#xff1…

PostgreSQL診斷系列(2/6):鎖問題排查全攻略——揪出“阻塞元兇”

&#x1f517; 接上一篇《PostgreSQL全方位體檢指南》&#xff0c;今天我們深入數據庫的“神經系統”——鎖機制&#xff0c;解決最令人頭疼的“卡頓”問題。 你是否經歷過&#xff1a; 某個SQL執行著就不動了&#xff1f;應用界面卡在“加載中”&#xff1f;UPDATE 語句遲遲不…

crc16是什么算法

核心概念?CRC16? 是一種循環冗余校驗算法&#xff0c;屬于哈希函數的一種。它的核心目的是檢測數據的錯誤&#xff0c;通常用于數字網絡和存儲設備中&#xff0c;來驗證數據在傳輸或存儲后是否依然完整、無誤。你可以把它想象成一個數據的“指紋”或“摘要”。發送方計算出一…

Day8--HOT100--160. 相交鏈表,206. 反轉鏈表,234. 回文鏈表,876. 鏈表的中間結點

Day8–HOT100–160. 相交鏈表&#xff0c;206. 反轉鏈表&#xff0c;234. 回文鏈表&#xff0c;876. 鏈表的中間結點 每日刷題系列。今天的題目是力扣HOT100題單。 鏈表題目。 160. 相交鏈表 思路【我】&#xff1a; 1&#xff0c;計算鏈表長度 2&#xff0c;令A為較短鏈&am…

Rust面試題及詳細答案120道(58-65)-- 集合類型

《前后端面試題》專欄集合了前后端各個知識模塊的面試題&#xff0c;包括html&#xff0c;javascript&#xff0c;css&#xff0c;vue&#xff0c;react&#xff0c;java&#xff0c;Openlayers&#xff0c;leaflet&#xff0c;cesium&#xff0c;mapboxGL&#xff0c;threejs&…

Horse3D游戲引擎研發筆記(八):在QtOpenGL環境下,按需加載彩虹四邊形的頂點屬性 (Unity、Unreal Engine、Three.js與Godot)

在上一篇博客中&#xff0c;我們探討了如何在QtOpenGL環境下使用改進的Uniform變量管理方式繪制多彩四邊形。本文將延續這一主題&#xff0c;深入探討如何在QtOpenGL環境下按需加載彩虹四邊形的頂點屬性。這一功能是Horse3D引擎渲染系統的重要組成部分&#xff0c;旨在實現靈活…