20250412 機器學習ML -(3)數據降維(scikitlearn)

1. 背景

數學小白一枚,看推理過程需要很多時間。好在有大神們源碼和DS幫忙,教程里的推理過程才能勉強拼湊一二。

* 留意: 推導過程中X都是向量組表達: shape(feature, sample_n); 和numpy中的默認矩陣正好相反。

2. PCA / KPCA

PCAKPCA(Linear Kernel)

詳細推理基本過程找教程。(詳細步驟我也推不出來,數學太菜)

大概過程:

1. 求最小|X-XWWt|^2 時的W

2. 通過trace的性質,等價于求trace(AtA)

3. 最后推導出:需要最大化XXtW=lambdaW,又要降低維度;

所以計算比例lamda中由大到小排序,保留滿足一定閾值的前n個特征值和對應的特征向量(就是W)。

輸出:

降維Xd= X@Wd

代碼很簡單.

詳細推理基本過程找教程。(詳細步驟我也推不出來,數學太菜)

大概過程:

1. 巧妙的設了一個A=XW/sqrt(lambda), K=XtX

2. 通過推導KA=lamdaA,W=XtA/sqrt(lamda)

* 大模型解釋的A為什么要這么設

輸出:

降維Xd= X@Wd = lambda * sqrt(lamda)?

代碼相對復雜一些。運行的結果和PCA一樣的。

PCA

import numpy as np
from sklearn.datasets import load_digits, load_iris
from sklearn.decomposition import KernelPCA#global round float to scale 2
np.set_printoptions(precision=2, suppress=True)X, _ = load_iris(return_X_y=True)X=X[:5]
print(X)#========================================================
#PCA
# 1. W= XtX's eigVec (responding to max eigVal)
# 2. X_rec=X@W@W.T
#========================================================
eVals, eVecs=np.linalg.eig(X.T@X)
print(np.allclose(X.T@X, eVecs@np.diag(eVals)@eVecs.T))
print('val',eVals)
print('val',eVals[:2])
print('vec',eVecs)
print('vec',eVecs[:2])W=eVecs.T[:2].Tprint("W",W)
X_rec=X@W@W.T
print(X_rec)
print(X)
print(np.linalg.norm(X - X_rec))
print(np.var(X - X_rec))

KPCA

import numpy as np
from sklearn.datasets import load_digits, load_iris
from sklearn.decomposition import KernelPCA#global round float to scale 2
np.set_printoptions(precision=2, suppress=True)X, _ = load_iris(return_X_y=True)# X=X[:5]
# XMean=np.mean(X)
# X=X-XMean
print(X)#========================================================
# KPCA
# set:                       A= XW/sqrt(lambda)
# based on PCA's conclusion: XtXW=lambda W                      //由于W有約束, WtW=1 單位正交向量組
# >>>                        W=XtXW/lambda = XtA/sqrt(lambda)   //WtW == 1 == AtXXtA/lambda = AtKA/lambda = At lambda A/lambda = lambda/lambda AtA = 1
# >>>                   同時:XXtXW=lambda XW >>> KA*sqrt(lambda) = lambda A*sqrt(lambda) >>> KA = lambda A  //設A時XW/n(任意值),這個公式都成立;但按上面的設定,可以保證W單位正交。
#
# 1. W = XtA/sqrt(lambda) (A is eigVec of X@X.T)
# 2. X_rec=X@W@W.T
#========================================================
# create a callable kernel PCA object
# transformer = KernelPCA(n_components=2, kernel='linear')
# X_transformed = transformer.fit_transform(X)
eVals, eVecs=np.linalg.eig(X@X.T)
print(np.allclose(X@X.T, eVecs@np.diag(eVals)@eVecs.T))print('val',eVals)
print('val',eVals[:2])
print('vec',eVecs)
print('vec',eVecs[:2])# W = XtA/sqrt(lambda)
W=X.T@eVecs.T[:2].T@np.linalg.pinv(np.sqrt(np.diag(eVals[:2])))# X_hat = XW = XXtA/sqrt(lambda)= KA/sqrt(lambda) = lambda A/sqrt(lambda) = A*sqrt(lambda)
# 這就是源碼中直接用 A*sqrt(lambda) 返回X_transformed的原因:
#<code>
# no need to use the kernel to transform X, use shortcut expression
# X_transformed = self.eigenvectors_ * np.sqrt(self.eigenvalues_)
#</code># print(X_transformed.shape)
# print(X_transformed)
#
# W=X.T@transformer.eigenvectors_
# print(transformer.eigenvectors_.shape)
# print(transformer.eigenvectors_)print("W",W)
X_rec=X@W@W.T
print(X_rec)
print(X)
print(np.linalg.norm(X - X_rec))
print(np.var(X - X_rec))

參考:

《Python機器學習》

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/79112.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/79112.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/79112.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

宿舍管理系統(servlet+jsp)

宿舍管理系統(servletjsp) 宿舍管理系統是一個用于管理學生宿舍信息的平臺&#xff0c;支持超級管理員、教師端和學生端三種用戶角色登錄。系統功能包括宿舍管理員管理、學生管理、宿舍樓管理、缺勤記錄、添加宿舍房間、心理咨詢留言板、修改密碼和退出系統等模塊。宿舍管理員…

現代測試自動化框架教程:Behave接口測試與Airtest移動端UI自動化

前言 我發現每天還是陸陸續續有人在看我之前寫的自動化框架搭建的文檔&#xff1b;即使很早就有新的框架&#xff0c;更好的選擇出來了&#xff1b;所以特別寫了這一篇目前大廠也在使用的&#xff1b;日活400w有實際落地的自動化測試架構方案&#xff1b; 隨著測試技術…

.NET Core DI(依賴注入)的生命周期及應用場景

在.NET中&#xff0c;依賴注入&#xff08;DI&#xff0c;Dependency Injection&#xff09;是一種設計模式&#xff0c;它通過將依賴關系注入到類中&#xff0c;而不是讓類自己創建依賴項&#xff0c;來降低類之間的耦合度。這使得代碼更加模塊化、靈活和易于測試。在.NET中&a…

設計模式 --- 觀察者模式

觀察者模式是一種行為設計模式&#xff0c;它定義了對象之間的一對多依賴關系&#xff0c;當一個對象的狀態發生改變時&#xff0c;所有依賴它的對象都會得到通知并自動更新。 優點&#xff1a; ??1.解耦性強??&#xff1a; ??觀察者&#xff08;訂閱者&#xff09;與主…

PasteForm框架開發之Entity多級嵌套的表單的實現

你相信么,使用PasteForm框架開發&#xff0c;管理端居然不要寫代碼&#xff01;&#xff01;&#xff01; 一起來看看PasteForm是否支持多級表模式(外表) 需求假設 假如有這么一個需求&#xff0c;就是訂單表&#xff0c;包含了多級的信息&#xff0c;比如這個訂單包含了哪些…

深入解析分類模型評估指標:ROC曲線、AUC值、F1分數與分類報告

標題&#xff1a;深入解析分類模型評估指標&#xff1a;ROC曲線、AUC值、F1分數與分類報告 摘要&#xff1a; 在機器學習中&#xff0c;評估分類模型的性能是至關重要的一步。本文詳細介紹了四個核心評估指標&#xff1a;ROC曲線、AUC值、F1分數和分類報告。通過對比這些指標…

多模態醫學AI框架Pathomic Fusion,整合了組織病理學與基因組的特征

小羅碎碎念 在醫學AI領域&#xff0c;癌癥的精準診斷與預后預測一直是關鍵研究方向。 這篇文章提出了Pathomic Fusion這一創新框架&#xff0c;致力于解決現有方法的局限。 傳統上&#xff0c;癌癥診斷依賴組織學與基因組數據&#xff0c;但組織學分析主觀易變&#xff0c;基因…

《Python星球日記》第27天:Seaborn 可視化

名人說&#xff1a;路漫漫其修遠兮&#xff0c;吾將上下而求索。—— 屈原《離騷》 創作者&#xff1a;Code_流蘇(CSDN)&#xff08;一個喜歡古詩詞和編程的Coder&#x1f60a;&#xff09; 專欄&#xff1a;《Python星球日記》&#xff0c;限時特價訂閱中ing 目錄 一、Seabor…

【scikit-learn基礎】--『監督學習』之 決策樹回歸

決策樹算法是一種既可以用于分類&#xff0c;也可以用于回歸的算法。 決策樹回歸是通過對輸入特征的不斷劃分來建立一棵決策樹&#xff0c;每一步劃分都基于當前數據集的最優劃分特征。 它的目標是最小化總體誤差或最大化預測精度&#xff0c;其構建通常采用自上而下的貪心搜索…

解決安卓開發“No Android devices detected.”問題

解決安卓開發“No Android devices detected.”問題 ? 當我們插入移動設備的USB時&#xff0c;卻發現這并未顯示已連接到的設備 點擊右側的Assistant,根據提示打開移動設備開發者模式并啟用USB調試模式,然后發現我們未連接到移動設備的原因是ABD服務的原因 問題確定了&…

idea如何使用git

在 IntelliJ IDEA 中使用 Git 的詳細步驟如下&#xff0c;分為配置、基礎操作和高級功能&#xff0c;適合新手快速上手&#xff1a; ?一、配置 Git? ?安裝 Git? 下載并安裝 Git&#xff0c;安裝時勾選“Add to PATH”。驗證安裝&#xff1a;終端輸入 git --version 顯示版本…

軟件架構設計:MVC、MVP、MVVM、RIA 四大風格優劣剖析

MVC、MVP、MVVM 和 RIA 都是軟件架構中常見的設計風格&#xff0c;以下是對它們的詳細介紹&#xff1a; 一、MVC 架構風格&#xff08;Model - View - Controller&#xff09; 1.簡介&#xff1a;MVC 架構風格將軟件應用程序分為三個核心部分&#xff0c;通過這種劃分來分離不…

Centos/RedHat 7.x服務器掛載ISCSI存儲示例(無多路徑非LVM)

客戶讓幫忙掛載個ISCSI存儲&#xff0c;大概結構如下圖所示&#xff1a; ISCSI存儲為一臺安裝了truenas的X86服務器&#xff0c;提供存儲服務的IP地址為10.16.0.1 服務器的ETH1網卡配置與10.16.0.1同段網絡。 為了給客戶做個簡單培訓&#xff0c;整理了一下操作步驟。下面是配…

TV板卡維修技術【二】

【一】測量未知MOS引腳定義的好壞 TO-252封裝的MOS管子&#xff0c;上面的大焊盤是D極&#xff0c;下面的3個不同品牌的NMOS或者PMOS驗證了這個結論&#xff1a; 利用這個特性&#xff0c;可以在不知道MOS引腳定義的情況下測量出MOS的好壞&#xff0c;如下圖&#xff1a; 插件…

基于 cefpython 實現嵌入 Chromium (CEF)

CEF Python是一個開源項目&#xff0c;旨在為Chromium Embedded Framework提供Python綁定&#xff0c;許多流行的GUI工具包都提供了嵌入CEF瀏覽器&#xff0c;例如QT。 安裝 pip install cefpython366.1支持的Python版本&#xff1a; 實現打開網頁 from cefpython3 import…

MySQL-存儲引擎和索引

1.MySQL的基礎架構是什么&#xff1f; MySQL由連接器、分析器、優化器、執行器和存儲引擎這五部分構成。 一條SQL的執行流程&#xff1a; 通過連接器連接數據庫&#xff0c;檢查用戶名和密碼&#xff0c;以及權限校驗&#xff0c;是否有增刪改查的權限。在MySQL8.0之前&#…

安卓性能調優之-掉幀測試

掉幀指的是某一幀沒有在規定時間內完成渲染&#xff0c;導致 UI 畫面不流暢&#xff0c;產生視覺上的卡頓、跳幀現象。 Android目標幀率&#xff1a; 一般情況下&#xff0c;Android設備的屏幕刷新率是60Hz&#xff0c;即每秒需要渲染60幀&#xff08;Frame Per Second, FPS&a…

【運維自動化-標準運維】職能化功能如何使用?

職能化功能主要用于一些固化的標準流程可以通過權限開放的方式給到那些負責固定職能的非運維人員&#xff0c;比如外包操作員來執行操作&#xff0c;如此可以釋放一些運維的人力&#xff0c;讓其可以專注流程的建設和優化。實操演示 新建職能化流程&#xff08;運維角色操作&a…

游戲引擎學習第224天

回顧游戲運行并指出一個明顯的圖像問題。 回顧一下之前那個算法 我們今天要做一點預加載的處理。上周剛完成了游戲序章部分的所有剪輯內容。在運行這一部分時&#xff0c;如果觀察得足夠仔細&#xff0c;就會注意到一個問題。雖然因為視頻流壓縮質量較低&#xff0c;很難清楚…

【小沐學GIS】基于C++繪制三維數字地球Earth(QT5、OpenGL、GIS、衛星)第五期

&#x1f37a;三維數字地球系列相關文章如下&#x1f37a;&#xff1a;1【小沐學GIS】基于C繪制三維數字地球Earth&#xff08;OpenGL、glfw、glut&#xff09;第一期2【小沐學GIS】基于C繪制三維數字地球Earth&#xff08;OpenGL、glfw、glut&#xff09;第二期3【小沐學GIS】…