機器學習第十七講:PCA → 把100維數據壓縮成3D視圖仍保持主要特征

機器學習第十七講:PCA → 把100維數據壓縮成3D視圖仍保持主要特征

資料取自《零基礎學機器學習》。
查看總目錄:學習大綱

關于DeepSeek本地部署指南可以看下我之前寫的文章:DeepSeek R1本地與線上滿血版部署:超詳細手把手指南


主成分分析(PCA)是一種數據降維魔法師,能夠在保留關鍵信息的前提下,把復雜數據"折疊"成更簡單形式。就像用3句話總結一本小說核心情節[^5-4]。下面通過超市顧客數據案例講解:

一、核心思想(如同快遞裝箱)

假設要運輸100件形狀各異的貨物(即100維特征),但只能用3個標箱打包:

雜亂貨物
找出承載量最大的箱子
按重要性裝箱
  1. 找主運輸箱:選取能裝最多貨物的箱子(主成分1)
  2. 補充空隙:選與第一箱垂直的第二箱裝剩余重要貨物(主成分2)
  3. 反復疊加:直到裝滿3個箱子(主成分3),丟棄不重要的零碎物品[^5-4]

類比說明:就像用"年收入+消費頻率+健康指數"3個維度,就能代表原始30個消費行為特征的核心信息

二、實戰步驟(用超市數據演示)

案例背景:超市有200個顧客的100維消費數據,包括:

  • 生鮮購買頻率
  • 電子產品消費額
  • 促銷敏感度
  • …(共100項指標)[^5-4]
原始100維數據
標準化處理
計算協方差矩陣
找出方差最大的方向
提取前3個主成分
  1. 特征標準化:消除量綱差異,讓"購買次數"和"消費金額"可比(如同統一用公分和公斤替代市尺和市斤)[^4-1]

  2. 尋找主方向

    • 第一主成分:解釋最大方差的方向(如綜合消費能力軸)
    • 第二主成分:解釋剩余方差且與第一正交(如消費偏好方向)
    • 第三主成分:繼續捕捉剩余重要信息(如促銷敏感度)[^5-4]
  3. 數據投影
    原始100維數據投影到3個主軸上,得到:

    # 轉換后的數據示例
    顧客A: [2.5, -0.8, 1.2]
    顧客B: [-1.3, 0.7, 0.3]
    

    數字代表在三個主方向上的強度值

三、神奇效果(三維可視化)

壓縮后的3D散點圖能清晰展示客戶分群:

X軸
綜合消費能力
Y軸
品質偏好度
Z軸
價格敏感度
  • 簇1(右上角):高消費+愛品質+不差錢 → 重點維護客戶
  • 簇2(中部):中等消費+促銷敏感 → 精準營銷目標
  • 簇3(左下方):低頻消費+低單價 → 潛在流失客戶[^5-4]

生活場景:就像用身高/體重/體脂率3個指標代替50項體檢數據,醫生仍能判斷健康狀況[^5-4]

四、應用場景與注意事項

優勢場景

  • 高維數據可視化(如基因數據)
  • 去除冗余特征(如相片去噪)
  • 加速模型訓練(減少計算量)[^5-4]

使用注意

  • 主成分無實際含義(類似加密坐標)
  • 會丟失部分細節信息
  • 需要先標準化處理[^4-1]

目錄:總目錄
上篇文章:機器學習第十六講:K-means → 自動把超市顧客分成不同消費群體
下篇文章:機器學習第十八講:混淆矩陣 → 診斷模型在醫療檢查中的誤診情況


[^4-1]《零基礎學機器學習》第四章第二節特征標準化
[^5-4]《零基礎學機器學習》第五章第六節降維技術

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83940.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83940.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83940.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Linux庖丁解牛】——進程等待!

1. 進程退出場景 進程退出一般有三種場景: 。代碼運行完畢,結果正確 。代碼運行完畢,結果錯誤【比如,我們要對某個文件進行寫入,但寫入的文件路徑出錯,代碼運行完畢,可是結果出錯】 。代碼異…

鴻蒙OSUniApp 制作簡潔高效的標簽云組件#三方框架 #Uniapp

UniApp 制作簡潔高效的標簽云組件 在移動端應用中,標簽云(Tag Cloud)是一種常見的UI組件,它以視覺化的方式展示關鍵詞或分類,幫助用戶快速瀏覽和選擇感興趣的內容。本文將詳細講解如何在UniApp框架中實現一個簡潔高效的…

ubuntu14.04/16.06 安裝vscode(實測可以用)

地址:https://code.visualstudio.com/updates/v1_38 選擇deb 這個版本還支持ubuntu14.04和16.06 sudo dpkg -i code_1.38.1-1568209190_amd64.deb sudo apt-get install -f安裝成功,正常使用

WebRTC技術EasyRTC音視頻實時通話驅動智能攝像頭邁向多場景應用

一、方案背景? 在物聯網蓬勃發展的當下,智能攝像頭廣泛應用于安防、家居、工業等領域。但傳統智能攝像頭存在視頻傳輸延遲高、設備兼容性差、網絡波動時傳輸不穩定等問題,難以滿足用戶對實時流暢交互視頻的需求。EasyRTC憑借低延遲、高可靠、跨平臺特性…

Java EE進階1:導讀

1.發展歷程 2.學習內容 前?的課程中,學習的是Java基礎,JavaEE主要學習Java的應用,也就是學習Java在企業中是如何應用的 Java更多場景是業務開發,更狹義點可以理解為web開發.所以咱們的學習也是圍繞著如何使用Java來做web開發 2.1 什么是Web開發? web&#xff08…

APPtrace 智能參數系統:重構 App 用戶增長與運營邏輯

一、免填時代:APPtrace 顛覆傳統參數傳遞模式 傳統 App 依賴「邀請碼 / 手動綁定」實現用戶關聯,流程繁瑣導致 20%-30% 的用戶流失。APPtrace 通過 **「鏈接參數自動傳遞 安裝后智能識別」** 技術,讓用戶在無感知狀態下完成關系綁定、場景還…

bisheng系列(一)- 本地部署(Docker)

目錄 一、導讀 二、說明 1、鏡像說明 2、本節內容 三、docker部署 1、克隆代碼 2、運行鏡像 3、可能的錯誤信息 四、頁面測試 1、注冊用戶 2、登陸成功 3、添加模型 一、導讀 環境:Ubuntu 24.04、Windows 11、WSL 2、Python 3.10 、bisheng 1.1.1 背景…

docker介紹與常用命令匯總

docker簡介 docker是什么? Docker 是一個開源的應用容器引擎,它可以讓開發者將應用與運行環境打包成一個標準的、可移植的容器(Container),在任何地方都可以快速部署和運行,無需關心底層環境是否一致。 …

Android 中拖拽從一個組件到另外一個組件的寫法(跨容器拖拽)

在 Android 中,拖拽一個圖片(例如 ImageView)到另一個組件(如 LinearLayout、FrameLayout 等容器)涉及以下步驟: 準備工作 源組件:你從哪里開始拖動(如 ImageView)。 目…

火絨互聯網安全軟件:自主引擎,精準防御

在數字時代,網絡安全是每一個用戶都必須重視的問題。無論是個人用戶還是企業用戶,都需要一款高效、可靠的反病毒軟件來保護設備免受惡意軟件的侵害。今天,我們要介紹的 火絨互聯網安全軟件,就是這樣一款由資深工程師主導研發并擁有…

使用亮數據代理IP+Python爬蟲批量爬取招聘信息訓練面試類AI智能體(手把手教學版)

文章目錄 一、為什么要用代理IP?(重要!!!)二、環境準備(三件套走起)2.1 安裝必備庫(pip大法好)2.2 獲取亮數據代理(官網注冊送試用) 三、編寫爬蟲代碼&#x…

Android屏幕采集編碼打包推送RTMP技術詳解:從開發到優化與應用

在現代移動應用中,屏幕采集已成為一個廣泛使用的功能,尤其是在實時直播、視頻會議、遠程教育、游戲錄制等場景中,屏幕采集技術的需求不斷增長。Android 平臺為開發者提供了 MediaProjection API,這使得屏幕錄制和采集變得更加簡單…

互聯網大廠Java求職面試:Spring AI與大模型交互的高級模式與自定義開發

互聯網大廠Java求職面試:Spring AI與大模型交互的高級模式與自定義開發 在當今技術領域,隨著AI和大模型技術的廣泛應用,如何在復雜的系統架構中高效地集成這些技術成為了各大互聯網公司關注的重點。本文將通過一場模擬的面試對話&#xff0c…

MySQL 8.0 OCP 1Z0-908 161-170題

Q161.Examine this command, which executes successfully: cluster.addInstance ( ‘:’,{recoveryMethod: ‘clone’ 1}) Which three statements are true? (Choose three.) A)The account used to perform this recovery needs the BACKUP_ ADMIN privilege. B)A target i…

藍橋杯1447 砝碼稱重

問題描述 你有一架天平和 N 個砝碼,這 N 個砝碼重量依次是 W1,W2,???,WN?。 請你計算一共可以稱出多少種不同的重量? 注意砝碼可以放在天平兩邊。 輸入格式 輸入的第一行包含一個整數 N。 第二行包含 N 個整數:W1,W2,W3,???,WN?…

金融量化智能體,如何開發一個有效的策略?

原創內容第887篇,專注智能量化投資、個人成長與財富自由。 本周重構了網站,升級了最新的回測引擎,以及升級了論壇。 策略年化210%,夏普比3.47,系統源代碼及策略均可下載 年化37.5%,回撤控制在16.8%&…

JavaScript 性能優化:調優策略與工具使用

引言 在當今的 Web 開發領域,性能優化已不再是錦上添花,而是產品成功的關鍵因素。據 Google 研究表明,頁面加載時間每增加 3 秒,跳出率將提高 32%。而移動端用戶如果頁面加載超過 3 秒,有 53% 的用戶會放棄訪問。性能…

為 Jenkins添加 Windows Slave遠程執行 python項目腳本

測試環境 JAVA JDK 1.7.0_13 (jdk-7u13-windows-i586.exe) Jenkins Win11 64 python項目環境 實踐操作 1、新建與配置結點 【系統管理】-> 【管理結點】-> 【新建結點】, 如上,輸入結點名稱,勾選 【Dumb Slave】,點擊【OK】 說明&am…

基于springboot3 VUE3 火車訂票系統前后端分離項目適合新手學習的項目包含 智能客服 換乘算法

? 博主介紹:專注于Java(springboot ssm 等開發框架) vue .net php phython node.js uniapp 微信小程序 等諸多技術領域和畢業項目實戰、企業信息化系統建設,從業十五余年開發設計教學工作 ☆☆☆ 精彩專欄推薦訂閱☆☆☆☆☆…

btc交易所關鍵需求區 XBIT反彈與上漲潛力分析??

在加密貨幣市場的浪潮中,狗狗幣(DOGE)近期的走勢吸引了眾多投資者的目光。根據XBIT分析,狗狗幣剛剛踏入關鍵需求區,此前雖從高點大幅下跌了10%,但XBIT去中心化交易所平臺分析師認為,短期內它有望…