機器學習第十七講:PCA → 把100維數據壓縮成3D視圖仍保持主要特征
資料取自《零基礎學機器學習》。
查看總目錄:學習大綱
關于DeepSeek本地部署指南可以看下我之前寫的文章:DeepSeek R1本地與線上滿血版部署:超詳細手把手指南
主成分分析(PCA)是一種數據降維魔法師,能夠在保留關鍵信息的前提下,把復雜數據"折疊"成更簡單形式。就像用3句話總結一本小說核心情節[^5-4]。下面通過超市顧客數據案例講解:
一、核心思想(如同快遞裝箱)
假設要運輸100件形狀各異的貨物(即100維特征),但只能用3個標箱打包:
- 找主運輸箱:選取能裝最多貨物的箱子(主成分1)
- 補充空隙:選與第一箱垂直的第二箱裝剩余重要貨物(主成分2)
- 反復疊加:直到裝滿3個箱子(主成分3),丟棄不重要的零碎物品[^5-4]
類比說明:就像用"年收入+消費頻率+健康指數"3個維度,就能代表原始30個消費行為特征的核心信息
二、實戰步驟(用超市數據演示)
案例背景:超市有200個顧客的100維消費數據,包括:
- 生鮮購買頻率
- 電子產品消費額
- 促銷敏感度
- …(共100項指標)[^5-4]
-
特征標準化:消除量綱差異,讓"購買次數"和"消費金額"可比(如同統一用公分和公斤替代市尺和市斤)[^4-1]
-
尋找主方向:
- 第一主成分:解釋最大方差的方向(如綜合消費能力軸)
- 第二主成分:解釋剩余方差且與第一正交(如消費偏好方向)
- 第三主成分:繼續捕捉剩余重要信息(如促銷敏感度)[^5-4]
-
數據投影:
原始100維數據投影到3個主軸上,得到:# 轉換后的數據示例 顧客A: [2.5, -0.8, 1.2] 顧客B: [-1.3, 0.7, 0.3]
數字代表在三個主方向上的強度值
三、神奇效果(三維可視化)
壓縮后的3D散點圖能清晰展示客戶分群:
- 簇1(右上角):高消費+愛品質+不差錢 → 重點維護客戶
- 簇2(中部):中等消費+促銷敏感 → 精準營銷目標
- 簇3(左下方):低頻消費+低單價 → 潛在流失客戶[^5-4]
生活場景:就像用身高/體重/體脂率3個指標代替50項體檢數據,醫生仍能判斷健康狀況[^5-4]
四、應用場景與注意事項
優勢場景:
- 高維數據可視化(如基因數據)
- 去除冗余特征(如相片去噪)
- 加速模型訓練(減少計算量)[^5-4]
使用注意:
- 主成分無實際含義(類似加密坐標)
- 會丟失部分細節信息
- 需要先標準化處理[^4-1]
目錄:總目錄
上篇文章:機器學習第十六講:K-means → 自動把超市顧客分成不同消費群體
下篇文章:機器學習第十八講:混淆矩陣 → 診斷模型在醫療檢查中的誤診情況
[^4-1]《零基礎學機器學習》第四章第二節特征標準化
[^5-4]《零基礎學機器學習》第五章第六節降維技術