聚類后的分析:推斷簇的類型
知識點回顧:
- 推斷簇含義的2個思路:先選特征和后選特征
- 通過可視化圖形借助ai定義簇的含義
- 科研邏輯閉環:通過精度判斷特征工程價值
作業:參考示例代碼對心臟病數據集采取類似操作,并且評估特征工程后模型效果有無提升。
在聚類分析中,推斷簇的類型是理解數據內在結構和業務意義的關鍵步驟。以下是系統化的推斷方法及常見簇類型的總結:
一、簇的基本類型
??明顯分離的簇??
??特征??:不同簇中任意兩點之間的距離 > 簇內任意兩點間距離。
??適用場景??:數據自然分組清晰,如生物學中的物種分類。
??示例??:球形或任意形狀的分離簇(圖10-2a)。
??基于原型的簇(中心型簇)??
??特征??:簇內對象到質心(均值)的距離 < 到其他簇質心的距離。
??典型算法??:K-Means、層次聚類。
??局限性??:傾向于生成球形簇,對不規則形狀效果差。
??基于密度的簇??
??特征??:通過高密度區域識別,可處理噪聲和離群點。
??典型算法??:DBSCAN。
??優勢??:適用于纏繞或不規則形狀(如啞鈴狀簇)。
??基于連片的簇??
??特征??:相鄰對象距離在閾值內即歸為同簇,依賴連通性。
??適用場景??:圖結構數據(如社交網絡)。
二、推斷簇含義的方法
??先選特征法??
??步驟??:聚類前選擇與業務強相關的特征(如消費記錄)。
??優點??:結果可直接解釋,避免無關特征干擾。
??案例??:分析用戶購買習慣時,僅用“消費頻率”“金額”等特征聚類。
??后選特征法??
??步驟??:
用全部特征聚類,生成簇標簽;
將簇標簽作為目標變量,構建分類模型(如隨機森林);
通過SHAP值、特征重要性篩選關鍵特征解釋簇
??可視化輔助分析??
降維(如PCA)后繪制散點圖,觀察簇分布;
結合業務知識標注簇類型(如“高風險心臟病患者簇”)。
三、實際應用注意事項
??評估簇的合理性??
檢查每個簇的樣本量(避免過小無意義);
結合輪廓系數、CH指數等指標優化聚類參數。
??業務邏輯閉環??
將聚類結果作為新特征加入監督模型(如分類預測);
通過精度提升驗證特征工程價值(如心臟病數據集預測)。
??避免常見誤區??
非球狀簇勿強制用K-Means(可選DBSCAN);
高維數據需先降維再解釋,避免“維度災難”。
總結
推斷簇類型需結合??數據特性??(形狀、密度)與??業務目標??。優先嘗試“后選特征法”+可視化全面探索,再通過“先選特征法”聚焦業務解釋。最終需以監督模型驗證聚類的實際價值(如預測效果提升)。若效果未達預期,可嘗試過采樣(SMOTE)或調整聚類算法進一步優化。