禁止商業或二改轉載,僅供自學使用,侵權必究,如需截取部分內容請后臺聯系作者!
文章目錄
- 介紹
- 加載R包
- 數據準備
- 數據探索
- 轉換因子
- 查看屬性
- 相關性配對圖
- PCA 可視化
- 缺失值、異常值處理 & 特征標準
- 數據分割
- 構建模型與調參
- 模型評估
- 模型可解釋性(變量重要性、SHAP、DALEX)
- 變量重要性
- SHAP 值解釋
- DALEX 全局模型解釋
- 交互式圖
- 總結
- 系統信息
介紹
本教程《基于 tidymodels 的 XGBoost 全流程實戰》旨在為初學者及有一定 R 編程基礎的中級用戶提供一套完整、系統、可執行的機器學習建模流程。所使用的數據集為 mlbench 包中著名的 PimaIndiansDiabetes,該數據集源自美國國家糖尿病研究所,包含了768名 Pima 印第安女性的8個醫學指標和其是否患有糖尿病的二分類標簽,常用于醫學領域的分類建模演示。
教程圍繞 R 語言中現代建模核心包 tidymodels 生態系統(包括 recipes、parsnip、workflows、tune、yardstick 等)展開,結合可解釋性分析工具(如 vip、shapviz、DALEX)以及可視化分析(如 GGally、plotly)構建了一個從數據清洗、EDA、建模調參到模型評估與解釋的完整閉環。
首先,在數據準備與探索(EDA)階段,使用 skimr 快速查看數據分布與缺失&