對于接觸算法模型不久的小伙伴來說,建模中海量變量篩選總是讓人頭疼,不知道如何把握。之前已經介紹了一些變量篩選的方法:變量篩選一張圖、【變量篩選】計算類別型變量IV值、KS值、一文囊括風控建模中的變量篩選方法、變量篩選—特征包含信息量。本文詳細介紹通過隨機森林算法進行變量篩選。
文章目錄
-
- 一、什么是隨機森林?
- 二、使用隨機森林算法進行特征篩選
-
- 1 導入需要的庫
- 2 導入數據
- 3 應用隨機森林算法訓練模型
- 4 打印變量重要性
- 5 篩選出重要性高于某個閾值的特征
- 6 可視化特征重要性
- 7 調節模型參數樹深度對變量重要性影響
??
一、什么是隨機森林?
??
集成學習:通過構建并結合多個機器學習模型來改善模型的性能。通過訓練多個模型,并將它們的預測結果進行某種方式的結合,通常可以得到比單一模型更好的預測結果。
??
Bagging:是Bootstrap Aggregating的縮寫,是一種通過結合多個模型的預測結果來減少模型方差的方法。在