- 決策樹(Decision Tree) 是一種基礎的分類和回歸算法
- 隨機森林 是由多棵決策樹集成在一起的集成學習算法
決策樹生成過程:
- 特征選擇
- 決策樹生成
- 決策樹剪枝
信息熵
用來衡量一個節點內信息的不確定性的。
- 信息熵越大, 不確定性越大, 樣本就越多樣, 樣本的純度低
- 信息熵越小, 不確定性越小, 樣本趨于一致, 樣本的純度高
決策樹在每次劃分的時候, 理想的是每個條件分支都能夠最大化地去劃分這些樣本, 每個檢點的信息熵低, 樣本的一致性高.
剪枝操作
對一棵樹進行簡化, 減少它的復雜度, 提高模型的泛化能力.
判斷某個節點去掉后, 模型的準確度如果沒有降低, 就可以減掉這個節點.
決策樹算法
- ID3(Iterative Dichotomiser 3,迭代二叉樹3代)
- 分類
- 多叉樹
- 最初代決策樹算法
- 使用的計算指標是信息增益
- 簡單易懂
- 無法剪枝, 容易擬合
- 無法處理連續值
- C4.5
- 分類
- 多叉樹
- ID3 基礎上改進后的算法
- 使用的計算指標是信息增益率
- 可以處理缺失值, 連續值
- 可以剪枝, 避免過擬合
- CART(Classification and Regression Trees,分類與回歸樹)
- 分類 / 回歸
- 二叉樹
- 做分類問題時, 使用的是 Gini 系數 (Gini Coefficient 基尼系數)
- 做回歸問題時, 使用的是 偏差值
- 可以處理缺失值, 連續值
- 可以剪枝, 避免過擬合
- 既可以處理分類問題, 也可以處理回歸問題
點擊查看 Gini 系數: https://blog.csdn.net/galoiszhou/article/details/135148568
隨機森林
由多棵決策樹組成,隨機指的是每一個決策樹的樣本是隨機從數據集中采樣得到的。
隨機森林屬于集中學習 (Ensemble Learning).
計算成本會更高. 面對復雜樣本的時候, 沒有辦法很好的區分, 模型上限很低.
決策樹算法的優點:
- 可解釋性強, 直觀好理解
- 可以從結果向上追溯原因
決策樹算法的缺點:
- 數據量大, 數據維度多的時候, 會非常的復雜, 訓練時間會很久
- 對決策樹的深度設置如果不合理, 結果不理想
決策樹和隨機森林算法的適用場景:
- 決策樹
- 分類問題
- 決策樹廣泛應用于分類問題,例如判定郵件是否為垃圾郵件、圖像是否包含某個物體等。
- 回歸問題
- 決策樹可以用于回歸問題,例如預測房價、銷售量等連續型變量。
- 非線性關系
- 決策樹適用于處理非線性關系的數據,對于線性模型表現不佳的情況,決策樹可能更為合適。
- 特征之間存在復雜交互
- 當特征之間存在復雜的交互關系,決策樹可以更好地捕捉這些關系。
- 可解釋性要求高
- 決策樹提供了直觀的決策規則,對于需要可解釋性高的場景,例如醫學診斷、法律決策等,決策樹是一個不錯的選擇。
- 特征類型混合
- 決策樹可以處理混合類型的特征,包括連續型和離散型特征。
- 少量樣本數據
- 決策樹對于少量樣本數據也可以表現得相當魯棒,不容易過擬合。
- 分類問題
- 隨機森林
- 大規模數據集
- 隨機森林通常能夠很好地處理大規模數據集,因為它可以并行處理多個決策樹。
- 高維特征
- 隨機森林對高維數據具有較好的適應性,可以處理具有大量特征的數據集。
- 復雜的分類問題
- 隨機森林適用于處理復雜的分類問題,尤其是當數據具有復雜的特征關系時。
- 噪聲較大的數據
- 由于隨機森林可以減少過擬合,因此在數據中存在噪聲或異常值的情況下表現較好。
- 特征重要性分析
- 如果需要對特征的重要性進行分析,隨機森林能夠提供每個特征對于模型的貢獻程度。
- 集成學習
- 隨機森林是一種集成學習方法,通過結合多個弱學習器,可以顯著提高模型的穩定性和準確性。
- 處理缺失值
- 隨機森林能夠有效處理缺失值,不需要對缺失值進行額外的處理。
- 大規模數據集
決策樹和隨機森林算法的案例:
- 決策樹
- 貸款申請審核
- 決策樹可用于銀行貸款申請審核。通過分析申請者的信用、收入、債務等特征,決策樹可以幫助判斷貸款是否應該被批準。
- 醫學診斷
- 決策樹可用于醫學領域,例如預測患者是否患有某種疾病。通過分析患者的癥狀、檢測結果等特征,決策樹可以輔助醫生做出診斷。
- 銷售預測
- 在銷售領域,決策樹可用于預測產品的銷售量。通過考慮各種因素,如廣告投放、季節性等,可以制定更有效的銷售策略。
- 人力資源管理
- 決策樹可用于人力資源管理,例如預測員工是否會離職。通過分析員工的績效、滿意度等特征,可以制定員工留存策略。
- 客戶流失預測
- 決策樹可用于預測客戶流失概率。通過分析客戶的行為、使用頻率等特征,企業可以采取措施留住潛在流失客戶。
- 貸款申請審核
- 隨機森林
- 圖像識別
- 隨機森林可用于圖像識別任務。通過構建多個決策樹,隨機森林可以有效地處理復雜的圖像特征,用于物體識別或人臉識別等場景。
- 信用評分模型
- 隨機森林可用于建立信用評分模型。通過分析申請者的信用歷史、收入、債務等特征,隨機森林可以更準確地評估申請者的信用風險。
- 森林火災預測
- 隨機森林可以用于預測森林火災的概率。通過分析氣象數據、植被狀況等特征,可以提前預警潛在的火災風險。
- 金融欺詐檢測
- 在金融領域,隨機森林可用于檢測信用卡交易中的欺詐行為。通過分析交易金額、交易地點等特征,可以識別潛在的欺詐行為。
- 醫學圖像分析
- 隨機森林在醫學圖像分析中應用廣泛,例如腫瘤檢測。通過分析醫學圖像的特征,可以幫助醫生進行病變檢測和分類。
- 圖像識別