機器學習-隨機森林解析

目錄

一、.隨機森林的思想

二、隨機森林構建步驟

1.自助采樣

2.特征隨機選擇

3構建決策樹

4.集成預測

三. 隨機森林的關鍵優勢

?**(1) 減少過擬合**

?**(2) 高效并行化**

?**(3) 特征重要性評估**

?**(4) 耐抗噪聲**

四. 隨機森林的優缺點

?優點

?缺點

五. 參數調優(以scikit-learn為例)?

波士頓房價預測


一、.隨機森林的思想

1.通過組成多個弱學習器(決策樹)形成一個學習器

2.多樣性增強:每顆決策樹通過特征隨機選擇和樣本隨機抽樣生成,降低模型之間的相關性,減少過擬合風險

二、隨機森林構建步驟

1.自助采樣

從原始數據集中有放回的隨機抽樣(每個子集大小等于原始數據集)。

大約30%的數據未被抽中,形成“袋外樣本”(Out-of-Bag, OOB),用于模型評估。

2.特征隨機選擇

每棵決策樹在構建時,僅從所有特征中隨機選擇一個子集(例如,對于分類任務,通常選擇 m=sqrt(n_feature) 個特征)

增加特征間的獨立性,避免模型偏向特定特征

3構建決策樹

對每個子集和特征組合,遞歸地生成決策樹(使用與單棵決策樹相同的算法,如CART)。
不進行剪枝(Pre-pruning),允許樹完全生長。

4.集成預測

分類任務:所有樹的預測結果按多數票決定最終類別

回歸任務:所有樹的預測結果取平均值

三. 隨機森林的關鍵優勢

?**(1) 減少過擬合**
  • 單棵決策樹易過擬合,但多棵樹的“平均效應”降低了方差。
  • 無需復雜的剪枝操作。
?**(2) 高效并行化**
  • 樹之間相互獨立,可通過并行計算加速訓練。
?**(3) 特征重要性評估**
  • 通過統計每棵樹中特征被選中的頻率,量化其對最終預測的貢獻度。
?**(4) 耐抗噪聲**
  • 對缺失值和異常值不敏感(需適當處理缺失值)。

四. 隨機森林的優缺點

?優點
  • ?高準確率:在大多數任務中表現優于單個決策樹。
  • ?可解釋性:可通過特征重要性分析和可視化部分樹結構。
  • ?適應性強:支持分類、回歸、特征選擇等多種任務。
?缺點
  • ?計算資源消耗大:生成大量樹需要更多內存和計算時間。
  • ?對高維稀疏數據效果不佳:特征隨機選擇可能無法覆蓋關鍵特征。
  • ?黑箱化風險:相比單棵決策樹,集成模型的解釋性略低。

五. 參數調優(以scikit-learn為例)?

參數作用默認值
n_estimators樹的數量100
max_depth樹的最大深度None(不限制)
min_samples_split內部節點最少分割樣本數2
max_features每棵樹使用的特征數量auto(分類任務為√n)
bootstrap是否使用自助采樣True

波士頓房價預測

from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston# 加載數據
boston = load_boston()
X, y = boston.data, boston.target# 創建隨機森林回歸模型
model = RandomForestRegressor(n_estimators=100, random_state=42)# 訓練模型
model.fit(X, y)# 預測均值絕對誤差(MAE)
y_pred = model.predict(X)
print(f"Mean Absolute Error: {np.mean(np.abs(y - y_pred)):.2f}")

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897137.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897137.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897137.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深度集成DeepSeek,智問BI@GPT引領商業智能“深度思考“革命

當下傳統的數據分析工具如同顯微鏡,雖然能幫助我們看到數據的細節,卻難以揭示數據背后的深層規律。億信華辰最新升級的智問BIGPT產品,通過深度集成DeepSeek大模型,首次在商業智能領域實現了"深度思考"功能。這項突破性創…

Mysql安裝方式

方式一:安裝包安裝 下載安裝包 官網直接下載:https://dev.mysql.com/downloads/ 安裝配置 2.1、雙擊剛剛下載好的msi文件,開始安裝MySQL。 2.2、選擇自定義模式Custom安裝 2.3、點擊選擇自己電腦對應的mysql安裝目錄 2.5、繼續點擊下一步&…

unity調用本地部署deepseek全流程

unity調用本地部署deepseek全流程 deepseek本地部署 安裝Ollama 搜索并打開Ollama官網[Ollama](https://ollama.com/download) 點擊Download下載對應版本 下載后點擊直接安裝 安裝deepseek大語言模型 官網選擇Models 選擇deepseek-r1,選擇對應的模型&#xff0…

Linux - 網絡基礎(應用層,傳輸層)

一、應用層 1)發送接收流程 1. 發送文件 write 函數發送數據到 TCP 套接字時,內容不一定會立即通過網絡發送出去。這是因為網絡通信涉及多個層次的緩沖和處理,TCP 是一個面向連接的協議,它需要進行一定的排隊、確認和重傳等處理…

wxWidgets GUI 跨平臺 入門學習筆記

準備 參考 https://wiki.wxwidgets.org/Microsoft_Visual_C_NuGethttps://wiki.wxwidgets.org/Tools#Rapid_Application_Development_.2F_GUI_Buildershttps://docs.wxwidgets.org/3.2/https://docs.wxwidgets.org/latest/overview_helloworld.htmlhttps://wizardforcel.gitb…

使用joblib 多線程/多進程

文章目錄 1. Joblib 并行計算的兩種模式多進程(Multiprocessing,適用于 CPU 密集型任務)多線程(Multithreading,適用于 I/O 密集型任務)2. Joblib 的基本用法3. Joblib 多進程示例(適用于 CPU 密集型任務)示例:計算平方4. Joblib 多線程示例(適用于 I/O 密集型任務)…

神旗視訊Linux client 3.4版本發布和開源

在國產化替代的大潮中,神旗視訊推出專為統信 Linux、麒麟 Linux OS 打造打造的開源視頻會議客戶端,全面適配國產 x86 及 arm64 架構 CPU,以穩定、安全、靈活的特性,為國產操作系統用戶帶來前所未有的高效溝通體驗,同時…

HCIA-IP路由動態-RIP

一、概念 動態路由是指路由器通過運行動態路由協議(RIP、OSPF等),自動學習和發現網絡中的路由信息。路由器之間通過交換路由協議數據包,互相通告自己所知道的網絡信息,從而構建和更新路由表。 二、RIP(路由信息協議)…

VEC系列-RabbitMQ 入門筆記

消息隊列(MQ)對于開發者來說是一個經常聽到的詞匯,但在實際開發中,大多數人并不會真正用到它。網上已經有很多關于 MQ 概述和原理的詳細講解,官網文檔和技術博客也都介紹得很深入,因此,我在這里…

js中??是什么意思

在 JavaScript 中,?? 是一個邏輯運算符,稱為 空值合并運算符(Nullish Coalescing Operator)。它用于檢查左側的值是否為 null 或 undefined,如果是,則返回右側的值;否則返回左側的值。 語法 …

常見限流算法

限流是指在高并發、大流量請求的情況下,限制新的流量對系統的訪問,以保證系統服務的安全性。常見的限流算法及其詳細介紹如下: 計數器算法(Fixed Window Counter) 原理:使用一個固定時間窗口內的計數器來…

YOLOv12本地部署教程——42%速度提升,讓高效目標檢測觸手可及

YOLOv12 是“你只看一次”(You Only Look Once, YOLO)系列的最新版本,于 2025 年 2 月發布。它引入了注意力機制,提升了檢測精度,同時保持了高效的實時性能。在保持速度的同時,顯著提升了檢測精度。例如&am…

【原創】C# HttpClient 讀取流數據的問題

默認情況下HttpClient中有緩存,在讀取流數據的時候,往往要等一小會兒,然后讀出一大堆。 我們在請求OpenAI類的大模型的時候,往往要一邊讀取一邊顯示(輸出),這時候需要禁止HttpClient 中內置的緩…

能源行業標桿:信創系統在智能電網中的3個創新應用案例

在當今數字化浪潮洶涌澎湃的時代,信息技術應用創新(信創)已成為推動我國經濟社會發展的重要引擎。智能電網作為能源行業的核心領域,其信息化建設對于保障國家能源安全和促進能源轉型具有重要意義。今天,讓我們一同探索…

AcWing 藍橋杯集訓·每日一題2025·5526. 平衡細菌

5526. 平衡細菌 題意 給定一個序列 ( a i ) (a_i) (ai?),每次操作可以選擇一個位置 (p),令從 ( a p ) (a_p) (ap?) 開始的每個數都加上一個以 (1) 或者 (-1) 為公差的從 ( 1 / ? 1 ) (1 / -1) (1/?1) 開始的等差數列。求最小化讓序列歸零的操作…

PTA 7-6 列出連通集

題目詳情: 給定一個有 n 個頂點和 m 條邊的無向圖,請用深度優先遍歷(DFS)和廣度優先遍歷(BFS)分別列出其所有的連通集。假設頂點從 0 到 n?1 編號。進行搜索時,假設我們總是從編號最小的頂點出…

ES中數據刷新策略refresh

在 Elasticsearch 中,插入數據時的 refresh 參數控制文檔在寫入后何時對搜索可見,其行為直接影響數據可見性和系統性能。以下是 refresh 參數的三個可選值(true、false、wait_for)的詳細說明及適用場景: 1. refreshtr…

用Python的Pandas庫解鎖數據科學:從入門到實戰

用Python的Pandas庫解鎖數據科學:從入門到實戰 引言 Python的Pandas庫(名稱源自"Panel Data")作為數據科學生態系統的基石,憑借其強大的數據結構和靈活的操作功能,已成為全球超過90%數據工作者的首選工具。…

如何提高域名解析速度?

在搭建網站或使用在線服務時,許多人會問:“為什么我的網站加載速度這么慢?”“如何提高域名解析速度?”“域名解析速度對網站性能有什么影響?”域名解析速度直接影響用戶訪問網站的體驗,因此,了解如何提高域名解析速度尤為重要…

深度學習語義分割數據集全景解析

一、語義分割任務概述 語義分割是計算機視覺領域的核心任務之一,目標是通過算法將圖像中的每個像素精準劃分到對應的語義類別(如道路、車輛、行人等)。高質量標注數據集是推動該領域發展的關鍵因素。本文將系統梳理主流數據集的技術特征與適…