周志華《機器學習導論》第8章 集成學習 Ensemble Learning

目錄

8.1 個體與集成

8.2?Boosting

Ada(Adaptive)Boost

8.3?Bagging

8.4 隨機森林

8.5?結合策略

8.5.1 平均法

8.5.2 投票法

8.5.3 學習法

8.6 多樣性

8.6.1 誤差-分歧分解?error-ambiguity

8.6.2 多樣性度量

8.6.3 多樣性增強


8.1 個體與集成

?同質集成“學習器” 如決策樹、神經網絡;異質集成中的個體學習器由不同的學習算法生成

個體學習器的“準確性”和“多樣性”? ?對“好而不同”的個體學習器 投票“少數服從多數”

T 個基分類器 錯誤率為€? ? ? ? 整體錯誤率為錯半數以上 隨著T增大收斂到0

個體學習器間存在強依賴關系、必須串行生成的序列化方法?Boosting

不存在強依賴關系、可同時生成的并行化方法?Bagging和“隨機森林"

8.2?Boosting

每輪樣本的權重不同? 上輪分類錯誤的樣本? 權重被調大? 在下一次學習中被關注? 進而調高準確度

Ada(Adaptive)Boost

?偽代碼如下 下方主要是對于樣本分布 D_t+1 調整的數學推導

訓練分類器h 算出誤差ε? ?更新樣本分布Dt+1和Dt 關系

???

理想的基學習器? ?能糾正之前疊加形態分類器的所有錯誤

(但如果新的分類錯誤多到超過一半 那也不合適)

最后的分布調整 D_t+1 和 D_t的關系

8.3?Bagging

重疊采樣思想

基學習器盡可能具有較大的差異 可使得訓練數據不同

對訓練樣本進行采樣,產生出若干個不同的子集,每個子集訓練出一個基學習器.

希望個體學習器不能太差 使每個學習器使用更多數據:使用相互有交疊的采樣子集.

bootstrap sampling 自助采樣法? m個樣本采樣m次? 沒被采樣到的概率收斂為

T輪采樣 每輪采m個數據作為訓練集 用基學習算法訓練出模型?

對這T個訓練出來的集成模型? 回歸問題則把T個結果平均一下? ?分類問題則把T個結果投票一下

包外估計:把沒被采樣到的數據作為驗證集

8.4 隨機森林

以決策樹為基學習器構建Bagging?在決策樹的訓練過程中

先隨機選取一些特征? 再選這幾個中最優的幾個 (數據隨機+特征隨機)

scikit-learn 隨機森林

class 參數的中文說明可參考這篇

8.5?結合策略

相對單學習器的優勢:

1.學習任務假設空間很大 若很多假設在訓練集效果相近

但單學習器不能確定在總體空間做的好不好

2.學習算法陷入局部最優解 泛化性不強? ? ? ?3.結合有利于擴大 原樣本的假設空間

8.5.1 平均法

?? ? ?

8.5.2 投票法

分類為N種中一種? ? 1.超過半數則確定? ? ? 2.選票最多的(票的權重 平均或加權)

8.5.3 學習法

Stacking 訓練出的學習器 生成一些樣本 與原樣本混合 訓練下一個學習器

8.6 多樣性

8.6.1 誤差-分歧分解?error-ambiguity

?加權分歧?加權誤差加權分歧=加權誤差-總誤差

總誤差=加權誤差-加權分歧

誤差越小 分歧(多樣性)越大? ? 總誤差越小

8.6.2 多樣性度量

兩兩的 相似/不相似性

不合度量(b和c為結果不一樣的)??

相關系數??

8.6.3 多樣性增強

1.數據樣本擾動(不同采樣方式)? ? ? 2.輸入屬性擾動(屬性集中選取使用屬性)

3.輸出表示擾動(把分類問題轉化為回歸問題? 拆解原問題)? ? 4.算法參數改動(調參)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90140.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90140.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90140.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Embassy實戰:Rust嵌入式異步開發指南

嵌入式異步框架 Embassy 實例 以下是關于嵌入式異步框架 Embassy 的實用示例,涵蓋常見外設操作、多任務協作和硬件交互場景。示例基于STM32和Raspberry Pi Pico等平臺,使用Rust語言編寫。 GPIO 控制 use embassy_stm32::gpio::{Input, Output, Pull, Speed}; use embassy_…

ChatGPT桌面版深度解析

ChatGPT桌面版深度解析:功能、安裝與高效使用全攻略 一、核心功能全景解析 (一)全場景交互體系 全局熱鍵喚醒 支持MacOS(Option空格)與Windows(Alt空格)全局快捷鍵,實現跨應用無縫調…

RLVR的一種擴展方案--RLPR論文閱讀

論文鏈接:RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS 文章目錄簡介RLPRRLVR概率獎勵/Probability Reward獎勵設計標準差過濾總結簡介 可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大語言模型&#xff…

odoo歐度小程序——添加用戶

odoo歐度小程序添加登錄用戶 1. 直接在登錄用戶頁面添加用戶點擊 添加登錄用戶輸入用戶和密碼,點擊登錄驗證進入odoo頁面2. 在用戶切換頁面添加用戶點擊選擇切換用戶點擊域名彈出菜單點擊添加新用戶輸入用戶和密碼,點擊登錄驗證進入odoo頁面

Docker 應用數據備份、遷移方案

一、為什么要做Docker數據備份1、保障數據與配置的安全性防止數據丟失:Docker 容器本身是 “臨時性” 的(基于鏡像創建,刪除后數據默認丟失),但容器中運行的應用(如數據庫、日志服務)會產生持久…

【PTA數據結構 | C語言版】強連通分量

本專欄持續輸出數據結構題目集,歡迎訂閱。 文章目錄題目代碼題目 本題請你編寫程序,輸出給定有向圖中的各個強連通分量,并統計強連通分量的個數。 輸入格式: 輸入首先在第一行給出 2 個整數,依次為有向圖的頂點數 n&…

idea部署新項目時,用自定義的maven出現的問題解決

出現這個問題是因為maven版本和idea版本不兼容,例如圖示是maven3.9和idea2021.3的版本不兼容,maven換成3.8.x即可解決

OCR 身份識別:讓身份信息錄入場景更高效安全

在銀行柜臺開戶、線上平臺實名認證等場景中,身份信息錄入是基礎環節,OCR 身份識別產品正成為提升效率與安全性的關鍵。?傳統人工錄入身份證信息,不僅耗時久,還易因手誤導致姓名、號碼出錯,影響業務辦理進度。而 OCR 身…

Web 服務器和Web 中間件

一、什么是 Web 中間件 Web 中間件(Web Middleware)是運行在 Web 服務器與實際業務程序之間的一層“膠水”軟件,用來統一處理公共事務,讓開發者專注寫業務邏輯。常見職責: 請求/響應攔截(鑒權、日志、跨域、…

Paimon的部分更新以及DeleteVector實現

背景 本文基于 Paimon 0.9 出于對與Paimon內部的DeleteVctor的實現以及部分更新的實現進行的源碼閱讀。 關于 DeleteVector的介紹可以看這里 說明 對于Paimon來說無論是Spark中使用還是Flink使用,后面的邏輯都是一樣的,所以我們以Spark為例來說。所以…

Redis 的事務機制是怎樣的?

Redis 的事務機制 Redis支持事務機制,其主要目的是確保多個命令執行的原子性,即這些命令會作為一個不可分割的操作單元執行。 需要注意的是,Redis事務不支持回滾操作。從Redis 2.6.5版本開始,服務器會在命令累積階段檢測錯誤。在執行EXEC命令時,若發現錯誤則會拒絕執行事…

網安學習NO.17

1. VPN 概述定義:在公用網絡(如 Internet、幀中繼、ATM 等)中,通過技術手段虛擬出的一條企業內部專線,能像私有網絡一樣提供安全性、可靠性和可管理性。核心特征:利用公共網絡構建,具備 “虛擬性…

MCU芯片AS32S601在衛星光纖放大器(EDFA)中的應用探索

摘要:本文聚焦于國科安芯推出的AS32S601型MCU芯片在衛星光纖放大器(EDFA)中的潛在應用,探討其技術特性、抗輻射性能及適用性。通過分析其在單粒子效應脈沖激光試驗中的表現,結合EDFA系統對控制芯片的要求,評…

Hexo - 免費搭建個人博客02 - 創建個人博客

導言我的博客:https://q164129345.github.io/ 開始一步一步地完成博客的創建。 一、初始化Hexo博客以上所示,運行以下指令在myCode文件夾里初始化一個hexo博客。 hexo init myblog二、安裝依賴如上所示,完成依賴的安裝。 cd myblog npm insta…

單片機-----基礎知識整合

一、基礎知識1)單片機的組成:中央處理器CPU、隨機存儲器RAM、只讀存儲器ROM、定時器、多種I/O接口、中斷系統等2)STM32U575RIT6采用ARM Cortex-M33內核架構ARM是什么?①ARM是一家公司,ARM公司是一家芯片知識產權&#…

雙流join 、 Paimon Partial Update 和 動態schema

背景 Paimon 通過其獨特的 partial-update 合并引擎和底層的 LSM 存儲結構,巧妙地將傳統雙流 Join 中對 Flink State 的高頻隨機讀/寫,轉換為了對 Paimon 表的順序寫和后臺的高效合并,從而一站式地解決了 Flink 作業狀態過大、依賴外部 KV 系…

7.3.1 進程調度機制那些事兒

一:task_struct結構體分析 1、進程有兩種特殊形式:沒有用戶虛擬地址空間的進程叫內核線程,共享用戶虛擬地址空間的進程叫作用戶線程。共享同一個用戶虛擬地址空間的所有用戶線程叫線程組。 C語言標準庫進程 Linux內核進程 …

基于多種機器學習的水質污染及安全預測分析系統的設計與實現【隨機森林、XGBoost、LightGBM、SMOTE、貝葉斯優化】

文章目錄有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主項目介紹總結每文一語有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主 項目介紹 隨著工業化和城市化的不斷推進,水質污染問題逐漸成為影響生態環境…

Linux第三天Linux基礎命令(二)

1.grep命令可以通過grep命令,從文件中通過關鍵字過濾文件行。grep [-n] 關鍵字 文件路徑選項-n,可選,表示在結果中顯示匹配的行的行號。參數,關鍵字,必填,表示過濾的關鍵字,帶有空格或其它特殊符…

Linux Debian操作系統、Deepin深度操作系統手動分區方案參考

以下是Linux Debian操作系統、Deepin深度操作系統安裝過程中手動分區的建議,按UEFI、swap、boot、根分區、home分區劃分,以下是詳細的分區配置參考建議: 一、手動分區方案(UEFI模式)分區名稱分區類型大小建議掛載點文件…