大數據管理與應用系列叢書《數據挖掘》讀書筆記之集成學習(1)

文章目錄

  • 前言
  • 一、集成學習是什么?
    • 1.基本思想
    • 2.集成學習的類型
    • 3. 集成學習的結合策略
      • 3.1 為什么結合策略是集成學習的靈魂?
      • 3.2 經典策略
            • (1)**投票法(Voting)**
            • **(2)平均法(Averaging)**
          • **(3) 學習法**
      • 3.3 關鍵對比與選擇建議
  • 總結


前言

近日,我有幸深入學習了國防科技大學呂欣教授及其團隊所著的《數據挖掘》一書,深受啟發,收獲頗豐。這本書系統性地介紹了數據挖掘的核心理論與經典算法,內容既涵蓋基礎概念,又深入實戰技巧,尤其適合機器學習、數據科學領域的初學者和進階者閱讀。

呂欣教授及其團隊以其深厚的學術功底和豐富的實踐經驗,將復雜的數據挖掘知識講解得條理清晰、通俗易懂。書中不僅有嚴謹的數學推導,還配有豐富的案例和代碼實現,真正做到了理論與實踐相結合。

為更好地消化吸收書中精華,我將持續更新《集成學習》章節的讀書筆記,內容包括集成學習的基本思想、常見方法(如Bagging、Boosting、Stacking)、隨機森林、AdaBoost、GBDT、XGBoost以及LightGBM等核心算法的原理、實現與調參技巧。希望能幫助更多同學系統掌握集成學習的知識體系,也為大家在學習《數據挖掘》這本書時提供一份參考資料。

如果你對數據挖掘、機器學習感興趣,或正在尋找一本既能打基礎又能提升實戰能力的教材,呂欣教授的《數據挖掘》絕對是不可多得的好書。推薦給大家!

下面是我的讀書筆記正文,歡迎交流指正👇


提示:以下是本篇文章正文內容,下面案例可供參考

一、集成學習是什么?

1.基本思想

(1)“弱者的聯盟”

集成學習(Ensemble learning)是機器學習中的一種思想,通過構建并結合多個個體學習器(Individual learner)形成一個精度更高的機器學習模型。這些個體學習器也是機器學習算法,可以是樸素貝葉斯、決策樹、支持向量機和神經網絡等。集成學習示意圖如圖1所示。

傳統機器學習算法 (例如:決策樹,邏輯回歸等) 的目標都是尋找一個最優分類器盡可能的將訓練數據分開。集成學習 算法的基本思想就是將多個弱分類器組合,從而實現一個預測效果更好的集成分類器。集成算法可以說從一方面驗證了中國的一句老話:三個臭皮匠,賽過諸葛亮。

集成學習示意圖
(2)“多樣性紅利”:模型間的差異性比單個模型的精度更重要,這與人類社會團隊協作的規律驚人相似。

不同集成結果示例

2.集成學習的類型

在這里插入圖片描述

3. 集成學習的結合策略

3.1 為什么結合策略是集成學習的靈魂?

集成學習的核心不是“模型越多越好”,而是“如何讓模型間的協作產生超越個體的智
慧”。真正決定集成效果上限的,往往是基學習器的結合策略(Combination Strategy)。

[!NOTE]

我的思考

  • 如果把基模型比作“專家”,結合策略就是“專家委員會”的議事規則;

  • 好的策略能抑制噪聲、放大有效信息,甚至讓弱模型通過協作達到強模型的效果;

  • 結合策略的設計本質是信息融合的數學建模,背后隱含對數據分布、模型能力的先驗假設。

3.2 經典策略

(1)投票法(Voting)
  • 硬投票(Hard Voting):平等對待每個模型,易受“多數暴政”影響(噪聲模型可能主導結果)

y^=argmax?c∈C∑i=1TI(hi(x)=c)\hat{y}=\operatorname{argmax}_{c\in C}\sum_{i=1}^T\mathbb{I}(h_i(x)=c) y^?=argmaxcC?i=1T?I(hi?(x)=c)

? 其中:

? C:類別集合; II(?):指示函數(預測為類別 cc 時取1,否則取0)。

? 特點:直接統計類別票數,多數決制;可能受“多數噪聲模型”干擾(若多個弱模型預測錯誤)。


  • 軟投票(Soft Voting):引入概率權重,但對置信度的校準敏感(模型輸出概率未必可靠)。

y^=argmax?c∈C1T∑i=1TPi(c∣x)\hat{y}=\operatorname{argmax}_{c\in C}\frac{1}{T}\sum_{i=1}^TP_i(c|x) y^?=argmaxcC?T1?i=1T?Pi?(cx)

? 其中:

  • Pi(c∣x)表示第i個模型對樣本x屬于類別c的預測概率。P_i(c|x)表示第i個模型對樣本x屬于類別c的預測概率。 Pi?(cx)表示第i個模型對樣本x屬于類別c的預測概率。

? 特點:要求基模型能輸出概率(如邏輯回歸、帶概率校準的SVM);對模型校準敏感,若概率未校準可能效果下降。


  • 加權投票(Weighted Voting)

? 以軟投票為例:
y^=argmax?c∈C∑i=1TwiPi(c∣x)\hat{y}=\operatorname{argmax}_{c\in C}\sum_{i=1}^Tw_iP_i(c|x) y^?=argmaxcC?i=1T?wi?Pi?(cx)

  • 權重wi可基于模型性能或領域知識設定(如AUC值高的模型權重更大)。

[!NOTE]

  • 是否所有模型的“投票權”應該平等?
  • 如何量化模型在不同樣本區域的置信度?
  • 改進思路:動態權重分配(如基于樣本局部密度的加權投票)。
(2)平均法(Averaging)
  • 簡單平均(Simple Averaging)
    y^=1T∑i=1Thi(x)\hat{y}=\frac{1}{T}\sum_{i=1}^Th_i(x) y^?=T1?i=1T?hi?(x)
    其中:T:基模型數量;h_i(x):第 i 個模型對樣本 x 的預測值;y^:最終預測結果。

? 特點:所有模型權重相等,假設模型誤差服從獨立同分布;對異常值敏感(可通過截斷平均改進)。

  • 加權平均(Weighted Averaging)
    y^=∑i=1Twihi(x),其中∑i=1Twi=1\hat{y}=\sum_{i=1}^Tw_ih_i(x),\quad\text{其中}\sum_{i=1}^Tw_i=1 y^?=i=1T?wi?hi?(x),其中i=1T?wi?=1
    wi:第i個模型的權重,通常根據模型性能(如驗證集準確率)動態分配。

    特點:高性能模型獲得更高權重;需注意權重分配的合理性(避免過擬合驗證集)。

[!TIP]

  • 算術平均假設誤差服從高斯分布,但現實任務中誤差可能呈現偏態或重尾分布。

  • 案例:在金融風險預測中,少數極端值的預測誤差可能對簡單平均產生災難性影響。

  • 解決方案

    截斷平均(Trimmed Mean):去掉最高/最低的預測值;

    分位數融合(Quantile Blending):直接集成不同分位數的預測結果。

(3) 學習法
  • 傳統Stacking用基模型的輸出訓練元模型,但可能引入過擬合風險(尤其在基模型高度相關時)。
  • 我的實驗發現
    • 使用低復雜度的元模型(如線性回歸)反而比深度網絡更穩定;
    • 對基模型輸出做特征工程(如加入原始特征、交互項)比直接拼接更有效;
    • 對抗驗證技巧:通過檢測元模型是否過擬合基模型的噪聲來調整訓練策略。

3.3 關鍵對比與選擇建議

方法適用場景優點缺點
簡單平均模型性能相近的回歸任務計算簡單,抗過擬合對異常值和低質量模型敏感
加權平均模型性能差異顯著的回歸任務靈活利用模型差異性需額外計算權重,可能過擬合驗證集
硬投票類別標簽明確的分類任務無需概率輸出,實現簡單忽略模型置信度,易受多數噪聲影響
軟投票模型輸出可靠概率的分類任務利用概率信息,結果更平滑依賴概率校準,計算復雜度略高

總結

以上就是今天要講的內容,通過對呂欣老師《數據挖掘》教材中“集成學習”章節的系統學習與梳理,我對這一強大機器學習范式的核心思想和方法論有了更深刻的認識。

  1. 核心思想:協作優于單干
    集成學習的魅力在于其樸素而深刻的哲學:“弱者的聯盟”。它通過構建并結合多個性能尚可的“弱學習器”,最終形成一個預測更精準、泛化能力更強的“強學習器”。這完美印證了“三個臭皮匠,賽過諸葛亮”的古老智慧。其成功的核心關鍵并非個體模型的極致性能,而在于模型之間的“多樣性”,即模型誤差的差異性和互補性。

  2. 方法論的三大支柱:
    集成學習主要圍繞三大策略展開,各有其獨特的工作機制與適用場景:
    (1) Bagging (如隨機森林):通過并行 Bootstrap 抽樣構建多個基學習器,并采用投票/平均法結合結果。其核心是降低方差,通過“民主決策”來平滑噪聲、避免過擬合。
    (2) Boosting (如AdaBoost, GBDT):通過串行方式訓練基學習器,每個新模型都專注于修正前序模型的錯誤,并動態調整樣本權重。其核心是降低偏差,體現“知錯能改”,逐步逼近復雜問題。
    (3) Stacking:引入“元學習器”來學習如何最優地組合多個基學習器的預測結果,如同一個“專家委員會”的決策機制,靈活性最高,但需謹慎防止過擬合。

  3. 結合策略是靈魂:
    如何將多個模型的輸出轉化為最終決策,是集成學習的精髓。投票法(硬投票、軟投票)和平均法(簡單平均、加權平均)是直觀的策略,而其背后蘊含的是對模型置信度、性能差異以及誤差分布的深刻考量。

總而言之,集成學習不僅是數據挖掘工具箱中一套高效且實用的算法集合,更是一種解決問題的系統性思維——通過協作與組合,將有限的個體能力匯聚成強大的集體智慧。呂欣教授的《數據挖掘》一書對此進行了極為清晰和富有洞見的闡述,極大地幫助我構建了系統性的知識框架,特此推薦給每一位對機器學習感興趣的朋友。

作者:栗子同學、李同學

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94322.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94322.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94322.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

嵌入式知識篇---32GUI

要理解 32 位單片機的 GUI,咱們先從 “基礎概念” 入手,再拆成 “為什么能跑 GUI”“核心組成”“怎么實現”“常用工具”“實際用途” 這幾步講,全程不用復雜術語,像聊日常用品一樣說清楚。一、先搞懂 2 個基礎概念在講 “32 位單…

【iOS】SDWebImage第三方庫源碼學習筆記

前言之前在寫項目時,經常用到SDWebImage這個第三方庫來加載圖片,并且了解到了這個第三方庫在處理圖片時自帶異步下載和緩存功能,以及對cell復用的處理。這篇文章來系統學習一下SDWebImage第三方庫的知識以及底層原理簡介SDWebImage為UIImageV…

Linux --網絡基礎概念

一.網絡發展獨立模式:在早期計算機之間是相互獨立的,機器之間的數據只能通過軟硬盤來傳輸,這就代表無法同時完成任務,需要前面的計算機完成各自的任務經過硬盤傳遞數據再完成自己的任務,效率十分低下。網絡互聯&#x…

教育系統搭建攻略:線上知識付費與線下消課排課全解析

作為一名資深平臺測評師,最近我挖到了一個教育機構的 “寶藏工具”—— 喬拓云教育系統。別看它名字低調,用起來那叫一個順手,線上知識付費、線下消課排課全給你安排得明明白白,簡直是機構老板和教務員的 “摸魚神器”。多端口管理…

PMP項目管理知識點-①項目基本概念

目錄 1.項?的定義 概念: 特點: 項?與運營的區別 項?特點: 運營特點: 2.項?管理的發展 3.項?、項?集與項?組合 結構層次 4.項?的關鍵組成部分 項??命周期: 項?管理過程組: 項?階段&…

Python內置函數全解析:30個核心函數語法、案例與最佳實踐指南

💝💝💝歡迎蒞臨我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 持續學習,不斷…

數據建模怎么做?一文講清數據建模全流程

目錄 一、需求分析 1. 搞清楚業務目標:這數據是要解決啥問題? 2. 明確數據邊界:哪些數據該要,哪些不該要? 3. 弄明白使用場景:誰用這數據,怎么用? 二、模型設計 1. 第一步&…

胸部X光片數據集:健康及肺炎2類,14k+圖像

胸部X光片數據集概述 數據集包含14090張圖像,分為正常胸部X光3901張,肺炎胸部X光10189張。 標注格式:無標注,文件夾分類。 圖像尺寸:640*640 正常胸部X光: 肺炎胸部X光: 數據采集: 拍攝方式:均為前后位(anterior-posterior)胸部X光,屬患者常規臨床護理的一部分…

MySQL數據庫開發教學(二) 核心概念、重要指令

書接上回:MySQL數據庫開發教學(一) 基本架構-CSDN博客 建議工具: Navicat Premium (收費 / 需破解):Navicat Premium | 管理和開發你的數據庫 phpstudy 2018 (免費):phpStudy - Windows 一鍵部署 PHP 開發環境 小皮出品 前言 …

【40頁PPT】數字工廠一體化運營管控平臺解決方案(附下載方式)

篇幅所限,本文只提供部分資料內容,完整資料請看下面鏈接 https://download.csdn.net/download/2501_92808811/91716541 資料解讀:【40頁PPT】數字工廠一體化運營管控平臺解決方案 詳細資料請看本解讀文章的最后內容。該資料圍繞數字工廠一體…

數據產品(2)用戶畫像數據分析模型

目錄 1 用戶畫像 2 RFM模型 (用戶價值分群模型) 3 PSM 價格敏感度 4 精細化運營 1 用戶畫像 也稱用戶表標簽,是基于用戶行為分析獲得的對用戶的一種認知表達,即用戶數據標簽化,通過收集與分析用戶的用戶屬性(年齡、性別、城市、職業、設備、狀態)、用戶偏好(購物偏好,聽…

03_數據結構

第3課:數據結構 課程目標 掌握Python的基本數據結構:列表、元組、字典、集合學習字符串的高級操作方法理解不同數據結構的特點和適用場景 1. 列表(List) 1.1 列表的創建和基本操作 # 創建列表 fruits ["蘋果", "香…

【JavaEE】多線程 -- CAS機制(比較并交換)

目錄CAS是什么CAS的應用實現原子類實現自旋鎖ABA問題ABA問題概述ABA問題引起的BUG解決方案CAS是什么 CAS (compare and swap) 比較并交換,CAS 是物理層次支持程序的原子操作。說起原子性,這就設計到線程安全問題,在代碼的層面為了解決多線程…

The United Nations Is Already Dead

The United Nations Is Already Dead When children in Gaza rummage through rubble for food, when UN-run schools are reduced to dust, when the Security Council cannot even pass the mildest ceasefire resolution—blocked by a single veto— we must confront a br…

Kubernetes v1.34 前瞻:資源管理、安全與可觀測性的全面進化

預計正式發布:2025年8月底 | 分類:Kubernetes 隨著2025年8月底的臨近,Kubernetes社區正緊鑼密鼓地準備下一個重要版本——v1.34的發布。本次更新并非簡單的功能疊加,而是在資源管理、安全身份、可觀測性和工作負載控制等核心領域的…

用 Bright Data MCP Server 構建實時數據驅動的 AI 情報系統:從市場調研到技術追蹤的自動化實戰

前言 本文通過兩個真實場景(云服務商對比與 AIGC 技術追蹤),展示了如何使用 Bright Data MCP Server 與 Lingma IDE 構建一個具備實時網頁數據抓取、結構化分析與自動化報告生成能力的 AI 工作流。通過簡單的 API 調用與 JSON 配置&#xff…

牛頓第二定律的所有表達方式:1、線性表達 2、圓形表達 3、雙曲線表達 4、拋物線表達5、數列表達

牛頓第二定律是經典力學中的核心定律,表述為:物體的加速度與所受合力成正比,與質量成反比,方向與合力方向相同。其基本矢量形式為: F?ma? \vec{F} m \vec{a} Fma 其中,F?\vec{F}F 是合力(單…

【開發日記】SpringBoot 實現支持多個微信小程序的登錄

在實際業務場景中,需要一個后臺同時支持多個微信小程序的登錄。例如,企業有多個不同業務的小程序,但希望統一在同一個后臺系統里進行用戶認證和數據處理。這時候,我們就需要一個靈活的方式來管理多個小程序的 appid 和 secret&…

Docker 容器(一)

Docker一、Docker是什么1.什么是Docker2.Docker特點3.比較虛擬機和容器二、Docker安裝1.Docker??三大核心組件??2.安裝步驟(Ubuntu)3.阿里云鏡像加速三、Docker鏡像1.什么是鏡像2.UnionFS(聯合文件系統)3.Docker鏡像加載原理4…

容器安全實踐(二):實踐篇 - 從 `Dockerfile` 到 Pod 的權限深耕

在上一篇《容器安全實踐(一):概念篇》中,我們深入探討了容器安全的底層原理,并糾正了“容器天生安全”的誤解。我們了解了 root 用戶的雙重身份,以及特權容器的危險性。 然而,僅僅了解這些概念…