【機器學習】Bagging和Boosting的區別（面試準備）

news/2025/7/20 11:01:53/文章來源:https://justdoit.blog.csdn.net/article/details/103302353

Baggging 和Boosting都是模型融合的方法，可以將弱分類器融合之后形成一個強分類器，而且融合之后的效果會比最好的弱分類器更好。

Bagging:

先介紹Bagging方法：

Bagging即套袋法，其算法過程如下：

從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被多次抽取到，而有些樣本可能一次都沒有被抽中）。共進行k輪抽取，得到k個訓練集。（k個訓練集之間是相互獨立的）
每次使用一個訓練集得到一個模型，k個訓練集共得到k個模型。（注：這里并沒有具體的分類算法或回歸方法，我們可以根據具體問題采用不同的分類或回歸方法，如決策樹、感知器等）
對分類問題：將上步得到的k個模型采用投票的方式得到分類結果；對回歸問題，計算上述模型的均值作為最后的結果。（所有模型的重要性相同）

Boosting：

? ? ? AdaBoosting方式每次使用的是全部的樣本，每輪訓練改變樣本的權重。下一輪訓練的目標是找到一個函數f 來擬合上一輪的殘差。當殘差足夠小或者達到設置的最大迭代次數則停止。Boosting會減小在上一輪訓練正確的樣本的權重，增大錯誤樣本的權重。（對的殘差小，錯的殘差大）

? ? ? 梯度提升的Boosting方式是使用代價函數對上一輪訓練出的模型函數f的偏導來擬合殘差。

Bagging，Boosting二者之間的區別

Bagging和Boosting的區別：

1）樣本選擇上：

Bagging：訓練集是在原始集中有放回選取的，從原始集中選出的各輪訓練集之間是獨立的。

Boosting：每一輪的訓練集不變，只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。

2）樣例權重：

Bagging：使用均勻取樣，每個樣例的權重相等

Boosting：根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大。

3）預測函數：

Bagging：所有預測函數的權重相等。

Boosting：每個弱分類器都有相應的權重，對于分類誤差小的分類器會有更大的權重。

4）并行計算：

Bagging：各個預測函數可以并行生成

Boosting：各個預測函數只能順序生成，因為后一個模型參數需要前一輪模型的結果。

5）為什么說bagging是減少variance（方差），而boosting是減少bias（偏差）?？

這個很重要?

通常來說bagging，之所以進行bagging，是希望模型能夠具有更好的魯棒性，也就是穩定性，希望避免過擬合，顯然這就是在減少variance。

而boosting是在優化loss function損失函數--- L2正則，在降低loss，那么很顯然，這在很大程度上是減少bias。

?

?

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/456094.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/456094.shtml
英文地址，請注明出處：http://en.pswp.cn/news/456094.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

python中的循環結構

python中的循環結構

循環結構循環結構可以減少源程序重復書寫的工作量(代碼量)，用來描述重復執行某段算法的問題，這是程序設計中最能發揮計算機特長的程序結構。 Python中循環結構分為兩類，分別是 while 和 for .. in while 格式1： num1,num2 3…

閱讀更多...

線性判別結合源碼分析LDA原理

線性判別結合源碼分析LDA原理

1. LDA的思想 LDA線性判別分析也是一種經典的降維方法，LDA是一種監督學習的降維技術，也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括，就是“投影后類內方…

閱讀更多...

RIFF文件規范

RIFF文件規范

RIFF文件規范Peter Lee 2007-10-02 摘要：RIFF全稱為資源互換文件格式（Resources Interchange File Format），RIFF文件是windows環境下大部分多媒體文件遵循的一種文件結構，常見的如WAV文件、AVI文件等。RIFF可以看成一種…

閱讀更多...

FB宣布將回購60億美元股票首席會計官將離職

FB宣布將回購60億美元股票首席會計官將離職

11月19日消息，據美國媒體報道，Facebook宣布將回購60億美元股票，回購計劃將在明年第一季度開始實施。另外，該公司還宣布首席會計官賈斯艾特瓦爾將離職。短期回購股票可使Facebook贏得時間，緩解投資長期項目如Instagram…

閱讀更多...

2017小目標

2017小目標

最美人間四月天，沒有三月的傲寒，沒有五月的燥熱，桃花剛偷去了紅，楊柳在風中扭著腰，櫻花正開的爛漫。工作繁忙之余。做一下深呼吸，沾衣欲濕杏花雨，吹面不含楊柳風。不知不覺2017第一季度已經結束…

閱讀更多...

【機器學習】feature_importances_ 參數源碼解析

【機器學習】feature_importances_ 參數源碼解析

在用sklearn的時候經常用到feature_importances_ 來做特征篩選，那這個屬性到底是啥呢。分析源碼發現來源于每個base_estimator的決策樹的 feature_importances_ 由此發現計算邏輯來源于cython文件，這個文件可以在其github上查看源代碼而在DecisionTree…

閱讀更多...

流行視頻格式講解

流行視頻格式講解

轉自豪杰技術 http://www.herosoft.com 流行視頻格式講解 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的縮寫。這類格式包括了 MPEG-1, MPEG-2 和 MPEG-4在內的多種視頻格式。MPEG-1相信是大家接觸得最多的了，因為目前其正在被廣泛地應用在 VCD…

閱讀更多...

歐盟通過最新《數據保護法》

歐盟通過最新《數據保護法》

歐洲議會近日通過了最新的《數據保護法》，用以保護消費者的數據和隱私。該法案是數字時代的首個新規，取代了一套20年前的、在互聯網發展初期階段構想的規則。新規規定，當企業所擁有的消費者相關數據遭遇黑客攻擊等泄露事件后，消費…

閱讀更多...

ajax 長輪詢

ajax 長輪詢

未完成，因為需要換成webscoket來做，該ajax長輪詢有待完善 function poll(){$.ajax({type:"POST",url:"ajax",async:true,data:{"receiverType":"single","receiverId":"${receiverId}",&qu…

閱讀更多...

python中變量的作用域

python中變量的作用域

變量的作用域變量的作用域就是指變量的有效范圍。變量按照作用范圍分為兩類，分別是全局變量和局部變量。全局變量：在函數外部聲明的變量就是全局變量有效范圍：全局變量在函數外部可以正常使用。全局變量在函數內部也可以正常使用(需要…

閱讀更多...

【機器學習】關聯規則Apriori和mlxtend——推薦算法

【機器學習】關聯規則Apriori和mlxtend——推薦算法

引入： 啤酒與尿布的故事關聯規律挖掘：從交易數據中發現：買了X 還會買Y 的規則關聯規律挖掘‘購物籃分析’Market Basket Analysis（MBA） 關聯規律->應用于推薦系統 1. 關聯規則代碼演示使用的是mlxtend.frequent…

閱讀更多...

預防和檢測如日中天？事件響應表示不服

預防和檢測如日中天？事件響應表示不服

近些年，企業安全工作的關注點，一直聚焦在如何預防黑客攻擊。但是，頻發的大型跨國企業的數據泄露事件表明，即使是對網絡安全更為重視，同時也投入了更多成本的金融業，也明白了“無論做了怎樣的安全防護&#…

閱讀更多...

python中的內部函數和閉包函數

python中的內部函數和閉包函數

內部函數在函數內部聲明的函數就是內部函數。格式： def 函數名():局部變量...def 內部函數名():Python功能代碼...示例： def funName():name dragon#定義一個內部函數def inner():print(我是內部函數)‘’‘注釋： 1.內部函數的本質就是局…

閱讀更多...

【機器學習】K-Means（非監督學習）學習及實例使用其將圖片壓縮

【機器學習】K-Means（非監督學習）學習及實例使用其將圖片壓縮

非監督學習之k-means K-means通常被稱為勞埃德算法，這在數據聚類中是最經典的，也是相對容易理解的模型。算法執行的過程分為4個階段。 1、從數據中選擇k個對象作為初始聚類中心; 2、計算每個聚類對象到聚類中心的距離來劃分； 3、再次計算…

閱讀更多...

CloudCC CRM：物聯網必將成為CRM的推動力

CloudCC CRM：物聯網必將成為CRM的推動力

CRM熱門話題背后的主要推動力包括云、社交、移動和大數據，CloudCC CRM認為物聯網必將成為CRM的推動力，也就是傳感器將事物連接到互聯網，創建之前我們從未想到的新型服務。社交：在銷售、市場和客戶服務部門，營銷人員正…

閱讀更多...

關于Video Renderer和Overlay Mixer

關于Video Renderer和Overlay Mixer

原文作者: 陸其明整理日期: 2004/12/27 大家知道，Video Renderer (VR)是接收RGB/YUV裸數據，然后在顯示器上顯示的Filter。為提高計算機畫圖性能，根據你計算機顯卡的能力，VR會優先使用DirectDraw以及Overlay表面；如果…

閱讀更多...

【tensorflow】tensorflow -gpu安裝及jupyter環境更改

【tensorflow】tensorflow -gpu安裝及jupyter環境更改

tensorflow -gpu安裝首先，安裝Anoconda 1. 官網下載點我：2.安裝點擊 python 3.6 version自動下載x64版，下載好之后，然后安裝。如圖，打上勾之后，一路next3.打開終端 1）輸入conda –-version …

閱讀更多...

張震博士：SDT是未來安防發展方向

張震博士：SDT是未來安防發展方向

如何挖掘安防大數據價值是未來發展方向發展實踐證明，科技強警已經成為未來發展的必然選擇，發展科技強警，必須用技術實力說話。作為科技強警的重要組成部分，安防視頻非常重要，但是，目前，安防視頻…

閱讀更多...

關于虛擬機第二塊網卡eth1（僅主機模式）的配置問題

關于虛擬機第二塊網卡eth1（僅主機模式）的配置問題

這里發生了一個想不明白的事情，我的真機的網卡上面并沒有192.168.100.0網段的網卡但是我在虛擬機上面添加了一塊網卡（僅主機模式）eth1 并配置為192.168.100.60（配置文件已經寫好） 開機卻能用eth1連接上xhell&#xff…

閱讀更多...

【機器學習】樸素貝葉斯介紹及實例--對短信進行二分類使用多項式分布

【機器學習】樸素貝葉斯介紹及實例--對短信進行二分類使用多項式分布

貝葉斯首先什么是貝葉斯？ 一個例子，現分別有 A、B 兩個容器，在容器 A 里分別有 7 個紅球和 3 個白球，在容器 B 里有 1 個紅球和 9 個白球，現已知從這兩個容器里任意抽出了一個球，且是紅球，問這…

閱讀更多...

最新文章