【機器學習】Bagging和Boosting的區別(面試準備)

Baggging 和Boosting都是模型融合的方法,可以將弱分類器融合之后形成一個強分類器,而且融合之后的效果會比最好的弱分類器更好。

Bagging:

先介紹Bagging方法:

Bagging即套袋法,其算法過程如下:

  1. 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)

  2. 每次使用一個訓練集得到一個模型,k個訓練集共得到k個模型。(注:這里并沒有具體的分類算法或回歸方法,我們可以根據具體問題采用不同的分類或回歸方法,如決策樹、感知器等)

  3. 對分類問題:將上步得到的k個模型采用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最后的結果。(所有模型的重要性相同)

Boosting:

? ? ? AdaBoosting方式每次使用的是全部的樣本,每輪訓練改變樣本的權重。下一輪訓練的目標是找到一個函數f 來擬合上一輪的殘差。當殘差足夠小或者達到設置的最大迭代次數則停止。Boosting會減小在上一輪訓練正確的樣本的權重,增大錯誤樣本的權重。(對的殘差小,錯的殘差大)

? ? ? 梯度提升的Boosting方式是使用代價函數對上一輪訓練出的模型函數f的偏導來擬合殘差。

Bagging,Boosting二者之間的區別

Bagging和Boosting的區別:

1)樣本選擇上:

Bagging:訓練集是在原始集中有放回選取的,從原始集中選出的各輪訓練集之間是獨立的。

Boosting:每一輪的訓練集不變,只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。

2)樣例權重:

Bagging:使用均勻取樣,每個樣例的權重相等

Boosting:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大。

3)預測函數:

Bagging:所有預測函數的權重相等。

Boosting:每個弱分類器都有相應的權重,對于分類誤差小的分類器會有更大的權重。

4)并行計算:

Bagging:各個預測函數可以并行生成

Boosting:各個預測函數只能順序生成,因為后一個模型參數需要前一輪模型的結果。

5)為什么說bagging是減少variance(方差),而boosting是減少bias(偏差)??

這個很重要?

通常來說bagging,之所以進行bagging,是希望模型能夠具有更好的魯棒性,也就是穩定性,希望避免過擬合,顯然這就是在減少variance。

boosting是在優化loss function損失函數--- L2正則,在降低loss,那么很顯然,這在很大程度上是減少bias。

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456094.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456094.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456094.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python中的循環結構

循環結構 循環結構可以減少源程序重復書寫的工作量(代碼量),用來描述重復執行某段算法的問題,這是程序設計中最能發揮計算機特長的程序結構。 Python中循環結構分為兩類,分別是 while 和 for .. in while 格式1: num1,num2 3…

線性判別結合源碼分析LDA原理

1. LDA的思想 LDA線性判別分析也是一種經典的降維方法,LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括,就是“投影后類內方…

RIFF文件規范

RIFF文件規范Peter Lee 2007-10-02 摘要:RIFF全稱為資源互換文件格式(Resources Interchange File Format),RIFF文件是windows環境下大部分多媒體文件遵循的一種文件結構,常見的如WAV文件、AVI文件等。RIFF可以看成一種…

FB宣布將回購60億美元股票 首席會計官將離職

11月19日消息,據美國媒體報道,Facebook宣布將回購60億美元股票,回購計劃將在明年第一季度開始實施。另外,該公司還宣布首席會計官賈斯艾特瓦爾將離職。 短期回購股票可使Facebook贏得時間,緩解投資長期項目如Instagram…

2017小目標

最美人間四月天,沒有三月的傲寒,沒有五月的燥熱,桃花剛偷去了紅,楊柳在風中扭著腰,櫻花正開的爛漫。工作繁忙之余。做一下深呼吸,沾衣欲濕杏花雨,吹面不含楊柳風。不知不覺2017第一季度已經結束…

【機器學習】feature_importances_ 參數源碼解析

在用sklearn的時候經常用到feature_importances_ 來做特征篩選,那這個屬性到底是啥呢。 分析源碼發現來源于每個base_estimator的決策樹的 feature_importances_ 由此發現計算邏輯來源于cython文件,這個文件可以在其github上查看源代碼 而在DecisionTree…

流行視頻格式講解

轉自 豪杰技術 http://www.herosoft.com 流行視頻格式講解 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的縮寫。這類格式包括了 MPEG-1, MPEG-2 和 MPEG-4在內的多種視頻格式。MPEG-1相信是大家接觸得最多的了,因為目前其正在被廣泛地應用在 VCD…

歐盟通過最新《數據保護法》

歐洲議會近日通過了最新的《數據保護法》,用以保護消費者的數據和隱私。該法案是數字時代的首個新規,取代了一套20年前的、在互聯網發展初期階段構想的規則。新規規定,當企業所擁有的消費者相關數據遭遇黑客攻擊等泄露事件后,消費…

ajax 長輪詢

未完成,因為需要換成webscoket來做,該ajax長輪詢有待完善 function poll(){$.ajax({type:"POST",url:"ajax",async:true,data:{"receiverType":"single","receiverId":"${receiverId}",&qu…

python中變量的作用域

變量的作用域 變量的作用域就是指變量的有效范圍。 變量按照作用范圍分為兩類,分別是 全局變量 和 局部變量。 全局變量:在函數外部聲明的變量就是全局變量 有效范圍:全局變量在函數外部可以正常使用。全局變量在函數內部也可以正常使用(需要…

【機器學習】 關聯規則Apriori和mlxtend——推薦算法

引入: 啤酒與尿布的故事 關聯規律挖掘:從交易數據中發現:買了X 還會買Y 的規則 關聯規律挖掘‘購物籃分析’Market Basket Analysis(MBA) 關聯規律->應用于推薦系統 1. 關聯規則代碼演示 使用的是mlxtend.frequent…

預防和檢測如日中天?事件響應表示不服

近些年,企業安全工作的關注點,一直聚焦在如何預防黑客攻擊。但是,頻發的大型跨國企業的數據泄露事件表明,即使是對網絡安全更為重視,同時也投入了更多成本的金融業,也明白了“無論做了怎樣的安全防護&#…

python中的內部函數和閉包函數

內部函數 在函數內部聲明的函數就是內部函數。 格式: def 函數名():局部變量...def 內部函數名():Python功能代碼...示例: def funName():name dragon#定義一個內部函數def inner():print(我是內部函數)‘’‘注釋: 1.內部函數的本質就是局…

【機器學習】K-Means(非監督學習)學習及實例使用其將圖片壓縮

非監督學習之k-means K-means通常被稱為勞埃德算法,這在數據聚類中是最經典的,也是相對容易理解的模型。算法執行的過程分為4個階段。 1、從數據中選擇k個對象作為初始聚類中心; 2、計算每個聚類對象到聚類中心的距離來劃分; 3、再次計算…

CloudCC CRM:物聯網必將成為CRM的推動力

CRM熱門話題背后的主要推動力包括云、社交、移動和大數據,CloudCC CRM認為物聯網必將成為CRM的推動力,也就是傳感器將事物連接到互聯網,創建之前我們從未想到的新型服務。 社交:在銷售、市場和客戶服務部門,營銷人員正…

關于Video Renderer和Overlay Mixer

原文作者: 陸其明 整理日期: 2004/12/27 大家知道,Video Renderer (VR)是接收RGB/YUV裸數據,然后在顯示器上顯示的Filter。為提高計算機畫圖性能,根據你計算機顯卡的能力,VR會優先使用DirectDraw以及Overlay表面;如果…

【tensorflow】tensorflow -gpu安裝及jupyter環境更改

tensorflow -gpu安裝 首先,安裝Anoconda 1. 官網下載點我:2.安裝 點擊 python 3.6 version自動下載x64版,下載好之后,然后安裝。 如圖,打上勾之后,一路next3.打開終端 1)輸入conda –-version …

張震博士:SDT是未來安防發展方向

如何挖掘安防大數據價值是未來發展方向 發展實踐證明,科技強警已經成為未來發展的必然選擇,發展科技強警,必須用技術實力說話。作為科技強警的重要組成部分,安防視頻非常重要,但是,目前,安防視頻…

關于虛擬機第二塊網卡eth1(僅主機模式)的配置問題

這里發生了一個想不明白的事情,我的真機的網卡上面并沒有192.168.100.0網段的網卡 但是我在虛擬機上面添加了一塊網卡(僅主機模式)eth1 并配置為192.168.100.60(配置文件已經寫好) 開機卻能用eth1連接上xhell&#xff…

【機器學習】樸素貝葉斯介紹及實例--對短信進行二分類 使用多項式分布

貝葉斯 首先什么是貝葉斯? 一個例子,現分別有 A、B 兩個容器,在容器 A 里分別有 7 個紅球和 3 個白球,在容器 B 里有 1 個紅球和 9 個白球,現已知從這兩個容器里任意抽出了一個球,且是紅球,問這…