機器學習-CatBoost

參考書籍：《機器學習-公式推導和代碼實現》

官方文檔提供的原生接口代碼參考書籍的P187～P188

簡介

全稱是Categorical + Boosting，由俄羅斯搜索引擎巨頭Yandex于2017年提出。突出的優勢是在于可以高效地處理數據中的類別特征

ML中對類別特征的處理方法

硬編碼

對類別特征進行數值映射，有多少類別就有多少數值。適用于類別特征取值有明顯的“順序性”，如學歷特征取值為“高中”、“本科”、“碩士研究生”和“博士研究生”

one-hot編碼

類別特征的取值較多的話，特征會比較稀疏，增加訓練負擔。折中的方式：將類別數目進行重新歸類，降低類別數目后再進行one-hot編碼

目標變量統計（target statistics，TS）

計算每個類別對于目標變量的期望值，并將類別特征轉換為新的數值特征。CatBoost在常規TS的基礎上做了改進。

模型詳解

分為處理類別變量的目標變量統計、特征組合和排序提升算法、其它這4個緯度進行介紹

目標變量統計

維度	內容
目標	更好地處理類別特征
思路	常規的TS算法：對類別對應的標簽平均值進行替換。缺點：訓練集、測試集會因為數據分布不一樣而產生條件偏移問題CatBoost：增加先驗項，用以減少噪聲、低頻類別型數據對數據分布的影響。提供的方法有holdout TS、leave-one-out TS、ordered TS等幾種改進的TS算法

類別特征組合

維度	內容
目標	對類別特征之間的組合進行篩選，避免類別特征數量稱指數及增長，而且避免了聯合信息的丟失。比如，考慮用戶ID、廣告主題之間的聯合信息
思路	采用貪心的策略考慮特征的組合將當前樹的所有組合、類別特征與數據集中的所有類別特征相結合，并將新的類別組合型特征動態地轉換為數值特征

排序提升算法（order boosting）

維度	內容
目標	解決預測偏移（predict shift）
相關概念	預測偏移：訓練樣本的分布和測試樣本的分布之間產生的偏移
思路	采用基于ordered TS的排序提升算法

其它

基分類器

相比于GBDT、XGBoost、LightGBM，采用對稱樹作為基分類器

對稱樹：在樹同一層，分裂標準相同，具有平衡、不宜過擬合、大大縮短測試時間特點

多GPU訓練

提供多GPU訓練加速支持

結尾

親愛的讀者朋友：感謝您在繁忙中駐足閱讀本期內容！您的到來是對我們最大的支持??

正如古語所言："當局者迷，旁觀者清"。您獨到的見解與客觀評價，恰似一盞明燈💡，能幫助我們照亮內容盲區，讓未來的創作更加貼近您的需求。

若此文給您帶來啟發或收獲，不妨通過以下方式為彼此搭建一座橋梁： ? 點擊右上角【點贊】圖標，讓好內容被更多人看見 ? 滑動屏幕【收藏】本篇，便于隨時查閱回味 ? 在評論區留下您的真知灼見，讓我們共同碰撞思維的火花

我始終秉持匠心精神，以鍵盤為犁鏵深耕知識沃土💻，用每一次敲擊傳遞專業價值，不斷優化內容呈現形式，力求為您打造沉浸式的閱讀盛宴📚。

有任何疑問或建議？評論區就是我們的連心橋！您的每一條留言我都將認真研讀，并在24小時內回復解答📝。

愿我們攜手同行，在知識的雨林中茁壯成長🌳，共享思想綻放的甘甜果實。下期相遇時，期待看到您智慧的評論與閃亮的點贊身影?！

萬分感謝🙏🙏您的點贊👍👍、收藏?🌟、評論💬🗯?、關注??💚～?

自我介紹：一線互聯網大廠資深算法研發（工作6年+），4年以上招聘面試官經驗（一二面面試官，面試候選人400+），深諳崗位專業知識、技能雷達圖，已累計輔導15+求職者順利入職大中型互聯網公司。熟練掌握大模型、NLP、搜索、推薦、數據挖掘算法和優化，提供面試輔導、專業知識入門到進階輔導等定制化需求等服務，助力您順利完成學習和求職之旅（有需要者可私信聯系）

友友們，自己的知乎賬號為“快樂星球”，定期更新技術文章，敬請關注！???

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/89904.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/89904.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/89904.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！