參考書籍:《機器學習-公式推導和代碼實現》
官方文檔提供的原生接口代碼參考書籍的P187~P188
簡介
全稱是Categorical + Boosting,由俄羅斯搜索引擎巨頭Yandex于2017年提出。突出的優勢是在于可以高效地處理數據中的類別特征
ML中對類別特征的處理方法
硬編碼
-
對類別特征進行數值映射,有多少類別就有多少數值。適用于類別特征取值有明顯的“順序性”,如學歷特征取值為“高中”、“本科”、“碩士研究生”和“博士研究生”
one-hot編碼
類別特征的取值較多的話,特征會比較稀疏,增加訓練負擔。折中的方式:將類別數目進行重新歸類,降低類別數目后再進行one-hot編碼
目標變量統計(target statistics,TS)
計算每個類別對于目標變量的期望值,并將類別特征轉換為新的數值特征。CatBoost在常規TS的基礎上做了改進。
模型詳解
分為處理類別變量的目標變量統計、特征組合和排序提升算法、其它這4個緯度進行介紹
目標變量統計
維度 | 內容 |
目標 | 更好地處理類別特征 |
思路 | 常規的TS算法:對類別對應的標簽平均值進行替換。缺點:訓練集、測試集會因為數據分布不一樣而產生條件偏移問題CatBoost:增加先驗項,用以減少噪聲、低頻類別型數據對數據分布的影響。提供的方法有holdout TS、leave-one-out TS、ordered TS等幾種改進的TS算法 |
類別特征組合
維度 | 內容 |
目標 | 對類別特征之間的組合進行篩選,避免類別特征數量稱指數及增長,而且避免了聯合信息的丟失。比如,考慮用戶ID、廣告主題之間的聯合信息 |
思路 | 采用貪心的策略考慮特征的組合將當前樹的所有組合、類別特征與數據集中的所有類別特征相結合,并將新的類別組合型特征動態地轉換為數值特征 |
排序提升算法(order boosting)
維度 | 內容 |
目標 | 解決預測偏移(predict shift) |
相關概念 | 預測偏移:訓練樣本的分布和測試樣本的分布之間產生的偏移 |
思路 | 采用基于ordered TS的排序提升算法 |
其它
基分類器
相比于GBDT、XGBoost、LightGBM,采用對稱樹作為基分類器
- 對稱樹:在樹同一層,分裂標準相同,具有平衡、不宜過擬合、大大縮短測試時間特點
多GPU訓練
提供多GPU訓練加速支持
結尾
親愛的讀者朋友:感謝您在繁忙中駐足閱讀本期內容!您的到來是對我們最大的支持??
正如古語所言:"當局者迷,旁觀者清"。您獨到的見解與客觀評價,恰似一盞明燈💡,能幫助我們照亮內容盲區,讓未來的創作更加貼近您的需求。
若此文給您帶來啟發或收獲,不妨通過以下方式為彼此搭建一座橋梁: ? 點擊右上角【點贊】圖標,讓好內容被更多人看見 ? 滑動屏幕【收藏】本篇,便于隨時查閱回味 ? 在評論區留下您的真知灼見,讓我們共同碰撞思維的火花
我始終秉持匠心精神,以鍵盤為犁鏵深耕知識沃土💻,用每一次敲擊傳遞專業價值,不斷優化內容呈現形式,力求為您打造沉浸式的閱讀盛宴📚。
有任何疑問或建議?評論區就是我們的連心橋!您的每一條留言我都將認真研讀,并在24小時內回復解答📝。
愿我們攜手同行,在知識的雨林中茁壯成長🌳,共享思想綻放的甘甜果實。下期相遇時,期待看到您智慧的評論與閃亮的點贊身影?!
萬分感謝🙏🙏您的點贊👍👍、收藏?🌟、評論💬🗯?、關注??💚~?
自我介紹:一線互聯網大廠資深算法研發(工作6年+),4年以上招聘面試官經驗(一二面面試官,面試候選人400+),深諳崗位專業知識、技能雷達圖,已累計輔導15+求職者順利入職大中型互聯網公司。熟練掌握大模型、NLP、搜索、推薦、數據挖掘算法和優化,提供面試輔導、專業知識入門到進階輔導等定制化需求等服務,助力您順利完成學習和求職之旅(有需要者可私信聯系)
友友們,自己的知乎賬號為“快樂星球”,定期更新技術文章,敬請關注!???