貝葉斯優化python包_貝葉斯全局優化(LightGBM調參)

這里結合Kaggle比賽的一個數據集,記錄一下使用貝葉斯全局優化和高斯過程來尋找最佳參數的方法步驟。

1.安裝貝葉斯全局優化庫

從pip安裝最新版本

pip install bayesian-optimization

2.加載數據集

import pandas as pd

import numpy as np

from sklearn.model_selection import StratifiedKFold

from scipy.stats import rankdata

from sklearn import metrics

import lightgbm as lgb

import warnings

import gc

pd.set_option('display.max_columns', 200)

train_df = pd.read_csv('../input/train.csv')

test_df = pd.read_csv('../input/test.csv')

目標變量的分布

target = 'target'

predictors = train_df.columns.values.tolist()[2:]

train_df.target.value_counts()

問題是不平衡。這里使用50%分層行作為保持行,以便驗證集獲得最佳參數。 稍后將在最終模型擬合中使用5折交叉驗證。

bayesian_tr_index, bayesian_val_index =

list(StratifiedKFold(n_splits=2,

shuffle=True, random_state=1).split(train_df,

train_df.target.values))[0]

這些bayesian_tr_index和bayesian_val_index索引將用于貝葉斯優化,作為訓練和驗證數據集的索引。

3.黑盒函數優化(LightGBM)

在加載數據時,為LightGBM創建黑盒函數以查找參數。

def LGB_bayesian(

num_leaves, # int

min_data_in_leaf, # int

learning_rate,

min_sum_hessian_in_leaf, # int

feature_fraction,

lambda_l1,

lambda_l2,

min_gain_to_split,

max_depth):

# LightGBM expects next three parameters need to be integer. So we make

them integer

num_leaves = int(num_leaves)

min_data_in_leaf = int(min_data_in_leaf)

max_depth = int(max_depth)

assert type(num_leaves) == int

assert type(min_data_in_leaf) == int

assert type(max_depth) == int

param = {

'num_leaves': num_leaves,

'max_bin': 63,

'min_data_in_leaf': min_data_in_leaf,

'learning_rate': learning_rate,

'min_sum_hessian_in_leaf': min_sum_hessian_in_leaf,

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': feature_fraction,

'lambda_l1': lambda_l1,

'lambda_l2': lambda_l2,

'min_gain_to_split': min_gain_to_split,

'max_depth': max_depth,

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

xg_train =

lgb.Dataset(train_df.iloc[bayesian_tr_index][predictors].values,

label=train_df.iloc[bayesian_tr_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid =

lgb.Dataset(train_df.iloc[bayesian_val_index][predictors].values,

label=train_df.iloc[bayesian_val_index][target].values,

feature_name=predictors,

free_raw_data = False

)

num_round = 5000

clf = lgb.train(param, xg_train, num_round, valid_sets = [xg_valid],

verbose_eval=250, early_stopping_rounds = 50)

predictions =

clf.predict(train_df.iloc[bayesian_val_index][predictors].values,

num_iteration=clf.best_iteration)

score =

metrics.roc_auc_score(train_df.iloc[bayesian_val_index][target].values,

predictions)

return score

上面的LGB_bayesian函數將作為貝葉斯優化的黑盒函數。

我已經在LGB_bayesian函數中為LightGBM定義了trainng和validation數據集。

LGB_bayesian函數從貝葉斯優化框架獲取num_leaves,min_data_in_leaf,learning_rate,min_sum_hessian_in_leaf,feature_fraction,lambda_l1,lambda_l2,min_gain_to_split,max_depth的值。

請記住,對于LightGBM,num_leaves,min_data_in_leaf和max_depth應該是整數。 但貝葉斯優化會發送連續的函數。

所以我強制它們是整數。 我只會找到它們的最佳參數值。 讀者可以增加或減少要優化的參數數量。

現在需要為這些參數提供邊界,以便貝葉斯優化僅在邊界內搜索。

bounds_LGB = {

'num_leaves': (5, 20),

'min_data_in_leaf': (5, 20),

'learning_rate': (0.01, 0.3),

'min_sum_hessian_in_leaf': (0.00001, 0.01),

'feature_fraction': (0.05, 0.5),

'lambda_l1': (0, 5.0),

'lambda_l2': (0, 5.0),

'min_gain_to_split': (0, 1.0),

'max_depth':(3,15),

}

讓我們將它們全部放在BayesianOptimization對象中

from bayes_opt import BayesianOptimization

LGB_BO = BayesianOptimization(LGB_bayesian, bounds_LGB,

random_state=13)

現在,讓我們來優化key space (parameters):

print(LGB_BO.space.keys)

我創建了BayesianOptimization對象(LGB_BO),在調用maxime之前它不會工作。在調用之前,解釋一下貝葉斯優化對象(LGB_BO)的兩個參數,我們可以傳遞給它們進行最大化:

init_points:我們想要執行的隨機探索的初始隨機運行次數。 在我們的例子中,LGB_bayesian將被運行n_iter次。

n_iter:運行init_points數后,我們要執行多少次貝葉斯優化運行。

現在,是時候從貝葉斯優化框架調用函數來最大化。 我允許LGB_BO對象運行5個init_points和5個n_iter。

init_points = 5

n_iter = 5

print('-' * 130)

with warnings.catch_warnings():

warnings.filterwarnings('ignore')

LGB_BO.maximize(init_points=init_points, n_iter=n_iter, acq='ucb', xi=0.0,

alpha=1e-6)

優化完成后,讓我們看看我們得到的最大值是多少。

LGB_BO.max['target']

參數的驗證AUC是0.89, 讓我們看看參數:

LGB_BO.max['params']

現在我們可以將這些參數用于我們的最終模型!

BayesianOptimization庫中還有一個很酷的選項。

你可以探測LGB_bayesian函數,如果你對最佳參數有所了解,或者您從其他kernel獲取參數。 我將在此復制并粘貼其他內核中的參數。

你可以按照以下方式進行探測:

LGB_BO.probe(

params={'feature_fraction': 0.1403,

'lambda_l1': 4.218,

'lambda_l2': 1.734,

'learning_rate': 0.07,

'max_depth': 14,

'min_data_in_leaf': 17,

'min_gain_to_split': 0.1501,

'min_sum_hessian_in_leaf': 0.000446,

'num_leaves': 6},

lazy=True, #

)

好的,默認情況下這些將被懶惰地探索(lazy = True),這意味著只有在你下次調用maxime時才會評估這些點。

讓我們對LGB_BO對象進行最大化調用。

LGB_BO.maximize(init_points=0, n_iter=0) # remember no init_points or

n_iter

最后,通過屬性LGB_BO.res可以獲得探測的所有參數列表及其相應的目標值。

for i, res in enumerate(LGB_BO.res):

print("Iteration {}: \n\t{}".format(i, res))

我們在調查中獲得了更好的驗證分數!和以前一樣,我只運行LGB_BO 10次。在實踐中,我將它增加到100。

LGB_BO.max['target']

LGB_BO.max['params']

讓我們一起構建一個模型使用這些參數。

4.訓練LightGBM模型

param_lgb = {

'num_leaves': int(LGB_BO.max['params']['num_leaves']), # remember to int

here

'max_bin': 63,

'min_data_in_leaf': int(LGB_BO.max['params']['min_data_in_leaf']), #

remember to int here

'learning_rate': LGB_BO.max['params']['learning_rate'],

'min_sum_hessian_in_leaf':

LGB_BO.max['params']['min_sum_hessian_in_leaf'],

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': LGB_BO.max['params']['feature_fraction'],

'lambda_l1': LGB_BO.max['params']['lambda_l1'],

'lambda_l2': LGB_BO.max['params']['lambda_l2'],

'min_gain_to_split': LGB_BO.max['params']['min_gain_to_split'],

'max_depth': int(LGB_BO.max['params']['max_depth']), # remember to int

here

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

如您所見,我將LGB_BO的最佳參數保存到param_lgb字典中,它們將用于訓練5折的模型。

Kfolds數量:

無錫婦科檢查醫院 http://www.87554006.com/

nfold = 5

gc.collect()

skf = StratifiedKFold(n_splits=nfold, shuffle=True, random_state=2019)

oof = np.zeros(len(train_df))

predictions = np.zeros((len(test_df),nfold))

i = 1

for train_index, valid_index in skf.split(train_df,

train_df.target.values):

print("\nfold {}".format(i))

xg_train = lgb.Dataset(train_df.iloc[train_index][predictors].values,

label=train_df.iloc[train_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid = lgb.Dataset(train_df.iloc[valid_index][predictors].values,

label=train_df.iloc[valid_index][target].values,

feature_name=predictors,

free_raw_data = False

)

clf = lgb.train(param_lgb, xg_train, 5000, valid_sets = [xg_valid],

verbose_eval=250, early_stopping_rounds = 50)

oof[valid_index] =

clf.predict(train_df.iloc[valid_index][predictors].values,

num_iteration=clf.best_iteration)

predictions[:,i-1] += clf.predict(test_df[predictors],

num_iteration=clf.best_iteration)

i = i + 1

print("\n\nCV AUC:

{:<0.2f}".format(metrics.roc_auc_score(train_df.target.values, oof)))

所以我們在5折交叉驗證中獲得了0.90 AUC。

讓我們對5折預測進行排名平均。

5.排名平均值

print("Rank averaging on", nfold, "fold predictions")

rank_predictions = np.zeros((predictions.shape[0],1))

for i in range(nfold):

rank_predictions[:, 0] = np.add(rank_predictions[:, 0],

rankdata(predictions[:, i].reshape(-1,1))/rank_predictions.shape[0])

rank_predictions /= nfold

6.提交

sub_df = pd.DataFrame({"ID_code": test_df.ID_code.values})

sub_df["target"] = rank_predictions

sub_df.to_csv("Customer_Transaction_rank_predictions.csv", index=False)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/257709.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/257709.shtml
英文地址,請注明出處:http://en.pswp.cn/news/257709.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PL/SQL 語言 一

Declarea Varchar2(20);b Number(10);c Number(10);m Number(5);sname Varchar2(20);nozero Exception;Begina : 小明;Dbms_Output.Put_Line(a);b : 3;c : 0;/* 循環 */ /* m :50;Loop Exit When m<0;dbms_output.put_line(m);m : m-1;End Loop; *//* While m>0Loop…

OpenCV人臉檢測

由于光照、遮擋和傾斜等原因&#xff0c;部分人臉和眼睛并不能正確檢測。。 // 簡單的人臉檢測#include <iostream> #include <vector> #include <opencv2\opencv.hpp> #include "opencv2/objdetect/objdetect.hpp" #include "opencv2/highgu…

分離圓環圖顯示百分比_Tableau制作圓環圖

Tableau圓環圖制作 聲明&#xff1a;本文內容來源拉勾教育數據分析訓練營&#xff0c; 封面圖片來源pexels網站圓環圖制作過程如下&#xff1a;建立餅圖2. 設置記錄平均值3. 在第二個字段的下拉菜單中選擇雙軸4. 點擊右側坐標軸&#xff0c;右鍵選擇同步軸&#xff08;同步軸指…

FLEX 布局

網頁布局&#xff08;layout&#xff09;是CSS的一個重點應用。 布局的傳統解決方案&#xff0c;基于盒狀模型&#xff0c;依賴 display屬性 position屬性 float屬性。它對于那些特殊布局非常不方便&#xff0c;比如&#xff0c;垂直居中就不容易實現。 2009年&#xff0c;W3…

SpiderMonkey-讓你的C++程序支持JavaScript腳本

譯序 有些網友對為什么D2JSP能執行JavaScript腳本程序感到奇怪&#xff0c;因此我翻譯了這篇文章&#xff0c;原文在這里。這篇教程手把手教你怎樣利用SpiderMonkey創建一個能執行JavaScript腳本的C程序&#xff0c;并讓JavaScript腳本操縱你的C程序的內部數據、操作。從這篇教…

Android 虛擬機學習總結Dalvik虛擬機介紹

1、Dalvik虛擬機與Java虛擬機的最顯著差別是它們分別具有不同的類文件格式以及指令集。Dalvik虛擬機使用的是dex&#xff08;Dalvik Executable&#xff09;格式的類文件&#xff0c;而Java虛擬機使用的是class格式的類文件。一個dex文件能夠包括若干個類。而一個class文件僅僅…

des vue 加密解密_vue DES 加密

ECB模式import cryptoJs from crypto-js// DES加密export const encryptDes (message, key) > {var keyHex cryptoJs.enc.Utf8.parse(key)var option { mode: cryptoJs.mode.ECB, padding: cryptoJs.pad.Pkcs7 }var encrypted cryptoJs.DES.encrypt(message, keyHex, op…

使用jQuery清空表單

$(#theform)[0].reset(); reset()這個函數的作用是將表單的值重置&#xff0c;變為默認值&#xff0c; 例&#xff1a; <input type"text" value"姓名"> 這個標簽的默認值就是”姓名“&#xff0c;如果使用上面的方法&#xff0c;就會重置為“姓名”…

MobX快速入門教程(重要概念講解)

轉載請注明原文地址&#xff1a;http://www.cnblogs.com/ygj0930/p/7372119.html 一&#xff1a;Mobx工作流程圖 二&#xff1a;MobX涉及到的概念 1:狀態state 組件中的數據。 2:被觀察observable 被observable修飾的state數據將會暴露給整個app&#xff0c;各觀察者組件都可以…

CentOS工作內容(七)禁用IPV6

CentOS工作內容&#xff08;七&#xff09;禁用IPV6 用到的快捷鍵 tab 自動補齊(有不知道的嗎) ctrla 移動到當前行的開頭(a ahead) ctrle 移動到當前行的開頭(e end) ctrlu 刪除(剪切)此處至開始所有內容 復制進來&#xff1a;按一下鼠標右鍵粘貼到SercureCRT 復制出去&#x…

循環結束后變回去 設置一個值_VBA掌握循環結構,包你效率提高500倍

這是系列免費教程《Excel VBA&#xff1a;辦公自動化》&#xff0c;還是老規矩&#xff0c;看看我們走到哪里了。1.認識VBA&#xff1a;什么是VBA&#xff1f;2.這些掌握了&#xff0c;你才敢說自己懂VBA3.VBA變量5年踩坑吐血精華總結4.VBA中重要的強制申明&#xff0c;誰看誰明…

連接到kali linux服務器上的MySQL服務器錯誤

前言&#xff1a;想把數據庫什么的都放在虛擬機kali Linux里&#xff0c;但無奈出了好多錯誤。 首先&#xff1a;可以參照上一篇文章開啟kali服務器端的遠程連接功能&#xff0c;上一篇文章 然后&#xff1a;使用window端的sqlyog&#xff08;MySQL圖形化連接工具&#xff09;連…

dedecms后臺怎么添加發布軟件?織夢后臺軟件內容管理

使用織夢cms有很多的功能&#xff0c;其中有一個是在dedecms后臺添加發布軟件&#xff0c;然后在前臺大家可以直接下載軟件&#xff0c;在織夢cms后臺怎么添加發布軟件呢&#xff1f;下面是織夢軟件內容管理的主要操作步驟。使用織夢cms有很多的功能&#xff0c;其中有一個是在…

301 302區別_如何正確理解301,302和canonial標簽

今天我們來學習一下幾個比較容易混淆的頁面跳轉標簽&#xff0c;301&#xff0c;302&#xff0c;relcanonial。在谷歌SEO里面&#xff0c;我們比較容易常見的是第一個301&#xff0c;302和canonial出現的比較少&#xff0c;但是不代表不存在&#xff0c;我會嘗試從以下價格方面…

ffmpeg文檔08-表達式計算/求值

8 表達式計算/求值 在計算表達式時&#xff0c;ffmpeg通過libavutil/eval.h接口調用內部計算器進行計算。 表達式可以包含一元運算符、運算符、常數和函數 兩個表達式expr1和expr2可以組合起來成為"expr1;expr2" &#xff0c;兩個表達式都會被計算&#xff0c;但是新…

為什么手機游戲手柄沒有流行起來?

問答社區知乎上有人提了一個問題&#xff0c;“為什么手機用游戲手柄沒有流行&#xff1f;” Ta找了不少論證&#xff1a;1&#xff09;手機用戶數量很大&#xff1b;2&#xff09;大量用戶在手機上花費最多時間的是玩游戲&#xff1b;3&#xff09;游戲機平臺&#xff08;的游…

c++排序算法ppt_C/C++學習教程:C語言排序算法—插入排序算法

前言&#xff1a;插入排序算法是所有排序方法中最簡單的一種算法&#xff0c;其主要的實現思想是將數據按照一定的順序一個一個的插入到有序的表中&#xff0c;最終得到的序列就是已經排序好的數據。直接插入排序是插入排序算法中的一種&#xff0c;采用的方法是&#xff1a;在…

python函數參數

1.位置參數 2.默認參數 指向參數為不可變對象 3.可變參數 **args 一個列表list或是元組tuple 4.關鍵字參數 **kw,是一個字典dict 5.命名關鍵字參數 *, 轉載于:https://www.cnblogs.com/aliy-pan/p/5198025.html

Python 常用函數 configparser模塊

使用ConfigParser模塊讀寫ini文件 ConfigParserPython的ConfigParser Module中定義了3個類對INI文件進行操作。分別是RawConfigParser、ConfigParser、SafeConfigParser。模塊所解析的ini配置文件是由多個section構成&#xff0c;每個section名用中括號‘[]’包含&#xff0c;每…

自制Unity小游戲TankHero-2D(3)開始玩起來

自制Unity小游戲TankHero-2D(3)開始玩起來 我在做這樣一個坦克游戲&#xff0c;是仿照&#xff08;http://game.kid.qq.com/a/20140221/028931.htm&#xff09;這個游戲制作的。僅為學習Unity之用。圖片大部分是自己畫的&#xff0c;少數是從網上搜來的。您可以到我的github頁…