Python機器學習實踐:決策樹判別汽車金融違約用戶

?

文章發布于公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇干貨。

?

?

?

轉自 | 法納斯特(公眾號ID:walker398)

作者 | 小F

?

決策樹呈樹形結構,是一種基本的回歸和分類方法。

?

決策樹模型的優點在于可讀性強、分類速度快。

?

下面通過從「譯學館」搬運的兩個視頻,來簡單了解下決策樹。

?

?

?

最后來實戰一波,建立一個簡單的決策樹模型。

?

01決策樹算法

?

本次主要涉及兩類決策樹,Quinlan系列決策樹和CART決策樹。

?

前者涉及的算法包括ID3算法、C4.5算法及C5.0算法,后者則是CART算法。

?

前者一系列算法的步驟總體可以概括為建樹和剪樹。

?

在建樹步驟中,首先選擇最有解釋力度的變量,接著對每個變量選擇最優的分割點進行剪樹。

?

剪樹,去掉決策樹中噪音或異常數據,在損失一定預測精度的情況下,能夠控制決策樹的復雜度,提高其泛化能力。

?

在剪樹步驟中,分為前剪枝和后剪枝。

?

前剪枝用于控制樹的生成規模,常用方法有控制決策樹最大深度、控制樹中父結點和子結點的最少樣本量或比例。

?

后剪枝用于刪除沒有意義的分組,常用方法有計算結點中目標變量預測精度或誤差、綜合考慮誤差與復雜度進行剪樹。

?

此外在ID3算法中,使用信息增益挑選最有解釋力度的變量。

?

其中信息增益為信息熵減去條件熵得到,增益越大,則變量的影響越大。

?

C4.5算法則是使用信息增益率作為變量篩選的指標。

?

CART算法可用于分類或數值預測,使用基尼系數(gini)作為選擇最優分割變量的指標。

?

02Python實現

?

對一份汽車違約貸款數據集進行讀取數據、數據清洗。(數據來源于《python數據科學:技術詳解與商業實踐》一書)

?

import?os
import?pydotplus
import?numpy?as?np
import?pandas?as?pd
import?sklearn.tree?as?tree
import?matplotlib.pyplot?as?plt
from?IPython.display?import?Image
import?sklearn.metrics?as?metrics
from?sklearn.tree?import?DecisionTreeClassifier
from?sklearn.model_selection?import?train_test_split,?ParameterGrid,?GridSearchCV

#?消除pandas輸出省略號情況
pd.set_option('display.max_columns',?None)
#?設置顯示寬度為1000,這樣就不會在IDE中換行了
pd.set_option('display.width',?1000)
#?讀取數據,skipinitialspace:忽略分隔符后的空白
accepts?=?pd.read_csv('accepts.csv',?skipinitialspace=True)
#?dropna:對缺失的數據進行刪除
accepts?=?accepts.dropna(axis=0,?how='any')

#?因變量,是否違約
target?=?accepts['bad_ind']
#?自變量
data?=?accepts.ix[:,?'bankruptcy_ind':'used_ind']
#?業務處理,loan_amt:貸款金額,tot_income:月均收入
data['lti_temp']?=?data['loan_amt']?/?data['tot_income']
data['lti_temp']?=?data['lti_temp'].map(lambda?x:?10?if?x?>=?10?else?x)
#?刪除貸款金額列
del?data['loan_amt']
#?替換曾經破產標識列
data['bankruptcy_ind']?=?data['bankruptcy_ind'].replace({'N':?0,?'Y':?1})

?

接下來使用scikit-learn將數據集劃分為訓練集和測試集。

?

#?使用scikit-learn將數據集劃分為訓練集和測試集
train_data,?test_data,?train_target,?test_target?=?train_test_split(data,?target,?test_size=0.2,?train_size=0.8,?random_state=1234)

?

初始化一個決策樹模型,使用訓練集進行訓練。

?

采用基尼系數作為樹的生長依據,樹的最大深度為3,每一類標簽的權重一樣。

?

#?初始化一個決策樹模型
clf?=?DecisionTreeClassifier(criterion='gini',?max_depth=3,?class_weight=None,?random_state=1234)
#?輸出決策樹模型信息
print(clf.fit(train_data,?train_target))

?

輸出的模型信息如下。

?

?

對生成的決策樹模型進行評估。

?

#?輸出決策樹模型的決策類評估指標
print(metrics.classification_report(test_target,?clf.predict(test_data)))

#?對不同的因變量進行權重設置
clf.set_params(**{'class_weight':?{0:?1,?1:?3}})
clf.fit(train_data,?train_target)
#?輸出決策樹模型的決策類評估指標
print(metrics.classification_report(test_target,?clf.predict(test_data)))

#?輸出決策樹模型的變量重要性排序
print(list(zip(data.columns,?clf.feature_importances_)))

?

輸出如下。

?

?

可以看出對因變量標簽進行權重設置后,模型對違約用戶的f1-score(精確率和召回率的調和平均數)提高了,為0.46。

?

違約用戶被識別的靈敏度也從0.24提高到了0.46。

?

此外決策樹模型的變量重要性排序為「FICO打分」、「信用卡授權額度」、「貸款金額/建議售價*100」。

?

通過安裝graphviz和相應的插件,便能實現決策樹的可視化輸出,具體安裝過程不細說。

?

#?設置graphviz路徑
os.environ["PATH"]?+=?os.pathsep?+?'C:/Program?Files?(x86)/Graphviz2.38/bin/'
#?決策樹的可視化
dot_data?=?tree.export_graphviz(clf,?out_file=None,?feature_names=data.columns,?class_names=['0',?'1'],?filled=True)
graph?=?pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())
#?將決策樹模型輸出為圖片
graph.write_png(r'pang.png')
#?將決策樹模型輸出為PDF
graph.write_pdf('tree.pdf')

?

可視化結果如下。

?

?

可以看見決策樹根節點以fico_score <= 683.5為分割標準。

?

全體樣本的基尼系數為0.483,在3284個樣本中,被預測變量為0的有2671個,為1的有1839個。

?

使用scikit-learn提供的參數搜索進行調優(GridSearchCV)。

?

#?設置樹的最大深度
max_depth?=?[None,?]
#?設置樹的最大葉節點數
max_leaf_nodes?=?np.arange(5,?10,?1)
#?設置樹的類標簽權重
class_weight?=?[{0:?1,?1:?2},?{0:?1,?1:?3}]
#?設置參數網格
param_grid?=?{'max_depth':?max_depth,
??????????????'max_leaf_nodes':?max_leaf_nodes,
??????????????'class_weight':?class_weight}
#?對參數組合進行建模和效果驗證
clf_cv?=?GridSearchCV(estimator=clf,
??????????????????????param_grid=param_grid,
??????????????????????cv=5,
??????????????????????scoring='roc_auc')
#?輸出網格搜索的決策樹模型信息
print(clf_cv.fit(train_data,?train_target))

?

輸出網格搜索的決策樹模型信息。

?

?

使用得到的“最優”模型對測試集進行評估。

?

#?輸出優化后的決策樹模型的決策類評估指標
print(metrics.classification_report(test_target,?clf_cv.predict(test_data)))
#?輸出優化后的決策樹模型的參數組合
print(clf_cv.best_params_)

?

輸出結果。

?

?

計算模型在不同閾值下的靈敏度和特異度指標,繪制ROC曲線。

?

#?使用模型進行預測
train_est?=?clf_cv.predict(train_data)
train_est_p?=?clf_cv.predict_proba(train_data)[:,?1]
test_est?=?clf_cv.predict(test_data)
test_est_p?=?clf_cv.predict_proba(test_data)[:,?1]


#?繪制ROC曲線
fpr_test,?tpr_test,?th_test?=?metrics.roc_curve(test_target,?test_est_p)
fpr_train,?tpr_train,?th_train?=?metrics.roc_curve(train_target,?train_est_p)
plt.figure(figsize=[3,?3])
plt.plot(fpr_test,?tpr_test,?'b--')
plt.plot(fpr_train,?tpr_train,?'r-')
plt.title('ROC?curve')
plt.show()

#?計算AUC值
print(metrics.roc_auc_score(test_target,?test_est_p))

?

ROC曲線圖如下,其中訓練集的ROC曲線(實線)與測試集的ROC曲線(虛線)很接近,說明模型沒有過擬合。

?

?

模型的ROC曲線下面積為0.7358,模型效果一般。

?

推薦閱讀:

鏈接圖片1.png

?

?

數智物語征稿啟事.png

?

星標我,每天多一點智慧

星標備選20190408.gif

?

轉載于:https://www.cnblogs.com/shuzhiwuyu/p/10716968.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/248128.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/248128.shtml
英文地址,請注明出處:http://en.pswp.cn/news/248128.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python學習(二)語言基礎

一、變量與類型 在程序設計中&#xff0c;變量是一種存儲數據的載體 整型&#xff1a;Python中可以處理任意大小的整數浮點型&#xff1a;浮點數也就是小數字符串型&#xff1a;字符串是以單引號或雙引號括起來的任意文本布爾型&#xff1a;布爾值只有True、False兩種值&#x…

jQuery—tab欄切換

<div class"tab"><div class"tab_list"><ul><li class"current">商品介紹</li><li>規格與包裝</li><li>售后保障</li><li>商品評價&#xff08;50000&#xff09;</li><l…

MongoDB分組查詢,聚合查詢,以及復雜查詢

準備數據 from pymongo import MongoClient import datetimeclientMongoClient(mongodb://localhost:27017) tableclient[db1][emp]l[ (張飛,male,18,20170301,,7300.33,401,1), #以下是教學部 (張云,male,78,20150302,teacher,1000000.31,401,1), (劉備,male,81,20130305,teac…

Python學習(三)基礎

一、函數與模塊 定義函數&#xff1a; 函數代碼塊以 def 關鍵詞開頭&#xff0c;后接函數標識符名稱和圓括號 ()。任何傳入參數和自變量必須放在圓括號中間&#xff0c;圓括號之間可以用于定義參數。函數的第一行語句可以選擇性地使用文檔字符串—用于存放函數說明。函數內容以…

操作系統原理之I/O設備管理(第六章上半部分)

一、I/O系統的組成 I/O系統不僅包括各種I/O設備&#xff0c;還包括與設備相連的設備控制器&#xff0c;有些系統還配備了專?? 于輸?/輸出控制的專?計算機&#xff0c;即通道。此外&#xff0c;I/O系統要通過總線與CPU、內存相連。 I/O系統的結構&#xff1a; I/O設備的分類…

js控制a標簽點擊事件 觸發下載

問題背景&#xff0c;動態獲取data把url賦值到a標簽的url中&#xff0c;讓a標簽自動下載 首先想到的應該是$(xxx).click(), 查資料明白&#xff1a;js中的$(...).click()事件只能觸發綁定的onClick方法&#xff0c;不能跳轉到href。 第二種方法&#xff1a;獲取到url之后locat…

操作系統原理之I/O設備管理(第六章下半部分)

五、I/O軟件原理 輸入輸出軟件的總體目標是將軟件組織成一種層次結構 低層軟件用來屏蔽硬件的具體細節高層軟件則主要是為用戶提供一個簡潔、規范的界面設備管理的4個層次&#xff1a; 用戶層軟件 -》向系統發出I/O請求&#xff0c;顯示I/O操作的結果&#xff0c;提供?戶與設備…

jQuery第二天

課程回顧&#xff1a; ? jQuery&#xff1a;JavaScript庫 ? 入口函數&#xff1a;$(function () {}); ? jQuery&#xff1a;jQuery對象&#xff0c;DOM對象 ? jQuery轉成DOM&#xff1a;$(‘元素’)[索引值] ? DOM轉成jQuery&#xff1a;$(DOM對象); ? 篩選方法&am…

切換Debug/Release編譯模式和Archive的作用

&#xfeff;在學這個之前&#xff0c;以為很難&#xff0c;也起不到什么作用&#xff0c;但是等真正運用到工程里面&#xff0c;才發現&#xff0c;這個能幫你省下很多工作量。 1&#xff0c;Debug和Release版本區別&#xff1f; 進行iOS開發&#xff0c;在Xcode調試程序時&am…

Linux 防火墻:Netfilter iptables

一、Netfilter 簡介 (1) Netfilter 是 Linux 內置的一種防火墻機制&#xff0c;我們一般也稱之為數據包過濾機制&#xff0c;而 iptables 只是操作 netfilter 的一個命令行工具(2) Netfilter 是 Linux CentOS 6 內置的防火墻機制&#xff0c;Firewall 是 Linux CentOS 7 內置的…

無法加載 DLL“SQLite.Interop.DLL”: 找不到指定的模塊。 (異常來自 HRESULT:0x8007007E)。...

無法加載 DLL“SQLite.Interop.DLL”: 找不到指定的模塊。 (異常來自 HRESULT:0x8007007E)。 在項目里添加 現有項 把SQLite.Interop.DLL文件添加進來&#xff0c;然后點擊屬性 修改一個屬性 把 屬性 復制到輸出目錄 改為 始終復制 然后打開你的項目屬性 進入生成的 頁面&a…

jQuery第三天

課程回顧&#xff1a; ? 動畫效果&#xff1a;基本動畫&#xff0c;滑動動畫&#xff0c;淡入淡出&#xff0c;自定義動畫效果(animate) ? 事件切換&#xff1a;hover(over&#xff0c;out); ? 停止動畫&#xff1a;stop ? 操作屬性&#xff1a;prop&#xff08;固有屬…

C語言程序設計II—第八周教學

第八周教學總結&#xff08;15/4-21/4&#xff09; 教學內容 本周的教學內容為&#xff1a;   8.4 電碼加密 知識點&#xff1a;指針與字符串&#xff0c;重難點&#xff1a;字符指針與字符串的關聯和區別&#xff1b;   8.5 任意個整數求和 知識點&#xff1a;動態內存分配…

AFNetworking 對數據進行https ssl加密

參考來源&#xff1a;http://www.cnblogs.com/jys509/p/5001566.html 現在在工作中的工作需求&#xff1a;https請求驗證證書一般來講如果app用了web service , 我們需要防止數據嗅探來保證數據安全.通常的做法是用ssl來連接以防止數據抓包和嗅探其實這么做的話還是不夠的 。…

數據庫系統原理(第一章概述)

一、數據庫基本概念 什么是數據&#xff1a;數據&#xff08;Data&#xff09;是描述事物的符號記錄&#xff0c;是指利用物理符號記錄下來的、 可以鑒別的信息。 數據是信息存在的一種形式&#xff0c;只有通過解釋或處理的數據才能成為有用的信息。 什么是數據庫&#xff1a;…

jQuery第四天

課程回顧&#xff1a; ? 元素操作&#xff1a; ? 遍歷元素&#xff1a; ? $(‘元素’).each(function (index, elm) {}); ? $.each(對象&#xff0c;function (index, elm) {}); ? 創建元素&#xff1a;$(‘ 新的元素?’);? 添加元素&#xff1a; ? 內部添加&…

navigationController的NavigationBar和ToolBar的POP或PUSH消失問題

今天在工作中發現一個坑&#xff0c; 其他頁面都是隱藏。YSViewController 使用的時候必須是需要 navigationBar 和 toorbar&#xff0c;但是 pop出這個viewcontroller后&#xff0c;需要隱藏navigationBar 和 toorbar&#xff0c;但是直接設置為hiddenYES會出現其他頁面壓棧出…

實驗二:Linux下Xen環境的安裝

實驗名稱&#xff1a; Linux下Xen環境的安裝&#xff08;centOS7&#xff09; 實驗環境&#xff1a; 本次實驗基本是在centOS7的環境下完成&#xff0c;系統內核和系統版本如下&#xff1a; 實驗要求&#xff1a; 為centOS7的環境下安裝Xen的平臺&#xff0c;能夠正常使用Xen下…

IDEA寫vue項目出現紅色波浪線警告如何解決??

1.看圖 2.希望對大家有幫助&#xff0c;只要修改了這個就可以&#xff0c;如有任何問題都可以留言&#xff0c;謝謝大家 2019-09-1923:54:11 作者&#xff1a;何秀好 轉載于:https://www.cnblogs.com/itboxue/p/11553395.html

數據可視化(BI報表的開發)第一天

課程回顧&#xff1a; ? jQuery事件注冊&#xff1a; ? $(元素).click(function () {}); ? $(元素).on(‘click’, [后代元素], function () {}); ? $(元素).one(‘click’, function () {}); ? 解綁事件&#xff1a;off ? 自動觸發&#xff1a; ? $(元素).click…