金融反欺詐模型----項目實戰--機器學習

機器學習:從源數據清洗到特征工程建立談金融反欺詐模型訓練

本文旨在通過一個完整的實戰例子,演示從源數據清洗到特征工程建立,再到模型訓練,以及模型驗證和評估的一個機器學習的完整流程。由于初識機器學習,會比較多的困惑,希望通過借助這個實戰的例子,可以幫助大家對機器學習了一個初步的認識。
本文旨在通過一個完整的實戰例子,演示從源數據清洗到特征工程建立,再到模型訓練,以及模型驗證和評估的一個機器學習的完整流程。由于初識機器學習,會比較多的困惑,希望通過借助這個實戰的例子,可以幫助大家對機器學習了一個初步的認識。

【數據來源】

本文的數據來源于Lending Club網站的公開數據,數據集為自LendingClub平臺發放的2016年Q3的總計99122條貸款記錄。

Lending Club是美國最大的P2P網貸交易平臺,利用網絡技術直接連接了個人投資者和個人借貸者,縮短資金流通的細節,繞過傳統的大銀行等金融機構,使得投資者和借貸者都能得到更多實惠。對于投資者來說,可以獲得更好的回報;對于借貸者來說,則可以獲得相對較低的貸款利率。

在借貸行業中,投資者向借貸者提供貸款以獲取利息。如果借貸者順利償還貸款,投資者則獲得利息收益。如果借貸者無法償還貸款,投資者則損失貸款本金。因此,對于投資者來說,需要預測借貸者無法償還貸款的風險,最大程度地避免投資損失,最大程度地實現投資回報。

【實施步驟】

一、 總體流程說明

數據分析的開始是從了解你要分析的數據以及了解你本次機器學習的目標開始的。需要分清是分類問題,還是回歸問題,同時需要了解數據的構造,哪些是自變量(特征),哪個是因變量(目標變量)。就本次目標來看,因為目標變量是loan_statas(還款狀態),它是一個標稱值,因此本次是一個分類問題。

進入數據清洗階段,主要是去除一些缺失嚴重的樣式或者特征,同時去除一些跟業務無關的特征,以及方差比較小的特征。建立特征工程時,主要是對里面字符特征進行處理,將其轉成數值型,以及對一些數據值特征進行歸一化等處理;模型訓練時,主要是選擇合適的算法以及選擇合適的超參數;模型評估就是將在訓練集上運行好的模型,在測試集上進行驗證評估。

二、了解數據集

使用pandas讀取數據集,然后查看數據信息

?

?

?

?

可以看出一共包含了99122條記錄,一共有121個特征和一個目標變量,這些列的類型分布:float64有97個,字符型有25個。

三、 數據清洗

▲取出特征X以及目標變量y

?

?

其中load_data是自己封裝的一個函數,用于根據targetCol來分割原來的df。

▲根據業務去掉不需要的列

目前主要包含:無關的標識字段以及貸后字段

?

?

▲調用自定義函數進行清理

?

?

主要包含的以下操作:

? 去除所有行以及所有的列均為nan的數據
? 去除缺失率高的特征,這里超過0.9則不考慮
? 去除特征中包含實例類別太多的特征,默認包含1000個實例則不考慮
? 對于數值型,如果標準差太小的,則不考慮該特征

可以從打印出的日志上看出,經過上一步的清洗步驟,已經從原來的121個特征變量,降成75個特征變量。

再看一下清洗完后,目前的特征中樣本缺失度情況:

?

?

由圖可以目前缺失最高的mths_since_last_record在80%左右,在預設范圍內,整體情況還相對理想。

▲查看特征的相關程度

如果特征之間相關度比較高的話,那就會影響分析結果,這里對這些特征的相關度進行排序:

?

?

從上述的相關系數的關聯情況可以看出:funded_amnt,loan_amnt,funded_amnt_inv這幾個特征的關聯比較強,僅保留funded_amnt,去除其它兩個特征,經過清洗后只剩下了73個特征。

四、特征工程

▲對目標變量的處理

查看目標變量y的值的分布情況

?

?

根據業務來理解,Current和Fully Paid用戶是屬于信用良好的樣本,用1表示,Late (31-120 days)和Late (16-30 days)逾期的用戶就歸于信用不好的樣本,用0表示,其它的幾類就暫時用np.nan來代替,本次暫時不分析,先刪除這些空的3912個樣本。

處理完后,目標變量的分布如下:

?

?

▲對字符型特征的處理

查看當前特征中字符型的特征主要包含:

?

?

通過數據的分布可以看出特征pymnt_plan,application_type分布很不均衡,暫時不考慮這兩個特征。

同時將init_rate轉成float類型,將emp_length處理成int類型,對剩下的三個home_ownership,verification_status,initial_list_status類型變量做獨熱編碼,使用pd.get_dummies函數,同時去除原始的那三個字段。

經過如上的處理,將其全部字符型的特征轉成了數值型。

▲對整體數值型特征的處理

這里主要對缺失值處理,使用每個特征的中位數進行缺失值填充。

?

?

到此已全部完成了特征工程的建立,最終特征工程包含95210個樣本以及 77特征,建好的特征工程進入下一階段的模型訓練。

五、 模型訓練

因為考慮到樣本的不均衡性,交叉驗證的方法使用StratifiedShuffleSplit方式來劃分樣本,同時學習器使用GBRT算法,同時RandomizedSearchCV進行最優參數選擇。目前只是設置了基本的參數:

?

?

通過訓練集的充分訓練后,得到目前GBRT最優的參數如下:

?

?

然后使用這個最優的模型來對測試集進行預測:

?

?

這樣我們就得到了測試集在這個模型中跑出來的結果y_predicted數組,然后將它與y_test進行比對就可以對該模型進行評估,具體的可以查看2.6小結的結果。

六、模型評估

▲查看分類報告

?

?

可以看出整體平均的精確度和召回率和F1值還是可以的,不過對于樣本0的召回率和F1值為0,可能需要進一步優化。

▲查看學習曲線

?

?

學習曲線是一條關于樣本個數和經驗損失函數之間的曲線,通過學習曲線可以看到關于偏差、方差用于改善機器學習算法的決策提供依據;從目前的曲線可以看出,訓練得分和測試得分基本穩定在0.972這個點,相對來說比較理想。

【結論與展望】

本文只是簡單的演示了一個完整的機器學習的流程,重點在于突出機器學習的各個實施步驟,對于整體的模型可能還有以下幾點可以優化與完善:

? 如何更好的處理樣本的不平衡性
? 是否考慮其它的算法進行比對效果,比如xgboost
? 算法的超參數調優可以增加幾個變量調優
? 特征工程的建立還是稍微粗糙了些,還是可以再細化(比如特征的組合,特征的重要性排序,數值型特征的歸一化處理等)

轉載于:https://www.cnblogs.com/ldt-/p/10236889.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/387632.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/387632.shtml
英文地址,請注明出處:http://en.pswp.cn/news/387632.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

快餐文化短視頻源碼行業競爭激烈,短視頻發展任重道遠

隨著移動互聯技術的興起,形式多樣的短視頻源碼軟件為受眾開辟了短視頻時代,賦予視頻以新的時代內涵。梨視頻、美拍、快手、抖音等APP充斥了人們的生活,因此不少人群對視頻軟件產生了依賴感。短視頻源碼APP行業發展至今,產品和營運…

Win7下如何掛載NFS共享目錄

NFS是Unix中廣泛使用的文件共享協議,在Linux下得到了傳承,使用簡單,讀寫性能強大。過去Windows與Linux共享文件夾需要使用Samba(CIFS)協議,雖然定制性更高,但設置和使用都比較繁瑣。Windows 7加…

使用Chrome瀏覽器自動下載文件并保存到指定的文件路徑(使用Selenium更改Chrome默認下載存儲路徑)...

https://blog.csdn.net/zbj18314469395/article/details/81207268轉載于:https://www.cnblogs.com/person008/p/10980964.html

vue 源碼學習(一) 目錄結構和構建過程簡介

Flow vue框架使用了Flow作為類型檢查,來保證項目的可讀性和維護性。vue.js的主目錄下有Flow的配置.flowconfig文件,還有flow目錄,指定了各種自定義類型。 在學習源碼前可以先看下Flow的語法 官方文檔 目錄結構 vue.js源碼主要在src下 src ├─…

count慢的問題解決

SELECT count(*) FROM (SELECT DISTINCT DMPNN.ID AS NEED_ID, V2 VDMPSX, DMPNN.DMP_NUM AS DMPNN_NUM, DTT.TASK_ID AS TASK_ID, /*任務ID*/ (SELECT NVL(TO_CHAR(workload),) FROM DMP_ALLOCATION_NEED_RESULT dnr WHERE dnr.anr_id DTT.Anr_Id ) GUIBANWORKLOAD, …

SpringBoot + MyBatis(注解版),常用的SQL方法

一、新建項目及配置 1.1 新建一個SpringBoot項目&#xff0c;并在pom.xml下加入以下代碼 <dependency>    <groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.0.1</vers…

項目進行JVM調優 Jconsole

最近對公司的項目進行JVM調優&#xff0c;使用了JDK自帶的jconsole查看Tomcat運行情況&#xff0c;記錄下配置以便以后參考&#xff1a; 首先&#xff0c;修改Tomcat的bin目錄下的catalina.bat文件&#xff0c;在JAVA_OPTS變量中添加下面四行&#xff0c;即可 set JAVA_OPTS %J…

ECharts 點擊非圖表區域的點擊事件不觸發問題

1. 通過 myChart.getZr().on(click, fn) 監聽整個圖表的點擊事件&#xff0c;注冊回調 myChart.getZr().on(click, () > {//拿到index即可取出被點擊數據的所有信息console.log(clickIndex) }) 2. 在 tooltip 的 formatter 函數中&#xff0c;每次調用都記錄下需要的參數&am…

強大的django-debug-toolbar,django項目性能分析工具

強大的django-debug-toolbar,django項目性能分析工具 給大家介紹一個用于django中debug模式下查看網站性能等其他信息的插件django-debug-toolbar 首先安裝 pip install django-debug-toolbar 接下來在自己django項目中的settings中添加配置 INSTALLED_APPS [debug_toolbar,]M…

個人作業——軟件工程實踐總結

一、請回望暑假時的第一次作業&#xff0c;你對于軟件工程課程的想象 1&#xff09;對比開篇博客你對課程目標和期待&#xff0c;“希望通過實踐鍛煉&#xff0c;增強計算機專業的能力和就業競爭力”&#xff0c;對比目前的所學所練所得&#xff0c;在哪些方面達到了你的期待和…

利用jdk自帶的運行監控工具JConsole觀察分析Java程序的運行 Jtop

利用jdk自帶的運行監控工具JConsole觀察分析Java程序的運行 原文鏈接 一、JConsole是什么 從Java 5開始 引入了 JConsole。JConsole 是一個內置 Java 性能分析器&#xff0c;可以從命令行或在 GUI shell 中運行。您可以輕松地使用 JConsole&#xff08;或者&#xff0c;它更高端…

java版電子商務spring cloud分布式微服務b2b2c社交電商:服務容錯保護(Hystrix斷路器)...

斷路器斷路器模式源于Martin Fowler的Circuit Breaker一文。“斷路器”本身是一種開關裝置&#xff0c;用于在電路上保護線路過載&#xff0c;當線路中有電器發生短路時&#xff0c;“斷路器”能夠及時的切斷故障電路&#xff0c;防止發生過載、發熱、甚至起火等嚴重后果。在分…

微信小程序頁面跳轉、邏輯層模塊化

一、頁面的跳轉 微信小程序的頁面跳轉函數方法有兩個&#xff0c;另外還有兩種模塊跳轉方式。 函數跳轉&#xff1a; 1.wx.navigateTo(OBJECT)&#xff1a; wx.navigateTo({url: test?id1})//保留當前頁面&#xff0c;跳轉到應用內的某個頁面&#xff0c;使用wx.navigateBack可…

java內存溢出分析工具:jmap使用實戰

java內存溢出分析工具&#xff1a;jmap使用實戰 在一次解決系統tomcat老是內存撐到頭&#xff0c;然后崩潰的問題時&#xff0c;使用到了jmap。 1 使用命令 在環境是linuxjdk1.5以上&#xff0c;這個工具是自帶的&#xff0c;路徑在JDK_HOME/bin/下 jmap -histo pid>a.log…

Oracle加密解密

Oracle內部有專門的加密包&#xff0c;可以很方便的對內部數據進行加密&#xff08;encrypt&#xff09;和解密&#xff08;decrypt&#xff09;. 介紹加密包之前&#xff0c;先簡單說一下Oracle基本數據類型——RAW類型。 RAW&#xff0c;用于保存位串的數據類型&#xff0c;類…

條件變量 sync.Cond

sync.Cond 條件變量是基于互斥鎖的&#xff0c;它必須有互斥鎖的支撐才能發揮作用。 sync.Cond 條件變量用來協調想要訪問共享資源的那些線程&#xff0c;當共享資源的狀態發生變化的時候&#xff0c;它可以用來通知被互斥鎖阻塞的線程條件變量的初始化離不開互斥鎖&#xff0c…

JDK內置工具使用

JDK內置工具使用 一、javah命令(C Header and Stub File Generator) 二、jps命令(Java Virtual Machine Process Status Tool) 三、jstack命令(Java Stack Trace) 四、jstat命令(Java Virtual Machine Statistics Monitoring Tool) 五、jmap命令(Java Memory Map) 六、jinfo命令…

mall整合RabbitMQ實現延遲消息

摘要 本文主要講解mall整合RabbitMQ實現延遲消息的過程&#xff0c;以發送延遲消息取消超時訂單為例。RabbitMQ是一個被廣泛使用的開源消息隊列。它是輕量級且易于部署的&#xff0c;它能支持多種消息協議。RabbitMQ可以部署在分布式和聯合配置中&#xff0c;以滿足高規模、高可…

競價打板的關鍵點

競價打板&#xff0c;主要是速度&#xff0c;其他不重要的&#xff0c;如果為了當天盈利大&#xff0c;失去競價打板的本質含義&#xff0c;因為競價可以買到&#xff0c;盤中買不到&#xff0c;才是競價打板的目的&#xff0c;也就是從競價打板的角度看&#xff0c;主要是看習…

Java常見的幾種內存溢出及解決方法

Java常見的幾種內存溢出及解決方法【情況一】&#xff1a;java.lang.OutOfMemoryError:Javaheapspace&#xff1a;這種是java堆內存不夠&#xff0c;一個原因是真不夠&#xff08;如遞歸的層數太多等&#xff09;&#xff0c;另一個原因是程序中有死循環&#xff1b;如果是java…