前言:
本篇文章上接《申請評分卡簡介》,有需要的童鞋可以參考下:https://blog.csdn.net/qq_16633405/article/details/107744921
下面介紹下A卡的開發步驟。
開發過程
1、評分卡模型開發步驟:
1、立項:場景(營銷、信貸領域)、對象(個人、賬戶、公司)、目的(程度決策、流失預警、反欺詐等等)
2、數據的準備與預處理(賬戶,客戶,內部外部數據)
3、建模的構建(邏輯回歸VS機器學習,單一模型VS 集成模型)
4、模型評估(區分度,預測性,穩定性)
5、驗證(是否有計算錯誤,邏輯錯誤,業務錯誤)
6、部署(從開發環境到生產環境、容量、并發度)
7、監控(性能是否減弱,是否需要重新訓練等)
2、申請評分卡常用的模型
邏輯回歸
優點:簡單,穩定,可解釋,技術成熟,易于監測和部署
缺點:準確度不高
決策樹
優點:對數據質量要求低,易解釋
缺點:準確度不高
其他元模型
組合模型
優點:準確度高,不易過擬合
缺點:不易解釋;部署困難;計算量大
3、貸款申請環節的數據介紹和描述
申請評分卡常用的特征
1、個人信息 :學歷(核查學歷) 性別 收入(流水、社保、公積金來側面查看)
2、負債信息 :在本金融機構或者其他金融機構負債情況 (在房貸、信用卡領域應用較多)
3、消費能力 :商品購買紀錄,出境游,奢侈品消費 ()
4、歷史信用記錄 :歷史逾期行為 (第三方接口查看)
5、新興數據: 人際社交 網絡足跡 出行 個人財務(人際社交:通過與老賴的關系來判斷他的人品(即還款意愿);出行:通過看這個人的出行交通工具判斷這個人的經濟能力(還款能力))
1、4可以看出還款意愿;2、3可以看出還款能力。還款意愿*還款能力=評分卡分數等級
4、A卡用到的字段介紹
字段 | 名稱 |
---|---|
member_id | ID |
loan_amnt | 申請額度 |
term | 產品期限 |
int_rate | 利率 |
emp_length | 工作期限 |
home_ownership | 是否有自有住宅 |
annual_inc | 年收入 |
verification_status | 收入核驗狀態 |
desc | 描述 |
purpose | 貸款目的 |
title | 貸款目的描述 |
zip_code | 聯系地址郵政編碼 |
addr_state | 聯系地址所屬州 |
delinq_2yrs | 申貸日期前2年逾期次數 |
inq_last_6mths | 申請日前6個月咨詢次數 |
mths_since_last_delinq | 上次逾期距今月份數 |
mths_since_last_record | 上次登記公眾記錄距今的月份數 |
open_acc | 征信局中記錄的信用產品數 |
pub_rec | 公眾不良記錄數 |
total_acc | 正在使用的信用產品數 |
pub_rec_bankruptcies | 公眾破產記錄數 |
earliest_cr_line | 第一次借貸時間 |
loan_status | 貸款狀態—目標變量 |
5、非平衡樣本問題的定義和解決方法
非平衡樣本的定義
在分類問題中,每種類別的出現概率未必均衡
例:
- 信用風險: 正常用戶遠多于逾期/違約用戶
- 流失風險: 留存客戶多于流失客戶
非平衡樣本的隱患
- 降低對少類樣本的靈敏性
非平衡樣本的解決方案
過采樣(對數據采集過多)
- 優點: 簡單,對數據質量要求不高 (注意總結下各個算法對數據的要求)
- 缺點: 過擬合
欠采樣 (對數據采集過少)
- 優點: 簡單,對數據質量要求不高
- 缺點: 丟失重要信息
SMOTE(合成少數過采樣技術)
- 優點: 不易過擬合,保留信息
- 缺點: 不能對有缺失值和類別變量做處理
6、數據預處理
數據格式的處理原始數據帶有一定的格式,需要轉換成正確的格式。
例如:
利率
- 帶%的百分比,需要轉化成浮點數
日期
- Nov-17,需要轉化為python的時間
工作年限
- “<1 year”轉化成0,“>10years”轉化成11
文本類的數據的處理方式
主題提取(NPL)
優點:提取準確、詳細的信息,對風險的評估非帝有效
缺點:NPL的模型較為復雜,且需要足夠多的訓練樣本
編碼
優點:簡單
簡單缺點:信息丟失很高
缺失值的處理
缺失在數據分析的工作是頻繁出現的。
缺失的種類
- 完全隨機缺失
- 隨機缺失
- 完全非隨機缺失
處理的方法
- 補缺(平均值、或依據變量間的關系補充)
- 作為一種狀態
- 刪除記錄或變量
7、構建特征
常用的特征衍生
- 計數:過去1年內申請貸款的總次數(手機聯系人數量、通話記錄來推斷這個人的一些信息:如通話記錄多聯系人多則證明這個人搞業務的)
- 求和:過去1年內的網店消費總額
- 比例:貸款申請額度與年收入的占比
- 時間差:第一次開戶距今時長
- 波動率:過去3年內每份工作的時間的標準差
8、特征分箱(是對每一個特征進行分箱)
特征的分箱(為什么要分箱)
分箱的定義
將連續變量離散化(將連續的變量分為多個離散的類別將特征分類別即收入1000-5000之間為一箱即一個類別)
將多狀態的離散變量合并成少狀態(盡可能的減小類別的數量)
分箱的重要性
- 穩定性:避免特征中無意義的波動對評分帶來的波動(如工資的浮動增減)
- 健壯性:避免了極端值的影響
分箱的優勢
- 可以將缺失作為獨立的一個箱帶入模型中
- 將所有變量變換到相似的尺度上
分箱的限制
- 計算量大
- 分箱后需要編碼
總結
后續會詳細的介紹各種分箱的方法對應的原理,以及特征篩選對應的方法及原理等相關內容。爭取把數據挖掘流程中常用的方法做一個統一的整理。
對應的代碼詳見:
https://github.com/645187919/financial_score_card