申請評分卡（A卡）的開發過程（1）

前言：

本篇文章上接《申請評分卡簡介》，有需要的童鞋可以參考下：https://blog.csdn.net/qq_16633405/article/details/107744921

下面介紹下A卡的開發步驟。

開發過程

1、評分卡模型開發步驟：

1、立項：場景（營銷、信貸領域）、對象（個人、賬戶、公司）、目的（程度決策、流失預警、反欺詐等等）
2、數據的準備與預處理（賬戶，客戶，內部外部數據）
3、建模的構建（邏輯回歸VS機器學習，單一模型VS 集成模型）
4、模型評估（區分度，預測性，穩定性）
5、驗證（是否有計算錯誤，邏輯錯誤，業務錯誤）
6、部署（從開發環境到生產環境、容量、并發度）
7、監控（性能是否減弱，是否需要重新訓練等）

2、申請評分卡常用的模型

邏輯回歸
優點：簡單，穩定，可解釋，技術成熟，易于監測和部署
缺點：準確度不高
決策樹
優點：對數據質量要求低，易解釋
缺點：準確度不高
其他元模型
組合模型
優點：準確度高，不易過擬合
缺點：不易解釋；部署困難；計算量大

3、貸款申請環節的數據介紹和描述

申請評分卡常用的特征
1、個人信息：學歷（核查學歷）性別收入（流水、社保、公積金來側面查看）
2、負債信息：在本金融機構或者其他金融機構負債情況（在房貸、信用卡領域應用較多）
3、消費能力：商品購買紀錄，出境游，奢侈品消費（）
4、歷史信用記錄：歷史逾期行為（第三方接口查看）
5、新興數據：人際社交網絡足跡出行個人財務（人際社交：通過與老賴的關系來判斷他的人品（即還款意愿）；出行：通過看這個人的出行交通工具判斷這個人的經濟能力（還款能力））
1、4可以看出還款意愿；2、3可以看出還款能力。還款意愿*還款能力=評分卡分數等級

4、A卡用到的字段介紹

字段	名稱
member_id	ID
loan_amnt	申請額度
term	產品期限
int_rate	利率
emp_length	工作期限
home_ownership	是否有自有住宅
annual_inc	年收入
verification_status	收入核驗狀態
desc	描述
purpose	貸款目的
title	貸款目的描述
zip_code	聯系地址郵政編碼
addr_state	聯系地址所屬州
delinq_2yrs	申貸日期前2年逾期次數
inq_last_6mths	申請日前6個月咨詢次數
mths_since_last_delinq	上次逾期距今月份數
mths_since_last_record	上次登記公眾記錄距今的月份數
open_acc	征信局中記錄的信用產品數
pub_rec	公眾不良記錄數
total_acc	正在使用的信用產品數
pub_rec_bankruptcies	公眾破產記錄數
earliest_cr_line	第一次借貸時間
loan_status	貸款狀態—目標變量

5、非平衡樣本問題的定義和解決方法

非平衡樣本的定義
在分類問題中，每種類別的出現概率未必均衡
例：

信用風險: 正常用戶遠多于逾期/違約用戶
流失風險: 留存客戶多于流失客戶

非平衡樣本的隱患

降低對少類樣本的靈敏性

非平衡樣本的解決方案
過采樣（對數據采集過多）

優點: 簡單，對數據質量要求不高（注意總結下各個算法對數據的要求）
缺點: 過擬合

欠采樣（對數據采集過少）

優點: 簡單，對數據質量要求不高
缺點: 丟失重要信息

SMOTE(合成少數過采樣技術)

優點: 不易過擬合，保留信息
缺點: 不能對有缺失值和類別變量做處理

6、數據預處理

數據格式的處理原始數據帶有一定的格式，需要轉換成正確的格式。
例如：
利率

帶%的百分比，需要轉化成浮點數

日期

Nov-17，需要轉化為python的時間

工作年限

“<1 year”轉化成0，“>10years”轉化成11

文本類的數據的處理方式

主題提取（NPL）
優點：提取準確、詳細的信息，對風險的評估非帝有效
缺點：NPL的模型較為復雜，且需要足夠多的訓練樣本
編碼
優點：簡單
簡單缺點：信息丟失很高

缺失值的處理
缺失在數據分析的工作是頻繁出現的。
缺失的種類

完全隨機缺失
隨機缺失
完全非隨機缺失

處理的方法

補缺（平均值、或依據變量間的關系補充）
作為一種狀態
刪除記錄或變量

7、構建特征

常用的特征衍生

計數：過去1年內申請貸款的總次數（手機聯系人數量、通話記錄來推斷這個人的一些信息：如通話記錄多聯系人多則證明這個人搞業務的）
求和：過去1年內的網店消費總額
比例：貸款申請額度與年收入的占比
時間差：第一次開戶距今時長
波動率：過去3年內每份工作的時間的標準差

8、特征分箱（是對每一個特征進行分箱）

特征的分箱（為什么要分箱）
分箱的定義
將連續變量離散化（將連續的變量分為多個離散的類別將特征分類別即收入1000-5000之間為一箱即一個類別）
將多狀態的離散變量合并成少狀態（盡可能的減小類別的數量）
分箱的重要性

穩定性：避免特征中無意義的波動對評分帶來的波動（如工資的浮動增減）
健壯性：避免了極端值的影響

分箱的優勢

可以將缺失作為獨立的一個箱帶入模型中
將所有變量變換到相似的尺度上

分箱的限制

計算量大
分箱后需要編碼

總結

后續會詳細的介紹各種分箱的方法對應的原理，以及特征篩選對應的方法及原理等相關內容。爭取把數據挖掘流程中常用的方法做一個統一的整理。
對應的代碼詳見：
https://github.com/645187919/financial_score_card

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/456323.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/456323.shtml
英文地址，請注明出處：http://en.pswp.cn/news/456323.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！