申請評分卡(A卡)的開發過程(1)

前言:

本篇文章上接《申請評分卡簡介》,有需要的童鞋可以參考下:https://blog.csdn.net/qq_16633405/article/details/107744921

下面介紹下A卡的開發步驟。

開發過程

1、評分卡模型開發步驟:

1、立項:場景(營銷、信貸領域)、對象(個人、賬戶、公司)、目的(程度決策、流失預警、反欺詐等等)
2、數據的準備與預處理(賬戶,客戶,內部外部數據)
3、建模的構建(邏輯回歸VS機器學習,單一模型VS 集成模型)
4、模型評估(區分度,預測性,穩定性)
5、驗證(是否有計算錯誤,邏輯錯誤,業務錯誤)
6、部署(從開發環境到生產環境、容量、并發度)
7、監控(性能是否減弱,是否需要重新訓練等)

2、申請評分卡常用的模型

邏輯回歸
優點:簡單,穩定,可解釋,技術成熟,易于監測和部署
缺點:準確度不高
決策樹
優點:對數據質量要求低,易解釋
缺點:準確度不高
其他元模型
組合模型
優點:準確度高,不易過擬合
缺點:不易解釋;部署困難;計算量大

3、貸款申請環節的數據介紹和描述

申請評分卡常用的特征
1、個人信息 :學歷(核查學歷) 性別 收入(流水、社保、公積金來側面查看)
2、負債信息 :在本金融機構或者其他金融機構負債情況 (在房貸、信用卡領域應用較多)
3、消費能力 :商品購買紀錄,出境游,奢侈品消費 ()
4、歷史信用記錄 :歷史逾期行為 (第三方接口查看)
5、新興數據: 人際社交 網絡足跡 出行 個人財務(人際社交:通過與老賴的關系來判斷他的人品(即還款意愿);出行:通過看這個人的出行交通工具判斷這個人的經濟能力(還款能力))
1、4可以看出還款意愿;2、3可以看出還款能力。還款意愿*還款能力=評分卡分數等級

4、A卡用到的字段介紹

字段名稱
member_idID
loan_amnt申請額度
term產品期限
int_rate利率
emp_length工作期限
home_ownership是否有自有住宅
annual_inc年收入
verification_status收入核驗狀態
desc描述
purpose貸款目的
title貸款目的描述
zip_code聯系地址郵政編碼
addr_state聯系地址所屬州
delinq_2yrs申貸日期前2年逾期次數
inq_last_6mths申請日前6個月咨詢次數
mths_since_last_delinq上次逾期距今月份數
mths_since_last_record上次登記公眾記錄距今的月份數
open_acc征信局中記錄的信用產品數
pub_rec公眾不良記錄數
total_acc正在使用的信用產品數
pub_rec_bankruptcies公眾破產記錄數
earliest_cr_line第一次借貸時間
loan_status貸款狀態—目標變量

5、非平衡樣本問題的定義和解決方法

非平衡樣本的定義
在分類問題中,每種類別的出現概率未必均衡
例:

  • 信用風險: 正常用戶遠多于逾期/違約用戶
  • 流失風險: 留存客戶多于流失客戶

非平衡樣本的隱患

  • 降低對少類樣本的靈敏性

非平衡樣本的解決方案
過采樣(對數據采集過多)

  • 優點: 簡單,對數據質量要求不高 (注意總結下各個算法對數據的要求)
  • 缺點: 過擬合

欠采樣 (對數據采集過少)

  • 優點: 簡單,對數據質量要求不高
  • 缺點: 丟失重要信息

SMOTE(合成少數過采樣技術)

  • 優點: 不易過擬合,保留信息
  • 缺點: 不能對有缺失值和類別變量做處理

6、數據預處理

數據格式的處理原始數據帶有一定的格式,需要轉換成正確的格式。
例如:
利率

  • 帶%的百分比,需要轉化成浮點數

日期

  • Nov-17,需要轉化為python的時間

工作年限

  • “<1 year”轉化成0,“>10years”轉化成11

文本類的數據的處理方式

主題提取(NPL)
優點:提取準確、詳細的信息,對風險的評估非帝有效
缺點:NPL的模型較為復雜,且需要足夠多的訓練樣本
編碼
優點:簡單
簡單缺點:信息丟失很高

缺失值的處理
缺失在數據分析的工作是頻繁出現的。
缺失的種類

  • 完全隨機缺失
  • 隨機缺失
  • 完全非隨機缺失

處理的方法

  • 補缺(平均值、或依據變量間的關系補充)
  • 作為一種狀態
  • 刪除記錄或變量

7、構建特征

常用的特征衍生

  • 計數:過去1年內申請貸款的總次數(手機聯系人數量、通話記錄來推斷這個人的一些信息:如通話記錄多聯系人多則證明這個人搞業務的)
  • 求和:過去1年內的網店消費總額
  • 比例:貸款申請額度與年收入的占比
  • 時間差:第一次開戶距今時長
  • 波動率:過去3年內每份工作的時間的標準差

8、特征分箱(是對每一個特征進行分箱)

特征的分箱(為什么要分箱)
分箱的定義
將連續變量離散化(將連續的變量分為多個離散的類別將特征分類別即收入1000-5000之間為一箱即一個類別)
將多狀態的離散變量合并成少狀態(盡可能的減小類別的數量)
分箱的重要性

  • 穩定性:避免特征中無意義的波動對評分帶來的波動(如工資的浮動增減)
  • 健壯性:避免了極端值的影響

分箱的優勢

  • 可以將缺失作為獨立的一個箱帶入模型中
  • 將所有變量變換到相似的尺度上

分箱的限制

  • 計算量大
  • 分箱后需要編碼
    在這里插入圖片描述

總結

后續會詳細的介紹各種分箱的方法對應的原理,以及特征篩選對應的方法及原理等相關內容。爭取把數據挖掘流程中常用的方法做一個統一的整理。
對應的代碼詳見:
https://github.com/645187919/financial_score_card

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456323.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456323.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456323.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

提升你的開發效率,10 個 NPM 使用技巧

對于一個項目&#xff0c;常用的一些npm簡單命令包含的功能有&#xff1a;初始化一個文件夾( npm init )&#xff0c;下載npm模塊( npm install )&#xff0c;創建測試( npm test ) 和自定義腳本( npm run )。但是&#xff0c;進一步了解一些 npm 的使用技巧可以徹底改變你的日…

E: 無法獲得鎖 /var/lib/dpkg/lock-frontend - open (11: 資源暫時不可用) E: 無法獲取 dpkg 前端鎖 (/var/lib/dpkg/lock-front

解決&#xff1a; E: 無法獲得鎖 /var/lib/dpkg/lock-frontend - open (11: 資源暫時不可用) E: 無法獲取 dpkg 前端鎖 (/var/lib/dpkg/lock-frontend)&#xff0c;是否有其他進程正占用它&#xff1f; 方法&#xff1a; 重新啟動虛擬機服務器 再在黑屏終端中重新嘗試輸入su…

聚類效果評估指標總結

前言 實際工作中經常會用到一些聚類算法對一些數據進行聚類處理&#xff0c;如何評估每次聚類效果的好壞&#xff1f;可選的方法有1、根據一些聚類效果的指標來評估&#xff1b;2、直接打點。今天就主要總結下這段時間了解的聚類效果評估指標。廢話少說&#xff0c;直接上干貨…

{%extends bootstrap/base.html%}的添加,使得其他block無法繼承

仙說{%extends "bootstrap/base.html"%}用法&#xff1a; 在base.html中調用一次即可&#xff0c;并且 {%extends "bootstrap/base.html"%} 要放在 最后頭&#xff01;&#xff01;最后頭&#xff01;最后頭&#xff01; base中不用再添加 {% block cont…

Vue.directive自定義指令

Vue除了內部指令&#xff0c;我們也可以定義一些屬于自己的指令&#xff0c;比如我們要定義一個v-diy的指令&#xff0c;作用就是讓文字變成紅色。 寫好了這個功能&#xff0c;我們現在就自己定義一個全局的指令。我們這里使用Vue.directive( ); html <div v-diy"color…

HTML5 SVG

SVG介紹1.什么是svgsvg指可伸縮矢量圖形&#xff08;Scalable Vector Graphics &#xff09;svg用來定義用于網絡的基于矢量圖形svg使用XML格式定義圖形svg圖像在放大或改變尺寸的情況下其圖形質量不會有損失svg是網為王聯盟的標準2.svg的優勢svg圖像可通過文本編輯器來創建和修…

運用Nginx代理和UWSGI將Flask項目部署在Linux中 詳細步驟

nginx: 安裝可以參照的路徑: http://nginx.org/en/linux_packages.html#Ubuntu 啟動Nginx nginx [ -c configpath] 默認配置目錄&#xff1a;/etc/nginx/nginx.conf 查看進程&#xff1a; ps -ef |grep nginx 控制Nginx nginx -s xxxstop 快速關閉quit …

機器學習算法之KNN

前言 KNN一般用于有監督的分類場景&#xff0c;除此之外&#xff0c;KNN在異常檢測場景中也有應用&#xff0c;下面主要介紹下KNN在這兩面的應用原理。 KNN做分類的原理 計算步驟如下&#xff1a; 1&#xff09;算距離&#xff1a;給定測試對象&#xff0c;計算它與訓練集中…

Supermap 組合單值專題圖與標簽專題圖演示樣例

效果圖例如以下&#xff1a;單值專題圖并顯示每一個區域的相關文字信息 代碼&#xff1a; <!DOCTYPE> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8" /> <title>單值專題圖</title>…

[劍指Offer] 25.復雜鏈表的復制

1 /*2 struct RandomListNode {3 int label;4 struct RandomListNode *next, *random;5 RandomListNode(int x) :6 label(x), next(NULL), random(NULL) {7 }8 };9 */ 10 class Solution 11 { 12 public: 13 //在舊鏈表中創建新鏈表&#xff0…

Flask項目中應用七牛云存儲

七牛云存儲&#xff1a; https://developer.qiniu.com/kodo/sdk/1242/python 點擊注冊開通七牛開發者帳號 如果已有賬號&#xff0c;直接登錄七牛開發者后臺&#xff0c;點擊這里查看 Access Key 和 Secret Key pip install qiniu q Auth(Access Key,Secret Key) b…

異常檢測算法之IForest

前言 IForest即孤立森林&#xff0c;可以用于做異常檢測。一句話總結IForest做異常檢測的原理&#xff1a;異常點密度小&#xff0c;基于樹模型容易被一下切割出來&#xff0c;正常值密度大&#xff0c;需要切割多次才能得到目標值。 原理 iForest算法得益于隨機森林的思想&…

JavaScript - 動態數據

1、使用ajax進行數據的請求 function getData(params){$.ajax({type: "POST", //提交方式data: "{params}", //請求參數url:, //請求接口contentType: "application/text;charsetutf-8",async: false, //是否同步dataType: &quo…

用c#編寫爬蟲在marinetraffic下載船僅僅圖片

近期在做船僅僅識別方面的事情&#xff0c;須要大量的正樣本來訓練adaboost分類器。于是到marinetraffic這個站點上下載船僅僅圖片。寫個爬蟲來自己主動下載顯然非常方便。 站點特點 在介紹爬蟲之前首先了解一下marinetraffic這個站點的一些特點&#xff1a; 1. 會定期檢測爬蟲…

發送手機驗證碼通過調用第三方網易云信API(flask項目)

一、 獲取驗證碼&#xff1a; 1. 輸入手機號碼 2. 通過ajax發送請求 3. 后端&#xff1a; 獲取手機號碼 使用requests向第三方的服務端&#xff08;網易云信&#xff09;發送請求 官方文檔 https://dev.yunxin.163.com/docs/product/%E7%9F%AD%E4%BF%A1/%E7%9F…

異常檢測算法之LOF

前言&#xff1a; LOF&#xff1a;Local outlier factor&#xff0c;即局部異常因子。LOF主要是通過比較每個點p和其鄰域點的密度來判斷該點是否為異常點&#xff0c;如果點p的密度越低&#xff0c;越可能被認定是異常點。至于密度&#xff0c;是通過點之間的距離來計算的&…

Android屬性動畫進階用法

2019獨角獸企業重金招聘Python工程師標準>>> 在上周二文章中介紹補間動畫缺點的時候有提到過&#xff0c;補間動畫是只能對View對象進行動畫操作的。而屬性動畫就不再受這個限制&#xff0c;它可以對任意對象進行動畫操作。那么大家應該還記得之前我舉的一個例子&am…

5.3linux下C語言socket網絡編程簡例

原創文章&#xff0c;轉載請注明轉載字樣和出處&#xff0c;謝謝&#xff01; 這里給出在Linux下的簡單socket網絡編程的實例&#xff0c;使用tcp協議進行通信&#xff0c;服務端進行監聽&#xff0c;在收到客戶端的連接后&#xff0c;發送數據給客戶端&#xff1b;客戶端在接受…

parser.add_argument驗證格式

article_bp Blueprint(article, __name__, url_prefix/api) api Api(article_bp) parser reqparse.RequestParser() parser.add_argument(name, typestr, help必須填寫名稱, requiredTrue) channel_fields { id: fields.Integer, cname: fields.String } clas…

異常檢測算法之HBOS

前言 HBOS&#xff08;Histogram-based Outlier Score&#xff09;核心思想&#xff1a;將樣本按照特征分成多個區間&#xff0c;樣本數少的區間是異常值的概率大。 原理 該方法為每一個樣本進行異常評分&#xff0c;評分越高越可能是異常點。評分模型為&#xff1a; 假設樣…