1.金融這一塊的算法,不像推薦系統,圖像等領域,金融領域的算法都比較成熟了。現在來說門檻低,屬于初期階段,上升期。
2.反欺詐的數據標簽比較少,有一種“標簽染色”的方法來做反欺詐模型的標簽。
3.常用反欺詐特征
用戶基本屬性
phone_nember
- 手機號前綴是否相同
- 手機號歸屬地是否相同
- 是否是虛擬運營商
- 流量卡還是通話卡
nickname
- 昵稱符合固定的規律(中文+數字)
- 備注是否符合某種親密的稱呼
birthday
- 年紀
- 星座
- 生肖
sex
- 性別是否失衡
password
- 是否都相同
身份證號碼
- 年齡 核對
- 性比 核對
- 城市
郵箱
- 是否是一次性郵箱
- username 滿足規律
- 是否同一郵箱服務商
- 郵箱里面的數據(賬單)
學歷
- 相似性
住房
- 租房情況是否雷同
積分
- 是不是超過某個閾值
簽到
- 相似性
ip
- 是否是同一個號段
- 每次登錄ip地址是否相同
- 是不是臨時ip 和 gps
- ip 和 gps 是否能對的上
gps
- 經緯度相似性分析
- 國家 省份 城市 相似性
- ip 和 gps 是否能對的上
wifi
- ssid
- wifi list
- 貸款前的幾分鐘有沒有切換過wifi
application time
- 時間切片
- 注冊用了多長時間(太快太慢都有問題)
- 一共申請了幾次
login time
- 時間切片
- 登陸了幾次、頻率
- 最后一次登錄時間距貸款時間的間隔
- 同一時間登錄做一個校驗(同一時間多人登錄)
ua(user agent)
- 每次打開是否是同一個ua
渠道
- app/H5/微信
- 渠道ID屬于違規渠道
app version
- 每次app的版本號是否相同
- app版本會不會太老了(老版本的app有bug,可能會被黑中介用來攻擊我們)
推薦人/聯系人
- 名字匹配
- 手機號匹配
設備指紋
imei
- 受否都相同
- 每次登錄imei號是否都相同
device id
- 受否都相同
- 每次登錄device id號是否都相同
分辨率
- 手機型號和屏幕分辨率是否一致
mobile type
- 手機品牌
- 手機型號
os(operating system)
- 每次打開操作系統是否都相同
- 來申請的人是否os都相同
- os的版本是否太舊
中文錯別字可以考慮轉換成拼音做相似度匹配
address
- 地址要標準化
- 模糊匹配
- 相似度計算(cos距離,詞向量)
company
- 正則
- 字節拆分
- 關鍵字提取
- 相似度計算
- 錯別字/同音字識別
第三方數據
人行征信
- 公司信息是否一致
- 學歷是否一致
- 居住地址是否一致
- 手機號碼是否一致
- 逾期數據
運營商
- 是否有相同的聯系人
- 是否有黑名單客戶在通訊錄中
- 通話最頻繁的幾個人(所在地是否和他相同)
社保公積金
- 工資
- 社保
- 公積金
4.滴滴滴水貸款只給滴滴司機放款
5.單變量分析:分析這個變量在我們研究的問題當中有沒有幫助。
6.決策樹算法,決策樹就是模擬人類決策過程思想的模型
決策樹的生成只考慮局部最優,剪枝考慮全局最優
7.邏輯回歸的例子
線性回歸:變量乘以系數
邏輯回歸:變量乘以系數再經過一個類似于sigmoid的函數
8.信息熵是度量樣本集合“純度”最常用的一個指標
9.風控的技術要求比較低
?