銀行信用卡風險大數據分析與挖掘
使用excel數據挖掘功能完成
一、信用卡客戶信用等級影響因素分析與挖掘
基于客戶信用記錄表
1. 數據預處理
瀏覽數據
-
客戶等級占比,其中優質客戶占比較少,風險客戶很多,分析影響客戶信用等級的原因
-
年齡分布,為了方便挖掘,后續會重新標記為30歲以下,30-50,50歲以上
-
婚姻狀態,有一個離散值
-
戶籍分布,分為特別發達、一般和偏遠
-
教育程度,后續會重新標記為是否上過大學
-
住房類型,其他影響挖掘,后續會當作離散值刪除
-
職業類別
-
工作年限,將20年以上的標記為一類
- 個人收入 收入差距太大了
可以看到部分人的收入過高,部分人過低
- 保險繳納
-
車輛情況
-
信用評分
-
額度
- 審批結果
離群值清除
-
婚姻狀態,選擇將一個喪偶人士的數據清除
-
住房類型
重新標記
-
年齡 重新標記為低于30、30-50、大于50
-
戶籍
-
教育程度
-
工作年限
采用突出顯示異常值處理
異常值報表
異常值數據,共36條
選擇刪除異常值
數據處理結果
2. 數據挖掘
采用分類中決策樹構建模型,判斷信用卡客戶信用等級影響因素,這里沒有選擇收入,是因為收入是連續值,所以我們判斷的是除收入外最重要的影響因素
生成結果
3. 挖掘結論分析與建議
決策樹:
分析及建議:
該模型用于預測客戶的風險等級(A、B、C或D),基于幾個關鍵特征:居住類型(自購房或租房)、年齡和教育程度。
從這個決策樹中可以得出以下幾點:
- 對于居住類型為“自購”的客戶:
- 如果年齡小于30歲且教育程度為本科及以上,則風險等級為A的概率較高。
- 如果年齡大于等于30歲且教育程度為本科及以上,則風險等級為B的概率較高。
- 如果年齡大于等于30歲且教育程度為本科及以下,則風險等級為C的概率較高。
- 對于居住類型為“租”的客戶:
- 如果年齡小于30歲且教育程度為本科及以下,則風險等級為C的概率較高。
- 如果年齡大于等于30歲且教育程度為本科及以下,則風險等級為D的概率較高。
- 如果年齡大于等于30歲且教育程度為本科及以上,則風險等級為C的概率較高。
基于這些信息,給出建議如下:
-
針對居住類型為“自購”的年輕高學歷客戶(年齡小于30歲且教育程度為本科及以上),他們可能具有較低的風險等級(A或B)。因此,對于這類客戶,可以考慮提供更優惠的產品和服務,以吸引并保留他們。
-
相反地,針對居住類型為“租”且年齡較大、教育程度較低的客戶(年齡大于等于30歲且教育程度為本科及以下),他們可能具有較高的風險等級(C或D)。因此,在與這類客戶打交道時要更加謹慎,并采取相應的風險管理措施。
-
對于居住類型為“租”的年輕低學歷客戶(年齡小于30歲且教育程度為本科及以下),他們的風險等級也相對較高(C)。因此,需要對他們進行更多的關注和管理,以便及時發現潛在問題并采取相應措施。
依賴關系網絡
圖中可以看出,最強連接是居住類型,也就是客戶是否有房
說明:以上分析均不考慮連續收入,因為連續數據實在不好重新標注,可以把它當成單獨的重要因素進行挖掘
二、欺詐人口屬性分析與挖掘(同樣為不考慮收入因素)
基于消費歷史記錄表
1. 數據預處理
1.1 分析關鍵影響因素
根據表格中的數據,我們可以得到以下結論:
- 日均消費金額:當日均消費金額在7到12次之間時,欺詐的可能性更高(紅色);而在5到7次之間時,欺詐的可能性較低(綠色)。
- 卡類別的影響:白金卡和金卡的欺詐可能性較低(綠色),而普卡的欺詐可能性較高(紅色)。
- 客戶號的影響:某些特定的客戶號(999993847675和999993864022)有較高的欺詐可能性(紅色)。
- 額度的影響:額度為100000的信用卡存在較高的欺詐可能性(紅色)。
綜上所述,銀行或其他金融機構可以根據這些信息調整其風險管理策略。例如,對于日均交易次數較多、持有普卡、擁有特定客戶號以及信用額度較大的賬戶,應加強監控和審核,以降低欺詐風險。同時,也可以通過提高安全措施、實施更嚴格的審批流程等方式來防范欺詐行為。
1.2 類別檢測
- 類別1的用戶主要進行小額交易,無論是單筆最小還是最大金額都很低。
- 用戶的日均交易次數處于中等水平,表明他們是頻繁但非過度使用者。
- 使用的卡片多為普通卡,可能意味著這些用戶尚未達到升級卡級別的資格或需求。
- 所有記錄都沒有欺詐行為,這可能是因為這一類別的用戶交易模式較為常規,不容易被標記為欺詐。
1.3 突出顯示異常值
選擇刪除異常值
2. 數據挖掘
決策樹
分析建議
通過這個決策樹模型,我們可以看出日均交易次數和額度對欺詐行為的影響。具體來說,當日均交易次數較高(大于等于4次且小于6次),并且額度不是固定值10000元時,欺詐的可能性會增加。因此,銀行或其他金融機構可以通過監控這類賬戶來提高風險預警能力,并采取相應的預防措施,如加強審核或設置更高的安全閾值。
此外,該模型也可以幫助我們了解欺詐行為發生的概率隨日均交易次數和額度變化的趨勢。例如,在日均交易次數較低(小于4次)或額度固定為10000元時,欺詐行為的概率較小。這有助于優化風控策略,比如設定不同的風險評估標準以適應不同的用戶行為模式。
聚類
通過這個圖形,我們可以看到不同分類之間的差異。例如,分類1的用戶似乎是最活躍的,他們不僅有最高的日均交易次數和日均消費金額,而且單筆消費的最大金額也最高。另一方面,分類3的用戶額度最低,日均交易次數最少,且單筆消費的最大金額也最低。這可能表明分類1的用戶是高價值客戶,而分類3的用戶可能是新用戶或低活躍度用戶。
分析與建議
要深入分析這些數據,我們需要知道每個分類的具體含義,例如,它們可能代表不同的用戶群體,如新老用戶、活躍度高低、信用評分等級等。有了這些額外信息,我們可以構建更精確的用戶畫像,從而制定更好的市場營銷策略或風險管理政策。例如,對于分類1的用戶,銀行可能希望提供更多高端服務或優惠,而對于分類3的用戶,則可能需要關注如何提升他們的活躍度和消費額。
一共聚類9個,關于其他類別的分析在這里不再詳述。
三、excel數據挖掘總結
文章主要完成了兩項重要任務:一是分析信用卡客戶的信用等級影響因素,二是挖掘信用卡欺詐的人口屬性特征。以下是具體總結:
首先,在信用等級影響因素分析方面,文章使用Excel數據挖掘功能處理了客戶信用記錄表,通過預處理數據、構建決策樹模型和分析模型結果,得出了客戶信用等級的主要影響因素。預處理階段包括數據清理、變量轉換和異常值處理。模型分析中,居住類型、年齡和教育程度被識別為決定客戶信用等級的關鍵特征。例如,居住類型為自購房的年輕且受過高等教育的客戶(年齡小于30歲,本科及以上)具有較低的風險等級(A或B)。相反,租房的、年齡較大且教育程度較低的客戶(年齡30歲以上,本科以下)風險等級較高(C或D)。因此,文章建議銀行為自購房的年輕高學歷客戶提供更優惠的服務,同時對租房的老年低學歷客戶采取更謹慎的風險管理策略。
其次,關于信用卡欺詐的人口屬性分析,文章基于消費歷史記錄表進行了數據預處理和決策樹建模。分析結果顯示,日均消費金額、卡類別、特定客戶號和額度是欺詐行為的關鍵影響因素。日均消費金額在7到12次之間欺詐可能性更高,普卡的欺詐可能性比白金卡和金卡高,特定客戶號和大額度信用卡存在較高的欺詐風險。進一步的類別檢測發現,類別1的用戶主要進行小額交易,使用普通卡,沒有欺詐行為。決策樹模型揭示了欺詐行為與日均交易次數和額度的關系,指出日均交易次數高于4次且額度不固定為1萬元時欺詐可能性增大。銀行據此可以優化風控策略,對交易頻繁、持有普通卡、特定客戶號和大額度的賬戶加強監控。
在整個過程中,文章應用了數據預處理、異常值處理、決策樹模型構建和分析、以及聚類分析等數據分析技術。通過對數據進行深入挖掘,銀行能夠優化信用卡風險管理和欺詐防控策略,提高風險預警能力和客戶服務水平。文章強調了居住類型、年齡、教育程度、日均消費金額和額度對信用卡風險和欺詐行為的影響,為銀行提供了一套實用的分析框架和策略建議。
測發現,類別1的用戶主要進行小額交易,使用普通卡,沒有欺詐行為。決策樹模型揭示了欺詐行為與日均交易次數和額度的關系,指出日均交易次數高于4次且額度不固定為1萬元時欺詐可能性增大。銀行據此可以優化風控策略,對交易頻繁、持有普通卡、特定客戶號和大額度的賬戶加強監控。
在整個過程中,文章應用了數據預處理、異常值處理、決策樹模型構建和分析、以及聚類分析等數據分析技術。通過對數據進行深入挖掘,銀行能夠優化信用卡風險管理和欺詐防控策略,提高風險預警能力和客戶服務水平。文章強調了居住類型、年齡、教育程度、日均消費金額和額度對信用卡風險和欺詐行為的影響,為銀行提供了一套實用的分析框架和策略建議。
至此,該項目完成,使用到數據源4個表中的兩個;涉及到的數據集與挖掘報告pdf版本均已上傳資源,資源名與本文標題一致,如果覺得圖片不清晰,可以下載資源查看pdf