阿里云天池 金融風控訓練營Task1 廣東工業站

Task1? 賽題理解

一、學習知識點概要

本次學習先是介紹了賽題的背景和概況,題目以金融風控中的個人信貸為背景,給所給的47列特征中,根據貸款申請人的數據信息預測其是否有違約的可能,以此判斷是否通過貸款。隨后介紹了比賽中的評價指標,出現的相關知識點有:

1.混淆矩陣(Confuse Matrix)

2.準確率(Accuracy)

3.精確率(Precision)

4.召回率(Recall)

5.F1 Score

6.P-R曲線(Precision-Recall Curve)

7.ROC(Receiver Operating Characteristic)

8.AUC(Area Under Curve)

9.KS(Kolmogorov-Smirnov)

二、學習內容

1.混淆矩陣(Confuse Matrix)

混淆矩陣是什么呢?混淆矩陣是數據科學、數據分析和機器學習中總結分類模型預測結果的情形分析表,以矩陣的形式將數據集中的記錄按照真實的類別與分類模型作出的分類判斷兩個標準進行匯總。這個名字來源于它可以非常容易的表明多個類別是否有混淆。用于得出分類正確和錯誤的樣本數量。一般的混淆矩陣是n×n的。

在我們要解的二元分類問題(即判斷一個東西是不是我們所認為的東西)中,混淆矩陣通常是2×2的。我們可以將分類的結果歸為正類和負類(或陽性和陰性),先用我們構建出來的預測模型將樣本進行分類,然后再查看樣本的真實分類,將對比結果放入矩陣中。判斷結果歸類如下:

  • (1)若一個實例是正類,并且被預測為正類,即為真正類TP(True Positive )
  • (2)若一個實例是正類,但是被預測為負類,即為假負類FN(False Negative )
  • (3)若一個實例是負類,但是被預測為正類,即為假正類FP(False Positive )
  • (4)若一個實例是負類,并且被預測為負類,即為真負類TN(True Negative )

矩陣中數據的填寫可看下圖

矩陣中的數據便為被判斷為該種結果的樣本個數。

2.混淆矩陣的延伸概念

單用一個混淆矩陣無法對模型進行準確全面的評價,由此延伸出與混淆矩陣相關的概念,有:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 Score、P-R曲線

其計算公式如下:

注意:準確率并不適用于樣本不均衡的情況

關于F1 Score的作用,精確率和召回率是相互影響的,精確率升高則召回率下降,召回率升高則精確率下降,如果需要兼顧二者,就需要精確率、召回率的結合F1 Score

P-R曲線:P-R曲線是描述精確率和召回率變化的曲線,召回率為橫軸,精確率為縱軸。模型在為樣本分類時會有一個置信度,即表示該樣本是正樣本的概率。通過置信度就可以對所有樣本進行排序,再逐個樣本的選擇一個閾值,在該樣本之前的都屬于正例,該樣本之后的都屬于負例。每一個樣本作為劃分閾值時,都可以計算對應的precision和recall,那么就可以以此繪制曲線。

3.ROC(Receiver Operating Characteristic)

ROC為一種曲線,以兩種新出現的指標分別作為橫軸和縱軸。ROC將假正例率(FPR)定義為 X 軸,真正例率(TPR)定義為 Y 軸。

FPR:在所有實際為陰性的樣本中,被錯誤地判斷為陽性之比率 。

?FPR=\frac{FP}{FP+TN}

TPR:在所有實際為陽性的樣本中,被正確地判斷為陽性之比率。

TPR=\frac{TP}{TP+FN}

ROC曲線的作用:

I.ROC曲線能很容易的查出任意閾值對學習器的泛化性能影響。

II.有助于選擇最佳的閾值(如何選擇本次不做描述)。ROC曲線越靠近左上角,模型的準確性就越高。最靠近左上角的ROC曲線上的點是分類錯誤最少的最好閾值,其假正例和假反例總數最少。

III.可以對不同的學習器比較性能。將各個學習器的ROC曲線繪制到同一坐標中,直觀地鑒別優劣,靠近左上角的ROC曲所代表的學習器準確性最高。

4.AUC(Area Under Curve)

AUC(Area Under Curve)被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價標準是因為很多時候ROC曲線并不能清晰的說明哪個預測模型的效果更好,而作為一個數值,對應AUC更大的預測模型效果更好。

AUC就是曲線下面積,在比較不同的分類模型時,可以將每個模型的ROC曲線都畫出來,比較曲線下面積做為模型優劣的指標。ROC 曲線下方的面積(Area under the Curve),其意義是:

(1)因為是在1x1的方格里求面積,AUC必在0~1之間。

(2)假設閾值以上是陽性,以下是陰性;

(3)若隨機抽取一個陽性樣本和一個陰性樣本,分類器正確判斷陽性樣本的值高于陰性樣本的概率 = AUC 。

(4)簡單說:AUC值越大的分類器,正確率越高。

從AUC 判斷分類器(預測模型)優劣的標準:

  • AUC = 1,是完美分類器。

  • AUC = [0.85, 0.95], 效果很好

  • AUC = [0.7, 0.85], 效果一般

  • AUC = [0.5, 0.7],效果較低,但用于預測股票已經很不錯了

  • AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值

5.KS(Kolmogorov-Smirnov)

在數理統計中,可用于檢驗數據是否符合某種分布。在風控中,KS常用于評估模型區分度。區分度越大,說明模型的風險排序能力(ranking ability)越強。 K-S曲線與ROC曲線類似,不同在于K-S曲線將真正例率和假正例率都作為縱軸,橫軸則由選定的閾值來充當。 公式為:KS=max(TPR-FPR)

一般情況KS值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果KS過大,模型可能存在異常。一般的評判標準如下:

KS區分能力
0.2以下基本無區分能力
[0.2,0.4]一般
(0.4,0.5]良好
(0.5,0.6]較強
(0.6,0.75]非常強
0.75以上過高,存疑

?

三、學習問題與解答

初次看Task1的時候,一下子冒出很多沒見過的知識和名詞感覺頭都暈乎乎的。雖然里面已經列出了好一些概念,但是它的定義、用來干什么、怎么用都還需要自己在去查,去學習。比如一開始看到混淆矩陣,TP、TN、FN、FP到底是什么意思單看是Task1很難看明白,在百度上搜了之后也還是迷迷糊糊,最后還是查找了各種文章學習之后才知道混淆矩陣的作用以及混淆矩陣該怎么樣寫。

現在出現的問題還有很多,比如后面的Python代碼還沒看明白,P-R曲線的閾值怎么選取,以及選取閾值出來的作用是什么都不是很明白,對這些知識還沒有系統的了解。

四、學習思考與總結

思考下來就是需要學習的東西還有很多,雖說是金融風控0基礎的訓練營,但是對我這種在Task1里出現的知識和Python真正0基礎的人來說挑戰還是蠻大的。了解到的這些知識也不系統,而且也是一知半解,以后還需要多多與別人交流和學習。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/387417.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/387417.shtml
英文地址,請注明出處:http://en.pswp.cn/news/387417.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何將.crt的ssl證書文件轉換成.pem格式

如何將.crt的ssl證書文件轉換成.pem格式摘自:https://www.landui.com/help/show-8127 2018-07-04 14:55:41 2158次 準備:有一臺安裝了php的linux操作系統執行下面的openssl命令即可:openssl x509 -in www.xx.com.crt -out www.xx.com.pem轉載于:https://…

SpringMVC學習記錄--Validator驗證分析

一.基于Validator接口的驗證. 首先創建User實例,并加入幾個屬性 ?12345678910111213141516171819202122232425262728293031323334<code class"hljs cs">public class User {private String username;private String password;private String nickname;public …

NTP時間服務器實現Linux時間同步

在linux下&#xff0c;可以通過自帶的NTP(Network Time Protocol)協議通過網絡使自己的系統保持精確的時間。 什么是NTP&#xff1f; NTP是用來使系統和一個時間源保持時間同步的協議。 在自己管理的網絡中建立至少一臺時間服務器來同步本地時間&#xff0c;這樣可以使得在不同…

阿里云天池 Python訓練營Task1:從變量到異常處理

本學習筆記為阿里云天池龍珠計劃Python訓練營的學習內容&#xff0c;學習鏈接為&#xff1a;https://tianchi.aliyun.com/specials/promotion/aicamppython?spm5176.22758685.J_6770933040.1.6f103da1tESyzu 目錄 一、學習知識點概要 二、學習內容 I.變量、運算符與數據類…

python回收機制

目錄 Python的垃圾回收機制引子:一、什么是垃圾回收機制&#xff1f;二、為什么要用垃圾回收機制&#xff1f;三、垃圾回收機制原理分析1、什么是引用計數&#xff1f;2、引用計數擴展閱讀&#xff1f;&#xff08;折疊&#xff09;Python的垃圾回收機制 引子: 我們定義變量會申…

安裝openssl-devel命令

centos&#xff1a; yum install openssl-devel ubuntu&#xff1a; sudo apt-get install openssl sudo apt-get install libssl-dev

阿里云天池 Python訓練營Task2: Python基礎練習:數據結構大匯總 學習筆記

本學習筆記為阿里云天池龍珠計劃Python訓練營的學習內容&#xff0c;學習鏈接為&#xff1a;https://tianchi.aliyun.com/specials/promotion/aicamppython?spm5176.22758685.J_6770933040.1.6f103da1tESyzu 目錄 一、學習知識點概要 二、學習內容 I.列表&#xff08;list…

windows文件與Linux文件互轉

使用命令 unix2dos filename dos2unix filename

1G.小a的排列(C++)

小a的排列&#xff08;C&#xff09; 點擊做題網站鏈接 題目描述 小a有一個長度為n的排列。定義一段區間是"萌"的&#xff0c;當且僅當把區間中各個數排序后相鄰元素的差為1現在他想知道包含數x,y的長度最小的"萌"區間的左右端點 也就是說&#xff0c;我們…

阿里云天池 Python訓練營Task3: Python基礎進階:從函數到高級魔法方法 學習筆記

本學習筆記為阿里云天池龍珠計劃Python訓練營的學習內容&#xff0c;學習鏈接為&#xff1a;https://tianchi.aliyun.com/specials/promotion/aicamppython?spm5176.22758685.J_6770933040.1.6f103da1tESyzu 目錄 一、學習知識點概要 二、學習內容 I.函數 1.定義自己的函…

C# 獲取句柄程序

這個小程序需要用到系統API&#xff0c;也就是需要用到user32中的三個函數。 第一個&#xff1a;WindowFromPoint 返回一個窗口句柄 第二個&#xff1a;GetWindowText 獲取窗口標題 第三個&#xff1a;GetClassName 獲取類名 當然&#xff0c;最重要的一點就是要引用命名空間…

HBase安裝配置

HBase的安裝配置&#xff1a; 4臺主機&#xff1a;hdp0 hdp1 hdp2 hdp3 hdp0 hdp1 跑HMaster hdp2 hdp3 跑HRegionServer 將HBase解壓之后 1、確保安裝ZooKeeper&#xff1b; 2、修改hbase-env.sh export JAVA_HOME/.../jdk export HBASE_MANAGES_ZKfalse //使用外部的…

python cook讀書筆記第2章字符串和文本

使用多個界定符分割字符串 line asdf fjdk; afed, fjek,asdf, fooimport re# line re.split(r[;,\s]\s*,line)# print(line)# [asdf, fjdk, afed, fjek, asdf, foo]"""當你使用 re.split() 函數時候&#xff0c;需要特別注意的是正則表達式中是否包含一個括號…

centos7安裝oracle12c 一

本文 基本參考了下面這篇文章http://blog.csdn.net/gq5251/article/details/42004035 和http://www.linuxidc.com/Linux/2017-08/146528.htm 但是改正了一些錯誤操作系統:CentOS Linux release 7.2.1511 (Core) oracle: oarcle (12.1.0.2.0) - Standard Edition (SE2)幾點要注…

Bigtable的些許重點

分布式數據庫系統 針對于海量數據&#xff0c;可擴展&#xff0c;高吞吐量&#xff0c;低時延 不支持關系模型 通過row和column進行索引&#xff0c;row和column可以是任意字符串 所存儲的數據也是字符串 Bigtable是一個map&#xff0c;value是array of bytes&#xff0c;通…

阿里云天池 Python訓練營Task4: Python數據分析:從0完成一個數據分析實戰 學習筆記

本學習筆記為阿里云天池龍珠計劃Python訓練營的學習內容&#xff0c;學習鏈接為&#xff1a;https://tianchi.aliyun.com/specials/promotion/aicamppython?spm5176.22758685.J_6770933040.1.6f103da1tESyzu 一、學習知識點概要 本次主要通過阿里云天池的賽題【Python入門系…

JMETER從JSON響應中提取數據

如果你在這里&#xff0c;可能是因為你需要使用JMeter從Json響應中提取變量。 好消息&#xff01;您正在掌握掌握JMeter Json Extractor的權威指南。作為Rest API測試指南的補充&#xff0c;您將學習掌握Json Path Expressions 所需的一切。 我們走吧&#xff01;并且不要驚慌&…

centos7安裝oracle12c 二

環境&#xff1a;CentOS7VMware12&#xff0c;分配資源&#xff1a;CPU&#xff1a;2顆&#xff0c;內存&#xff1a;4GB&#xff0c;硬盤空間&#xff1a;30GB Oracle 12C企業版64位 下載地址&#xff1a;http://www.oracle.com/technetwork/database/enterprise-edition/down…

阿里云天池 Python訓練營Task5:Python訓練營測試 學習筆記

一、學習知識點概要 本次是Python訓練營的測試&#xff0c;在45分鐘內完成25題&#xff0c;滿分100分及格80分。題目主要考察Task1到Task3里面的Python基礎知識。在我隨到的25道題里&#xff0c;知識點有&#xff1a; 變量&#xff08;包括數據類型和容器類型&#xff09;運算…

centos7安裝oracle12c 三

場景描述&#xff1a;我在自己電腦的虛擬機上linux環境下安裝oracle11g數據庫。 Linux版本為&#xff1a;CentOS release 6.8 (Final)&#xff0c;Oracle版本為&#xff1a;linux.x64_11gR2 問題描述&#xff1a;在oracle安裝到Prerequisite Checks這一步的時候&#xff0c;出現…