目錄
一、模型評估分類
1.在線評估
2.離線評估?
二、離線模型評估
1.特征評估
① 特征自身穩定性
② 特征來源穩定性
③ 特征成本
2.模型評估
① 統計性評估
覆蓋度
最大值、最小值
分布形態
② 模型性能指標
分類問題
回歸問題
?③ 模型的穩定性
模型評估指標分五小節課程,這節課全局講述模型評估指標有什么,下三節課重點講解模型性能指標,了解他們的計算;最后一節課,詳細講解模型的穩定性指標。
一、模型評估分類
模型評估分為:離線評估和在線評估兩類。
1.在線評估
在線評估通常是將模型部署上線后,使用線上真實數據對模型進行評估。通常會采取ABTest方式來評估業務的表現。
ABTest的操作方式是先導入一部分流量到模型中,使得一部分用戶使用模型訓練后的商品頁面,而一部分用戶看到原來的界面,這兩部分用戶互相獨立,測試1周或1天,觀察兩者點擊率或者購買轉化率的差異,判斷模型是否達到業務預期。
如果想繼續了解ABTest,請查看詳情:
產品經理需要懂的AB測試 - 知乎 (zhihu.com)
如何避免產品開發的致命陷阱?AB測試是你不可或缺的救命稻草! | 人人都是產品經理 (woshipm.com)
2.離線評估?
離線評估是模型在上線之前進行的驗證和評估工作,如果驗收不通過,算法同學要進行模型的調整和優化。
離線評估更關注模型指標,如:準確率、穩定性等;而上線評估更加關注業務指標,如:用戶轉化率、優惠劵的核銷率。
接下來我們為了講述模型指標,主要關注離線模型的評估。
二、離線模型評估
離線模型評估分為特征評估和模型評估兩類。
特征是模型的基礎,所以我們不僅要對模型最終效果進行評估,還要對特征進行評估。
1.特征評估
對于特征評估我們并不是對所有的特征進行評估,我們只對重要特征進行評估。那么我們就需要和算法同學進行溝通,了解哪些特征比較重要。
特征評估包括三點:特征自身穩定性、特征來源穩定性、特征成本
① 特征自身穩定性
特征自身穩定性我們會使用PSI指標進行評估。PSI指標(模型隨著時間推移發生變化而不穩定的指標)。特征自身穩定性會影響模型的整體效果,所以我們需要測評重要特征是否達到穩定指標。
② 特征來源穩定性
特征一般分為:內部來源和外部來源。
如果特征是從集團內部接入的,那我們需要看他從哪條業務線獲取的,這個業務的穩定性如何,業務方是否有可能中止共享數據或者收回數據。
如果特征是從集團外部接入的,我們需要審核外部公司的資質是否合法,技術儲備是否完善。
③ 特征成本
不同來源的特征可能成本也不相同,如果特征來源是集團內部業務,可能不需要成本或者需要年終進行成本均攤。如果是外部購買的特征數據,那就正常支付就好了。
作為產品經理,我們在進行評估的時候要充分考慮到付費特征在模型中產生的增益是否大于成本,如果成本過高,那么我們考慮是否可以替換特征或者使用數據緩存的方式減少調用。
2.模型評估
模型評估也包括三部分:統計性評估、模型性能指標和模型的穩定性。
① 統計性評估
?在進行模型性能指標和穩定性評估之前,我們首先要對統計性能進行評估。包括:覆蓋度、最大值、最小值、分布規律。
覆蓋度
計算公式:打分的人數/需要打分的人數
結果越大,覆蓋度越大。比如我們要做一個用戶逾期還款預測的模型,如果覆蓋率只有60%,那么銀行就沒有辦法按照這個模型進行決策,這個模型就是沒有用的。
最大值、最小值
我們需要對最大值和最小值進行評估。
如果最大值和最小值相隔太近,例如:0-100作為一個信用劃分的區間,用戶很容易集中在一個分數段,難以進行用戶的區分。如果將0-100作為一個劃分的總區間,相當于過去大的1份區間被細化成為現在的10份,就會更便于劃分用戶。
分布形態
我們的預測結果和我們的人群行為的分布應該符合一定的規律。
比如:預測用戶消費能力,人群的分布情況應該滿足應該滿足正態分布。?
業務場景不同,需要重點觀察的統計性能指標也不同。
② 模型性能指標
根據問題的差異被分為:回歸問題和分類問題。
模型被分為:分類模型和回歸模型。不同類型的模型評估指標不相同。
分類問題
主要指標:混淆矩陣、KS、AUC。
將混淆矩陣作為基礎工具,我們可以計算出召回率、準確率。評判模型的區分能力。我們也可以計算出TPR、FPR,從而計算出AUC和KS等相關指標。
因此,混淆矩陣是二分類問題的基礎工具。
回歸問題
主要指標:MAE(平均絕對誤差)、MSE(均方誤差)、RMSE(均方根誤差)、R方等。?
這些指標主要預測數值回歸問題。
?③ 模型的穩定性
最后,我們需要評估模型整體效果的穩定性。主要使用PSI指標進行評估。
這節課我們主要從全局角度了解模型評估,評估指標計算方法后面文章會詳細說明。
今天的知識思維導圖如下所示:
參考文獻:劉海豐——《成為AI產品經理》?