目錄
一、模型宣講和評估的原因
二、模型宣講
三、模型評估
1. 重要特征
① 特征來源
②特征意義
2.選擇測試樣本
3.模型性能和穩定性
一、模型宣講和評估的原因
劉海豐老師提到他們在做一個金融AI產品未注重模型指標,過于注重業務指標,導致產生了大量的業務損失。
主要問題為:
1.模型上線未評估
2.模型上線未監控
3.特征無評估、無監控
因此他們增加了模型宣講和模型評估的節點,對這兩個節點的工作內容和交付物做了相應的規定。
二、模型宣講
首先算法同學在宣講之前給產品經理交付模型報告。
模型報告包括:模型設計、算法選型、特征來源、測試結果。
產品經理在看過模型報告之后請算法同學進行模型宣講,宣講內容為:
1.為什么選擇這個算法?
2.選擇了哪些特征?
3.訓練樣本是哪些?
4.測試的方案和結果是什么?
宣講目的是搞清楚算法的邏輯且對于算法同學容易忽略的三個問題進行評估:
1.特征的來源:來源是否合理,避免出現后續特征無法獲取的情況
2.訓練樣本的合理性:避免選擇的樣本數據和業務數據不符合,比如:樣本太久
3.測試結果是否符合預期:測試結果太好或者太差,無法滿足業務預期
這里是我們給模型上線的第一道保障。在這個環節中,我們需要知道算法的基本邏輯,特征來源的穩定性,訓練樣本的合理性以及測試結果是否符合預期,我們對于模型進行粗略的評估。
三、模型評估
很多同學對于模型宣講和模型評估之間的差異有疑惑,這里說明一下:
模型宣講我們只是進行粗略評估,但是此時的模型評估環節我們要站在業務的角度上對模型進行詳細的評估。
模型評估產物:輸出模型驗收報告。
這里是劉老師給出的一個例子,不同業務標準的評估指標不相同,可以進行相應的調整。
1.重要特征
2.選擇測試樣本
3.模型性能和穩定性測試結果
1. 重要特征
我們需要列出重要特征,對于每一個重要特征的來源和意義進行評估。
① 特征來源
如果這個特征來自于外部數據,那么我們就要關注這個特征的可持續性和穩定性。
②特征意義
這個特征是否符合業務或者是否符合常理。eg:我們要用到夜間購物特征,如果這個特征設置在23點-2點不合理。一般設置在0點-5點。
2.選擇測試樣本
我們需要根據業務的場景和特性選擇指標,比如我們觀察一個線上商城的購買量,我選擇的測試樣本應該是2019.1-2019.12月的樣本,因為購買能力會根據季節和周期進行浮動,我們應該盡量全面的選擇樣本。選擇好測試樣本之后我們交給算法同學進行測試,看是否達到業務預期效果。
注意樣本的選擇直接決定了測試結果,所以一定要謹慎選擇,符合業務場景。
3.模型性能和穩定性
模型性能和穩定性是最最重要的,直接決定了模型是否能夠上線。
模型性能分為四步進行評估:
- 評估重要特征的測試結果是否符合預期:包括特征IV,KS等等
- 評估重要特征的穩定性:一般是PSI值(PSI<0.2)
- 評估模型性能測試結果是否符合預期:包括模型KS、AUC、MSE等等
- 評估模型的穩定性,一般也是PSI值(PSI<0.2)
如果一個算法是回歸模型,就不需要AUC和KS這些指標啦,隨機應變。
至此,模型驗收結束,就可以進行后期的模型部署,工程開發,集成測試,集成驗收,產品上線的環節了。
產品上線流程圖如下所示:
參考文獻:劉海豐——《成為AI產品經理》?