【王樹森搜索引擎技術】相關性02:評價指標(AUC、正逆序比、DCG)
相關性的評價指標
- Pointwise評價指標:Area Under the Curve(AUC)
- Pairwise評價指標:正逆序比(Positive to Negative Ratio, PNR)
- Listwise評價指標:Discounted Cumulative Gain(DCG)
- 用AUC和PNR作為離線評價指標,用DCG評價模型在線上排序的效果
Pointwise評價指標
二分類評價指標
- 把測試集相關性檔位轉化為0/1
- 高,中兩檔合并,作為標簽 y=1
- 低,無兩檔合并,作為標簽 y=0
- 相關性模型輸出預測值 p ∈ [ 0 , 1 ] p ∈ [0, 1] p∈[0,1]
- 用AUC評價模型的預測是否準確


ROC曲線與AUC值
- 現在有一個分類問題,圖中的坐標系橫坐標表示預測的概率,縱坐標表示其真實的類別

- 我們設定一個閾值,如果概率大于該閾值,那么就認為它是漢堡,比如圖中大于了0.5,所以右側的點都會被預測為漢堡,那么就說明三個預測準確,兩個預測不準確
- 可以在右上角畫出一個混淆矩陣

- 我們的閾值可以取 0 到 1 之間的任意數,所以我們可以得到很多個混淆矩陣

- 有沒有辦法能把所有的混淆矩陣表示在同一個二維空間內呢?這就是 Receiver Operator Characteristic (ROC)曲線
- 可以對混淆矩陣的值用公式算出來然后畫到坐標軸上




- TPR是與TP(正預測成功)和FN(負預測失敗)計算得來,我們希望TP越大越好,所以對于FPR相等的值,TPR越大越好

- 那么AUC值就能很好的反應出模型在ROC曲線上的效果,即AUC值越大,效果越好
- 如果是多分類的話:宏觀AUC就是對每一個類別都畫一個ROC曲線,求出對應的AUC值,最后對AUC值取某種平均。微觀AUC的話,就是化歸為真實類別和其他類別

Piarwise 評價指標
- 正逆序比 PNR



- 用戶看到前面文檔的概率大,我們希望前面的排序是正確的,所以不能只看正逆序比

Listwise評價指標
- 該指標會給前面的指標更大的權重
- 有 n 篇候選文檔,根據模型打分做降序排列,把文檔記為 d 1 , ? ? ? , d n d_1, ···, d_n d1?,???,dn? (此時不知道真實相關性分數)
- d 1 , ? ? ? , d n d_1,···,d_n d1?,???,dn? 的真是相關性分數為 y 1 , ? ? ? , y n y_1, ···, y_n y1?,???,yn? 人工標注相關性檔位,檔位映射到 [0,1] 區間上的實數

- 逆序對會導致 pairwise 和 listwise 指標減小
- 逆序對出現的位置不影響 pairwise 指標
- 逆序對越靠前,對 listwise 指標造成的損失越大
Cumulative Gain(CG)
- 只關注排在前 k 的文檔,它們最可能獲得曝光,對用戶的體驗影響最大


- 交換前面的并不會影響結果,這是不合理的

Discounted Cumulative Gain(DCG)
相關性的評價指標
- Pointwise:單獨評價每一個 (q,d) 二元組,判斷預測的相關性分數與真實標簽的相似度。因為是單獨,所以是 Pointwise
- Pairwise:對比 ( q , d 1 ) (q,d_1) (q,d1?) 和 ( q , d 2 ) (q,d_2) (q,d2?) ,判斷兩者的序是否正確 (正序對或逆序對),以對為基準,所以是pairwise
- Listwise:對比 ( q , d 1 ) , ( q , d 2 ) , ? ? ? , ( q , d n ) (q,d_1), (q,d_2), ···, (q, d_n) (q,d1?),(q,d2?),???,(q,dn?),判斷整體的序關系的正確程度
離線評價指標
- 實現準備人工標注的數據,劃分為訓練集和測試集
- 完成訓練后,計算測試集上的AUC和PNR
- 相關性有 4 個檔位,為什么不用多分類的評價指標呢?(Macro F1 和 Micro F1)
- 相關性的標簽存在序關系:高>中>低>無
- 多分類問題把 4 中標簽看作 4 個類別,忽略其中的序關系

線上評價指標
- 一個搜索session:用戶搜索 q,搜索結果頁上按需展示文檔 d 1 , ? ? ? , d n d_1, ··· , d_n d1?,???,dn?
- 從搜索日志中抽取一批session,覆蓋高中低頻查詢詞
- 對于每個session,取排序最高的 k 篇文檔 d 1 , ? ? ? , d k d_1, ···, d_k d1?,???,dk?
- k的設定取決于用戶瀏覽深度,比如k=20
- 高頻查詢詞的前 20 篇文檔幾乎都是高相關,指標過高
- 高頻查詢詞的k設置的較大(比如k=40),低頻查詢詞的k設置的較小(比如k=20)



本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/66415.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/66415.shtml
英文地址,請注明出處:http://en.pswp.cn/web/66415.shtml
如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!