推薦系統基礎 --ShusenWang

學習b站up主的ShusenWang的推薦系統筆記

指標

任何系統/算法/模型都需要評估，對于推薦系統的指標有消費指標和北極星指標，消費指標是衡量用戶對產品的使用情況，使用頻率廣度和深度，用于了解用戶的使用習慣，北極星指標是企業用于評估業務增長和成功的指標

消費指標

點擊率，收藏率，轉發率，點贊率，閱讀完成率，諸如此類不同的場景對應的消費指標不同

北極星指標

用戶規模，日活（DAU）月活（MAU）

實驗流程

離線測試小流量A/B測試全流量上線
離線測試與用戶沒有交互，僅使用歷史數據進行訓練
小流量A/B測試與小范圍的用戶進行交互
全流量上線就是推全給所有人使用該推薦算法

A/B測試

A/B測試的作用，在離線測試上的算法不一定在在線測試取得好的效果，而不好的效果會對用戶造成惡劣的體驗，因此在小范圍的測試是有必要的，另一方面也可以調整推薦算法的參數。
假設該團隊實現了GNN召回通道，在離線測試中取得了正向的效果，下一步就是在小范圍用戶進行A/B測試考察新的召回通道對在線指標的影響。
GNN的深度為{1，2，3}

隨機分桶

假設所有用戶為b個，將所有用戶隨機分成n個筒，用戶量足夠大的情況下，這n個桶中各項指標應該是一樣的。
假設n=10
在這里插入圖片描述
使用4個桶，1，2，3作為實驗組，GNN深度分別為1，2，3，如果2號桶各項指標相對對照組有顯著提升，證明深度為2的GNN召回通道對在線指標有積極作用，值得推全。

流量使用

對于一個公司來說，有很多團隊都需要做實驗，對于每個桶做什么實驗就有一定要求，不能隨便給哪個桶安排哪種召回，粗排等。

分層實驗

分層實驗是將一個推薦流程分為多層，召回層，粗排層，精排層…

同層互斥

相同層中同一個同不能進行多個實驗，因為多個實驗并行造成的效果有可能是抵消導致1+1<2，也可能是互促導致1+1>2，這樣的結果導致不能評估某種召回或實驗是有效果還是沒有效果，因此同層互斥

不同層正交

不同層正交，意味著不同層的各個實驗的效果都是互不影響的，所以每一層都可以使用100%用戶

對照 --HoldOut機制

在這里插入圖片描述
取10%的用戶作為對照組，計算每一層的各項指標與對照組的差距（diff），用于評估各層的成效，一段考核結束后，將推薦系統推全，再隨機選擇10%的用戶作為holdout，剛開始時holdout與其他90%差距不大。
在一個項目中，有的指標是推薦系統剛上線就可以看到變化的，例如點擊率，點贊率，有的是長期以往才能看到效果的，比如頁面留存率等，但是考核期往往時間較短，為解決這個問題就需要反轉實驗。

反轉實驗

反轉實驗就是在新開的桶里保存一個舊策略來觀察他的長期指標變化
在這里插入圖片描述

小結

分層實驗：同層互斥，不同層正交
Holdout：保留10%的用戶作為對照組，不受任何實驗影響，考察整個部門對項目的貢獻
實驗推全：將實驗作用于100%的用戶，推全層與其他層正交
反轉實驗：在推全層保留一部分使用舊策略，以此觀察長期指標的變化，長期觀察新舊策略diff

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/913619.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/913619.shtml
英文地址，請注明出處：http://en.pswp.cn/news/913619.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！