目錄
一、引言
二、量綱對齊常見方法
2.1 Z-score標準化+Sigmoid歸一化
2.2?Min-Max 歸一化
2.3 Rank Transformation
2.4??Log Transformation
2.5 Robust Scaling?
3、總結
一、引言
類似抖音、快手、小紅書等產品的信息流推薦業務,主要通過信息流廣告、信息流直播電商等獲得經濟收益,對于流量最大的核心推薦系統,或多或少都要承擔商業指標,承接特定物料的曝光需求。但是廣告、直播電商或其他業務物料,會根據自己的需求進行排序,由于不是一套模型,業務場景數據也不一樣,插入物料的量綱與主推薦量綱必定不相同,隨之但是的就是無法比較問題,如何將不同的量綱對齊且可比呢,今天介紹常見的幾種方法。
二、量綱對齊常見方法
2.1 Z-score標準化+Sigmoid歸一化
Z-score標準化將數據轉換為均值為0、標準差為1的分布。公式如下:
其中:
是原始數據點
- ?
是序列的均值
是序列的標準差
Sigmoid將均值為0、標準差為1的分布轉化為值域為0-1的分布。公式為?
Z-score+Sigmoid序列合并計算步驟
- ?對每個序列分別計算均值和標準差。
- 對每個數據點應用Z-score公式進行標準化。
- 對標準化后的序列采用Simgoid歸一化到0-1后,進行比較。?
2.2?Min-Max 歸一化
Min-Max 歸一化將數據線性地轉換到一個固定的區間(通常是 [0, 1])。公式如下:
其中:
?是原始數據點
- min是序列的最小值
- max是序列的最大值
序列合并計算步驟:
- ?對每個序列分別計算最小值和最大值。
- 對每個數據點應用上述公式進行歸一化。
- 合并歸一化后的序列。??
2.3 Rank Transformation
Rank Transformation 將數據轉換為它們的秩次。公式如下:
序列合并計算步驟:
- ?對每個序列分別計算每個數據點的秩次。
- 合并秩次后的序列。?
2.4??Log Transformation
如果數據分布偏斜,可以使用對數變換來壓縮數據范圍。公式如下:
?序列合并計算步驟:
- ?對每個序列分別應用對數變換。
- 合并變換后的序列。?
2.5 Robust Scaling?
?Robust Scaling 使用中位數和四分位距(IQR)進行標準化,適用于存在異常值的數據。公式如下:
?
是序列的中位數
是序列的四分位距(即第75百分位數減去第25百分位數)?
?序列合并計算步驟:
- ???對每個序列分別計算中位數和IQR。
- ?對每個數據點應用上述公式進行標準化。
- ?合并標準化后的序列。????????
3、總結
本文初步介紹了多種將不同量綱的多源物料轉換為同一量綱的方法,主要目標就是讓不同業務場景的推薦排序結果可以比較,通過公式化的序列轉換,快速達到可比的預期,計算效率更高。在實踐中,Z-score+Sigmoid方法更為實用。