注意力機制+深度推薦模型、強化學習推薦系統
- 1.AFM -2017
- 2.DIN-2017
- 3.DIEN-2019
- 4. DRN-2018
1.AFM -2017
Attention factorization machines–浙江大學–基于模型結構的改進
引入注意力機制FM, 可視為NFM模型的改進。給特征交叉池化后的特征向量施加不同的注意力權重。
出發點:預測某一男性是否購買某一鍵盤。那么‘性別為男且歷史行為購買過鼠標’ 這一交叉特征 很可能 比 ‘性別為男且年齡為30’這一交叉特征更為重要。
具體做法:交叉特征進全聯接層,softmax輸出 特征權重。全聯接層的參數隨網絡訓練
(感覺注意力機制池化層就是多加了一個全聯接權重輸出層啊)
2.DIN-2017
Deep Interest Network–阿里巴巴-電商廣告推薦-基于業務觀察的模型改進
出發點:用戶特征組 和 廣告特征組中的商品id 和商鋪id應該有不同的權重地位。
具體做法:利用候選商品和歷史行為商品之間的相關性計算出一個權重。–注意力激活單元
(詳細結構看書,注意力網路輸出的只是權重,而不是后一層的輸入)
3.DIEN-2019
Deep interest evolution network–阿里巴巴–序列模型模擬了用戶興趣的演化。
推薦系統的真正推薦目標:針對下一次購買的推薦。
特定用戶的歷史行為都是一個隨時間排序的序列,用戶興趣的遷移其實非常快。
序列信息的重要性在于:
- 強調最近行為對下次行為預測的影響
- 序列模型能夠學習到購買趨勢的信息
核心:如何構建興趣進化網絡。興趣進化網絡分為三層
3. 行為序列層–原始行為的embedding
4. 興趣抽取層–GRU模擬用戶行為遷移
5. 興趣進化層–AUGRU用注意力機制強調不同興趣演化路徑的重要性(h(t)的每一維度為一個興趣演化路徑?)
4. DRN-2018
Deep reinforcement for news recommender–賓夕法尼亞州立大學 + 微軟亞洲研究院–新聞推薦系統
將強化學習模型應用到推薦系統中,一些關鍵概念的解釋
- 智能體:推薦系統
- 環境:新聞網站、app、用戶組成的整個推薦系統的外部環境
- 行動:推薦系統進行新聞排序后推薦
- 反饋:用戶的點擊行為
- 狀態:有關于用戶,新聞的特征
最大優勢–利用‘行動-反饋-狀態更新’,實現在線更新推薦模型
典型的深度強化學習模型:DQN
DRN在線學習模型中包含“微更新”和“主更新”
- 微更新–競爭梯度下降法–隨機變換推薦模型的梯度,給出推薦列表2;原始推薦模型給出推薦列表1。兩張推薦列表同時推送給用戶,如果表2的結果比表1好,用改動后的模型代替原始推薦模型。不斷重復這個過程。
- 主更新–利用用戶點擊數據、用戶活躍度數據整個模型的迭代更新