【王樹森推薦系統】推薦系統漲指標的方法04:多樣性

漲指標的方法有哪些?

  • 改進召回模型,添加新的召回模型
  • 改進粗排和精排模型
  • 提升召回,粗排,精排的多樣性
  • 特殊對待新用戶嗎,低活用戶等特殊人群
  • 利用關注,轉發,評論這三種交互行為

排序的多樣性

精排多樣性

  • 精排階段,結合興趣分數和多樣性分數對物品 iii 排序
    • sis_isi?:興趣分數,即融合點擊率等多個預估指標
    • did_idi?:多樣性分數,即物品 iii 與已經選中的物品的差異
    • si+dis_i+d_isi?+di? 對物品做排序,這個排序幾乎決定了最終用戶看到的結果
  • 常用 MRR,DPP 等方法計算多樣性分數,精排使用滑動窗口,粗排不使用滑動窗口
    • 精排決定最終的曝光,曝光頁面上鄰近的物品相似度應該小,所以計算精排多樣性要使用滑動窗口,保證同一個滑動窗口內的物品要有足夠的差異
    • 粗排要考慮整體的多樣性,而非一個滑動窗口中的多樣性
  • 除了多樣性分數,精排還使用打散策略增加多樣性
    • 類目:當前選中物品 iii,之后 555 個位置不允許跟 iii 的二級類目相同
    • 多模態:事先計算物品多模態內容向量表征,講全庫物品聚為 100010001000 類;在精排階段,如果當前選中物品 iii,之后 10 個位置不允許跟 iii 同屬一個聚類。道理是同一類物品的圖片和文字應該相似,需要打散

粗排多樣性

  • 粗排給 500050005000 個物品打分,選出 500500500 個物品送入精排
  • 提升粗排和精排多樣性都可以提升推薦系統的核心指標
  • 根據 sis_isi? 對 5000 個物品排序,分數最高的 200 個物品送入精排。之類暫且不考慮多樣性分數,將用戶最感興趣的物品送入精排
  • 對于剩余的 4800 個物品,對每個物品 iii 計算興趣分數 sis_isi? 和多樣性分數 did_idi?
  • 根據 si+dis_i+d_isi?+di? 對剩余 4800 個物品排序,分數最高的 300 個物品送入精排。這 300 個既是用戶感興趣的,也保證了差異

召回的多樣性

雙塔模型:添加噪聲

  • 雙塔模型是最重要的召回模型
  • 用戶塔將用戶特征作為輸入,輸出用戶的向量表征;然后做 ANN 檢索,召回向量相似度高的物品
  • 線上做召回時(在計算出用戶向量后,做 ANN 檢索之前),往用戶向量中添加隨機噪聲
  • 用戶的興趣越窄(比如用戶最近交互的 nnn 個物品只覆蓋少數幾個類目),則添加的噪聲越強
  • 添加噪聲使得召回的物品更多樣,可以提升推薦系統核心指標。按道理來說添加噪聲會使得召回不準,但是很神奇的是可以漲指標

雙塔模型:抽樣用戶行為序列

  • 用戶最近交互的 nnn 個物品(用戶行為序列)是用戶塔的輸入
  • 保留最近的 rrr 個物品 (r<<n)(r<<n)(r<<n)
  • 從剩余的 n?rn-rn?r 個物品中隨機抽樣 ttt 個物品 (t<<n)(t<<n)(t<<n),可以是均勻抽樣,也可以用非均勻抽樣讓類目平衡
  • 將得到的 r+tr+tr+t 個物品作為用戶行為序列,而不是用全部 nnn 個物品
    • 推薦系統的用戶每天可能會刷好幾十次,每次都會做召回和排序。每次做召回的時候都會對用戶隨機行為序列做抽樣,這樣會讓雙塔召回的結果有隨機性,哪怕同時做兩次召回,召回的結果也會有較大差異,即多樣性提升
  • 抽樣用戶行為為什么能漲指標?
    • 一方面:注入隨機性,召回結果更多樣化
    • 另一方面,nnn 可以非常大,可以利用到用戶很久之前的興趣

U2I2I:抽樣用戶行為序列

  • U2I2I(user → item → item) 中的第一個 item 是指用戶最近交互的 nnn 個物品之一,在 U2I2I 中叫做種子物品
  • nnn 個物品覆蓋的類目數教少,且類目不平衡
    • 系統總共有 200 個類目,某用戶的 nnn 個物品只能覆蓋 15 個類目
    • 足球類目的物品有 0.4n0.4n0.4n 個,電視劇類目的物品有 0.2n0.2n0.2n 個,其余類目的物品數均少于 0.05n0.05n0.05n 個。如果只用 nnn 個種子物品,那么大部分肯定都會召回到足球和電視劇,多樣性很差
  • 做非均勻隨機抽樣,從 nnn 個物品中選出 ttt 個,讓類目平衡(想法和效果與用戶行為序列抽樣類似)
  • 用抽樣得到的 ttt 個物品(代替原本的 nnn 個物品)作為 U2I2I 的種子物品
  • 一方面,使類目更平衡,多樣性更好。另一個方面,nnn 可以更大,覆蓋的類目更多

探索流量

  • 每個用戶曝光的物品中有 2%2\%2% 是非個性化的,用作興趣探索
  • 維護一個精選內容池,其中物品均為交互率指標高的優質物品(內容池可以分人群,比如 30 到 40 歲男性內容池)
    • 既然沒有了個性化,就要提高物品質量來吸引用戶。用高質量彌補多樣性
  • 從精選內容池中隨機抽樣幾個物品,跳過排序,直接插入最終排序結果。
    • 這些物品沒有經過用戶的交互,大概率會被淘汰掉,所以直接插入
  • 興趣探索在短期內負向影響核心指標,但長期會產生正向指標
    • 做非個性化的推薦用戶大概率不感興趣,點擊偏低,用戶不看,2%2\%2% 的流量大部分會被浪費掉。
    • 興趣探索長期是有利的,可以發掘更多興趣點更好提升用戶留存

總結

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/915147.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/915147.shtml
英文地址,請注明出處:http://en.pswp.cn/news/915147.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

1. Spring AI概述

一、前言 Spring AI 是由 Spring 團隊推出的開源項目&#xff0c;旨在為 Java 開發者提供簡潔、一致的 Spring 風格開發體驗&#xff0c;用于構建基于生成式人工智能&#xff08;GenAI&#xff09;和大型語言模型&#xff08;LLM&#xff09;的應用程序。它通過標準化抽象層簡…

[每日隨題10] DP - 重鏈剖分 - 狀壓DP

整體概述 難度&#xff1a;1600 →\rightarrow→ 2200 →\rightarrow→ 2600 P6005 [USACO20JAN] Time is Mooney G 標簽&#xff1a;DP 前置知識&#xff1a;鏈式前向星 難度&#xff1a;綠 1600 題目描述&#xff1a; 輸入格式&#xff1a; 輸出格式&#xff1a; 樣例輸…

【Ubuntu22.04】repo安裝方法

背景 repo是Google開發的用于基于git管理Android版本庫的一個工具&#xff0c;管理多個Git倉庫的工具&#xff0c;它可以幫助您在一個代碼庫中管理多個Git倉庫的代碼。其在鴻蒙操作系統中大量使用。下面我們就介紹repo在wsl中的安裝部署。 安裝方法 使用中國科技大學資源 腳本i…

Vue3的definePros和defineEmits

在 Vue 3 中&#xff0c;defineProps 和 defineEmits 是組合式 API 中用于定義組件的 props 和 事件 的方法&#xff0c;提供了一種更簡潔和明確的方式來管理組件的輸入和輸出。它們屬于 Composition API 的一部分&#xff0c;在 Vue 2 中通常使用 props 和 $emit 來實現。1. d…

【華為機試】122. 買賣股票的最佳時機 II

文章目錄122. 買賣股票的最佳時機 II描述示例 1示例 2示例 3提示解題思路核心觀察關鍵洞察算法實現方法1&#xff1a;貪心算法&#xff08;推薦&#xff09;方法2&#xff1a;動態規劃方法3&#xff1a;動態規劃&#xff08;空間優化&#xff09;方法4&#xff1a;波峰波谷法算…

Spring MVC @RequestParam注解全解析

RequestParam 注解詳解 RequestParam 是 Spring MVC 中最常用的注解之一&#xff0c;用于從 HTTP 請求中提取查詢參數&#xff08;Query String&#xff09;或表單數據。它主要處理 application/x-www-form-urlencoded 類型的請求&#xff08;如 GET 請求或 POST 表單提交&…

從零掌握XML與DTD實體:原理、XXE漏洞攻防

本文僅用于技術研究&#xff0c;禁止用于非法用途。 Author:枷鎖 文章目錄一、XML基礎1. 什么是XML&#xff1f;2. XML語法規則3. 數據類型二、DTD1. 認識DTD2. 聲明DTD3. DTD實體4. 如何防御XXE攻擊&#xff1f;5. 總結一、XML基礎 1. 什么是XML&#xff1f; XML &#xff1…

.NET 8 Release Candidate 1 (RC1)現已發布,包括許多針對ASP.NET Core的重要改進!

.NET 8 Release Candidate 1 (RC1)發布&#xff1a;ASP.NET Core重大改進來襲&#xff01; 近日&#xff0c;.NET 8 Release Candidate 1 (RC1)正式發布&#xff0c;這是在今年晚些時候計劃發布的最終 .NET 8 版本之前的兩個候選版本中的第一個。此版本包含了大部分計劃中的功…

Jenkins pipeline 部署docker通用模板

Jenkinsfile: Docker的NETWORK_NAME不要使用bridge默認網絡&#xff0c;要使用自定義的網絡如test默認 bridge 網絡&#xff1a;容器間不能用名字互相訪問&#xff0c;只能用 IP。自定義網絡&#xff1a;容器間可以用名字互相訪問&#xff0c;Docker 自動做了 DNS 解析。pipeli…

【每日算法】專題十五_BFS 解決 FloodFill 算法

1. 算法思想 Flood Fill 問題的核心需求 給定一個二維網格&#xff08;如像素矩陣&#xff09;、一個起始坐標 (x, y) 和目標顏色 newColor&#xff0c;要求&#xff1a; 將起始點 (x, y) 的顏色替換為 newColor。遞歸地將所有與起始點相鄰&#xff08;上下左右&#xff09; …

ESLint 完整功能介紹和完整使用示例演示

以下是ESLint的完整功能介紹和完整使用示例演示&#xff1a; ESLint 完整功能介紹 一、核心功能靜態代碼分析&#xff1a; 通過解析JavaScript/TypeScript代碼為抽象語法樹&#xff08;AST&#xff09;&#xff0c;識別語法錯誤、潛在問題&#xff08;如未定義變量、未使用變量…

解決問題七大步驟

發現問題后尋找解決方案的流程可以細化為 7個核心步驟&#xff0c;每個步驟包含具體措施、信息源和關鍵技巧&#xff0c;形成“從自查到驗證、從獨立解決到尋求幫助”的完整閉環。以下是完善后的流程&#xff1a; 一、明確問題與初步自查&#xff08;前提&#xff1a;減少無效搜…

思維鏈(CoT)技術全景:原理、實現與前沿應用深度解析

一、核心概念與原理 定義與起源 CoT 是一種引導大語言模型&#xff08;LLM&#xff09;顯式生成中間推理步驟的技術&#xff0c;通過模擬人類逐步解決問題的過程&#xff0c;提升復雜任務&#xff08;如數學證明、多步邏輯推理&#xff09;的準確性。該概念由 Google Brain 團…

實驗-華為綜合

華為綜合實驗 一 實驗拓撲二 實驗配置交換機2 vlan batch 10 20 int e0/0/2 port link-type access port default vlan 10 int e0/0/1 port link-type access port default vlan 20 int e0/0/3 port link-type trunk port trunk allow-pass vlan alltelnet交換機3 鏈路類型配置…

Matlab打開慢、加載慢的解決辦法

安裝完畢后直接打開會非常慢&#xff0c;而且打開了之后還得加載很久才能運行 解決辦法如下&#xff1a; 1.找到路徑“D:\Program Files\Polyspace\R2020a\licenses”&#xff08;我是把matlab安裝在D盤了&#xff0c;如果是其他盤修改路徑即可&#xff09;&#xff0c;該路徑記…

混沌趨勢指標原理及交易展示

1. 引言在金融市場交易中&#xff0c;尤其是加密貨幣合約交易&#xff0c;趨勢跟蹤是最主流的策略之一。然而&#xff0c;傳統趨勢指標如均線、MACD等存在明顯的滯后性&#xff0c;往往在趨勢確立后才發出信號&#xff0c;導致交易者錯失最佳入場時機。更糟糕的是&#xff0c;市…

Java面試寶典:Maven

一、Maven的本質與核心價值 項目管理革命 POM驅動:通過pom.xml文件定義項目結構、依賴、構建規則,實現標準化管理()。示例配置: <dependencies> <dependency> <groupId>org.springframework

可靠消息最終一致性分布式事務解決方案

之前文章寫過主流的一些 分布式事務的解決方案&#xff0c;但其實工作中很少有一些高并發的業務中去使用這些方案&#xff0c;因為對于高并發的場景來說&#xff0c;引入這些方案的性能損耗太大&#xff0c;且對系統事務侵入性太強影響系統穩定性。 所以在高并發的業務中&…

ISIS基礎

拓撲計算方式 模型 支持的網絡 支持的地址OSPF SPF TCP/IP IP網絡 IPv4地址ISIS SPF OSI CLNP網絡 NSAP地址集成ISIS SPF TCP/IP IP網絡 NSAP地址&#xff0c;但可以支持IPv4地址12. …

基于ASP.NET+SQL Server實現(Web)排球賽事網站

排球賽事網的設計與實現摘要隨著近幾年來計算機技術、網絡技術及相應軟件技術的迅猛發展&#xff0c;人們的生活已越來越離不開計算機了&#xff0c;而且總是要花費很多時間在它上面。一直以來&#xff0c;排球作為一項大眾喜愛的運動&#xff0c;得到廣泛傳播。隨著各項排球賽…