導論
背景 (Background)
- ??推薦系統的核心挑戰??:怎么 準確推斷 用戶行為背后快速變化的真實意圖,以實現用戶、商戶和平臺的三贏。
- ??現有方法的局限性??:傳統的基于歷史日志共現模式(“從點擊學習點擊”)的模型(如協同過濾、深度匹配、圖神經網絡等)存在根本性缺陷。它們缺乏對用戶興趣的顯式理解,會強化歷史模式,導致??過濾氣泡??和??馬太效應??,無法突破表面相關性。
- ??LLMs帶來的新機遇??:大型語言模型(LLMs)憑借其世界知識、語義理解和推理能力,為超越傳統“日志擬合”推薦、真正理解用戶動機提供了新的可能。然而,如何將其有效整合到大規模工業系統中仍是一個未解的難題。
方法 (Method)
研究者提出了 ??RecGPT?? 框架,其核心是一個由三個LLM驅動的閉環流水線:
- ??用戶興趣挖掘 (User-Interest LLM)??:分析用戶終身行為歷史,顯式生成簡潔的自然語言興趣畫像。
- ??物品標簽預測 (Item-Tag LLM)??:基于上述興趣,推理并生成描述用戶所需物品的細粒度標簽。
- ??興趣增強檢索??:將生成的標簽注入檢索階段,將傳統的雙塔匹配架構擴展為??用戶-物品-標簽三塔模型??,僅召回與推斷意圖匹配的物品,從而將候選生成從協同過濾轉變為興趣增強過程。
- ??解釋生成 (Recommendation-Explanation LLM)??:為最終推薦項附加自然語言解釋,實現從意圖發現到透明交付的完整閉環。
貢獻 (Contributions)
- ??工業部署與實證效果??:RecGPT已全量部署于淘寶首頁“猜你喜歡”場景,取得了??顯著的性能提升??(如CICD +6.96%, CTR +6.33%),并有效緩解了馬太效應,驗證了其在大規模場景下的實用性和商業價值。
- ??范式轉變??:首次在工業級推薦系統中(服務超十億用戶和物品)成功部署了基于??推理LLM??的百億規模基礎模型,實現了從“學習點擊”到“理解意圖”的范式轉變。
- ??系統化的訓練框架??:提出了一套多階段訓練框架(從預對齊到自訓練進化),利用LLM-as-a-Judge等技術解決LLM適應推薦任務的獨特挑戰,實現了高效、高質量的模型迭代。
??RecGPT 工作流程
利用大型語言模型(LLMs)賦能推薦流程的多個關鍵階段,通過??基于推理的深度語義理解??來突破傳統協同過濾僅依賴“表面特征匹配”或“共現模式”的局限性。
??四大組件??
整個流程包含四個核心組成部分,形成一個從理解用戶到生成解釋的完整閉環:
??用戶興趣挖掘 (User Interest Mining)??
- ??模塊??:LLMUI (用戶興趣LLM)
- ??任務??:對用戶的終身多行為序列進行??顯式興趣挖掘??,識別多樣化的用戶興趣模式,并生成自然語言形式的興趣畫像。
??物品標簽預測 (Item Tag Prediction)??
- ??模塊??:LLMIT (物品標簽LLM)
- ??任務??:基于上游得到的用戶興趣,??推理并預測??出代表用戶潛在偏好分布的“物品標簽”。這些標簽是描述用戶可能想要的物品的細粒度文本。
??物品檢索 (Item Retrieval)??
- ??方法??:基于標簽的語義相關性檢索
- ??任務??:將LLM預測出的抽象“物品標簽”映射到平臺內具體的商品。該方法的關鍵創新在于??融合了兩種信號??:
- ??LLM驅動的語義洞察??:深度理解標簽背后的用戶意圖。
- ??傳統協同過濾信號??:利用用戶行為數據。
- ??優勢??:實現了??探索??用戶潛在多樣興趣和??利用??其固有行為模式之間的有效平衡。
??推薦解釋生成 (Recommendation Explanation Generation)??
- ??模塊??:LLMRE (推薦解釋LLM)
- ??任務??:綜合用戶興趣畫像和最終推薦的物品,生成??個性化、用戶友好??的自然語言解釋,以此提升系統透明度和用戶體驗。
??與傳統方法的對比優勢??
與傳統依賴隱式特征和最終反饋進行端到端優化的模型相比,RecGPT這種基于顯式文本的、分階段的建模方式具有兩大關鍵優勢:
- ??可解釋性與可監控性??:每個階段的輸入和輸出都是可讀的文本,便于監控中間過程和各模塊的性能。
- ??易于優化與集成??:將復雜流程分解為明確的子任務,允許專家知識介入,并能對單個組件進行獨立的評估和精準優化,簡化了端到端的優化過程。
?用戶興趣挖掘 (User Interest Mining)??
- ??目標??:克服傳統推薦算法依賴??固定、靜態的隱式用戶特征??的局限性,利用LLMs的強大推理能力,對用戶??動態且復雜??的興趣進行??顯式建模??(生成式用戶畫像)。
- ??核心挑戰??:
- ??上下文窗口限制??:用戶平均行為記錄量巨大(淘寶超3.7萬條),遠超當前LLMs的上下文長度限制(如128K Token)。
- ??領域知識鴻溝??:通用LLMs缺乏對特定平臺(如淘寶)領域知識的專業理解,難以像專家一樣從原始數據中有效提取和抽象用戶興趣。
為應對上述挑戰,RecGPT采用了一種兩階段的“可靠的行為序列壓縮”方法,旨在減少輸入長度、提升信息密度的同時,保留關鍵信息。
??可靠行為提取 (Reliable Behavior Extraction)??
- ??目的??:從大規模、多源的用戶行為序列中過濾掉噪聲和冗余信息,只保留能??真實反映用戶興趣??的高價值行為作為數據基礎。
- ??定義的高可靠性行為??:
- ??意向反饋行為??:如“收藏”、“購買”、“加購”、“詳細瀏覽商品頁”、“閱讀評論”等??高參與度或深思熟慮??的行為,能強烈表明用戶興趣和購買意圖。
- ??搜索行為??:如“搜索查詢”,代表用戶??有意識的探索??,直接揭示了其特定意圖。
- ??排除的行為??:普通的商品點擊行為,因其包含大量噪聲且對反映真實興趣的效果較差。
??分層行為壓縮 (Hierarchical Behavior Compression)??
- ??目的??:將過濾后的多源異構行為壓縮成統一的序列格式,以適應LLMs的上下文窗口。
- ??兩個層次??:
- ??項目級壓縮??:使用LLM壓縮每個商品的冗長詳細信息,只保留??核心屬性??(如名稱、類目、品牌等),極大提升信息密度。
- ??序列級壓縮??:采用一種??兩步聚合??方法對用戶行為序列進行壓縮:
- ??第一步:按時間-行為類型聚合??:將用戶行為按時間分區(日/月/年),并以“時間-行為類型”為鍵,聚合該時段內通過特定行為交互的所有商品。
- ??第二步:按商品反向聚合??:再以商品序列為鍵,反向聚合其對應的時間-行為組合。最終生成一種融合了??時間行為模式??和??商品共現關系??的高效壓縮格式(如:
“時間1 (行為1, 行為2,...), 時間2 (行為1, 行為3,...) | 商品1, 商品2, ...”
)。
通過上述壓縮流程,得到了??信息密度更高、更精煉可靠??的用戶行為序列。
- ??覆蓋率??:壓縮后的序列能將??98%的用戶行為??納入LLM的128K上下文窗口(未壓縮時僅為88%)。
- ??效率??:興趣推理效率??提升29%??,顯著降低了推理時間和計算成本,同時保持了完整的行為信息表達。
用戶興趣挖掘的任務對齊 (Task Alignment for User Interest Mining)??
通過一個多階段的對齊框架,將一個通用LLM培養成專精于用戶興趣挖掘任務、且與人類標準對齊的專用模型(LLMUI)。
??三階段訓練框架??
該框架通過循序漸進的方式提升模型能力:
??階段一:基于課程學習的多任務微調??
- ??目的??:為通用LLM打下??領域特定的基礎能力??。
- ??方法??:設計了16個預備子任務(1.63萬樣本),培養模型在關鍵信息提取、復雜用戶畫像分析和因果推理等多維度的能力。
- ??關鍵??:采用??課程學習??理念,根據任務難度和依賴關系進行拓撲排序,讓模型??由易到難??地逐步掌握復雜任務。
??階段二:推理增強的預對齊??
- ??目的??:獲得高質量的訓練數據,讓學生模型(LLMUI)通過知識蒸餾達到與強大教師模型相當的性能。
- ??方法??:利用一個強大的推理模型(如DeepSeek-R1)作為“教師”,生成初始的9萬條樣本。經過??人工精心篩選和提煉??,得到一個包含1.9萬條樣本的??高質量數據集??,用于對學生模型進行微調。
??階段三:自訓練進化??
- ??目的??:突破模型的能力天花板,實現??持續自我進化??。
- ??方法??:讓模型為自己生成訓練數據(收集了2.11萬條高質量樣本),并用這些數據迭代優化自身,形成一個能力提升的??反饋循環??。
- ??質量控制??:采用 ??“Human-LLM協作”?? 的評判模式(LLM-as-a-Judge),利用LLM的能力進行初步的數據質量控制和評估,??大幅提高了篩選效率,降低了人工成本??。
??提示工程與數據質量控制??
- ??提示工程??:
- 設計了一個結構化的提示模板,以壓縮后的行為序列和用戶屬性為輸入。
- 模板中引入了??思維鏈(CoT)推理??,指導模型通過明確的邏輯步驟(而非直接猜測)來生成興趣畫像,提高了生成準確性。
- ??數據質量控制協議??:
- 為確保訓練數據的高質量,制定了一套嚴格的二維評估標準來接受或拒絕模型生成的興趣:
- ??意愿性??:區分興趣是發自內心的??自發喜好??(? Spontaneity),還是出于??外部需要的必要行為??(? Necessity)。
- ??合理性??:評估興趣與行為證據的相關性強度。分為:
- ??強相關??(?):有明確、邏輯清晰的證據支持。
- ??弱相關/無相關/幻覺??(?):證據不足、毫無聯系或完全由模型虛構。
- 只有同時滿足“自發意愿”和“強相關性”的興趣才會被采納為正確數據用于訓練。
- 為確保訓練數據的高質量,制定了一套嚴格的二維評估標準來接受或拒絕模型生成的興趣:
??效果驗證與在線部署??
- ??人工評估實驗??:
- ??結果??:經過多階段對齊后的專用模型(Qwen3-SFT)??性能最佳??,通過率達到77.28%,顯著超過了其基礎版本(59.74%)和強大的通用推理模型DeepSeek-R1(70.00%)。
- ??結論??:驗證了本對齊框架在提升領域特定興趣挖掘能力方面的??有效性??。
- ??在線部署??:
- 最終部署的模型(TBStars-SFT)在保持高能效比(稀疏MoE架構)的同時,達到了74.39%的通過率。
- ??運作方式??:模型??離線??運行,平均為每個用戶預測16.1個興趣。這些用戶興趣每兩周更新一次,以確保能??及時捕捉用戶動態變化的個性化興趣??。
物品標簽預測 (Item Tag Prediction)??
基于LLM推斷出的用戶畫像,來預測用戶可能感興趣的物品標簽,從而指導后續的物品檢索。其挑戰在于讓通用LLM適應推薦系統??領域特定??的要求。
采用與用戶興趣LLM類似的??多階段任務對齊??框架(預對齊+自訓練進化),并引入??增量學習??以使模型能持續適應變化的用戶興趣和新產品趨勢。本節重點介紹了為物品標簽預測任務專門設計的??提示工程??和??數據質量控制??方案。
??提示工程??
設計了一個復雜的提示模板,要求Item-Tag LLM (LLMIT) 根據用戶畫像和行為序列,以 ??“修飾詞 + 核心詞”?? 的格式(如“戶外防水防滑登山靴”)生成標簽集。
- ??關鍵策略??:采用??基于思維鏈(CoT)的標簽推理??,以充分利用LLMs的推理能力。
- ??核心約束??:在提示中嵌入了多項嚴格約束,以確保生成的標簽符合實際推薦需求:
- ??興趣一致性??:標簽必須與用戶興趣保持一致,避免推薦矛盾。
- ??多樣性增強??:強制生成至少50個標簽,以保證跨大類的多樣化推薦,緩解過濾氣泡。
- ??語義精確性??:標簽需是語義聚焦的描述,排除模糊或過于寬泛的歸類。
- ??時效新鮮度??:優先推薦新穎產品類別,系統性地避免重復推薦近期交互過的物品。
- ??季節相關性??:結合時間上下文,生成符合季節的適時推薦。
- ??輸出??:模型最終生成一個三元組列表(??標簽??, ??關聯的興趣偏好??, ??推理依據??),為后續流程提供豐富的信息。
??數據質量控制??
為確保訓練數據的高質量,引入了??多維拒絕采樣??標準來篩選模型生成的標簽:
- ??相關性??:生成的標簽是否與用戶的關聯興趣直接對齊。
- ??一致性??:標簽的生成過程是否明確參考了用戶的畫像信息和歷史行為數據(避免虛構或忽略給定信息)。
- ??特異性??:評估標簽的特指程度,避免導致產品檢索不精確的通用術語(如“時尚運動裝備”)。
- ??有效性??:預測的標簽是否對應實際存在的商品,防止生成不存在的標簽。
- 只有??同時滿足所有標準??的標簽才會被采納為合格樣本用于訓練,否則將被標記為不合格并過濾掉。
??效果驗證??
通過??人工評估??驗證任務對齊方法的有效性(一個標簽需滿足上述所有標準才算合格)。
- ??結果??:
- ??基礎模型能力不足??:Qwen3-Base的通過率僅為33.70%,表明直接將基礎LLM用于此任務存在巨大局限。
- ??對齊框架有效??:經過多階段對齊的模型(Qwen3-SFT: 84.80%; TBStars-SFT: 88.80%)性能??顯著超越??了強大的通用推理模型DeepSeek-R1 (80.00%)。
- ??最佳模型??:TBStars-SFT以88.80%的通過率表現最佳,同時其??低延遲推理??的額外優勢使其特別適合對預測質量和計算效率都有要求的工業推薦系統。
- ??結論??:驗證了通過從強模型進行知識蒸餾和自訓練進化的方法,能讓較小規模的語言模型逐步接近并最終超越大型推理模型的性能。
增量學習 (Incremental Learning)??
??目標與挑戰??
- ??目標??:為了使Item-Tag LLM (LLMIT) 能夠??適應動態變化的用戶興趣??和在線環境中的數據分布偏移(如季節性變化),采用??每兩周一次??的增量學習方法來更新模型。
- ??挑戰??:真實在線數據存在兩大關鍵問題:
- ??大量噪聲??:如誤點擊或促銷干擾,不能代表真實用戶偏好。
- ??固有不平衡??:主流興趣標簽會主導訓練,可能導致推薦多樣性下降、加劇過濾氣泡和馬太效應。
為解決上述挑戰,設計了一個三步流程來處理在線用戶行為數據,以生成高質量的增量訓練數據:
??數據凈化??
- ??方法??:利用一個強大的LLM(QwQ-32B)作為??自動化評判員??,依據??相關性??(行為與用戶興趣的一致性)和??時效性??(商品是否符合當前或即將到來的季節)標準,過濾掉低質量的交互記錄。
- ??目的??:最大限度地減少隨機點擊和瞬時行為帶來的噪聲,確保訓練數據的高質量。
??興趣補全??
- ??方法??:使用QwQ-32B對給定的用戶信息進行??深度推理??,為每個有效的用戶交互行為推斷出其背后的??興趣偏好??和??理由??,形成結構化三元組輸出
(標簽, 關聯的興趣偏好, 推理依據)
。 - ??標簽來源??:直接使用用戶實際交互的??商品標題??作為標簽。
- ??目的??:將原始的用戶行為數據轉化為適合模型訓練的??結構化樣本??。
- ??方法??:使用QwQ-32B對給定的用戶信息進行??深度推理??,為每個有效的用戶交互行為推斷出其背后的??興趣偏好??和??理由??,形成結構化三元組輸出
??數據平衡??
- ??方法??:采用??兩階段重采樣策略??:
- ??第一階段(用戶內)??:為每個用戶隨機選擇最多80個標簽對應的行為記錄,以確保數據多樣性和代表性。
- ??第二階段(類別平衡)??:利用一個預訓練的 ??“標簽-類別”映射模型?? 𝜙(·),將物品標簽轉換為更粗粒度的類別標簽。然后基于類別進行二次采樣,??確保每個類別的樣本數大致相等??(實驗中每類別最多采樣2個)。
- ??目的??:解決數據固有的不平衡問題,防止模型偏向于主流類別。
- ??方法??:采用??兩階段重采樣策略??:
??效果評估??
- ??評估指標??:設計了 ??HR@30?? 指標。該指標計算的是,對于測試用戶,其接下來??真實交互物品的類別??是否出現在模型預測的30個標簽所對應的類別集合中。命中則為1,否則為0。
- ??實驗結果??:在真實在線數據上,經過上述清洗和平衡處理后的數據進行增量學習,使模型的HR@30指標相比??未進行增量學習的基線模型提升了1.05%??。
- ??結論??:這一顯著的提升驗證了增量學習策略在適應變化的用戶偏好和新產品趨勢方面的??有效性??。在大規模復雜的現實推薦場景中,即使是微小的增益也能帶來巨大的商業影響。該策略幫助模型學習用戶最新偏好,避免重復推薦過時產品,實現了工業推薦系統的每周優化。
物品標簽預測模塊是做什么的?
該模塊的核心任務是??充當一個“翻譯官”和“預言家”??,它將上游生成的、抽象的??用戶興趣畫像??(例如:“喜歡戶外運動”、“注重護膚”)轉化為下游檢索系統能夠直接使用的、具體的??物品描述標簽??(例如:“戶外防水防滑登山靴”、“美白保濕精華液”)。
其根本目的是??彌合“用戶意圖”和“具體商品”之間的鴻溝??,為后續的物品檢索提供精確的、多樣化的查詢信號,從而打破傳統協同過濾僅依賴歷史共現模式的限制,實現基于深度語義理解的興趣增強檢索。
輸入與輸出
??輸入 (Input):??
模型 LLM_IT
的推理是一個多模態的輸入過程,綜合了用戶的多方面信息:
- ??用戶屬性 (A?):?? 從用戶信息中提取的靜態特征,如年齡、性別、地理位置等。
- ??用戶興趣 (I?):?? 由上游
LLM_UI
生成的、簡潔的自然語言興趣畫像列表(例如:[“網球”, “智能家居”, “輕奢穿搭”]
)。 - ??用戶行為序列 (S?):?? 經過壓縮和清洗的多類型歷史交互序列,包括:
- 點擊行為序列
- 購買行為序列
- 搜索行為序列
- ??額外信息 (Extra Information):?? 可能包括時間戳(用于季節相關性)、上下文信息等。
- ??提示模板 (P_IT):?? 一個精心設計的指令模板,規定了任務角色、輸出格式以及一系列強制性約束(多樣性、精確性、新鮮度等)。
??輸出 (Output):??
模型的輸出不是單一的標簽,而是一個結構化的、富含信息的??三元組列表??。每個三元組包含:
- ??標簽 (Tag):?? 以 “
修飾詞 + 核心詞
” 格式生成的具體物品描述(例如:“專業級全畫幅微單相機
”)。這是核心輸出,用于后續檢索。 - ??關聯的興趣偏好 (Associated Interest Preference):?? 闡明生成該標簽是源于用戶的哪一個或哪幾個興趣(例如:“源于您的‘攝影創作’興趣”)。這增強了模型的可解釋性。
- ??推理依據 (Rationale):?? 提供模型生成該標簽的??思維鏈(Chain-of-Thought)??,列舉其從用戶行為和歷史中看到的支持證據(例如:“依據:您近期多次搜索了‘索尼A7CII’并收藏了多款全畫幅鏡頭”)。
最終輸出為: T? = { (Tag?, Preference?, Rationale?), (Tag?, Preference?, Rationale?), ... }
損失函數設計思路
訓練 LLM_IT
的本質是??監督式微調(Supervised Fine-Tuning, SFT)??。其目標是讓模型學會在給定輸入(用戶信息+指令)的情況下,生成符合規定格式和質量要求的三元組文本。
因此,最直接且高效的損失函數是 ??Next Token Prediction(下一個令牌預測)損失??,即標準的??語言建模損失??。
??具體設計:??
??訓練數據格式:?? 將每個高質量的訓練樣本構建為一個
(Prompt, Completion)
對。Prompt
: 即上述的輸入部分(用戶屬性、興趣、行為序列等被填充到提示模板P_IT
中后形成的完整文本)。Completion
: 即期望模型生成的、符合輸出格式要求的結構化三元組文本。
??損失計算:??
- 將
Prompt
輸入模型,讓模型自回歸地(autoregressively)生成Completion
。 - 損失函數計算模型預測的下一個token與真實
Completion
序列中下一個token的交叉熵(Cross-Entropy)。 - ??公式化表示:??
Loss = - Σ [y_i * log( P(?_i | x, ?_<i) ) ]
x
: 輸入提示(Prompt)。?_<i
: 模型已生成的前序token。?_i
: 模型在位置i
預測的token分布。y_i
: 真實Completion
在位置i
的one-hot編碼標簽。
- 將
??關鍵實現細節:??
- ??僅計算Completion部分的損失??:在計算損失時,通常會對
Prompt
部分的token進行掩碼(mask),確保損失只來自于對Completion
部分的預測,迫使模型專注于學習如何生成正確答案,而不是學習如何復制輸入。 - ??反射射質量約束??:提示模板中規定的??強制性約束??(如多樣性、精確性等)和??數據質量控制??標準(如相關性、一致性等)并??不直接體現在損失函數中??。這些約束是通過??精心構建高質量訓練數據??來實現的。模型通過在這些高質量數據上進行SFT,間接學會遵守這些約束。這是一種“??通過數據設計進行約束??”的策略。
- ??僅計算Completion部分的損失??:在計算損失時,通常會對
物品標簽預測模塊的訓練采用標準的??語言建模損失(下一個token預測的交叉熵損失)??。其核心技巧在于??通過極其精細的提示工程和數據質量控制流程,來構建高質量的 (Prompt, Completion)
訓練樣本對??。模型通過學習這些樣本,最終獲得遵循復雜指令、輸出高質量結構化內容的能力。損失函數本身是簡單而通用的,真正的創新在于如何為它準備“教科書”般的訓練數據。
為什么不能直接使用Prompt?
??RecGPT中的LLM(LLM_UI和LLM_IT)是經過了大量專門訓練的,而不僅僅是直接使用現成的LLM加上Prompt(零樣本/少樣本學習)??。
直接使用Prompt(即所謂的“開箱即用”)和進行專門的訓練,是兩種完全不同的技術路徑。RecGPT選擇了后者,原因如下:
- ??領域知識鴻溝??:通用LLM(如ChatGPT、LLaMA)是在廣泛網絡文本上訓練的,它們缺乏對淘寶特定商品、用戶行為模式、行業術語的深度理解。直接使用Prompt,模型可能無法準確理解“收藏”、“加購”這些行為在電商領域的權重,或者無法生成“修身顯瘦法式小眾襯衫”這類精確的商品標簽。
- ??上下文長度限制??:用戶的終身行為序列極其漫長,經過壓縮后信息密度很高。直接將這些專業壓縮格式的序列扔給通用LLM,它可能無法有效理解這種特殊格式的輸入,導致推理能力下降。
- ??輸出格式與控制??:RecGPT要求輸出非常??結構化、標準化??的三元組(標簽、關聯興趣、理由)。雖然可以通過Prompt指令要求格式,但未經專門訓練的通用LLM更容易出現格式錯誤、忽略某些約束(如必須生成50個標簽),或生成模糊、無效的標簽。
- ??成本與延遲??:為每個用戶每次推理都發送極長的行為序列給云端巨型LLM(如GPT-4),其成本和延遲在工業級場景中是??不可接受??的。RecGPT需要部署專屬的、優化后的模型。
RecGPT是如何訓練的?(文中提到的訓練方法)
文本中清晰地描述了一個多階段的、系統的訓練框架,旨在將通用LLM變成領域專家(LLM_UI和LLM_IT)。主要包括:
??課程學習-based 多任務微調??:
- ??目的??:給模型打下領域基礎。不是直接教它“生成用戶興趣”,而是先教它一些基礎技能,如??關鍵信息提取、復雜畫像分析、因果推理??等。
- ??方法??:設計16個預備子任務,按難度和依賴關系排序(課程學習),讓模型循序漸進地掌握這些技能。
??推理增強的預對齊??:
- ??目的??:獲得高質量的訓練數據。用一個強大的“教師模型”(如DeepSeek-R1)來為大量樣本生成“標準答案”。
- ??方法??:人工精心篩選和提煉教師模型生成的答案,構建一個高質量的SFT數據集,用于訓練“學生模型”(LLM_UI/IT)。這是一種??知識蒸餾??。
??自訓練進化??:
- ??目的??:突破模型性能天花板,實現持續迭代。
- ??方法??:讓訓練好的模型自己生成數據,再用這些數據來訓練自己,形成一個“自我提升”的循環。為了確保生成數據的質量,采用 ??“Human-LLM協作”?? 的評判系統(LLM-as-a-Judge)來進行自動化質量控制和評估。
結論:Prompt與訓練的關系
在RecGPT中,??Prompt工程和模型訓練不是對立的,而是相輔相成的??。
- ??Prompt的作用??:是一個??精妙的指令和約束框架??。它定義了任務的輸入、輸出格式、以及所有必須遵守的規則(多樣性、精確性等)。它是??目標的藍圖??。
- ??訓練的作用??:是通過大量數據??教會模型如何理解和執行這個復雜的Prompt指令??。訓練讓模型將Prompt中的約束??內化??為其自身的能力。??高質量的Prompt是生成高質量訓練數據的前提,而訓練是讓模型可靠執行Prompt指令的手段。??
可以這樣理解:
??Prompt是“考卷上的題目”,而訓練就是“給學生(模型)進行系統的考前輔導”,確保它看到題目時能給出最符合要求的答案。??
直接拿考卷給一個沒復習過的學生(零樣本Prompt),他可能考不及格。而RecGPT的做法是對學生進行了一系列針對性的、系統的培訓(多階段訓練),確保他能拿高分。這才是其能在工業場景中成功部署的關鍵。
物品檢索 (Item Retrieval)??
物品檢索模塊的核心任務是??搭建一座橋梁??,將上游LLM生成的、抽象的??語義標簽(Tag)?? 與平臺內具體的??商品(Item)?? 連接起來。
它解決了“??語義鴻溝??”問題:即雖然LLM能理解用戶想要“戶外防水防滑登山靴”這個概念,但如何從數十億商品中快速、準確地找到所有符合這個描述的具體商品。
為了實現這個目標,該模塊沒有拋棄傳統的協同過濾方法,而是創新性地將??語義信號??與??協同信號??相結合,形成了一個統一的??用戶-物品-標簽三塔檢索框架??。
?輸入與輸出??
- ??輸入 (Input):??
- ??用戶特征 (F𝑢)??:用戶ID及其多行為交互序列(點擊、購買等)。
- ??物品特征 (F𝑣)??:物品的稀疏特征(ID、類目、品牌等)和稠密特征(價格、銷量等)。
- ??標簽文本 (𝑇)??:由上游LLM_IT生成的物品標簽(如“戶外防水防滑登山靴”)。
- ??輸出 (Output):??
- 最終輸出是一個??融合分數 (?final)??,用于對候選物品進行排序和檢索。
- 這個分數由兩部分線性融合而成:
- ??協同分數 (?col)??:衡量用戶與物品之間的行為協同相關性。
- ??語義分數 (?sem)??:衡量標簽與物品之間的語義相關性。
?模型架構(三塔結構)??
框架包含三個并行的神經網絡塔,分別學習用戶、物品和標簽的向量表示:
- ??物品塔 (Item Tower)??:
- ??輸入??:物品的原始特征(ID、類目、品牌、價格等)。
- ??處理??:通過嵌入層和深度神經網絡(DNN)將特征轉換為一個稠密的物品向量表示 ??h𝑣??。
- ??用戶塔 (User Tower)??:
- ??輸入??:用戶ID和其歷史行為序列。
- ??處理??:將用戶ID嵌入,并對行為序列中的物品向量進行池化,再通過DNN得到用戶向量表示 ??h𝑢??。
- ??標簽塔 (Tag Tower)??:
- ??輸入??:標簽文本(如“戶外防水防滑登山靴”)。
- ??處理??:將標簽分詞后,對每個詞的嵌入向量進行平均池化,再通過DNN得到標簽的向量表示 ??h𝑡??。
??分數計算??:
- 協同分數:
?col = h𝑢 𝑇 * h𝑣
(用戶向量與物品向量的內積) - 語義分數:
?sem = h𝑡 𝑇 * h𝑣
(標簽向量與物品向量的內積)
?損失函數設計??
訓練過程通過多個損失函數共同優化,確保模型同時學好協同匹配和語義匹配。
??協同優化損失 (Lcol)??:
- ??目標??:拉近用戶與其點擊過的物品的距離,推遠用戶與未點擊物品的距離。
- ??方法??:采用基于負采樣的??對比學習??(類似BPR或Softmax交叉熵損失)。
- ??公式??:
Lcol = - Σ log( exp(?col_positive) / (exp(?col_positive) + Σ exp(?col_negative)) )
??語義優化損失 (Ltag)??:
- ??目標??:拉近標簽與其對應物品的距離,推遠標簽與隨機其他物品的距離。
- ??方法??:同樣采用對比學習。正樣本是(標簽,點擊物品),負樣本是(標簽,其他隨機物品)。
- ??公式??:
Ltag = - Σ log( exp(?sem_positive) / (exp(?sem_positive) + Σ exp(?sem_negative)) )
??類別對比損失 (Lcate)??:
- ??目標??:讓模型學習??更細粒度的語義區分??。例如,讓模型能區分同是“靴子”類別下的“登山靴”和“雪地靴”,而不僅僅是區分“靴子”和“襯衫”。
- ??方法??:對于一個(標簽,物品)對,從該物品的??相同類別??中采樣正樣本,從??不同類別??中采樣負樣本,再進行對比學習。
- ??公式??:
Lcate = - Σ log( exp(h𝑡 𝑇 h𝑣?) / (exp(h𝑡 𝑇 h𝑣?) + Σ exp(h𝑡 𝑇 h𝑣?)) )
??最終總損失 (LTAR)??:
- 是上述所有損失的加權和,同時優化協同和語義兩種能力。
- ??公式??:
LTAR = Lcol + α * Ltag + (1 - α) * Lcate
- 其中
α
是超參數,用于平衡Ltag
和Lcate
。
?在線推理??
在線服務時,系統動態融合用戶塔和標簽塔的輸出向量,形成一個最終的融合向量用于檢索:
h_fuse = β * h𝑢 + (1 - β) * h𝑡
這等價于計算最終分數:?final = β * ?col + (1 - β) * ?sem
- ??超參數
β
??:是關鍵的控制旋鈕。通過調整β
,可以??靈活地控制推薦結果的傾向性??:β
接近 1:推薦結果更偏向于傳統的協同過濾(“和你行為相似的人喜歡什么”)。β
接近 0:推薦結果更偏向于LLM推理的語義理解(“我們認為你現在可能想要什么”)。- 這種設計使得系統能在“挖掘用戶固有偏好”和“探索用戶潛在新興趣”之間取得平衡。
個性化解釋生成 (Personalized Explanation Generation)??
該模塊是RecGPT系統的“??用戶體驗優化器??”。它的核心任務不是提升匹配精度,而是為最終推薦給用戶的商品??生成個性化的自然語言解釋??,直接回答用戶心中的問題:??“為什么給我推薦這個?”??。
通過提供透明、合理且貼合用戶個人興趣的推薦理由,該模塊旨在增強用戶對推薦系統的信任感、理解度和滿意度,從而進一步提升整體體驗。
?輸入與輸出??
- ??輸入 (Input):??
- ??用戶興趣 (I?)??:由上游用戶興趣LLM (LLM_UI) 生成的用戶興趣畫像列表(例如:
[“戶外運動”, “智能家居”]
)。 - ??物品信息 (Info?)??:被推薦商品的相關信息,主要包括:
- 商品標簽(由LLM_IT生成)
- 商品標題
- (可能包含)其他關鍵特征
- ??日期信息??:當前日期,用于生成具有季節相關性的解釋(如“秋冬將至”)。
- ??用戶興趣 (I?)??:由上游用戶興趣LLM (LLM_UI) 生成的用戶興趣畫像列表(例如:
- ??輸出 (Output):??
- 一段??個性化、自然流暢的推薦解釋文本 (E?)??。
- ??示例??:假設用戶興趣是“網球”,推薦商品是網球拍,生成的解釋可能是:“根據您對網球的濃厚興趣,為您推薦這款專業級網球拍,助您提升球場表現。”
?實現方式:任務對齊與離線生產??
為了實現高質量且低延遲的解釋生成,該模塊采用了兩大策略:
??1. 任務對齊 (Task Alignment):??
與LLM_UI和LLM_IT類似,推薦解釋LLM (LLM_RE) 也經歷了??多階段訓練??(推理增強的預對齊 + 自訓練進化),使其從通用聊天機器人為變成專精于生成推薦解釋的“領域專家”。
- ??提示工程??:設計了復雜的提示模板,要求模型執行??兩步推理??:
- ??上下文理解??:分析給定的用戶興趣和商品信息。
- ??解釋生成??:基于分析結果,如果存在合理關聯,則生成對話式的解釋;否則則基于商品自身特性生成解釋。
- ??數據質量控制??:采用??多維拒絕采樣??來確保訓練數據的高質量,標準包括:
- ??相關性??:解釋是否同時關聯了商品特性和用戶興趣。
- ??真實性??:解釋是否準確反映了商品的真實特性。
- ??清晰度??:文本是否流暢、語法正確、風格得體。
- ??安全性??:生成內容是否不含敏感或個人身份信息。
- ??效果??:經過對齊的專用模型(Qwen3-SFT)的通過率高達??95.8%??,顯著超過了其基礎版本(30%)和強大的通用模型DeepSeek-R1(92.7%)。
??2. 離線生產 (Offline Production):??
這是解決??延遲和成本??問題的關鍵工業設計。
- ??挑戰??:為每個用戶-商品對實時調用LLM生成解釋,計算開銷巨大,無法滿足線上低延遲要求。
- ??解決方案??:
- ??建立映射??:利用預訓練的 ??“標簽-類別”模型 (φ(·))??,將抽象的??物品標簽??映射到具體的??商品類別??。
- ??離線計算??:??不再為用戶-商品對生成解釋??,而是為 ??“興趣-類別”對?? 生成解釋。例如,為“{戶外運動興趣} -> {登山靴類別}”這個組合生成一個通用的解釋模板。
- ??構建查詢表??:將所有“興趣-類別”對應的解釋預先計算好,存儲在一個巨大的 ??“興趣-物品-解釋”查詢表?? 中。
- ??在線服務??:線上推薦時,系統根據??當前用戶的興趣列表??和??被推薦商品的具體類別??,直接從預先生成的查詢表中??毫秒級檢索??出對應的解釋,附在推薦結果上返回給用戶。
?核心價值??
該模塊通過??離線化??和??查詢表??的工程設計,巧妙地平衡了LLM生成內容的質量與工業系統對延遲和成本的苛刻要求,最終實現了??在不影響用戶體驗的前提下,為億級用戶提供個性化、可解釋的推薦服務??。
Human-LLM協同評判系統??
?目標與挑戰??
- ??目標??:確保LLM在推薦生成任務(用戶興趣挖掘、物品標簽預測、推薦解釋生成)中的輸出符合人類的主觀期望。需要一種能夠??大規模、低成本、高效??地進行質量評估的方法。
- ??挑戰??:
- ??認知偏差??:推薦系統需要理解復雜的用戶行為、產品特征和運營策略,這要求領域特定知識。原生LLM因知識局限和預訓練偏差,在評估時存在認知偏差,可靠性不足。
- ??時序失配??:推薦生態系統是動態變化的,而靜態的LLM評判員會與 evolving 的現實世界條件脫節。這體現在三個方面:
- ??變化的用戶行為模式??
- ??動態的物品特性??(新品類、新特征)
- ??更新的評估標準??(變化的業務策略和質量標準)
- 這些動態變化會逐步削弱靜態LLM評判員的評估能力,引入系統性偏差。
?核心解決方案:Human-LLM協同評判系統??
為了應對上述挑戰,提出了一個混合框架,其核心思想是:??通過人類專家和LLM評判員的協作來增強評估能力,并集成“人在回路”的監督機制??,以監控性能并根據需要觸發重新對齊。
該系統由兩個關鍵部分組成:
??LLM-as-a-Judge (LLM作為評判員)??
- ??目的??:讓LLM學會像人類一樣對推薦生成任務的結果進行質量評估,實現??自動化評估??以降低成本和提高效率。
- ??方法??:
- ??數據集構建??:構建一個??人工標注的評估數據集??用于微調LLM評判員。
- ??任務類型??:包括??二元分類評估??(如相關/不相關)和??多級評估??(如優秀/良好/差)。
- ??數據來源??:從預對齊階段(DeepSeek-R1生成的數據)和自訓練階段(任務專用LLM自生成的數據)收集樣本,并進行人工質量評估標注。
- ??數據重平衡策略??:為解決收集到的評判員訓練數據中存在的??嚴重類別不平衡??問題(導致模型偏向多數類),設計了:
- ??少數類增強??:累積利用多輪先前的人工標注樣本來增強 underrepresented 類別的數據。
- ??近期優先降采樣??:對主導類別,采用基于時間衰減的降采樣策略,優先保留最近的評估樣本,有效平衡不同類別的樣本數量。
- 此策略旨在從??數據層面??提升評判員模型,特別是對少數類的評估準確性。
- ??數據集構建??:構建一個??人工標注的評估數據集??用于微調LLM評判員。
?Human-in-the-Loop (人在回路)??
- ??目的??:解決LLM評判員因動態數據分布變化而導致的可靠性下降問題,確保其能持續適應 evolving 的評估標準。
- ??方法??:采用??基于里程碑的人工監督框架??。
- 在??主要版本更新??時:
- ??收集專家標注??:邀請專家對近期生成的新樣本進行標注。
- ??系統對比??:系統性地比較LLM評判員的評估結果與人類專家的評估結果。
- ??觸發再訓練??:當檢測到性能顯著下降時,使用新標注的數據對LLM評判員進行??有針對性的微調??,使其與最新的數據分布和標準重新對齊。
- 這形成了一個??監督-檢測-修正??的閉環,在保持運營效率的同時確保了評估的持續可靠性。
- 在??主要版本更新??時:
?系統價值??
通過將??自動化的LLM評判員評估??與??戰略性的“人在回路”監督??相結合,建立了一個強大且穩健的協同評判系統。這個混合框架實現了:
- ??可靠的、大規模的數據管理??和模型性能監控。
- 在??評估準確性??和??運營效率??之間取得了最佳平衡。
- 為整個RecGPT系統各模塊的持續、高質量迭代提供了至關重要的質量保障基礎。
?第三章不是對第二章的簡單強調,而是提出了一個更高階、系統化的“質量保障體系”。?? 它解決的問題和第二章不同,并且這個“評判LLM”是一個??獨立的、新訓練的模型??,不是第二章里那些用于生成任務的LLM(LLM_UI, LLM_IT, LLM_RE)。
1. 目標不同:生成 vs. 評判
- ??第二章的LLM (LLM_UI, LLM_IT, LLM_RE)??:是??“運動員”??。它們的任務是??生成內容??,例如從用戶行為中“挖掘”出興趣,或根據興趣“預測”物品標簽,或“生成”解釋。
- ??第三章的LLM (LLM-as-a-Judge)??:是??“裁判員”??。它的任務不是生成內容,而是??對“運動員”生成的內容進行質量評估和打分??。它的輸入是一段文本(例如LLM_IT生成的一堆標簽),輸出是一個評估結果(如“相關”/“不相關”,或“優秀”/“良好”/“差”)。
2. 功能互補:創造與檢驗
可以這樣理解整個流程:
- ??生成階段(第二章)??:LLM_IT這個“運動員”負責跑出去(生成標簽)。它通過第二章的“訓練”(預對齊、自訓練)變得很強壯,但它自己不知道自己跑得好不好。
- ??評判階段(第三章)??:LLM-Judge這個“裁判員”在旁邊看。它拿著一個“評分手冊”(人類標準),給運動員的表現打分(評估標簽質量)。如果運動員這次跑歪了(生成了垃圾標簽),裁判就舉紅旗(標記為不合格樣本)。
??第三章的核心思想是:?? 我們訓練一個專門的、高質量的“裁判員”(LLM-Judge),讓它能??自動化地、大規模地??去執行第二章中原本需要??大量人工??來完成的數據質量篩選工作。
為什么需要獨立的“裁判員”?
既然第二章的模型已經訓練得很好了,為什么不能讓它自己檢查自己?這是因為:
- ??角色沖突??:一個模型很難既當“運動員”又當“裁判員”。生成模型的目標是“創造”,它傾向于認為自己的輸出都是好的。而評判模型的目標是“批判性檢驗”,需要不同的思維模式。
- ??專業化??:評判任務本身就是一個獨立的NLP任務(文本分類/質量評估)。專門為這個任務訓練一個模型,效果遠好于讓生成模型兼做評判。
- ??效率??:在一個迭代過程中,我們固定使用一個訓練好的“裁判員”LLM-Judge,可以高效地評判成千上萬條由“運動員”LLM新生成的數據,從而加速自訓練的循環。
總結
- ??第二章??:講的是如何??訓練??出好的??生成模型??(LLM_UI, LLM_IT, LLM_RE)。其中提到要用高質量數據訓練,但最初的數據篩選依賴昂貴的人工。
- ??第三章??:講的是如何??訓練??出一個好的??評判模型??(LLM-Judge),并用這個“裁判員”來??替代大部分人工??,實現??自動化、大規模??的質量評估,從而支撐第二章的生成模型能持續進行高效的“自訓練進化”。
所以,??Human-LLM Cooperative Judge?? 是一個??全新的、系統級的組件??,它不是一個LLM,而是一套由??人類制定標準、LLM(Judge)執行自動化評估、人類進行最終監督和校準??的協同系統。它是工業界將LLM應用于大規模生產環境時,為保證質量與效率而必不可少的基礎設施。