大模型推薦落地啦！融合知識圖譜，螞蟻集團發布！

引言：電商推薦系統的新突破

隨著電子商務平臺的蓬勃發展，推薦系統已成為幫助用戶在信息過載時代中篩選和發現產品的關鍵工具。然而，傳統的推薦系統主要依賴歷史數據和用戶反饋，這限制了它們在新商品推出和用戶意圖轉變時的有效性。為了克服這些挑戰，研究人員和工程師們一直在探索新的方法來增強推薦系統的性能和適應性。

最近，一項新的研究提出了一種結合了大語言模型（Large Language Models, LLMs）和推薦系統的方法，這一方法通過構建一個推理知識圖譜（Inferential Knowledge Graph），使得推薦系統能夠更好地理解和預測用戶的購買意圖。

這項研究的核心在于一個名為LLM-KERec（Large Language Model based Complementary Knowledge Enhanced Recommendation System）的系統，它通過實體提取器從商品和用戶信息中提取統一的概念術語，并生成基于實體流行度和特定策略的實體對。大語言模型用于確定每對實體間的互補關系，并構建互補知識圖譜。此外，新的互補回憶模塊和實體-實體-商品（Entity-Entity-Item, E-E-I）權重決策模型通過使用真實的互補曝光-點擊樣本來細化排名模型的評分。

通過在三個行業數據集上進行廣泛的實驗，結果表明LLM-KERec在性能上顯著優于現有方法。此外，詳細分析顯示，LLM-KERec通過推薦互補商品來增強用戶的消費熱情。總而言之，LLM-KERec通過整合互補知識并利用大語言模型來捕捉用戶意圖轉變、適應新商品，并在不斷演變的電商環境中提高推薦效率，從而克服了傳統推薦系統的局限性。

論文標題:
Breaking the Barrier: Utilizing Large Language Models for Industrial Recommendation Systems through an Inferential Knowledge Graph

論文鏈接:
https://arxiv.org/pdf/2402.13750.pdf

LLM-KERec系統：大語言模型與推薦系統的結合

1. 傳統推薦系統的局限性

傳統推薦系統在電子商務網站和在線平臺廣泛應用，以解決信息過載問題。它們的主要目標是從用戶過去的行為中推斷出用戶偏好，推薦與用戶興趣相符的最合適的商品。然而，這些系統主要依賴歷史數據和用戶反饋，這使得它們難以捕捉用戶意圖的轉變。尤其是在新商品不斷涌現的情況下，傳統系統在冷啟動場景中的表現受限，難以適應不斷變化的電子商務環境。此外，用戶交互樣本的稀疏性導致現有的點擊率預測模型在推薦替代品（即用戶已經點擊或購買的商品）方面比推薦互補商品（即與用戶購買的商品相輔相成的商品）更有效。

2. LLM-KERec系統的創新構想

為了解決上述挑戰，提出了一種新穎的基于大語言模型的互補知識增強推薦系統（LLM-KERec）。該系統結合了傳統模型的高效協同信號處理能力與大語言模型和互補圖，幫助用戶快速找到他們偏好的商品。這種方法不僅減少了傳統模型推薦結果的同質性，還提高了整體點擊率和轉化率。LLM-KERec通過實體提取器從所有商品和用戶賬單信息中提取統一的概念術語（稱為實體），然后基于實體的流行度和精心設計的策略生成實體對。大語言模型確定每對實體間的互補關系，并構建互補知識圖。此外，新的互補召回模塊和實體-實體-商品（E-E-I）權重決策模型通過真實的互補曝光-點擊樣本來優化排名模型的評分，以實現互補商品的推薦。

3. LLM-KERec系統的整體框架

LLM-KERec系統的架構包括兩個主要部分：傳統推薦模塊和基于LLM的補充知識增強模塊（下圖）。

傳統推薦模塊：在傳統推薦架構中，當用戶打開應用程序時，系統會自動發送請求到服務器。服務器觸發召回模塊，返回大量候選商品，然后通過粗排模型進行篩選，最終通過精排模型和重排模型決定商品的展示順序。這些模型通常使用歷史曝光和點擊日志進行訓練，因此，現有推薦模型往往傾向于推薦基于用戶正面反饋的相似商品。

基于LLM的補充知識增強：LLM-KERec系統創建了一個統一的實體（類別）系統，用于用戶賬單行為和所有商品之間的連接。每個商品或賬單都被分類到一個獨特的實體中，這些實體作為各種內容之間的橋梁。利用世界知識和常識知識，系統采用大語言模型來確定兩個實體之間是否存在補充關系，并構建補充知識圖譜。然后，使用真實的曝光和點擊反饋訓練實體-實體-商品（E-E-I）權重決策模型，將知識注入排名模型中，以提供個性化的推薦。

實體提取器的設計與作用

1. 實體字典的構建

在現實世界的應用中，如支付寶，用戶的行為跨越多種場景，每個場景都有不同的內容。為了將這些多樣化的信息和知識統一起來，建立了一個統一的關聯模式，即實體字典。在實體字典中，每個實體代表一個特定的概念，如“手機”或“可樂”。由專家小組精心設計的實體字典包含了數以萬計的實體，并且每周定期更新，以適應新商品和內容的變化。

2. 從用戶行為中提取實體

基于實體字典，我們的工作重點轉移到了從支付寶中的各種用戶行為中提取實體，包括賬單、訪問日志以及營銷場景中商品的實體信息。這個提取過程可以看作是一個命名實體識別（NER）任務，該任務在自然語言處理（NLP）領域已經被廣泛研究。為了執行實體提取，我們使用了BERT-CRF模型，該模型結合了BERT的遷移能力和CRF的結構化預測。BERT-CRF模型使我們能夠準確地從支付寶中的用戶行為中提取實體（下圖）。在基于大語言模型的互補知識增強中，我們的主要目標是建立用戶購買行為與推薦商品之間的聯系。為此，我們從每個用戶最近的賬單中提取實體，形成他們最近的實體交易序列。此外，我們還從商品信息中提取實體，并為每個商品分配一個獨特的實體作為其類別。

構建互補知識圖譜

1. 實體對的生成策略

在構建互補知識圖譜的過程中，首先需要生成實體對。實體對的生成策略是基于實體的流行度和特定策略來確定的。這些策略包括對實體進行排序，將它們分為極其流行、流行和不流行的類別，并專注于流行實體之間的配對。此外，也會構建包含極其流行和不流行實體的配對，以確保圖譜對不流行項的全面覆蓋。通過這種分段組合策略，可以在保證下游模塊的可靠支持的同時，最小化資源浪費。

此外，在實際場景中，經常會出現少數實體經常被購買，而大多數實體很少被消費的長尾分布（下圖）。如果只關注尾部實體組合，就很難提高推薦系統的整體性能。

2. 大語言模型在知識圖譜中的應用

大語言模型（LLM）因其在自然語言處理中的出色理解和推理能力而受到研究者的關注。在本研究中，我們利用大語言模型來確定實體對中是否存在互補關系。我們使用Claude 21作為底層語言模型，并精心設計了可靠的提示（prompts）來引導模型進行逐步分析，并提供可靠的推理證據。通過這種方式，我們可以增強推理結果的可解釋性，并通過手動注釋樣本來不斷完善提示，以達到推理結果的可接受準確度。

E-E-I權重決策模型

E-E-I權重決策模型是一個兩階段的互補知識增強過程（下圖），包括排名階段（Ranking Stage）和整合階段（Integration Stage）。

1. 排名階段

在E-E-I權重決策模型中，我們采用了雙塔架構，其中兩個塔的輸出分別代表互補項和賬單實體的表示。這兩個輸出的點積作為偏好級別指標。對于項的表示，我們可以從數據庫中提取豐富的特征集，包括基本特征、統計特征和交互特征等。然而，對于實體的表示，由于缺乏具體信息來描述它們，除了預先分配的ID之外，需要使用圖神經網絡（GNN）和對比學習來從兩個不同的視角——第一順序可替代視角和第二順序互補視角——來代表實體。

2. 整合階段

整合階段中，召回模塊通過新增互補召回路徑來優化推薦，確保不過量召回商品，并基于E-E-I模型分數和用戶最近購買記錄，選出最多k個互補商品。在訓練精細排名模型時，E-E-I模型提供分數和嵌入信息，幫助模型更精確地評估商品。這解決了曝光偏差問題，使排名模型能更全面地考慮互補商品，結合用戶行為進行個性化推薦，提高了點擊率和轉化率。

三個工業數據集的測試結果

1. 離線性能比較

在三個工業數據集（上圖）上進行的離線實驗結果表明（下表），LLM-KERec在點擊和轉化的AUC值上均優于其他基線方法。例如，在數據集A上，LLM-KERec在點擊AUC上達到了0.67284，而在轉化AUC上達到了0.82507，這些結果都顯著優于其他基線方法。這些數據集包括了不同的用戶群體分布、用戶意圖和行為，從而為系統的性能提供了全面的評估。

2. 在線A/B測試性能

在線A/B測試結果顯示，LLM-KERec在真實的工業應用場景中取得了顯著的性能提升。在Super 567、消費者頻道和支付結果頁面的三個推薦場景中，LLM-KERec分別實現了6.24%、6.45%和10.07%的轉化率提升。這些結果證明了LLM-KERec在實際工業推薦場景中的有效性。

通過這些實驗，我們驗證了LLM-KERec系統在處理互補商品推薦時的有效性，并展示了其在不同場景下的性能優勢。

不同大語言模型的比較

1. ChatGPT、ChatGLM和Claude的性能對比

在構建互補圖時，大語言模型的選擇對于確定實體對之間的互補關系至關重要。我們對ChatGPT、ChatGLM和Claude三種模型進行了比較。基于手動評估的1000個互補實體對樣本，Claude模型在相關性評分上優于其他兩種模型，顯示出更高的相關性水平。這表明Claude模型在理解和推理自然語言處理方面的能力更強，能夠更準確地識別實體對之間的互補關系。

2. 模型誤判：大語言模型需更精細的調整

在實際應用中，即使是性能最佳的模型也會出現誤判。例如，ChatGPT將“老花鏡”與“卸妝油”聯系起來，認為使用老花鏡可以在卸妝后更好地觀察面部皮膚狀況（下表）。而ChatGLM則將“蛋糕”與“睡衣”聯系起來，認為人們可能在晚上穿著睡衣吃蛋糕。這些解釋過于富有想象力，強行建立了實體對之間的聯系，實際上這些實體對并不具有互補關系。這些錯誤案例表明，即使是大語言模型也需要更精細的調整和優化，以便更準確地捕捉和推理用戶的購買行為和意圖。

案例：LLM-KERec系統具有更高的互補實體對轉化率

我們計算并比較了LLM-KERec和基線模型推薦的一組互補實體對的轉化率（CVR）。比較結果在下圖中展示。在圖中，空白方塊表示兩個實體詞之間沒有關聯關系，而彩色方塊表示實驗組的CVR相對于基線組有所提高。紅色方塊代表實驗組的CVR高于基線組，而藍色方塊則表示實驗組的CVR低于基線組。從圖中可以觀察到，實驗組推薦的互補對通常比基線組推薦的具有更高的CVR。

總結：LLM-KERec系統的貢獻與未來展望

1. LLM-KERec系統的貢獻

LLM-KERec系統是一種創新的推薦系統，它通過結合大語言模型（LLM）和互補知識圖譜，有效地解決了傳統推薦系統在適應新商品和捕捉用戶意圖轉變方面的局限性。通過在三個行業數據集上的廣泛實驗表明，LLM-KERec系統在性能上顯著優于現有方法。該系統的核心貢獻包括：

實體提取器的設計：通過設計實體提取器，LLM-KERec系統能夠從商品和用戶賬單信息中提取統一的概念術語（實體），為構建知識圖譜打下基礎。
互補知識圖譜的構建：利用大語言模型判定實體對之間的互補關系，并構建互補知識圖譜。這一圖譜不僅反映了用戶的購買模式，還能夠根據實時反饋調整圖邊權重，從而提升推薦的個性化和準確性。
E-E-I權重決策模型：通過實體-實體-商品（E-E-I）權重決策模型，LLM-KERec系統能夠根據用戶的最近賬單和商品信息推薦互補商品，進一步優化了排名模型的得分。

2. 未來展望

LLM-KERec系統的成功部署在推薦系統領域開辟了新的道路，但仍有進一步的發展空間。未來的研究和開發可以集中在以下幾個方面：

實體提取器和知識圖譜的持續優化：隨著電子商務環境的不斷演變，新商品的不斷涌現，實體提取器和知識圖譜需要定期更新以適應變化，保持推薦系統的時效性和準確性。
大語言模型的進一步探索：當前研究已經比較了不同的大語言模型（如ChatGPT、ChatGLM和Claude）在構建互補知識圖譜中的表現。未來可以進一步探索如何更有效地利用這些模型的推理能力，以及如何將它們與推薦系統更緊密地結合。
個性化和上下文感知的增強：通過深入理解用戶行為和上下文信息，推薦系統可以更準確地預測用戶的需求，提供更加個性化的推薦。
系統的可擴展性和效率：隨著數據量的增長和用戶需求的多樣化，推薦系統需要在保證推薦質量的同時，提高處理大規模數據的能力。
用戶隱私和數據安全：在提升推薦系統性能的同時，保護用戶隱私和數據安全是至關重要的。未來的研究需要在遵守數據保護法規的前提下，探索更安全的數據處理和推薦方法。