【論文閱讀】A Diffusion model for POI recommendation

論文出處：ACM Transactions on Information Systems (TOIS)? SCI一區? CCF-A期刊

論文地址：[2304.07041] A Diffusion model for POI recommendation

論文代碼：Yifang-Qin/Diff-POI: The official PyTorch implementation of Diff-POI.

摘要

研究背景與重要性

現有方法及其局限性

核心問題與挑戰?

擴散模型的潛力

本文解決方案（Diff-POI）?

貢獻總結?

相關工作

興趣點推薦

圖神經網絡?

擴散模型?

準備工作?

問題定義

時空圖構造

擴散理論?

方法?

時空序列圖編碼器

地理編碼器

擴散采樣模塊

預測與輸出?

實驗?

實驗設置

?總體性能

消融實驗?

?案例研究

效率分析（附錄）

結論

摘要

下一個興趣點（POI）推薦是基于位置的服務中的一項關鍵任務，旨在為用戶的下一個目的地提供個性化建議。先前關于POI推薦的研究主要集中在用戶空間偏好的建模上。然而，現有的利用空間信息的工作僅基于用戶以前訪問過的位置的匯總，這阻礙了模型在新區域推薦poi。在許多情況下，基于位置的方法的這種特性會損害模型的性能。此外，將順序信息整合到用戶的空間偏好中仍然是一個挑戰。在本文中，我們提出了diffi-POI：一個基于擴散的模型，該模型對用戶的空間偏好進行采樣，以推薦下一個POI。受擴散算法在分布采樣中廣泛應用的啟發，diffi-poi采用兩個定制的圖編碼模塊對用戶的訪問序列和空間特征進行編碼，然后采用基于擴散的采樣策略來探索用戶的空間訪問趨勢。我們利用擴散過程及其反向形式從后驗分布中抽樣，并優化相應的分數函數。我們設計了一個聯合訓練和推理框架來優化和評估所提出的Diff-POI。在四個真實世界POI推薦數據集上進行的大量實驗表明，我們的diffi-POI優于最先進的基線方法。對Diff-POI的進一步消融和參數研究揭示了所提出的基于擴散的采樣策略的功能性和有效性，以解決現有方法的局限性。

研究背景與重要性

這部分介紹了基于位置的社交網絡（LBSN）的興起（如Yelp、Foursquare），以及POI推薦系統的核心目標：通過用戶歷史行為（簽到記錄）提供個性化的位置推薦，緩解信息過載問題。POI推薦與傳統推薦的區別在于需建模地理特征（如POI位置對用戶行為的影響）。

現有方法及其局限性

傳統方法：基于馬爾可夫鏈、矩陣分解（MF）或RNN/LSTM的序列建模（如ST-RNN）。
圖神經網絡方法：利用GNN建模POI間的轉移關系（如STGCN、GSTN）。
現有方法多依賴歷史位置聚合，導致推薦偏向用戶熟悉區域，難以滿足探索新區域的需求（如游客或偶爾探索的用戶）。

核心問題與挑戰?

保守型用戶（User 1）：常訪問固定區域（如家庭-工作地），傳統聚合方法有效。
探索型用戶（User 2/3）：傾向于訪問新區域，但現有方法無法捕捉這種動態偏好。
關鍵挑戰：如何建模從歷史分布到未來偏好分布的復雜映射關系？

擴散模型的潛力

擴散模型在圖像生成、NLP等領域已證明能建模復雜分布轉換（如DDPM、Score-SDE）。
其核心優勢：通過前向-反向擴散過程分解分布間的轉移路徑，適合解決POI推薦中“歷史→未來”的分布映射問題。

本文解決方案（Diff-POI）?

Diff-POI的三大創新：

時空圖編碼器：通過注意力機制融合用戶訪問序列的時空間隔（時間差、距離差）。
擴散采樣模塊：用反向SDE從用戶特定后驗分布中采樣空間偏好，生成個性化位置原型。
聯合優化框架：結合交叉熵損失和Fisher損失，優化推薦和采樣過程。

貢獻總結?

提出首個基于擴散模型的POI推薦框架。
設計時空圖編碼器，增強序列建模能力。
通過擴散采樣解決新區域推薦問題。
在4個數據集上驗證有效性（Recall@10提升最高12%）。

準備工作?

問題定義

設POI集合為? $\mathcal{L}={l_1,l_2,...,l_{|\mathcal{L}|}}$ ，用戶集合為? $\mathcal{U}={u_1,u_2,...,u_{|\mathcal{U}|}}$ 。
對用戶u，給定其歷史軌跡? $H(u)={(l_1^u,t_1^u),(l_2^u,t_2^u),...,(l_n^u,t_n^u)}$ （含POI和訪問時間戳），目標是預測下一個POI? $l_{n+1}^u$ 。
關鍵特征：POI間的地理距離矩陣 $A_d \in \mathbb{R}^{|\mathcal{L}|\times |\mathcal{L}|}$ ，其中 $A_d(i,j)=\text{haversine}(l_i,l_j)$ （基于半正矢公式計算）。

時空圖構造

為建模時空關系，論文定義兩類圖結構：

轉移圖（Transition Graph）? $\mathcal{G}_u=(\mathcal{V}_u,\mathcal{E}_u)$ ：節點? $\mathcal{V}u$ 為用戶 $u$ 訪問過的POI，邊? $e=\langle l_i^u,l{i+1}^u \rangle \in \mathcal{E}_u$ ?表示連續訪問關系。
距離圖（Distance Graph）? $\mathcal{G}_d=(\mathcal{V}_d,\mathcal{E}_d,A_d)$ ：節點? $\mathcal{V}_d=\mathcal{L}$ 為所有POI，邊? $(l_i,l_j) \in \mathcal{E}_d$ 表示兩地距離小于閾值（如1km），邊權? $A_d$ 為實際地理距離。

擴散理論?

基于隨機微分方程（SDE）的擴散過程形式化描述：

前向擴散（加噪過程）：離散形式為馬爾可夫鏈，條件概率定義為：

連續形式對應Ito SDE：
反向擴散（采樣過程）：
反向SDE形式為：

其中? $\nabla_x \log p_t(x)$ ?為分數函數（score function），通過神經網絡 $s_\theta(x)$ 估計。

方法?

如圖所示，Diff-POI由三個關鍵模塊組成，分別是：(A)一個時空序列圖編碼器，它將連續訪問之間的距離和時間間隔與順序圖編碼結合在一起；(B)一個基于距離的POI圖編碼器，它對距離圖進行圖卷積，從而產生每個POI的位置嵌入；(C)一個上下文驅動的擴散模塊，它獲得用戶特定的位置原型，然后采用基于擴散的采樣策略，對用戶的空間偏好進行采樣。

時空序列圖編碼器

輸入：用戶訪問序列圖（節點 = 訪問過的POI，邊 = 連續訪問關系（如 POI? → POI?）邊特征 = 時間差和地理距離） + 時空間隔
操作：
1. 通過嵌入層將離散的時空間隔轉為向量
2. 雙向注意力聚合（同時考慮前驅和后繼POI的影響）
3. 用自注意力生成最終用戶表征? $x_u$
輸出：用戶嵌入向量（? $d$ 維）

地理編碼器

輸入：全量POI距離圖（節點 = 所有POI，邊 = POI間距離 < 閾值（如1km），邊權重 = 實際距離的指數衰減值?）
操作：
1. 多層圖卷積（GCN）傳播地理信息
2. 跨層均值池化
輸出：每個POI的地理嵌入 $e_i^g$

擴散采樣模塊

輸入：用戶嵌入 $x_u$ + 歷史POI地理嵌入
操作：
1. 前向過程：對真實目標POI的地理嵌入逐步加噪
2. 反向過程：
  - 用MLP網絡預測噪聲（條件注入 $x_u$ ）
  - 通過SDE求解器從噪聲中采樣空間偏好? $v_u(0)$
輸出：用戶未來可能偏好的空間位置向量（ $d$ 維）

預測與輸出?

組合預測：
推薦分數 = α*(用戶偏好·POI特征) + (1-α)*(空間偏好·POI地理特征)

組成部分	反映信息	是否用戶相關	是否空間相關	數據來源模塊
用戶偏好 $x_u$	時序行為規律	??	?	時空圖編碼器
POI特征 $e_i^l$	靜態屬性	?	?	嵌入層
空間偏好 $v_u(0)$	未來區域傾向	??	??	擴散采樣模塊
POI地理特征 $e_i^g$	空間上下文	?	??	地理編碼器

最終輸出：
對所有候選POI計算分數，輸出Top-K推薦列表
（例如：[博物館:0.8, 公園:0.7, 餐廳:0.6]）

當α→1：推薦完全依賴用戶歷史行為（適合保守用戶）
推薦結果 ≈ 與歷史訪問相似的POI
當α→0：推薦側重空間偏好（適合探索型用戶）
推薦結果 ≈ 符合未來空間傾向的新POI
實驗值：論文通過網格搜索確定α=0.5最優（平衡兩種信號）

實驗?

實驗設置

使用4個真實LBSN數據集，統計信息如下：

數據集	用戶數	POI數	簽到數	平均訪問長度
Gowalla	10,162	24,237	456K	44.95
Foursquare-SIN	2,321	5,596	194K	83.63
Foursquare-TKY	2,293	15,177	494K	215.79
Foursquare-NYC	1,083	9,989	179K	165.71

預處理：

5-core過濾（用戶和POI至少5次訪問）
按時間戳劃分訓練/驗證/測試集（8:1:1）

?對比方法

傳統方法：MF、GRU4Rec
圖推薦方法：LightGCN、DGCF、SR-GNN
POI專用方法：GeoIE、LSTPM、STAN
SOTA方法：SGRec、DRAN

評估指標

Recall@K：真實POI出現在Top-K的比例
NDCG@K：考慮排序位置的加權得分
測試協議：全量POI候選（非采樣評估）

?總體性能

核心結論

擴散采樣有效性：Diff-POI在所有數據集上顯著優于基線（p<0.05）
探索能力驗證：在用戶歷史訪問稀疏區域（如TKY數據集）提升最顯著
時空建模優勢：比純序列模型（LSTPM）和純圖模型（SGRec）更全面

消融實驗?

組件分析

變體名稱	修改內容	Recall@10下降幅度
W/O-Sampling	直接使用初始原型 $\hat{v}_u$	3.3%
W/O-Condition	去除用戶條件 $x_u$	2.1%
W/O-GeoEncoder	替換為隨機初始化的POI嵌入	6.7%

?超參數影響

α值（序列vs空間權重）：
$\alpha=0.5$時達到最優（平衡歷史行為與探索需求）
擴散步數：
超過100步后收益遞減（驗證VP-SDE的高效性）

?案例研究

用戶分組測試

結果：

對探索用戶，Diff-POI比最佳基線提升14.2%
對保守用戶，性能與DRAN相當（差異<1%）

采樣過程可視化

用戶A（保守型）：采樣軌跡快速收斂到歷史訪問區域
用戶C（探索型）：采樣軌跡逐步偏離歷史區域，指向新商圈

推薦示例對比

用戶類型	傳統方法推薦結果	Diff-POI新增推薦
游客	酒店周邊1km內餐廳	3km外熱門景點
上班族	常去咖啡館的同品牌分店	鄰近新開的共享辦公空間

效率分析（附錄）

訓練時間：比DRAN長20%（主要開銷在擴散采樣）
推理速度：單用戶采樣耗時<10ms（滿足實時推薦需求）

結論?

本文提出了一種新的基于圖的POI推薦模型，即Diff-POI，利用時空過渡圖對用戶的位置偏好進行建模。Diff-POI配備了一個定制的序列圖編碼器，可以描述用戶的時空軌跡，然后采用基于擴散的采樣策略對用戶的位置偏好進行采樣。在四個真實數據集上的綜合實驗證明了所提出的Diff-POI框架的有效性及其優于現有最先進的基線模型。消融和案例研究進一步提供了一個直觀的觀點，即采樣過程如何描述用戶隱藏的位置偏好。