1. 引言
1.1 研究背景與意義
隨著互聯網數據的爆炸式增長,個性化推薦系統成為提升用戶體驗的關鍵技術。準確捕捉用戶興趣需要大量多維度數據,但獲取高質量標注數據面臨隱私保護、數據分散等挑戰。網絡爬蟲技術為自動采集用戶行為數據提供了解決方案,而如何有效評估模型在個體差異場景下的泛化能力仍是研究熱點。
傳統 k 折交叉驗證方法假設數據獨立同分布 (i.i.d.),忽略了用戶個體差異對模型性能的影響。LOSO 交叉驗證通過將不同用戶數據完全分離到訓練集和測試集,能更真實地模擬模型在實際應用中的表現。本研究結合 Python 爬蟲技術與 LOSO 方法,構建完整的用戶興趣預測系統,為個性化推薦研究提供新思路。
1.2 研究目標與貢獻
本文的主要研究目標:
- 設計并實現基于 Scrapy 框架的學術平臺爬蟲系統
- 構建包含文本特征提取、向量化的完整數據預處理流程