大型語言模型個性化助手實現
目錄
- 大型語言模型個性化助手實現
- PERSONAMEM,以及用戶資料和對話模擬管道
- 7種原位用戶查詢類型
- 關于大語言模型個性化能力評估的研究
大型語言模型(LLMs)已經成為用戶在各種任務中的個性化助手,從提供寫作支持到提供量身定制的建議或咨詢。隨著時間的推移,用戶和LLM之間的交互歷史可以提供有關個人特征和偏好的廣泛信息。
然而,關于當今LLM如何有效地利用這些歷史來(1)內化用戶的固有特征和偏好,(2)跟蹤用戶分析和偏好如何隨時間演變,以及(3)在新場景中相應地生成個性化響應,仍然存在懸而未決的問題。
在這項工作中,我們介紹了PERSONMEM基準。PERSONMEM具有精心策劃的用戶配置文件,其中包含180多個模擬用戶LLM交互歷史,每個歷史包含多達60個會話,涉及15個需要個性化的現實世界任務。
給定一個現場用戶查詢,即用戶從第一人稱角度發出的查詢,我們評估LLM聊天機器人根據用戶個人資料的當前狀態識別最合適響應的能力。
我們觀察到,當前的LLM仍然難以通過直接提示方法識別用戶資料隨時間的動態演變。因此,LLM通常無法提供與用戶當前情況和偏好相一致的響應,GPT-4.1、o4-mini、GPT-4.5、o1或Gemini-2.0等前沿模型的總體準確率僅為50%左右,這表明還有改進的空間。我們希望PERSONAMEM,以及用戶資料和對話模擬管道&