📖標題:AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback
🌐來源:arXiv, 2501.13333
🌟摘要
🔸多代理系統必須決定哪個代理最適合給定的任務。我們提出了一種新的架構,通過擴展句子BERT(SBERT)編碼器模型,在給定自然語言提示的情況下,推薦許多LLM代理中的哪一個應該執行任務。
🔸在測試數據上,我們能夠實現92.2%的top-1準確率,每次分類的時間不到300毫秒。與傳統的分類方法相比,我們的架構計算成本低,適應新類,可解釋,并且可以通過強化學習用任意度量進行控制。通過將自然語言提示編碼到句子嵌入中,我們的模型捕獲了與推薦代理相關的語義內容。然后,通過調優,將屬于同一主體的句子嵌入之間的距離最小化,并通過從人類反饋中進行強化學習,使其與人類價值觀保持一致。這允許通過測量嵌入之間的余弦相似性,基于最近鄰對自然語言提示進行分類。
🔸這項工作是通過為代理推薦生成一個合成數據集來實現的,我們已經將該數據集與AgentRec推薦系統的代碼一起開源給公眾,網址為https://github.com/joshprk/agentrec.
🛎?文章簡介
🔸研究問題:在多代理系統中如何根據自然語言提示快速、準確地推薦最適合的代理來執行特定任務?
🔸主要貢獻:論文提出了一個名為AgentRec的框架,通過使用句子嵌入和對齊人類反饋的方法,實現了在多代理系統中高效、準確的代理推薦。
📝重點思路
🔸主要思想:將自然語言用戶提示編碼成句子嵌入,并與代理句子嵌入進行相似度比較,從而推薦適合完成特定任務的代理。
🔸數據集生成:使用Llama-3.1-8B-Instruct模型生成合成數據集,確保數據集的代表性和非重復性。
🔸句子嵌入生成:使用SBERT編碼器生成每個代理的句子嵌入,并將這些嵌入緩存以加快系統初始化。
🔸評分函數設計:通過比較余弦相似度的均值來設計評分函數,發現對數廣義p均值效果最佳。
🔸對齊人類反饋(RLHF):通過監督微調(SFT)生成初始RL策略,并通過獎勵模型對齊人類價值觀。
🔸系統架構:擴展了Sentence-BERT模型,提供了一個端到端的方法來推薦代理,處理用戶提示的標準化和重述。
🔎分析總結
🔸整體表現:AgentRec在8個代理上的top-1測試準確率達到92.2%,顯示出較高的推薦準確性。
🔸系統性能:推薦系統在單個NVIDIA RTX A5000上每個提示的平均處理時間少于300毫秒。
🔸魯棒性:系統對結構相似但語義不同的提示具有魯棒性,能夠準確推薦適合的代理。
🔸數據集的影響:使用合成數據集進行訓練和測試,確保了數據的多樣性和代表性。
🔸人類反饋對齊:通過RLHF方法,系統能夠更好地對齊人類價值觀,提高了推薦的準確性。
💡個人觀點
論文的核心在于根據嵌入相似度選擇agent。并通過強化學習進一步對齊。