羅格斯大學：通過輸入嵌入對齊選擇agent

在這里插入圖片描述

📖標題：AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback
🌐來源：arXiv, 2501.13333

🌟摘要

🔸多代理系統必須決定哪個代理最適合給定的任務。我們提出了一種新的架構，通過擴展句子BERT（SBERT）編碼器模型，在給定自然語言提示的情況下，推薦許多LLM代理中的哪一個應該執行任務。
🔸在測試數據上，我們能夠實現92.2%的top-1準確率，每次分類的時間不到300毫秒。與傳統的分類方法相比，我們的架構計算成本低，適應新類，可解釋，并且可以通過強化學習用任意度量進行控制。通過將自然語言提示編碼到句子嵌入中，我們的模型捕獲了與推薦代理相關的語義內容。然后，通過調優，將屬于同一主體的句子嵌入之間的距離最小化，并通過從人類反饋中進行強化學習，使其與人類價值觀保持一致。這允許通過測量嵌入之間的余弦相似性，基于最近鄰對自然語言提示進行分類。
🔸這項工作是通過為代理推薦生成一個合成數據集來實現的，我們已經將該數據集與AgentRec推薦系統的代碼一起開源給公眾，網址為https://github.com/joshprk/agentrec.

🛎?文章簡介

🔸研究問題：在多代理系統中如何根據自然語言提示快速、準確地推薦最適合的代理來執行特定任務？
🔸主要貢獻：論文提出了一個名為AgentRec的框架，通過使用句子嵌入和對齊人類反饋的方法，實現了在多代理系統中高效、準確的代理推薦。

📝重點思路

🔸主要思想：將自然語言用戶提示編碼成句子嵌入，并與代理句子嵌入進行相似度比較，從而推薦適合完成特定任務的代理。
🔸數據集生成：使用Llama-3.1-8B-Instruct模型生成合成數據集，確保數據集的代表性和非重復性。
🔸句子嵌入生成：使用SBERT編碼器生成每個代理的句子嵌入，并將這些嵌入緩存以加快系統初始化。
🔸評分函數設計：通過比較余弦相似度的均值來設計評分函數，發現對數廣義p均值效果最佳。
🔸對齊人類反饋（RLHF）：通過監督微調（SFT）生成初始RL策略，并通過獎勵模型對齊人類價值觀。
🔸系統架構：擴展了Sentence-BERT模型，提供了一個端到端的方法來推薦代理，處理用戶提示的標準化和重述。

🔎分析總結

🔸整體表現：AgentRec在8個代理上的top-1測試準確率達到92.2%，顯示出較高的推薦準確性。
🔸系統性能：推薦系統在單個NVIDIA RTX A5000上每個提示的平均處理時間少于300毫秒。
🔸魯棒性：系統對結構相似但語義不同的提示具有魯棒性，能夠準確推薦適合的代理。
🔸數據集的影響：使用合成數據集進行訓練和測試，確保了數據的多樣性和代表性。
🔸人類反饋對齊：通過RLHF方法，系統能夠更好地對齊人類價值觀，提高了推薦的準確性。

💡個人觀點

論文的核心在于根據嵌入相似度選擇agent。并通過強化學習進一步對齊。

🧩附錄

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/894399.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/894399.shtml
英文地址，請注明出處：http://en.pswp.cn/news/894399.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！