羅格斯大學:通過輸入嵌入對齊選擇agent

在這里插入圖片描述

📖標題:AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback
🌐來源:arXiv, 2501.13333

🌟摘要

🔸多代理系統必須決定哪個代理最適合給定的任務。我們提出了一種新的架構,通過擴展句子BERT(SBERT)編碼器模型,在給定自然語言提示的情況下,推薦許多LLM代理中的哪一個應該執行任務。
🔸在測試數據上,我們能夠實現92.2%的top-1準確率,每次分類的時間不到300毫秒。與傳統的分類方法相比,我們的架構計算成本低,適應新類,可解釋,并且可以通過強化學習用任意度量進行控制。通過將自然語言提示編碼到句子嵌入中,我們的模型捕獲了與推薦代理相關的語義內容。然后,通過調優,將屬于同一主體的句子嵌入之間的距離最小化,并通過從人類反饋中進行強化學習,使其與人類價值觀保持一致。這允許通過測量嵌入之間的余弦相似性,基于最近鄰對自然語言提示進行分類。
🔸這項工作是通過為代理推薦生成一個合成數據集來實現的,我們已經將該數據集與AgentRec推薦系統的代碼一起開源給公眾,網址為https://github.com/joshprk/agentrec.

🛎?文章簡介

🔸研究問題:在多代理系統中如何根據自然語言提示快速、準確地推薦最適合的代理來執行特定任務?
🔸主要貢獻:論文提出了一個名為AgentRec的框架,通過使用句子嵌入和對齊人類反饋的方法,實現了在多代理系統中高效、準確的代理推薦。

📝重點思路

🔸主要思想:將自然語言用戶提示編碼成句子嵌入,并與代理句子嵌入進行相似度比較,從而推薦適合完成特定任務的代理。
🔸數據集生成:使用Llama-3.1-8B-Instruct模型生成合成數據集,確保數據集的代表性和非重復性。
🔸句子嵌入生成:使用SBERT編碼器生成每個代理的句子嵌入,并將這些嵌入緩存以加快系統初始化。
🔸評分函數設計:通過比較余弦相似度的均值來設計評分函數,發現對數廣義p均值效果最佳。
🔸對齊人類反饋(RLHF):通過監督微調(SFT)生成初始RL策略,并通過獎勵模型對齊人類價值觀。
🔸系統架構:擴展了Sentence-BERT模型,提供了一個端到端的方法來推薦代理,處理用戶提示的標準化和重述。

🔎分析總結

🔸整體表現:AgentRec在8個代理上的top-1測試準確率達到92.2%,顯示出較高的推薦準確性。
🔸系統性能:推薦系統在單個NVIDIA RTX A5000上每個提示的平均處理時間少于300毫秒。
🔸魯棒性:系統對結構相似但語義不同的提示具有魯棒性,能夠準確推薦適合的代理。
🔸數據集的影響:使用合成數據集進行訓練和測試,確保了數據的多樣性和代表性。
🔸人類反饋對齊:通過RLHF方法,系統能夠更好地對齊人類價值觀,提高了推薦的準確性。

💡個人觀點

論文的核心在于根據嵌入相似度選擇agent。并通過強化學習進一步對齊。

🧩附錄

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/894399.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/894399.shtml
英文地址,請注明出處:http://en.pswp.cn/news/894399.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【實戰篇】Android安卓本地離線實現視頻檢測人臉

實戰篇Android安卓本地離線實現視頻檢測人臉 引言項目概述核心代碼類介紹人臉檢測流程項目地址總結 引言 在當今數字化時代,人臉識別技術已經廣泛應用于各個領域,如安防監控、門禁系統、移動支付等。本文將以第三視角詳細講解如何基于bifan-wei-Face/De…

團體程序設計天梯賽-練習集——L1-025 正整數A+B

一年之際在于春,新年的第一天,大家敲代碼了嗎?哈哈 前言 這道題分值是15分,值這個分,有一小點運算,難度不大,雖然說做出來了,但是有兩個小疑點。 L1-025 正整數AB 題的目標很簡單…

Leetcode:598

1,題目 2,思路 腦筋急轉彎,看題目一時半會還沒搞懂意思。 其實不然就是說ops是個矩陣集合,集合的每個矩陣有倆個元素理解為行列邊距 m和n是理解為一個主矩陣,計算ops的每個小矩陣還有這個主矩陣的交集返回面積 3&…

web前端12--表單和表格

1、表格標簽 使用<table>標簽來定義表格 HTML 中的表格和Excel中的表格是類似的&#xff0c;都包括行、列、單元格、表頭等元素。 區別&#xff1a;HTML表格在功能方面遠沒有Excel表格強大&#xff0c;HTML表格不支持排序、求和、方差等數學計算&#xff0c;主要用于布…

為何 git 默認是 master分支,而github默認是main分支(DeepSeek問答)

為何 git 默認是 master分支&#xff0c;而github默認是main分支 Git 和 GitHub 在默認分支名稱上的差異源于歷史背景和社會因素的變化。 Git 的 master 分支 歷史原因&#xff1a;Git 由 Linus Torvalds 于 2005 年創建&#xff0c;最初使用 master 作為默認分支名稱&#x…

【AI】探索自然語言處理(NLP):從基礎到前沿技術及代碼實踐

Hi &#xff01; 云邊有個稻草人-CSDN博客 必須有為成功付出代價的決心&#xff0c;然后想辦法付出這個代價。 目錄 引言 1. 什么是自然語言處理&#xff08;NLP&#xff09;&#xff1f; 2. NLP的基礎技術 2.1 詞袋模型&#xff08;Bag-of-Words&#xff0c;BoW&#xff…

Java集合+并發(部分)

Java集合 Java集合類的繼承結構和各自的適用情況 Collection ? — List ? — ArrayList&#xff1a;動態數組 ? — LinkedList&#xff1a;底層是雙向鏈表&#xff0c;應用于Queue接口可以用于實現隊列&#xff0c;應用于Deque接口可以用于實現棧 ? — Vector&#x…

第1章 量子暗網中的血色黎明

月球暗面的危機與陰謀 量子隧穿效應催生的幽藍電弧&#xff0c;于環形山表面肆意跳躍&#xff0c;仿若無數奮力掙扎的機械蠕蟲&#xff0c;將月球暗面的死寂打破&#xff0c;徒增幾分詭異。艾麗佇立在被遺棄的“廣寒宮”量子基站頂端&#xff0c;機械義眼之中&#xff0c;倒映著…

AI-ISP論文Learning to See in the Dark解讀

論文地址&#xff1a;Learning to See in the Dark 圖1. 利用卷積網絡進行極微光成像。黑暗的室內環境。相機處的照度小于0.1勒克斯。索尼α7S II傳感器曝光時間為1/30秒。(a) 相機在ISO 8000下拍攝的圖像。(b) 相機在ISO 409600下拍攝的圖像。該圖像存在噪點和色彩偏差。©…

Python3 【高階函數】項目實戰:5 個學習案例

Python3 【高階函數】項目實戰&#xff1a;5 個學習案例 本文包含 5 個關于“高階函數”的綜合應用項目&#xff0c;每個項目都包含完整的程序代碼、測試案例和執行結果。具體項目是&#xff1a; 成績統計分析單詞統計工具簡易計算器工廠任務調度器數據管道處理 項目 1&#…

【Git】初識Git Git基本操作詳解

文章目錄 學習目標Ⅰ. 初始 Git&#x1f4a5;注意事項 Ⅱ. Git 安裝Linux-centos安裝Git Ⅲ. Git基本操作一、創建git本地倉庫 -- git init二、配置 Git -- git config三、認識工作區、暫存區、版本庫① 工作區② 暫存區③ 版本庫④ 三者的關系 四、添加、提交更改、查看提交日…

RK3568使用QT操作LED燈

文章目錄 一、QT中操作硬件設備思路Linux 中的設備文件操作硬件設備的思路1. 打開設備文件2. 寫入數據到設備3. 從設備讀取數據4. 設備控制5. 異常處理在 Qt 中操作設備的典型步驟實際應用中的例子:控制 LED總結二、QT實戰操作LED燈設備1. `mainwindow.h` 頭文件2. `mainwindo…

分布式微服務系統架構第90集:現代化金融核心系統

#1.1 深化數字化轉型&#xff0c;核心面臨新挑戰 1、架構側&#xff1a;無法敏捷協同數字金融經營模式轉型。 2、需求側&#xff1a;業務需求傳導低效始終困擾金融機構。 3、開發側&#xff1a;創新產品上市速度低于期望。 4、運維側&#xff1a;傳統面向資源型監控體系難以支撐…

使用 Spring JDBC 進行數據庫操作:深入解析 JdbcTemplate

目錄 1. Spring JDBC 簡介 2. JdbcTemplate 介紹 3. 創建數據庫和表 4. 配置 Spring JDBC 5. 創建實體類 6. 使用 JdbcTemplate 實現增、刪、改、查操作 7. Spring JDBC 優點 8. 小結 1. Spring JDBC 簡介 Spring JDBC 是 Spring 框架中的一個模塊&#xff0c;旨在簡化…

BUUCTF [Black Watch 入群題]PWN1 題解

1.下載文件 exeinfo checksec 32位 IDA32 看到關鍵函數 read兩次 第一次read的變量s在bss段&#xff1b;第二次的buf到ebp距離為 24 但是第二次的read字節只能剛好填滿返回地址 傳不進去變量 所以想到棧遷移 將棧移動到變量s所在位置上來 同時 這題開了NX 無直接的binsh和s…

CentOS 上安裝 Go (Golang)

1. 檢查系統環境 確保系統為 CentOS 7 或 CentOS 8&#xff0c;或者其他兼容的 Linux 發行版。 cat /etc/os-release2. 安裝依賴 安裝一些必要的工具&#xff1a; sudo yum update -y sudo yum install -y wget tar3. 下載 Go 從 Go 官方下載頁面獲取適用于 Linux 的最新版…

chrome源碼剖析—進程通信

Chrome 瀏覽器采用多進程架構&#xff08;multi-process architecture&#xff09;&#xff0c;這種架構使得每個瀏覽器標簽、擴展、插件、GPU 渲染等都在獨立的進程中運行。為了確保不同進程之間的高效通信&#xff0c;Chrome 使用 進程間通信&#xff08;IPC, Inter-Process …

Cubemx文件系統掛載多設備

cubumx版本&#xff1a;6.13.0 芯片&#xff1a;STM32F407VET6 在上一篇文章中介紹了Cubemx的FATFS和SD卡的配置&#xff0c;由于SD卡使用的是SDIO通訊&#xff0c;因此具體驅動不需要自己實現&#xff0c;Cubemx中就可以直接配置然后生成SDIO的驅動&#xff0c;并將SD卡驅動和…

java練習(2)

回文數&#xff08;題目來自力扣&#xff09; 給你一個整數 x &#xff0c;如果 x 是一個回文整數&#xff0c;返回 true &#xff1b;否則&#xff0c;返回 false 。 回文數 是指正序&#xff08;從左向右&#xff09;和倒序&#xff08;從右向左&#xff09;讀都是一樣的整…

使用 Tauri 2 + Next.js 開發跨平臺桌面應用實踐:Singbox GUI 實踐

Singbox GUI 實踐 最近用 Tauri Next.js 做了個項目 - Singbox GUI&#xff0c;是個給 sing-box 用的圖形界面工具。支持 Windows、Linux 和 macOS。作為第一次接觸這兩個框架的新手&#xff0c;感覺收獲還蠻多的&#xff0c;今天來分享下開發過程中的一些經驗~ 為啥要做這個…