帶記憶的超級GPT智能體,能做飯、煮咖啡、整理家務!

隨著AI技術的快速迭代,Alexa、Siri、小度、天貓精靈等語音助手得到了廣泛應用。但在自然語言理解和完成復雜任務方面仍然有限。

相比文本的標準格式,語音充滿復雜性和多樣性(例如,地方話),傳統方法很難適應不同用戶的自定義語言,因此,語音助手需要針對固定領域設計語義解析方案,而無法對完全開放的語言進行建模。

為了解決這一難題,卡內基梅隆大學的研究人員基于大語言模型、視覺模型開發了HELPER。

該模型采用了檢索增強的大語言模型提示方法,可以將人機對話、指令和錯誤糾正轉換為一系列參數化的視覺運動

同時在成功執行指令后,HELPER會將語言指令和執行計劃作為記憶進行存儲。

當用戶再次提出類似請求時,HELPER會自動檢索相關記憶并進行適當修改來滿足新的要求,從而實現個性化交互。

在TEACh的實驗數據顯示,從對話中推斷步驟的測試中,HELPER的任務成功率和目標條件成功率分別提高了1.7倍和2.1倍,超過了之前最好的模型。在從歷史對話中執行任務中,HELPER也取得了絕佳的效果。

開源地址:https://github.com/Gabesarch/HELPER

論文地址:https://arxiv.org/abs/2310.15127

圖片

研究人員用物理模擬的方式展示了多個示例,HELPER可以進行洗鍋、煮咖啡、做面包、整理卡片、制作飲料等一系列擬人化操作,并且你只需要詳細的告訴它一次就能記住你的需求,以后無需多說就能照著做。

圖片

從論文內容來看,HELPER的技術架構主要由規劃器、執行器和視覺語言模型三大塊組成。

規劃器

該模塊利用檢索增強的大語言模型來進行語義解析和生成一系列執行計劃,同時配備了一個文本到程序的外部記憶存儲器,相當于該模型的“大腦”。

在進行語言解析時,規劃器會先基于當前語言的輸入,使用大語言模型的編碼器計算輸入文本的向量表示,然后檢索出記憶庫中語義最相關的若干條記錄,將其中的文本-程序對作為LLM的文本示例,隨后讓LLM生成新的程序。

圖片

生成的程序使用Python語言描述,涵蓋一系列參數化的視覺運動函數,如pickup(X)、goto(X)等,同時也負責處理執行失敗后的重新規劃。

例如,當某個動作執行失敗時,系統會調用外部的視覺語言模型來分析失敗原因并生成文本反饋, 規劃器隨后會根據反饋提示LLM生成修正后的新程序。

此外, 規劃器也會在任務成功執行后,將用戶指令語言和對應的執行程序加入記憶庫中,實現個性化學習。

執行器

該模塊主要負責解析規劃器生成的程序,并基于當前環境執行指令操作,具體操作如下:

圖片

場景解析器:構建環境的語義地圖、占用地圖,以及通過目標檢測跟蹤對象信息。

動作執行器:將程序中的函數調用翻譯成具體的導航和操作動作執行。

前提檢查器:在執行每個動作前,驗證必要的前提條件是否滿足。

位置檢查器:當需要找到不在場景地圖中的目標物體時,該模塊會提示LLM生成可能的搜索位置。

簡單來說,執行器模塊相當于HELPER的“四肢”,用來執行具體的內容。

視覺語言模型

當具體計劃執行失敗時,系統需要分析失敗原因。所以,HELPER使用了視覺語言模型ALIGN進行糾錯、審查。

圖片

方法是將當前視覺輸入與一系列預定義的錯誤文本進行匹配,輸出最相似的錯誤類型,幫助規劃器模塊快速找到錯誤所在。這種方法比簡單的像素對比判斷故障類型更加精準和通用。

本文素材來源卡內基梅隆大學論文,如有侵權請聯系刪除

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/161948.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/161948.shtml
英文地址,請注明出處:http://en.pswp.cn/news/161948.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【每日OJ —— 20.有效的括號(棧)】

每日OJ —— 20.有效的括號(棧) 1.題目:20.有效的括號(棧)2.方法講解2.1.解法2.1.1.算法講解2.1.2.代碼實現2.1.3.提交通過展示 1.題目:20.有效的括號(棧) 2.方法講解 2.1.解法 利用…

2023 年 亞太賽 APMCM (B題)國際大學生數學建模挑戰賽 |數學建模完整代碼+建模過程全解全析

當大家面臨著復雜的數學建模問題時,你是否曾經感到茫然無措?作為2022年美國大學生數學建模比賽的O獎得主,我為大家提供了一套優秀的解題思路,讓你輕松應對各種難題。 問題一: 建立沒有作物的玻璃溫室內的溫度和風速分…

C語言二十四彈--喝汽水問題

C語言解決喝汽水問題 題目:喝汽水,1瓶汽水1元,2個空瓶可以換一瓶汽水,給20元,可以喝多少汽水? 方法一、逐瓶購買法 思路:一瓶瓶的買 當空瓶有兩個時,汽水數加1即可。 #include &…

MacOS 成為惡意軟件活動的目標

Malwarebytes 警告稱,一個針對 Mac 操作系統 (OS) 的數據竊取程序正在通過虛假的網絡瀏覽器更新分發給毫無戒心的目標。 Atomic Stealer,也稱為 AMOS,是 Mac OS 上流行的竊取程序。 Atomic Stealer (AMOS) 惡意軟件最近被發現使用“ClearFa…

ImportError: cannot import name ‘contextfilter‘ from ‘jinja2‘解決方案

大家好,我是愛編程的喵喵。雙985碩士畢業,現擔任全棧工程師一職,熱衷于將數據思維應用到工作與生活中。從事機器學習以及相關的前后端開發工作。曾在阿里云、科大訊飛、CCF等比賽獲得多次Top名次。現為CSDN博客專家、人工智能領域優質創作者。喜歡通過博客創作的方式對所學的…

匯編-pop出棧指令

32位匯編 執行動作分為兩步: 第一步:讀出數據 第二步:改變棧地址 如果操作數是16位, 則ESP加2; 如果操作數是32位, 則ESP加4 espesp2 或 espesp4 格式:

九、sdl顯示bmp圖片

前言 SDL中內置加載BMP的API,使用起來會更加簡單,便于初學者學習使用SDL 如果需要加載JPG、PNG等其他格式的圖片,可以使用第三方庫:SDL_image 測試環境: ffmpeg的4.3.2自行編譯版本windows環境qt5.12sdl2.0.22&…

力扣第462題 最小操作次數使數組元素相等 II C++ 排序基礎 附Java代碼

題目 462. 最小操作次數使數組元素相等 II 中等 相關標簽 數組 數學 排序 給你一個長度為 n 的整數數組 nums ,返回使所有數組元素相等需要的最小操作數。 在一次操作中,你可以使數組中的一個元素加 1 或者減 1 。 示例 1: 輸入&a…

Python深入分享之閉包

閉包(closure)是函數式編程的重要的語法結構。函數式編程是一種編程范式 (而面向過程編程和面向對象編程也都是編程范式)。在面向過程編程中,我們見到過函數(function);在面向對象編程中,我們見過對象(object)。函數和對象的根本目的是以某種…

substr()與substring()的區別

在 JavaScript 編程語言中,substr() 和 substring() 都是字符串函數,用于截取指定位置的子字符串。雖然這兩個函數都可以用于截取字符串,但它們之間存在一些區別。 substr() 語法:string.substr(start,length) 參數值&#xff1a…

IDEA中 java: 警告: 源發行版 11 需要目標發行版 11 如何解決

步驟1找到項目結構,下面有兩種方式 步驟2找到 模塊中對應的項目,修改對應的源的語言級別和依賴的模塊SDK(M) 步驟3,啟動一下,看有無問題, 步驟4,去文件-->設置-->構建、執行、部署-->編譯器-->…

中職組網絡安全B模塊-滲透提權2

任務五:滲透提權2 任務環境說明: 僅能獲取xxx的IP地址 用戶名:test,密碼:123456 訪問服務器主機,找到主機中管理員名稱,將管理員名稱作為Flag值提交; Flag:doyoudoyoudo 訪問服…

C語言二十三彈---求第N項斐波那契數列的值

C語言求第N項斐波那契數列的值 定義:斐波那契數列指的是這樣一個數列:1,1,2,3,5,8,13,21,34,55,89…自然中的斐波那契數列&#xff0…

感恩三十載 再創新輝煌——中國音樂著作權協會成立30周年暨著作權集體管理制度實施30周年紀念大會在京召開

感恩三十載 再創新輝煌 2023年11月19日,中國音樂著作權協會成立30周年暨著作權集體管理制度實施30周年紀念大會在北京舉行。中宣部副部長張建春,國際作者和作曲者協會聯合會(CISAC)總干事甘迪奧龍(Gadi Oron&#xff0…

深入了解批處理文件:從基礎到實例

1. 什么是批處理文件? 批處理文件是一種包含一系列命令的文本文件,通常用于自動化執行一系列任務。在不同操作系統中,批處理也有不同的名稱,如在Windows中被稱為批處理文件(.bat),而在Linux中則…

【MISRA C 2012】Rule 5.1 外部標識符應該是不同的

1. 規則1.1 原文1.2 分類 2. 關鍵描述3. 代碼實例 1. 規則 1.1 原文 Rule 5.1 External identifiers shall be distinct Category Required Analysis Decidable, System Applies to C90, C99 1.2 分類 規則5.1:外部標識符應該是不同的 Required必須類規范。 2.…

1、基礎入門——操作系統文件下載反彈SHELL防火墻繞過

名詞解釋 POC:驗證漏洞存在的代碼; EXP:利用漏洞的代碼; payload:漏洞利用載荷, shellcode:漏洞代碼, webshell:特指網站后門; 木馬:強調控制…

【STL】set, map, multiset, multimap的介紹及使用

TOC 目錄 關聯式容器 樹形結構與哈希結構 鍵值對 set set的定義方式 set的使用 multiset map map的介紹 map的定義方式 map的插入 insert函數的參數 insert函數的返回值 map的查找 map的刪除 map的[ ]運算符重載 map的迭代器遍歷 map的其他成員函數 multim…

Day40:139.單詞拆分、背包問題總結

文章目錄 139.單詞拆分思路代碼實現 背包問題總結背包類型遞推公式 139.單詞拆分 題目鏈接 思路 確定dp數組以及下標的含義 dp[i] : 從0開始長度為i的字符串是否可以拆分為一個或多個在字典中出現的單詞確定遞推公式 如果確定dp[j] 是true,且 [j, i] 這個區間的子…

【bug】uniapp的image組件渲染gif圖,只有第一次點擊的時候有動效,需要每次點擊都有gif效果,已解決

前兩天遇到的問題,暫時沒有解決,就擱置了。 不解決又難受,還好今天解決了,記錄下 需求: 兩個gif圖,分別代表點擊之后的男生和女生,并且有兩個靜態的男生和女生圖片 當男生靜態圖被點擊的時候切…