智能咖啡廳助手:人形機器人 +融合大模型,行為驅動的智能咖啡廳機器人(機器人大模型與具身智能挑戰賽)

智能咖啡廳助手:人形機器人 +融合大模型,行為驅動的智能咖啡廳機器人(機器人大模型與具身智能挑戰賽)

“機器人大模型與具身智能挑戰賽”的參賽作品。的目標是結合前沿的大模型技術和具身智能技術,開發能在模擬的咖啡廳場景中承擔服務員角色并自主完成各種具身任務的智能機器人。這里是的參賽作品《基于大模型和行為樹和生成式具身智能體》的機器人控制端代碼。

1.大賽簡介:

官網:https://chinasoft.ccf.org.cn/

  • 機器人應用是人工智能時代最具有挑戰性的前沿科學技術難題之一,它匯集了人工智能和機器人核心技術,包括人工智能學的智能感知、認知和決策的各種算法能力,以及機器人學在傳感器、控制器和執行器的高可靠、高精確的運動和控制能力。

  • 預訓練大模型GPT技術的突破,可以為機器人提供智慧的大腦。同時,具身智能機器人是一個具有物理實體、可與真實世界進行多模態交互,像人類一樣感知和理解環境,并通過自主學習完成任務的智能體。二者的結合將使機器人做到“心靈手巧”。

  • 達闥云端機器人國家新一代人工智能開放創新平臺與中國計算機學會、AITISA聯盟、OpenI啟智、CCF開源發展委員會、北京大學、復旦大學、北京航空航天大學、中山大學、北京郵電大學、北京智譜聯合,共同舉辦達闥杯“機器人大模型與具身智能挑戰賽”,旨在鼓勵開發者能夠利用大模型技術和具身智能技術,實現跨模態人機交互、并能自主完成各種復雜任務的機器人應用。

1.1 賽題設計:

大賽包含規定任務和開放任務兩個賽道,有關各賽道的詳細賽題、仿真環境與技術支持的說明,請通過“閱讀原文”鏈接到大會網站,或參見文末“比賽指南”鏈接。

  1. 總體目標任務

    • 在仿真環境中,參賽者通過大模型訓練機器人在咖啡廳場景成為合格的咖啡廳服務員。這項比賽的考核要點是將大語言模型(LLMs)整合到機器人系統中,開發能夠理解自然語言并以友好和有效的方式與人類互動,并能在咖啡店仿真場景中自主完成各種服務任務的智能機器人。

    • 選手可以按照一般常識性理解,進行機器人任務設定和訓練。在仿真場景中,機器人可以與可交互的物品和NPC進行互動操作的訓練,比如:咖啡店服務員與顧客(NPC)互動、接受和執行訂單以及回答有關菜單的問題、導航、操作咖啡機、清理桌子/地面、開空調/開燈、遞送咖啡/飲料/食物等。

  2. 考核要點

?主動探索和記憶(Active Exploration and Memorization):機器人在環境中通過主動探索獲得各種環境信息,實現對位置環境的感知,形成以環境感知信息以及運動軌跡等歷史信息維護一個機器人自身的記憶庫。

?場景多輪對話(Grouded Question Answering):多輪對話要求機器人智能體具有與人進行流暢的交流能力,具身對話是機器人利用視覺等傳感器獲得的場景信息基礎上,完成于場景相關的對話。

?視覺語言導航(Vision Language Navigation):導航是構建智能機器人的一個基本要素。在現實場景中,一個機器人要在不同的場景下承擔多種復雜的導航任務。的模擬器支持多任務的現實世界導航和物體互動。對于這個任務中的導航,盡管有傳統的ObjectNav和PointNav,你可以利用的環境完成簡單到復雜的視覺語言導航,并有不同難度的指示,以及交流導航,機器人智能體可以在導航中尋求幫助。

?視覺語言操作(Vision Language Manipulation):抓取是指機器人使用機械臂抓取物體并將其從一個原始位置移動到目標位置的動作。盡管機器人學習算法在現有的挑戰上取得了很大的突破和改進,但仍有許多問題亟待解決。這項任務要求機器人按照視覺和語言的場景描述來抓取一個物體。雖然Saycan和RT-1在以前的研究中被用來實現使用Deep-RL算法的抓取,但這項任務更側重于在現實環境中抓取薄、大、平、軟的物體,避免碰撞,以及多任務抓取。參賽者需要根據大語言模型提供的指令,解決在不同場景下抓取不同物體的問題。具體抓取物品的技能需要參賽者基于提供的環境和工具接口,通過強化學習等方式進行訓練。

1.2 評估

參賽隊必須將LLMs納入其機器人系統,以促進自然語言的理解和互動。比賽將根據以下標準來評估機器人系統的性能:

  • 任務完成的準確性和效率:參賽者將被評估任務完成的準確性和效率,包括物體操作、導航到準確位置的精度,執行推理速度,訂單執行和人機互動。機器人必須準確、高效地完成任務,才能獲得分數。

  • 人與機器人的互動:參賽者將被評估其機器人與顧客和工作人員互動的自然度和友好度。機器人必須以自然和友好的方式進行交流,以獲得積分。

  • 時間限制:參賽者將有規定的時間來完成任務,在規定時間內得分最高的團隊將被宣布為獲勝者。

1.3 更多細節

需要這些團隊在仿真咖啡廳場景中展開一場競技,參賽者們**不僅要 “教” 服務機器人學會如何充當咖啡廳服務員的角色,還要應對顧客、老板等角色的多輪對話“考驗”,**最終自主去執行完成一系列復雜任務。

人類充當服務員在咖啡店制作一杯咖啡,并將咖啡端到指定客戶的桌上或許并非難事。但是如果換成機器人,其復雜度不言而喻。這不僅僅面對硬件和環境的考驗,還對于軟件和算法提出了更大的挑戰。

顯著的技術融合性

為了實現高還原度,達闥首先在**仿真環境中構建了一個機器人元宇宙的數字孿生場景,**該虛擬場景是基于實際咖啡廳一致的各類數據產生,通過采集融合了幾百個咖啡廳模型的各種常見物品,不僅僅還原了例如咖啡機、桌椅、飲品、蛋糕等環境中的各類物品、商品,同時還原了咖啡廳的實際布置燈光、清潔衛生用的工具等。一般團隊很難有這個資金和精力。

值得注意的是,發現,該模擬環境中,甚至還考慮到了實際環境中物品的紋理和物理屬性等問題,**杯子重量不同、落地會打碎,物品接觸有摩擦力,**可以說基本做到了最終 100% 的還原。

通過提供龐大且還原度較高的數據集,基于這個數字孿生的場景,機器人開發平臺可以僅通過算力,就輕易且低成本在虛擬仿真中像在真實場景一樣進行各種各樣的訓練這也使得國內人工智能和智能大模型科研團隊,能很快嘗試在人形機器人上實現各類技術的結合落地。除了數字孿生環境,為了讓機器人與環境進行交互的能力進一步提升,機器人硬件作為軟件和算法的執行層,其設計和能力也至關重要。 由于該機器人智能體需要與外界實現實時交互,這首先需要機器人對于環境實現感知,包括了聽覺、視覺和觸覺等方面。

例如人到了咖啡廳,機器人不僅需要領位,由于環境的還原度非常高,機器人制作咖啡的任務中,還需要再次細分,例如如何找到咖啡機的按鈕,確定咖啡機的按鈕和用途等。同時,在該任務中,選擇咖啡、制作咖啡、運送咖啡等也都是難點。這意味著**如何通過大模型,實現對于實際環境任務的理解和分析并執行。**例如顧客對機器人說想要喝 XX 咖啡,這種任務可能就有所區別,首先需要依靠交流中大模型的分析,準確定義需求,并實現環境中的運動和操作能力。

多任務本質上就升級到了更高層的認知層面,需要機器人語言和視覺為主的大模型,**能在環境中實現感知、認知,并根據各種請求進行處理,**這就還涉及人工智能的算法,從而才能讓機器人精準實現各種各樣的操作。

大模型帶來的變革

大模型對于實際場景的價值仍然處于發掘期,本次大賽中,大模型對于機器人技術的實際提升無疑是一個很大的亮點。本次比賽著重體現了大模型技術應用思維鏈(CoT)能力的價值該能力主要體現在機器人接到任務后,對于任務的分解,從而基于思維推理形成思路鏈,該方式相較原先的固定化編程和深度學習,機器人可以借助大語言模型,實現自然語言到機器語言的理解、轉化,最終完成兩者的對齊,從而自主化執行任務。這也意味著,機器人和大模型深度結合后,在未來如果進一步實現了零樣本學習 (zero-shot), 依托這兩項技術,機器人也可以借助大模型實現關節運動控制,從而無需對機器人身體部位、動作的軌跡進行編程,真正做到零代碼編程。

在這個比賽流程中,就看到了**智能服務機器人在語音、視覺、導航、操作等方面的落地可能性。**機器人進入陌生場景,首先會進行環境的主動探索與記憶,感知、判斷不同物體和屬性,實現記憶數據記錄和調取。在此基礎上,隨后機器人開始在咖啡廳場景里與人進行交流對話,拆解任務信息。在執行層面,機器人需要借助視覺語言模型,拆分指令并實現具體動作,例如人說想喝水,機器人就需要拿取水杯、用水壺去倒水,并把水送給客人。

新任務新挑戰

在該研究中,非常有意思的是達闥機器人還設計了兩個具有挑戰性的賽題,在對話人員中加入了 “店長” 這一角色。 機器人除了需要作為服務員響應相關顧客的消費需求,還需要與店長 “對接” 工作,實現人機協同。

在店長與機器人的交互中,又衍生出了更加復雜的任務,機器人需要完成 “領導交辦的其他任務”。

“例如店長說好像地面不干凈了,機器人就要理解這話什么意思,判斷意思是我可能還要去再清潔一下衛生。” 類似的機器人觸發式任務,非常考驗機器人環境職責定義和自主動作選擇, 需要最終機器人能夠像是真正的咖啡廳服務人員,具備各種各樣的附加能力,做到類似 “陰天開燈”、“水灑擦桌子” 等隨機性事件的自主化觀察和處理,為真正落地應用部署打下基礎。

2. 項目安裝(必看)

  • 技術簡介:提出基于大模型和行為樹的生成式具身智能體系統框架
    1. 行為樹是系統的中樞,作為大模型和具身智能之間的橋梁,解決兩者結合的挑戰

    2. 大語言模型是系統的大腦。一方面,設計了向量數據庫和工具調用,另一方面,在實現智能體規劃上,不再需要大語言模型輸出完整的動作序列,而僅僅給出一個任務目標,這大大緩解了大模型的具身幻覺現象。

    3. 而具身機器人是系統的軀體,在條件節點感知和動作節點控制的函數中,優化了接口調用和算法設計,提高感知高效性和控制準確性

2.1 環境要求

Python=3.10

2.2 安裝步驟

git clone https://github.com/HPCL-EI/RoboWaiter.git
cd RoboWaiter
pip install -e .

以上步驟將完成robowaiter項目以及相關依賴庫的安裝

2.3 安裝UI

  1. 安裝 graphviz-9.0.0 (詳見官網)

  2. 將軟件安裝目錄的bin文件添加到系統環境中。如電腦是 Windows 系統,Graphviz 安裝在 D:\Program Files (x86)\Graphviz2.38,該目錄下有bin文件,將該路徑添加到電腦系統環境變量 path 中,即 D:\Program Files (x86)\Graphviz2.38\bin。如果不行,則需要重啟。

  3. 安裝向量數據庫
    conda install -c conda-forge faiss

  4. 安裝自然語言處理和翻譯工具,用于計算相似性

    pip install translate
    pip install spacy 
    python -m spacy download zh_core_web_lg
    

    zh_core_web_lg 如果下載較慢,可以直接通過分享的網盤鏈接下載

    鏈接:https://pan.baidu.com/s/1vr7dqHsgnh6UChymQc26VA
    提取碼:1201
    –來自百度網盤超級會員V7的分享

    pip install zh_core_web_lg-3.7.0-py3-none-any.whl
    

2.4 快速入門

  1. 安裝 UE 及 Harix 插件,打開默認項目并運行

  2. 不使用 UI 界面 :運行 tasks_no_ui 文件夾下的任意場景即可實現機器人控制端與仿真器的交互

  3. 使用 UI 界面:運行 run_ui.py ,顯示下面的界面。點擊左側的按鈕,機器人就會執行相應的任務。也可以在右上方直接輸出目標狀態或者對話和機器人直接交互。

3. 代碼框架介紹

代碼庫被組織成幾個模塊,每個模塊負責系統功能的一部分:

  • behavior_lib: behavior_lib 是行為樹節點庫類,包括行為樹的動作節點和條件節點。它們分別存放在 actcond 文件夾下。
  • behavior_tree: behavior_tree 是行為樹算法類,包括 ptml 編譯器、最優行為樹逆向擴展算法等。
  • robot: robot 是機器人類,包括從 ptml加載行為樹的方法,以及執行行為樹的方法等。
  • llm_client: llm_client 是大模型類,主要實現了大模型的數據集構建、數據處理工具、大模型調用接口、大模型評測、工具調用、工具注冊、向量數據庫、單論對話、對輪對話等方法或接口。

? 調用大模型接口。運行llm_client.py文件調用大模型進行多輪對話。輸入字符即可等待回答/

cd robowaiter/llm_client
python multi_rounds.py
  • scene: scene 是場景基類,該類實現了一些通用的場景操作接口,實現了與 UE 和咖啡廳仿真場景的通信。其中,包括了官方已經封裝好的各種接口,如場景初始化、行人控制、操作動畫設置、物品設置、機器人 IK 接口等。task_map 返回的任務場景都繼承于 Scene。此外,在 scene/ui 中,實現了 UI 的界面設計和接口封裝。
  • utils: utils為其它工具類,比如繪制行為樹并輸出為圖片文件。
  • algos: algos 是其它算法類,包括MemGPT、導航算法 (navigator)、邊界探索 (explore)、視覺算法 (vision)、向量數據庫 (retrieval) 等。
  • tasks: tasks 文件夾中存放的場景定義及運行代碼。
縮寫任務
AEM主動探索和記憶
GQA具身多輪對話
VLN視覺語言導航
VLM視覺語言操作
OT復雜開放任務
AT自主任務
CafeDailyOperations整體展示:咖啡廳的一天
Interact命令行自由交互

4. 效果展示

機器人根據顧客的點單,完成訂單并送餐

顧客詢問物品位置,并要求機器人送回

下載資料

https://download.csdn.net/download/sinat_39620217/88860251

更多優質內容請關注公號:汀丶人工智能;會提供一些相關的資源和優質文章,免費獲取閱讀。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/713963.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/713963.shtml
英文地址,請注明出處:http://en.pswp.cn/news/713963.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

常用備注(記錄中...)

文章目錄 docker測試網絡可達性檢查端口是否開放PgSql docker docker logout IP地址:端口號 docker login IP地址:端口號橋接模式bridge啟動容器 docker run -d -p 外部端口號:內部端口號(配置文件中的端口號) --name 容器名稱 -v /data/docker/conf/application.yml:/app/con…

javaWebssh在線授課輔導系統myeclipse開發mysql數據庫MVC模式java編程計算機網頁設計

一、源碼特點 java ssh在線授課輔導系統是一套完善的web設計系統(系統采用ssh框架進行設計開發),對理解JSP java編程開發語言有幫助,系統具有完整的源代碼和數據庫,系統主要采用 B/S模式開發。開發環境為TOMCAT7.…

4.Java---方法+重載

方法 方法的調用是需要開辟內存的,方法調用結束內存就被銷毀了. 下面將介紹一個經典的錯誤標準的0分的示意! 我們日常中寫交換兩個數字的代碼的時候都會用如下的方法進行描述: 你是不是覺得自己寫的特別對!終于可以獨立寫一個小小的函數了? 下面運行一下看看結果 哦莫!怎么…

autoware.universe中所有的多傳感器融合代碼解讀,一看就懂!

目錄 融合的前提條件case1:vision_roi與cluster融合融合過程case2:vision_roi與centerPoint融合融合過程小結:case3:vision_roi與pointcloud融合融合過程總結融合的前提條件 計算視覺ROI話題的時刻T1(時間戳獲得) 計算激光雷達話題的時刻T2,并將T2加上設定的偏差時間間隔in…

C# DataTable 對象操作

實現DataTable按字段進行分類、按列數據匯總、序列化對象數組、所有字段轉小寫、動態對象數組、數據分頁 分類DataTableClassfiy實體&#xff1a; /// <summary>/// 單個分類表/// </summary>public class DataTableClassfiy{/// <summary>/// 分類名稱/// &…

springboot第61集:Jenkins-Boss萬字挑戰,一文讓你走出微服務迷霧架構周刊

名詞 CONTAINER ID&#xff08;容器ID&#xff09; 名詞 IMAGE ID&#xff08;鏡像ID&#xff09;cat /etc/os-release //查看系統信息 pwd //查看當前路徑 ls //查看當前目錄文件 docker -v //查看docker版本 docker-compose up -d //在后臺運行&#xff08;取消-d是在控制臺運…

linux系統Jenkins工具添加自由項目和maven項目

Jenkins添加自由項目 添加自由項目操作流程代碼遠程代碼郵件標題郵件正文 添加maven項目準備環境操作流程 添加自由項目 gitlab配置基本代碼頁面等&#xff0c;拉取代碼&#xff0c;打包&#xff0c;發布操作流程 代碼 遠程代碼 echo ssh root192.168.188.177 "tar cz…

EasyExcel 自適應列寬、隱藏列、動態列、單元格下拉框選擇數據、單元格文本格式

前言 項目中用到EasyExcel讀寫Excel&#xff0c;用到了一下功能&#xff0c;這里做個筆記&#xff1a; 列寬自適應&#xff1a;自適應寬度隱藏列&#xff1a;隱藏某些列動態列&#xff1a;固定列 動態的生成Excel列單元格下拉框選擇數據&#xff1a;設計單元格下拉數據&…

深搜,LeetCode 2368. 受限條件下可到達節點的數目

一、題目 1、題目描述 現有一棵由 n 個節點組成的無向樹&#xff0c;節點編號從 0 到 n - 1 &#xff0c;共有 n - 1 條邊。 給你一個二維整數數組 edges &#xff0c;長度為 n - 1 &#xff0c;其中 edges[i] [ai, bi] 表示樹中節點 ai 和 bi 之間存在一條邊。另給你一個整數…

WPF的DataGrid設置標題頭

要設置DataGrid標題頭的分割線、背景色和前景色等屬性&#xff0c;您可以使用DataGrid的樣式和模板來自定義標題頭的外觀。下面是詳細解釋以及示例代碼&#xff1a; 分割線設置&#xff1a; 您可以使用DataGrid.ColumnHeaderStyle樣式中的BorderThickness和BorderBrush屬性來設…

Java基礎-java開發入門

(創作不易&#xff0c;感謝有你&#xff0c;你的支持&#xff0c;就是我前行的最大動力&#xff0c;如果看完對你有幫助&#xff0c;請留下您的足跡&#xff09; 目錄 一、什么是Java 二、Java語言的特點 三、什么是JDK 四、第一個Java程序 一、什么是Java Java是由Sun …

electron nsis 安裝包 window下任務欄無法正常固定與取消固定

問題 win10系統下&#xff0c;程序任務欄在固定后取消固定&#xff0c;展示的程序內容異常。 排查 1.通過論壇查詢&#xff0c;應該是與app的api setAppUserModelId 相關 https://github.com/electron/electron/issues/3303 2.electron-builder腳本 electron-builder…

二月打戲最燃的國漫推薦,斗羅大陸2上榜,吞噬星空堪稱第一

2024年開年&#xff0c;國漫就給我們帶來了很大的驚喜&#xff0c;在剛剛過去的2月&#xff0c;有幾部中出現了超燃的打戲&#xff0c;看得人熱血沸騰。尤其是科幻番《吞噬星空》中的一場1V1對決&#xff0c;特效和設計都堪稱第一。還有哪些國漫上榜呢&#xff1f;下面就一起來…

TCP為什么要三次握手?

TCP三次握手協議是為了在不可靠的互聯網環境中可靠地建立起一個連接&#xff0c;三次握手可以確保兩端的發送和接收能力都是正常的。 那么&#xff0c;為什么是三次而不是二次或四次握手呢&#xff1f; 為什么不是二次握手&#xff1f; 如果是二次握手&#xff0c;即客戶端發…

網絡編程 io_uring

io_uring 1、概述 io_uring是Linux&#xff08;內核版本在5.1以后&#xff09;在2019年加入到內核中的一種新型的異步I/O模型&#xff1b; io_uring使用共享內存&#xff0c;解決高IOPS場景中的用戶態和內核態的切換過程&#xff0c;減少系統調用&#xff1b;用戶可以直接向…

vue + cesium初始化地圖 + 鼠標經過地圖(點、線等其他實體)樣式

vue cesium初始化地圖 鼠標經過地圖&#xff08;點、線等其他實體&#xff09;樣式 export function initMap(mapViewer) {Cesium.Ion.defaultAccessToken "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJqdGkiOiI0OTUzOGJhMy1iNzVjLTQwZjItYWYyNy03YjA4MjM0YWE2MWMiLCJpZ…

Unity(第二十二部)官方的反向動力學一般使用商城的IK插件,這個用的不多

反向動力學&#xff08;Inverse Kinematic&#xff0c;簡稱IK&#xff09;是一種通過子節點帶動父節點運動的方法。 正向動力學 在骨骼動畫中&#xff0c;大多數動畫是通過將骨架中的關節角度旋轉到預定值來生成的&#xff0c;子關節的位置根據父關節的旋轉而改變&#xff0c;這…

編寫腳本一鍵安裝rsyslog

腳本分解 環境檢測部分 檢查操作系統 #!/bin/bash# 檢查是否為 Debian 類型 if [ -f /etc/debian_version ]; thenecho "當前操作系統是 Debian 類型"SYSLOG_SERVICE"rsyslog"INSTALL_COMMAND"apt-get install -y"CONFIG_FILE"/etc/rsys…

Vmware esxi虛擬主機狀態無效,無法注銷重啟等操作修復解決

問題 裝有ESXI系統的服務器在強制關機啟動后&#xff0c;顯示虛擬機狀態是無效的&#xff0c;并且無法進行任何操作。 解決辦法 對出問題的虛擬機重新注冊 1、開啟esxi系統的ssh功能 2、取消注冊出問題的虛擬機 找到問題的虛擬機 [rootlocalhost:~] vim-cmd vmsvc/getal…

燒腦問題解決辦法:如何選擇一款合適自己的手機流量卡

現在社會人們越來越離不開手機了&#xff0c;手機給我們生活帶來了翻天覆地的變化&#xff0c;手機需要最多的就是流量了&#xff0c;所以選擇一款合適自己的手機流量卡就顯得尤為重要了&#xff0c;今天小編就給大家來分享一下我的經驗&#xff0c;希望對大家能有幫助&#xf…