具身智能計算系統,機器人時代的 Android | 新程序員

圖片

【導讀】具身智能作為一種新興的研究視角和方法論,正在刷新我們對智能本質及其發展的理解:傳統的 AI 模型往往將智能視為一種獨立于實體存在的抽象能力,而具身智能則主張智能是實體與其環境持續互動的結果。

本文深度剖析了具身智能計算系統在當今社會經濟轉型中的核心角色,圍繞自主經濟的內涵、具身智能的理念及其計算系統的挑戰與發展進行了深入闡述,展現了具身智能如何通過提升機器人對物理世界的感知、理解和決策能力,進而重塑未來的經濟結構和社會生活。

本文精選自《新程序員?007:大模型時代的開發者》,《新程序員 007》聚焦開發者成長,其間既有圖靈獎得主 Joseph Sifakis、前 OpenAI 科學家 Joel Lehman 等高瞻遠矚,又有對于開發者們至關重要的成長路徑、工程實踐及趟坑經驗等,歡迎大家點擊訂閱年卡。

作者 | 俞波 夏軒 劉少山

責編 |?王啟隆

出品 | 《新程序員》編輯部

圖片

圖片

圖片

大模型時代的社會正逐步實現從數字經濟向自主經濟的轉型,而這種轉型的核心驅動力來自機器人計算技術;其中,具身智能計算系統代表了機器人計算技術的重要前沿方向。正如 Android 為各種手機設備提供了一個統一而開放的操作系統,使得開發者創造出無數應用和功能,具身智能計算系統也為機器人計算技術打開了同樣廣闊的可能性。

具身智能計算系統的內核為不同形態的機器人提供了感知、認知和行動的基礎能力,還允許開發者在此基礎上構建更加復雜和多樣化的機器人應用。通過這樣的系統,機器人能夠更好地理解和互動于其所處的物理世界中,從而實現更加自然和高效的服務與協作。總而言之,具身智能計算系統的內核驅動了多樣化機器人應用生態的發展,而具身智能計算應用生態進一步促進了自主經濟的爆發。

圖片

自主經濟是什么

自主經濟(the Autonomy Economy)標志著社會轉型的新階段,主要由各式機器人(比如自動駕駛汽車、配送機器人和無人機)與商品及服務的融合驅動。這場經濟變革的核心在于機器人計算?(Autonomous Machine Computing),即為這些多樣化機器人提供支持的關鍵計算技術[1]。

自主機器的出現預示著數字經濟模式的演變[2]。這些機器最開始只用于簡單的機器人技術和工業應用,現在卻已經深入我們的日常生活,宣告著自主經濟時代的到來。舉例來說,中國的一些酒店已經投入使用送餐機器人,將所需物品送至住客的房間。而在訂購食品和生活用品送達上,某些城市已經出現了機器人將餐食或商品直接送至用戶家門口的景象。在家庭環境中,機器人吸塵器更是成了家庭常備電器。

圖片

AIGC 生成圖片

在過去幾十年中,數字經濟極大促進了經濟增長。以 2005 年至 2010 年為例,互聯網經濟對成熟經濟體 GDP 增長的貢獻達到 21%,并在 2019 年為美國經濟貢獻了 2.1 萬億美元。相較于數字經濟,自主經濟預計將帶來更深遠的影響。例如,自動駕駛技術的普及預計將重塑價值 1.9 萬億美元的美國運輸行業,顯示出機器人計算將在各行各業引發革命性的變化。

為了賦能自主經濟的大爆發,當前我們的重要工作在于設計并實現先進的具身智能計算系統,為不同形態的機器人提供腦力,類似于移動互聯網時代 Android 系統對多種移動設備的賦能。正如智能手機時代?Android 系統重塑市場軟件生態一樣,對具身智能機器人軟硬件系統的研究與開發,將引領機器人領域的重大變革,也將為機器人時代開啟新的篇章。

圖片

具身智能是什么?

具身智能(Embodied AI)是一種全新的人工智能理念,它區別于傳統人工智能的觀念,主張智能的產生不僅依賴算法和算力,還需要通過與實際世界的互動來實現。這意味著,智能體(例如機器人)需要具備感知環境、執行物理操作和與環境互動的能力,以便更全面地理解和掌握世界知識。

同樣的一套具身智能系統可以賦能不同的機器人形態,使它們能夠直接與周圍環境互動和感知的智能形式。這種智能不僅涉及到算法和數據處理,還包括對物理世界的理解和操作。具身智能計算系統的技術挑戰主要包括如何使機器人能夠準確地感知環境、理解復雜的人類指令以及在多變的環境中自主作出決策和執行任務。此外,如何優化機器人的能量效率、處理速度和安全性也是重要的技術挑戰。

具身智能研究跨越了機器人學、人工智能、認知科學及神經科學等多個學科,旨在深化對智能本質的理解。具身智能的挑戰在于如何構建高度適應性的感知和決策系統,使機器人能夠準確理解和預測物理世界的復雜動態,并確保機器人能以自然有效的方式與人類及其他智能體交互。解決這些挑戰有望將智能機器人應用推向家庭、工業、醫療和探索等多個領域,促進人機交互的自然化和任務執行的效率化。

圖片

歷史啟示——良性循環以及生態的重要性

機器人計算成為自主經濟轉型的關鍵,繼個人計算與移動計算之后,它成為了機器人時代不可或缺的技術核心[3, 4]。機器人計算支撐著從智能汽車、自主無人機、配送機器人、家用服務機器人到農業、工業機器人等多種形態的機器人,甚至包括我們還未能想象到的機器人類型。它涵蓋了傳感技術、計算技術、通信技術、自主控制算法、可靠性和安全性等多個技術領域,至今仍在持續發展與演化中。

歷史上的先例明確展示了機器人計算對自主經濟發展的重要性。例如,個人計算和移動計算領域的市場規模及其對應的計算系統市場之間的相關性,展示了移動系統市場 351 億美元的價值與移動計算生態系統 8000 億美元市場規模之間、個人計算系統 550 億美元的市場價值與其生態系統 9000 億美元價值之間的顯著差異(參見圖 1)。這表明,隨著計算時代的演進,計算系統行業在培育出其市場規模 15 到 25 倍的生態系統方面扮演著至關重要的角色

圖片

圖 1?計算技術及其生態系統的良性循環

這些洞察力揭示了半導體行業作為現代經濟基石的事實。隨著機器人計算等新興領域的發展,計算系統行業推動了技術創新和關鍵技術的發展,這些技術進步又反過來促進了新興領域的成長,形成了一個相互增強的發展循環。這一良性循環突顯了計算系統行業在推動未來經濟關鍵行業增長中的核心作用,尤其是在新興的自主經濟中。

圖片

算力分配決定生態規模

圖片

圖 2?移動計算生態系統的發展

如圖 2 所示,在生態系統增長中,算力分配扮演了決定性角色,特別是在移動計算行業的演變中尤為明顯。21 世紀初期,以功能手機為主流的移動電話雖廣泛普及,但功能受限,90% 的計算力被用于執行編解碼等基礎通訊任務。應用程序可用的計算力不足 10%,這極大限制了應用多樣性,使得移動計算生態系統的市場規模僅約 100 億美元。?

智能手機的興起改變了這一格局,激發了市場對更高計算能力的需求,以適應和支持日益增多且復雜度不斷提升的移動應用。這種需求催生了從基礎的單芯片系統到復雜的片上系統(SoC)的進化,這些系統集成了多核心 CPU、移動 GPU、移動 DSP 以及先進的電源管理系統。技術的這一飛躍使得高達 90% 的計算能力能夠支持 YouTube、WhatsApp、Uber 等應用,將移動計算生態系統的市場規模擴張至現今的 8,000 億美元。這一發展軌跡凸顯了計算系統技術進步的革命性影響。通過支持更多樣化的應用,這些技術不僅增強了現有市場,還開辟了新的生態系統,使得市場規模達到了計算系統行業價值的多倍。

圖片

具身智能計算系統

圖片

圖 3?具身智能計算系統

目前,家庭掃地機器人、服務機器人和無人駕駛車輛的計算系統,通過環境感知、自身定位和建圖、決策、路徑規劃和控制軟件已實現了自主移動等功能。圖 3 展示了一種具身機器人系統,其與傳統機器人計算類似,也需要地圖、決策控制、導航和運動控制等模塊。

那么,相比于傳統的機器人計算系統,具身智能計算系統的核心不同之處是什么,它為什么可以直接接收人類的文字指令表示的任務,并在不需要提前為任務編程的情況下進行靈活和自主的決策?我們認為,構建具身智能計算的關鍵在于打造能夠融合多模態信息的世界模型,以及能夠承載此類多模態模型與具身軟件的實時高效的計算系統。?

  • 多模態的世界模型:世界模型是賦能具身智能的最關鍵軟件。

    按照 M. Mitchell 等人在《科學》雜志的表述[5],世界模型“構建針對物理世界和社會世界的抽象模型,并反映事件發生的原因而非僅僅是事件之間的相關性”。借助世界模型,機器人將能夠理解物理世界和人類社會的運行機制,并據此產生自主、靈活、可信、有益的決策。

    DeepMind 的 RT 系列模型[6]是構建世界模型的一次初步嘗試:通過多模態大模型處理自然語言和視覺圖像,機器人能夠將命令中的信息與物理世界的物體關聯,還能命令拆分成多個子任務,并逐個執行。?

  • 實時高效的計算系統:在一定成本范圍內,能夠高效、實時地完成傳感、計算和控制任務的計算系統是具身智能機器人大規模應用的關鍵。

    相比于傳統機器人計算系統,多模態大模型等軟件對計算平臺的算力、存儲和通信的需求成倍增加,具身智能計算平臺的設計充滿挑戰。目前具身機器人研究中常用的計算架構是在云端或邊緣服務器端運行多模態大模型,在機器人端運行傳感和控制執行等任務。這類方案仍處于實驗室演示階段,仍需要大量的系統方面的研究和優化,才能實現規模化的部署。

圖片

智能體:具身智能計算的應用

在具身智能計算系統的基礎上,多模態大模型支持的智能體智能(Agent AI)是具身智能應用生態的關鍵技術[7]。?這些具身智能 APP 將成為我們日常生活中無處不在的存在。

具身智能計算系統利用現有的基礎模型(Foundation Model)作為創建 APP 的基本構件。將 APP 嵌入到具身智能計算系統中有助于提高機器人本體處理、理解世界信息,以及與世界互動的能力。例如,一個能夠感知用戶行為、人類行為、環境物體、音頻表達和場景的集體情緒的 APP,可賦能機器人本體作為人類的陪伴機器人。如果說工具是人類智能的延申,那么智能體就是人工智能的延申。而人工智能本身就是人類的工具,因此智能體智能的發展將為人類提供有史以來最強大的智能工具。

為了推進具身智能 APP 的研究與應用,我們在智能體的智能方向開展了多項研究,成功開發了三類智能體(框架)。這些智能體將為機器人提供更強大的感知、學習、決策和行動能力,推動機器人技術與行業需求的深度融合。

  • 規劃智能體 AIRS-Bot(見圖 4)。借助多模態大模型能力,該智能體可以與人類進行自然語言交互、通過圖像感知環境、基于文字生成圖像、以及以用戶定制的語音進行交互。該智能體能夠通過系統 prompt 扮演任意角色,并支持多種形式的 API 調用,可以為機器人提供行為規劃與決策能力,滿足機器人具身智能的功能實現。?

圖片

圖 4?規劃智能體 AIRS-Bot 為機器人提供行為規劃

  • 編程智能體 AIRS-Coder(見圖 5)。該智能體的能力包括診斷錯誤,優化代碼,提供詳細的編程概念解釋,并提供各種編程語言和技術的步驟指導。該智能體在 7B 大小的大模型基礎上,在 HumanEval 指標上 pass@1 性能達到 43.4%,超過了 CodeLlama-Python-13B 的 43.3%,用更少的參數獲得了更好的性能。該智能體可以為機器人提供自主編程能力,滿足機器人的自主復雜操作技能需求。?

圖片

圖 5 編程智能體 AIRS-Coder 可以為機器人提供自主編程能力

  • 群智智能體框架 AIRS-Agents(見圖 6)。該智能體框架支持定義多個不同類型的機器人智能體以及它們的規劃智能體,將它們構成智能體集群并進行統一的調度規劃。不同智能體可以調用不同軟件 APP 處理各自領域內的問題,也可以編程并在沙盒中執行代碼。該智能體可以為機器人集群提供群體智能,實現大范圍的機器人具身智能。?

圖片

圖?6 群智智能體框架 AIRS-Agents 可以為機器人機器人集群提供群體智能

智能體是具身智能 APP 的實例,其出現和發展開啟了從人工操作軟件 APP 到智能體自行調用軟件 APP 的時代,并在這一過程中推動了具身智能的進程。隨著技術進步,我們相信會有更多的智能體構成龐大的具身智能 APP 群,進一步引發智能體調用軟件 APP 到機器人調用具身智能 APP 的范式轉變

圖片

結論

具身智能被視為人工智能賦能于機器人的重要技術,可以將機器人從傳統的預編程模式解放出來,賦予機器人更強的自主性和適應能力。具身智能的計算和應用將推動機器人技術與生產制造、服務和醫療康復等行業的深度融合,成為經濟和社會發展的重要推動因素。我們將具身智能計算系統類比為智能機器人領域的 Android 系統,在底層實時計算平臺、世界大模型的基礎上,延伸出諸多基于機器人的應用。具身智能技術剛剛興起,在具身軟件與應用、多模態世界模型、實時計算系統等方面面臨著挑戰。這些領域也將是學術和產業界研究的熱點。

參考文獻

[1] S. Liu, "The Role of Autonomous Machine Computing in Shaping the Autonomy Economy.", Communications of the ACM, https://cacm.acm.org/blogs/blog-cacm/279636-the-role-of-autonomous-machine-computing-in-shaping-the-autonomy-economy/fulltext

[2] S. Liu, "The Transition to the Autonomy Economy and China-US Tech Competition", the Diplomat, 2023.

[3] S. Liu, J.L., Gaudiot,"Rise of the autonomous machines." Computer, 55(1), pp.64-73, 2022.

[4] 劉少山,甘一鳴,韓銀和,"機器人計算正在崛起:中國美國實力全面對比", 知識分子, 2024.

[5] M. Mitchell, "AI's challenge of understanding the world". Science 382, eadm8175, 2023. DOI:10.1126/science.adm8175.

[6] A. Brohan, et al., "Rt-2: Vision-language-action models transfer web knowledge to robotic control." arXiv preprint arXiv:2307.15818, 2023.

[7] Z. Durante, et al., "Agent ai: Surveying the horizons of multimodal interaction." arXiv preprint arXiv:2401.03568, 2024.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718644.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718644.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718644.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【CSS】初學了解Grid布局

目錄 什么是Grid布局如何開始使用Grid布局Grid容器的屬性Grid項目的屬性舉個例子 什么是Grid布局 Grid布局是一種二維的布局系統,它允許我們在水平和垂直方向上同時控制網格中的項目位置。通過將頁面劃分為行和列,我們可以輕松地創建出復雜的布局結構&a…

程序員如何選擇職業賽道?

一、自我評估與興趣探索 程序員選擇職業賽道時,可以考慮以下幾個關鍵因素: 1、興趣與熱情:首先要考慮自己的興趣和熱情,選擇符合個人喜好和激情的領域,能夠激勵自己持續學習和進步。 2、技術能力&am…

2.python72變筆記(自用未修改版)

以前寫的python筆記 1.二進制與字符編碼 #8bit(位)1byte(字節) #1024byte 1KB 千字節 #1024KB 1MB 兆字節 #1024MB 1TB 太字節 print(chr(0b100111001010000)) print(ord("陳")) #ord 十進制 #無論英語還是漢語在計算…

mysql5.7配置主從

原理: MySQL主從復制的工作原理如下:1. 主服務器產生Binlog日志當主服務器的數據庫發生數據修改操作時,如INSERT、UPDATE、DELETE語句執行,主服務器會記錄這些操作的日志信息到二進制日志文件中。2. 從服務器讀取Binlog日志 從服務器會向主服務器發送請求,主服務器把…

微信小程序開發學習筆記《18》uni-app框架-網絡請求與輪播圖

微信小程序開發學習筆記《18》uni-app框架-網絡請求 博主正在學習微信小程序開發,希望記錄自己學習過程同時與廣大網友共同學習討論。建議仔細閱讀uni-app對應官方文檔 一、下載網絡請求包 這個包是以前黑馬程序員老師寫的一個包,跟著課程學習&#x…

Open3D(C++) 指定點數的體素濾波

目錄 一、算法原理1、算法過程2、參考文獻二、代碼實現三、結果展示本文由CSDN點云俠原創,原文鏈接。如果你不是在點云俠的博客中看到該文章,那么此處便是不要臉的爬蟲與GPT。 一、算法原理 1、算法過程 對于數據量較大的點云,在后期進行配準時會影響計算效率。而體素格網…

vue3ts websocket通信

前端&#xff1a;vue3ts 后端&#xff1a;springboot npm安裝依賴 cnpm install sockjs-client stompjs 前端代碼 <template><div><el-input v-model"message" type"text" placeholder"發送" /><el-button-group><…

LCR 170. 交易逆序對的總數

解題思路&#xff1a; 歸并排序&#xff0c;在歸并的過程中不斷計算逆序對的個數 count mid -i 1&#xff1b;的來源見下圖&#xff0c;因為兩個數組都是單調遞增的&#xff0c;所以如果第一個數組的前一個元素大于第二個數組的對應元素&#xff0c;那么第一個數組的這一元素…

借助Aspose.SVG圖像控件,在 C# 中將圖像轉換為 Base64

Base64 編碼是一種二進制到文本的編碼方案&#xff0c;可有效地將二進制數據轉換為 ASCII 字符&#xff0c;為數據交換提供通用格式。在某些情況下&#xff0c;我們可能需要將JPG或PNG圖像轉換為 Base64 字符串數據。在這篇博文中&#xff0c;我們將學習如何在 C# 中將圖像轉換…

分享經典、現代和前沿軟件工程課程

隨著信息技術的發展&#xff0c;軟件已經深入到人類社會生產和生活的各個方面。軟件工程是將工程化的方法運用到軟件的開發、運行和維護之中&#xff0c;以達到提高軟件質量&#xff0c;降低開發成本的目的。軟件工程已經成為當今最活躍、最熱門的學科之一。 本次軟件工程MOOC課…

模板06-普通函數與函數模板調用規則

1、如果函數模板和普通函數都可以實現&#xff0c;優先調用普通函數 2、可以通過空模板參數列表來強調調用函數模板 3、函數模板也可以發生重載 4、如果函數模板可以發生更好的匹配&#xff0c;優先調用函數模板 #include <iostream> using namespace std;int my_add …

混合云技術架構是什么樣的

混合云技術架構是什么樣的&#xff1f;混合云技術架構是一種將公有云和私有云相結合的云計算架構。它允許組織在私有云和公有云之間靈活地共享和遷移應用程序、數據和服務。 混合云技術架構的設計可以根據組織的需求和業務要求進行定制&#xff0c;通常包括以下組件&#xff1…

現在如何才能開通微信公眾號留言功能?

為什么公眾號沒有留言功能&#xff1f;2018年2月12日之后直到現在&#xff0c;新注冊公眾號的運營者會發現一個問題&#xff1a;無論是個人還是企業的公眾號&#xff0c;在后臺都找不到留言功能了。這對公眾號來說絕對是一個極差的體驗&#xff0c;少了一個這么重要的功能&…

萬村樂數字鄉村系統開源代碼:革命性引領,助推鄉村振興新篇章

如今&#xff0c;國際社會普遍認為信息化、數字化已是重大且不可逆轉的發展趨勢&#xff0c;如何讓廣大農村地區充分分享到這個發展帶來的紅利&#xff0c;從而提升農村的經濟活力&#xff0c;確保村民生活質量不斷優化&#xff0c;已然成為我們需要認真研究并積極解決的重大議…

Window下編寫的sh文件在Linux/Docker中無法使用

Window下編寫的sh文件在Linux/Docker中無法使用 一、sh文件目的1.1 初始狀態1.2 目的 二、過程與異常2.1 首先獲取標準ubuntu20.04 - 正常2.2 啟動ubuntu20.04容器 - 正常2.3 執行windows下寫的preInstall文件 - 報錯 三、檢查和處理3.1 評估異常3.2 處理異常3.3 調整后運行測試…

WebFlux的探索與實戰 - r2dbc的多表查詢

前言 在一個有數據庫的項目中&#xff0c;條件查詢與多表查詢總是同幽靈般如影隨形。 好久不見朋友們&#xff0c;我是forte。 本篇文章會以我的 個人經驗 來介紹下如何在 Spring WebFlux 中使用 Spring Data R2DBC 進行多表查詢。 這次我會以一個自己寫的項目作為基礎來為各…

[課程]yolov9目標檢測封裝成類調用

搞定系列&#xff1a;yolov9目標檢測封裝成類調用 課程地址&#xff1a;https://edu.csdn.net/course/detail/39352 課程介紹課程目錄討論留言 你將收獲 學會yolov9封裝基本技巧和大體思路 學會yolov9封裝類的API調用技巧和自由擴展 學會使用Pycharm調試技巧和運行腳本技…

「連載」邊緣計算(二十四)03-04:邊緣部分源碼(源碼分析篇)

&#xff08;接上篇&#xff09; 在Register()函數中對EdgeHub struct的初始化只是對EdgeHub struct中的controller進行初始化。controller的初始化函數具體如下所示。 KubeEdge/edge/pkg/edgehub/controller.go //NewEdgeHubController creates and returns a EdgeHubContro…

uniapp+vue基于Android的圖書館借閱系統qb4y3-nodejs-php-pyton

uni-app框架&#xff1a;使用Vue.js開發跨平臺應用的前端框架&#xff0c;編寫一套代碼&#xff0c;可編譯到Android、小程序等平臺。 框架支持:springboot/django/php/Ssm/flask/express均支持 前端開發:vue 語言&#xff1a;pythonjavanode.jsphp均支持 運行軟件:idea/eclip…

2023天津公租房網上登記流程圖,注冊到信息填寫

2023年天津市公共租賃住房網上登記流程圖 小編為大家整理了天津市公共租賃住房網上登記流程&#xff0c;從登記到填寫信息。 想要體驗的朋友請看一下。 申請天津公共租賃住房時拒絕申報家庭情況會怎樣&#xff1f; 天津市住房保障家庭在享受住房保障期間&#xff0c;如在應申…