【前沿技術拓展Trip Two】具身智能

具身智能(Embodied AI)的認識,進展,以及為何難以實現

在講具身智能之前,我們不得不先行介紹一下離身智能與離身認識系統這兩個極其相關且更加常見的概念

離身認識系統

其實目前絕大多數的AI,例如DeepSeek,目前是一個純軟件層面的大型語言模型,都是離身認識系統。

它們的特點
  • 無物理身體?:它沒有眼睛、手臂,無法直接感知物理世界。它的“感知”完全來自于它被訓練時所用的海量文本和代碼數據。

  • 在符號世界中運作?:它的整個世界就是字符、單詞、語法和邏輯關系。它通過分析這些符號之間的統計規律和模式來生成內容。

  • 強大的抽象推理能力?:它能在數學、編程、文學創作等高度抽象的領域表現出驚人的能力,這些領域本身就更接近“離身”的符號世界。

從這些角度看,它可以在沒有物理體驗的情況下,進行復雜的知識處理和邏輯推理。這就是離身認識系統的特點。

那為什么不能將其稱之為離身智能呢?
  • ?缺乏物理世界的“ grounding ”??:智能需要理解物理世界的常識,比如“水是濕的”、“玻璃杯摔在地上會碎”。人類通過親身經歷獲得這些知識,而DeepSeek只能從文本描述中學習。這可能導致它雖然能流暢地談論這些概念,但缺乏最根本、最直覺的理解。這被稱為“符號接地問題”。

  • ?智能與體驗的關聯?:許多哲學家和科學家認為,真正的智能無法與體驗完全分離。理解“紅色”不僅僅知道它的波長是620-750納米,還包含著“看到紅色”的主觀體驗。DeepSeek沒有這種體驗。

  • 依賴人類的“具身”數據?:DeepSeek的所有知識都來源于人類創造的數據。而人類的知識和語言本身是高度“具身”的,是千萬年來與物理世界互動的結果。所以DeepSeek在某種意義上,是建立在人類集體具身經驗之上的一個離身系統。

離身智能(Disembodied Intelligence)

離身智能指的是獨立于物理身體而存在的智能。這個概念通常與“具身智能”相對。

離身智能指的是不依賴于物理實體或身體的智能形態。它的核心特點是“心靈與身體的分離”。

這種智能的運作、學習、推理和交互完全發生在抽象的、符號化的或數字化的領域內,無需通過物理傳感器(如攝像頭、麥克風)或執行器(如機械臂、輪子)來感知世界或施加影響。

離身智能就像一個“純粹的大腦”或一個“懸浮在空中的心智”,它通過純數據、符號和邏輯來理解和處理世界。

離身智能是學習是來自于體驗數據,而認識系統來自于大量文本數據

具身智能

簡單來說,?具身智能的核心思想是:?智能的產生離不開與物理環境進行實時交互的身體。?

這與傳統AI(如大型語言模型)形成鮮明對比。傳統AI處理的是抽象的、符號化的信息(文本、圖像),而具身智能體則通過傳感器(如攝像頭、麥克風、觸覺傳感器)感知世界,并通過執行器(如輪子、機械臂)在世界中行動,并從行動的后果中學習。

其哲學基礎可以追溯到“具身認知”(Embodied Cognition)理論,即認為認知、思維、記憶等高級功能是由身體及其與環境的互動方式所塑造的。

當前主要研究進展與方向

目前的研究可以大致分為兩條主線:?1. 在物理世界中的機器人(Physical Embodiment)?? 和 ?2. 在模擬環境中的智能體(Virtual Embodiment)?。兩者相輔相成,模擬環境為研究提供了快速、廉價且可擴展的試驗場。

機器人學(物理實體)的進展

這是最具挑戰性但也最直觀的方向。進展主要體現在:

  • 從“程式化”到“學習化”的轉變?:

  • 傳統方法?:機器人執行的任務(如抓取、行走)依賴于工程師精心編寫和調試的代碼與控制規則。它很穩定,但缺乏靈活性和泛化能力。

  • ?新范式?:?機器人學習(Robot Learning)?,尤其是模仿學習(Imitation Learning)?? 和強化學習(Reinforcement Learning, RL)?。研究人員通過人類演示(VR、動作捕捉)讓機器人學習技能,或者讓機器人在模擬或真實環境中通過“試錯”來自主學習。

?典型案例?:

  • DeepMind的RT(Robotic Transformer)系列模型?:將機器人控制視為一種“序列建模”問題,就像LLM預測下一個詞一樣,RT模型根據當前的圖像和指令,預測下一個動作。RT-2展示了從互聯網規模的視覺-語言數據中學習,并零樣本(Zero-shot)遷移到機器人操作任務的能力。

  • ?OpenAI?(雖已退出但早期工作影響深遠)和UC Berkeley等機構通過Sim-to-Real?(從模擬到現實)轉移,先在模擬環境中用RL訓練,再將策略遷移到真實機器人上,成功讓機器人學會復雜的操作技能。

  • 多模態感知融合?:

  • 機器人不再只依賴視覺。?觸覺(Tactile Sensing)?? 變得至關重要,例如用于靈巧操作(Dexterous Manipulation),像擰瓶蓋、折疊衣服等任務,沒有觸覺反饋幾乎不可能完成。

  • 聽覺也被用于更自然的人機交互和理解環境。

  • ?人形機器人(Humanoid Robots)的復蘇?:

  • 受特斯拉Optimus、Figure AI、波士頓動力 Atlas? 等項目的推動,全尺寸人形機器人成為熱點。其核心假設是:為人類設計的世界(環境、工具)最適合人形身體來互動。這里的挑戰是極致的全身平衡與控制。

模擬環境(虛擬實體)的進展

由于在物理機器人上做實驗成本高昂且緩慢,高保真的模擬環境(如NVIDIA Isaac Sim、Meta的Habitat、Allen Institute的AI2-THOR)成為了主要的研究平臺。

?具身智能智能體(Embodied AI Agents)??:

  • 在這些3D環境中,智能體被賦予具體任務(如“去廚房把蘋果拿來”),它們必須學會導航(Navigation)、探索、操作物體、甚至與其它智能體協作。

  • 這極大地推動了視覺語言導航(VLN)?、具身問答(Embodied QA)?? 等任務的發展。

  • 大規模預訓練與涌現能力?:

  • 正如LLM從海量文本中預訓練一樣,具身智能體也開始在大量的模擬交互數據中進行預訓練。

  • 研究發現,在這些預訓練模型中出現了空間理解、常識推理、任務規劃、甚至簡單的工具使用等涌現能力。它們學會的不只是單一技能,而是一種通用的“在世界中生存”的能力。

  • LLM作為“大腦”??:

  • 這是當前最火爆的方向。?大型語言模型(LLM)或多模態大模型(LMM)被用作智能體的“決策核心”?。

  • 工作原理?:LLM接收來自智能體傳感器(如場景描述、物體列表、自身狀態)的輸入,利用其強大的常識和推理能力,生成一個高級的行動計劃(Plan)?,例如“首先走向桌子,然后找到水杯,最后拿起它”。這個計劃再由底層的、訓練好的技能模型(如導航、抓取)來執行。

  • 典型案例?:??“SayCan”?項目(Google)是早期成功演示,將LLM的推理與機器人的技能庫結合起來。現在,?VLA(Vision-Language-Action)模型正在成為新趨勢,它將感知、推理和動作生成端到端地統一在一個模型中。

面臨的主要挑戰

1.?數據稀缺(The Data Problem)??:與互聯網上無窮盡的文本和圖像數據不同,真實世界的機器人交互數據非常稀少、昂貴且難以規模化。這是阻礙發展的最大瓶頸。

2.Sim-to-Real Gap(模擬到現實的鴻溝)??:在模擬中學得再好,遷移到物理世界總會因動力學、摩擦、光線等差異而性能下降。域適應(Domain Adaptation)技術是關鍵。

3.安全性與可靠性?:讓一個在試錯中學習的AI實體在現實世界中活動是危險的。如何確保其行為安全、可靠、符合人類價值觀是必須解決的問題。

4.計算成本?:訓練具身智能體,尤其是在模擬中,需要巨大的算力支持。

5.長 horizon 任務規劃?:完成一個復雜的多步驟任務(如“做一頓早餐”),需要長程的規劃和在失敗時重新規劃的能力,這對當前的模型仍是巨大挑戰。

未來展望
  • 更多、更好的數據?:通過自動化、眾包等方式構建大規模機器人交互數據集(如RT-X項目)。

  • ?更強大的基礎模型?:??“具身智能的GPT-3時刻”即將到來,即出現一個通用的、通過海量模擬和真實數據預訓練而成的“具身基礎模型”,可以輕松適應各種不同的機器人和任務。

  • 世界模型(World Models)??:讓智能體在內部構建一個對物理世界的預測模型,從而能夠進行“想象”和推理,減少真實環境中的試錯次數。

  • 與腦科學和認知科學的融合?:從生物學中汲取靈感,研究如何實現記憶、注意力和認知地圖等功能。

?總結來說,具身智能正處于一個從理論走向實踐、從單一技能走向通用能力的關鍵爆發前夜。LLM等AI技術的突破為其注入了強大的“推理大腦”,而機器人硬件和模擬技術的進步則為其提供了越來越成熟的“身體”。兩者的結合,正在一步步地將曾經只存在于科幻中的通用機器人變為現實。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/96286.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/96286.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/96286.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用electron將vue3網頁項目包裝成pc客戶端

一、準備前工作在項目的根目錄 打開命令行工具 安裝四個依賴庫安裝報錯的話二、準備工作完成之后,在項目根目錄需要有倆個文件在項目根目錄創建electron文件夾在vite.config.js中添加配置項在package.json中添加配置項運行命令 npm run electron:build 打包關于mac&…

基于安全抽象模型(SAM)的汽車網絡安全防御與攻擊分析

摘要自動駕駛汽車比以往任何一種個人出行交通工具都具有更大的受攻擊可能性。這主要是因為這類汽車對通信有極高的需求,一方面是出于功能和安全方面的考慮,另一方面則是為了滿足舒適性需求。無人駕駛汽車需要與周圍環境進行通信的接口、直接連接&#xf…

線掃相機不出圖原因總結

1、幀觸發信號有問題 線掃相機出圖由幀信號決定開始采集,如果沒有幀信號線掃相機無法識別開始信號,所以不出圖 1)沒有給相機幀信號 幀信號是一個短暫的脈沖信號,持續時間不要太長,相機能識別就可以,一般由plc或者控制卡的數字量輸出口觸發,可以通過監測數字量輸出口來確…

開發避坑指南(46):Java Stream 對List的BigDecimal字段進行求和

需求 對int,long類型的數據求和直接用stream().mapToInt()、stream().mapToDouble(),可是沒有stream().mapToBigDecimal()這樣的方法,那么如何用stream對List的BigDecimal字段進行求和? 代碼實現 直接上代碼 public class OrderIn…

pycharm如何處理python項目間引用

1. 如何在pycharm中將其它項目添加到打開的項目中 如圖所示:文件->打開->附加(Attach)即可2.如何引用:直接作為一個普通package引用即可 from attack_projectxxx.modulexxx import xxx3.pyinstaller如何編譯這種引用其它項目的可執行文…

家庭勞務機器人發展階段與時間預測

家庭勞務機器人大規模進入家庭不會是一個單一的時間點,而是一個分階段、漸進式的過程。我們可以將這個進程分為以下幾個階段,并對每個階段的時間線進行預測:第一階段:單一功能機器人普及(現在 - 2025年)這個…

Zynq開發實踐(FPGA之spi實現)

【 聲明:版權所有,歡迎轉載,請勿用于商業用途。 聯系信箱:feixiaoxing 163.com】雖然串口用的地方比較多,實現起來也比較簡單。但是串口本身速度比較慢,不利于高速數據通信。而且單個串口沒有辦法和很多芯片…

指甲打磨機/磨甲器MCU控制方案開發,輕松解決磨甲問題

美甲打磨機/指甲打磨機核心功能需求 1. 基礎功能 無級調速(5,000-30,000 RPM,PWM控制) 正反轉切換(可選,用于拋光/去角質) 按鍵鎖/防誤觸(長按3秒解鎖) 鋰電池管理(3.7V單節,帶充電指…

臨床數據挖掘與分析:利用GPU加速Pandas和Scikit-learn處理大規模數據集

點擊 “AladdinEdu,同學們用得起的【H卡】算力平臺”,注冊即送-H卡級別算力,80G大顯存,按量計費,靈活彈性,頂級配置,學生更享專屬優惠。 摘要 隨著電子健康記錄(EHR)的普…

二進制安裝MySQL 8.0指南:跨平臺、自定義數據路徑、安全遠程訪問配置

二進制安裝 MySQL 8.0 在生產或測試環境中,我們常常希望避免包管理器帶來的依賴和交互問題,尤其是當系統自帶版本過舊或安裝過程頻繁彈窗時。此時,使用 MySQL 官方提供的二進制壓縮包(Generic Linux Binary) 進行安裝…

Z檢驗與T檢驗的區別與聯系:原理、公式和案例全解

Z檢驗與T檢驗全解析:原理、區別與實際案例 統計學的核心任務之一,就是通過有限的樣本數據去推斷總體特征。在這一過程中,假設檢驗成為了最常見的工具。而在眾多檢驗方法中,Z檢驗與T檢驗幾乎是入門必學,也是應用最廣泛的…

SpringBoot之緩存(最詳細)

文章目錄項目準備新建項目并選擇模塊安裝添加依賴添加application.yml刪除demos.web包編寫pojo層userdto/ResultJson編寫mapper層UserMapper編寫service層UserService編寫controller層編寫配置類MybatisPlusConfig編寫測試類1 緩存分類1.1 MyBatis一級緩存1.2 MyBatis二級緩存1…

B站 韓順平 筆記 (Day 29)

目錄 1(集合的框架體系) 2(Collection接口和常用方法) 2.1(Collection接口實現類特點) 2.2(常用方法) 2.3(遍歷元素方式1:迭代器) 1&#x…

axios報錯解決:unsupported BodyInit type

目錄 問題 原因 解決方法 問題 Got ‘unsupported BodyInit type’ bug on iPhone 14(IOS 17.5) Issue #6444 axios/axios 我這里是iPhone 6plus打開會報錯白屏 好多人遇到了相同的問題 當我在 iPhone 14 上瀏覽頁面時,我收到一條錯誤消息:錯誤:不支持的 BodyInit 類型,…

iperf3網絡性能測試工具

iperf3 是一個功能非常強大的網絡性能測試工具,用于測量兩個網絡節點之間的最大TCP、UDP帶寬和性能。它通過創建數據流并測量其吞吐量來工作。 下面我將為您詳細介紹其核心用法、常用命令和參數。 核心概念:客戶端/服務器模式 iperf3 測試需要兩臺機器:一臺作為服務器端(…

【C#】 資源共享和實例管理:靜態類,Lazy<T>單例模式,IOC容器Singleton我們該如何選

文章目錄前言一、靜態類1.1 靜態類的特點1.2 靜態類的使用1.3 靜態類的缺點二、單例模式2.1 Lazy延遲初始化2.2 Lazy< T>單例模式的使用2.3 單例模式的特點三、IOC的Singleton總結前言 編寫程序的時候&#xff0c;常常能碰到當某些數據或方法需要被整個程序共享&#xf…

MySQL——存儲引擎、索引

一、存儲引擎1.MySQL體系結構2.存儲引擎簡介存儲引擎就是儲存數據、建立索引、更新/查詢數據等技術的實現方式。儲存引擎是基于表的&#xff0c;而不是基于庫的&#xff0c;所以存儲引擎也可被稱為表類型建表語句&#xff1a;查詢數據庫支持的儲存引擎&#xff1a;show engines…

機器學習01——機器學習概述

上一章&#xff1a;機器學習核心知識點目錄 下一章&#xff1a;機器學習02——模型評估與選擇 機器學習實戰項目&#xff1a;【從 0 到 1 落地】機器學習實操項目目錄&#xff1a;覆蓋入門到進階&#xff0c;大學生就業 / 競賽必備 文章目錄一、參考書推薦二、機器學習的基本概…

Shell編程:檢測主機ip所在網段內其他在線ip

一、邏輯設計獲取本機 ip 及 網段循環檢測網段內所有 ip判斷 ping 結果&#xff0c;符合條件的輸出相關信息二、代碼展示#!/bin/bash#獲取本機ip local_iphostname -I #local_ipip addr| grep "inet "|grep -v 127.0.0.1| awk {print $2}#獲取本機網段 networkecho $…

Windows安裝Chroma DB

安裝步驟 安裝python 3.8或以上的版本創建虛擬環境&#xff1a;python -m venv chroma_env激活虛擬環境&#xff1a;.\chroma_env\Scripts\activate安裝Chroma DB&#xff1a;pip install chromadb(可選)安裝擴展功能&#xff1a;pip install sentence-transformers pypdf tikt…