ALOHA機器人平臺：低成本、高精度雙臂操作及其進展深度解析

	原創
1	從感知決策到具身智能的技術躍遷與挑戰(基座模型與VLA模型)
2	ALOHA機器人平臺：低成本、高精度雙臂操作及其進展深度解析
3	(上)通用智能體與機器人Transformer：Gato和RT-1技術解析及與LLM Transformer的異同
4	(下)通用智能體與機器人Transformer：Gato和RT-1技術解析及與LLM Transformer的異同

ALOHA

ALOHA（A LOw-cost HArdware，低成本硬件）旨在通過顯著降低成本和開源的機器人系統，實現高精度的雙臂操作。

ALOHA 項目的初衷是探索學習算法能否讓低成本、固有精度不高的硬件執行如穿線或插入電池這類精細操作任務。傳統上，這些任務需要昂貴、高精度的硬件。ALOHA 通過開源硬件設計（包括 3D 打印說明）和軟件實現，顯著降低了先進機器人系統的門檻。

該項目的核心是模仿學習的應用，通過利用人類演示的細微理解和靈巧性，簡化了對“不精確”硬件的控制。這種方法有效地利用數據驅動來彌補硬件限制，從而實現所需的精度，避免了對昂貴傳感器和繁瑣校準的依賴。ALOHA 項目名稱本身就強調了其對硬件組件的重視，認為可及且經濟實惠的硬件平臺是實現模仿學習所需大量真實世界演示數據收集的關鍵。

這種動態揭示了機器人開發中一個反復出現的模式：硬件的突破往往為軟件研究開辟新途徑，反之，軟件創新也能推動硬件設計的邊界。

動作分塊 Transformer (ACT) 架構

動作分塊 Transformer (ACT)?是 ALOHA 項目的核心架構創新，使其在精細操作方面展現出卓越能力。它將強大的 Transformer 神經網絡架構調整用于機器人控制，通過預測動作序列或電機控制信號來實現精細操作。

ACT 的核心組件包括：

編碼器：聚合并處理多模態輸入，
- 視覺觀測:來自多個攝像頭的圖像數據（例如，原始ALOHA設置中的四個攝像頭）首先通過卷積神經網絡（CNN），如ResNet18骨干網絡，提取相關的視覺特征。位置嵌入應用于這些特征以保留空間信息。
- 本體感受輸入:有關機器人內部狀態的信息，特別是其當前的關節位置或電機狀態，被輸入到編碼器中。這提供了關于機器人物理配置的關鍵反饋。
- 獨特的“風格變量”:由一個獨立的Transformer編碼器生成,風格變量通過正則化捕獲人類演示中的非關鍵性變異，并在推理時設置為零，從而使模型專注于核心任務。
解碼器：接收編碼器的統一表示，并自回歸地預測一系列未來動作，即“動作塊”。

“風格變量” 是一項微妙而影響深遠的創新。人類演示本身是多變的；不同的人可能以略微不同的速度、軌跡或風格細微差別執行相同的任務。一個簡單的模仿學習模型可能會試圖精確地復制所有這些變異，這可能導致機器人行為不一致或不夠優化。風格變量通過將這些非關鍵性變異正則化到一個潛在空間中，并在推理時將其設置為零，使得模型能夠學習任務的基本機制，同時有效地忽略不相關的“風格”。這種機制對于從多樣化的人類演示數據中學習魯棒和可泛化的策略至關重要。

ACT整合來自多個攝像頭和本體感受數據（關節位置）作為輸入的能力，證明了多模態信息對于精細操作的必要性。視覺反饋提供了關于環境和物體的關鍵上下文，而本體感受則提供了關于機器人自身身體狀態的精確信息。Transformer的注意力機制特別適合有效地將這些不同的數據流整合到“連貫的潛在空間”中，這對于實現協調、注重細節和流暢的動作執行至關重要。這種多模態方法是先進具身智能研究中的一個普遍主題，因為單一模態通常不足以應對復雜的真實世界任務。

動作分塊機制是 ACT 的一項核心創新，它不是一次預測和執行單個動作，而是在一次前向傳播中生成固定長度的未來動作序列。這種機制帶來多重益處：

減少復合誤差：在模仿學習中，即使預測動作中的微小誤差也可能隨著時間的推移累積和復合，導致與期望軌跡的顯著偏差，并最終導致任務失敗。通過分塊預測動作，ACT有效地縮短了控制問題的“有效預測范圍”，從而減輕了這些復合誤差的累積。自回歸的單步預測固有地導致復合誤差。動作分塊通過預測序列，有效地減少了預測的“有效范圍”，從而減輕了這些復合誤差的累積和影響。
增強穩定性和平滑性：按照預先規劃的塊執行動作有助于實現更流暢、更連續的機器人運動，消除單步預測中常見的抖動行為。
提高效率：一次性預測多個動作減少了推理調用的頻率和整體決策開銷。

ACT通常作為條件變分自編碼器（CVAE）的解碼器組件來實現。在此設置中，CVAE編碼器處理多視圖相機圖像、機器人關節狀態和潛在風格變量。Transformer解碼器隨后利用此編碼信息輸出完整的動作塊。這種CVAE集成有助于重建輸入、生成新樣本以及有效過濾人類遙操作數據中不需要的變異，從而實現更魯棒的策略學習。雖然原始ACT通常使用固定塊大小，但最近的進展，如分塊因果Transformer（CCT），已將此概念擴展到支持可變塊大小和混合動作序列的生成。這種靈活性允許更復雜的控制策略，例如將高級稀疏路徑點與詳細的低級關節位置命令相結合。

時間控制與軌跡平滑?

除了預測動作序列，ALOHA還整合了復雜的時間控制機制，以確保機器人運動的平滑、連續和響應性，這對于實際部署至關重要。這些技術植根于類似于模型預測控制（MPC）的概念，并為在嵌入式平臺上實現效率而進行了進一步優化。

ALOHA 語境下的模型預測控制 (MPC)：ACT規劃未來步驟和預測動作序列的能力與模型預測控制（MPC）的原理內在一致。在典型的MPC框架中，模型在每個時間步預測一個預定“范圍”內的未來動作序列。然而，通常只執行此規劃序列中的第一個動作，之后整個規劃過程將根據更新的觀測值重新啟動。ALOHA對MPC的獨特適應性在于，它通過模仿學習訓練Transformer模型直接輸出這些動作序列，從而避免了傳統上計算密集型、基于優化的控制方法
時間集成 (Temporal Ensemble, TE)：為了實現異常平滑和協調的機器人軌跡，ALOHA采用了一種稱為時間集成（Temporal Ensemble, TE）的技術。這種方法涉及對同一未來時間步的預測動作進行加權平均，并從多個規劃范圍中獲取。例如，如果在T=0時，模型預測了t=0、t=1、t=2和t=3的未來動作，然后在T=1時，它預測了t=1、t=2、t=3和t=4的動作，那么最終為t=1執行的動作將是T=0時對t=1的預測和T=1時對t=1的預測的加權平均。 ?

? ? ? ? 1）目的：這種加權平均過程在平滑任何運動抖動并確保機器人軌跡流暢、連續和視覺自然方面非常有效。

? ? ? ? 2）挑戰：傳統時間集成的一個關鍵挑戰是其計算需求；它理想情況下需要在每次動作執行之前進行一次完整的模型推理。在資源受限的嵌入式平臺上，推理頻率可能接近甚至低于動作執行頻率，這可能導致運動不連續并影響實時性能。

時間集成解決了“斷續和快速運動”以實現“平滑和緩慢”的運動。這突顯了機器人控制中一個關鍵的實際考量：抖動或不連續的運動不僅不美觀，還可能導致硬件磨損增加、潛在的不穩定性以及任務性能下降。ALOHA對時間集成和TEDA的專門關注，表明它對機器人實際部署挑戰的深刻理解，超越了單純的任務成功率，涵蓋了執行的質量和流暢性。 ?

帶丟棄動作的時間集成 (Temporal Ensemble with Dropped Actions, TEDA)
- TEDA的運行機制： TEDA創新性地將動作序列的執行與策略預測并行化。它首先在t=0時進行一次預測以獲得一個包含‘k’個預測動作的塊。關鍵在于，TEDA不是在每個后續時間步都進行新的預測，而是策略性地“丟棄”一些動作，這意味著它在進行下一次完整的模型推理之前，會執行一個預先預測的塊幾個步驟。然后，“時間集成”在應用這些動作時進行加權平均，可能跨越這些“丟棄”的間隔，從而確保連續性。 ?
以自動駕駛系統為例，TEDA 的運行機制可以這樣理解：在車輛行駛過程中，TEDA 首先會對未來一段時間內的駕駛動作（如加速、減速、轉彎等）進行一次初始預測，得到一個包含多個預測動作的集合。然后，在實際行駛過程中，它不會每個時刻都重新進行預測，而是根據當前的路況和車輛狀態，選擇性地執行預先預測的動作。例如，如果前方路況較為穩定，TEDA 可能會 “丟棄” 一些不必要的動作，專注于執行那些能夠保持車輛穩定行駛的動作。在執行這些動作時，TEDA 會根據不同時間點的路況信息，對動作進行加權平均。比如，在遇到輕微的道路彎曲時，會根據當前的車速和彎道曲率，對轉彎動作進行適當的加權調整，以確保車輛能夠平穩地通過彎道，而不是突然轉向或轉向不足。這樣，TEDA 就能夠在保證駕駛安全性和穩定性的同時，提高系統的運行效率和響應速度。

1. 單次預測塊內的執行
2. 當在時刻 $t$ 預測出一個包含 $k$ 個動作的塊 $\{a_{t,1}, a_{t,2}, \dots, a_{t,k}\}$ 后，系統會按順序執行這些動作。
3. 默認情況下，每個動作? $a_{t,m}$ 直接對應第? $m$ 時間步的執行指令，無需加權（如? $m=1$ ?時執行? $a_{t,1}$ ， $m=2$ 時執行? $a_{t,2}$ ）。
跨預測塊的“丟棄”與加權調整
- 當系統在執行到第? $m$ 時間步時（ $m < k$ ），若決定“丟棄”后續? $n$ ?個動作（即跳過? $m+1$ ?到 $m+n$ 時間步），則需要觸發新的預測塊? $\{a_{t+1}, a_{t+2}, \dots\}$ 。
- 關鍵加權場景出現在新舊預測塊的重疊時間步。例如：
  - 原預測塊在? $m+1$ 時間步的動作是? $a_{t,m+1}$ ，新預測塊在? $m+1$ 時間步的動作是? $a_{t+1,1}$ （假設新塊從? $t+1$ ?時刻開始，第1個動作對應原? $m+1$ 時間步）。
  - 此時，執行? $m+1$ 時間步的動作時，需對?原塊的? $a_{t,m+1}$ 和?新塊的? $a_{t+1,1}$ 進行加權平均，公式為：
    $a_{\text{executed}} = \omega_0 \cdot a_{t,m+1} + \omega_1 \cdot a_{t+1,1} \quad (\omega_0 + \omega_1 = 1)$
- 權重?$ \omega_0 $?和?$ \omega_1 $?由時間距離（如?$ \omega_0 $?隨“丟棄”的時間步長衰減）或預測置信度決定。

舉例說明：加權調整的觸發場景

假設? $k=5$ （每次預測5步動作），時間線如下：

時刻? $t=0$ ：預測塊為? $[A_1, A_2, A_3, A_4, A_5]$ （對應時間步1-5）。
執行到時間步3（即已執行? $A_1, A_2$ ，正準備執行? $A_3$ ）：
若系統決定“丟棄”? $A_3$ ?和? $A_4$ ，直接執行? $A_5$ ，則需要在?時間步3和4?觸發加權調整（因為? $A_3$ 和? $A_4$ 被跳過，但系統不能直接從 $A_2$ 跳到? $A_5$ ）。
此時，可能觸發新預測塊? $[B_1, B_2, \dots]$ （對應時間步3及之后），則：
- 時間步3的執行動作?= 加權平均 $A_3$ （原塊）和 $B_1$ （新塊）。
- 時間步4的執行動作?= 加權平均 $A_4$ （原塊）和? $B_2$ （新塊）。
- 時間步5的執行動作?= 直接執行? $A_5$ 或 $B_3$ （取決于是否繼續使用原塊或完全切換到新塊）。
加權對象是?同一時間步在不同預測塊中的動作（如原塊和新塊在時間步? $m+1$ 的動作），而非“前幾個時間步預測的同一個未來動作”。
加權的目的是?平滑過渡新舊預測塊，而非對同一預測塊內的多個動作取平均（除非主動設計多模型集成）。

TEDA的加權調整僅發生在?“丟棄”動作并觸發新預測塊時，用于處理新舊預測塊在重疊時間步的動作沖突，通過加權平均實現平滑切換。其本質是跨預測塊的時間域信息融合，而非對單一預測塊內動作的內部平均。

對邊緣設備效率和實時部署的益處：
- 提高效率：通過降低完整模型推理的頻率，TEDA顯著降低了計算負荷，使得在處理能力有限的嵌入式平臺上部署復雜的Transformer模型成為可能。 ?
- 保持平滑性： TEDA成功地保留了時間集成的關鍵平滑優勢，同時提高了機器人的響應能力，并防止了部署過程中的運動不連續性。 ?
- 實時決策：這種技術使機器人模型能夠在動態和不可預測的環境中及時有效地做出實時決策。 ?
- 部署背景： TEDA是旨在促進先進模仿學習算法向經濟實惠的嵌入式平臺遷移的更廣泛流程的組成部分。該流程還包括高效模型壓縮（例如，對稱量化，將模型參數從32位浮點轉換為16位整數表示）和輸入形狀統一等基本步驟，以優化資源受限硬件的性能。 ?

TEDA和隨附的模型壓縮技術（如量化）的引入揭示了一個重要的工程障礙：先進的AI模型，特別是基于Transformer的架構，計算密集，但許多機器人應用需要部署在資源受限的嵌入式平臺上。TEDA與量化直接解決了這種“資源差距”。僅僅開發一個強大的算法是不夠的；它還必須能夠在機器人硬件的實際限制下高效地實時部署。這標志著一種全面的、全棧的工程方法，涵蓋了從算法設計到硬件優化的各個方面。大型復雜AI模型的固有計算需求，加上嵌入式硬件的有限資源，帶來了顯著的部署挑戰，包括潛在的不連續運動和高推理成本。 TEDA與模型壓縮相結合，直接減輕了這些問題，實現了在邊緣設備上高效、平滑的實時推理。 ?

模型預測控制（MPC）原理（規劃未來動作）與時間集成（對當前動作的過去預測進行平均）的協同結合，體現了一種迭代的、反饋驅動的控制循環。機器人不僅僅執行預先計算的靜態路徑；相反，它根據新獲得的觀測和先前預測的歷史上下文不斷重新規劃和細化其當前動作。這種動態和自適應的特性對于在真實世界環境中有效導航和執行任務至關重要，因為在這些環境中，不可預見的干擾或微小的執行誤差需要持續的修正和適應。這種復雜的控制范式反映了生物系統中觀察到的自適應和魯棒的運動生成，這些系統通常將預測性規劃與實時感官反饋和內部平滑機制相結合，以確保流暢和有彈性的運動。

演示能力與精細操作任務

ALOHA 項目在精細雙臂操作方面展現了卓越的能力，盡管使用了低成本硬件，但在執行復雜任務方面仍持續表現出色。

核心演示任務包括：

電池插入、打開半透明調味杯、穿線：這些初始任務僅需約 10 分鐘演示數據即可達到 80% 至 90% 的高成功率。
系鞋帶、掛襯衫、更換機器人手指、插入塑料齒輪、堆疊廚房物品：在后續工作中，ALOHA 展示了更高級和復雜的任務，但這些任務需要更大的數據集（例如，掛襯衫需要 8658 個片段，系鞋帶需要 5133 個片段）。

雖然 ALOHA 在結構化任務上取得了高成功率，但在涉及變形物體（如掛襯衫、系鞋帶）或高環境變異性（如“LaceMessy”、隨機堆疊的廚房物品）的任務上，性能有所下降。這表明，處理柔軟非剛性物體以及在高度非結構化或不可預測環境中操作仍然是機器人學習的巨大挑戰。

ALOHA“低成本和不精確硬件”實現“精細操作”的顯著成就。這在傳統機器人領域呈現出一個顯著的悖論，因為精度通常與高成本和復雜傳感器直接相關。 ALOHA通過證明模仿學習可以彌合這一差距，有效地解決了這個悖論。學習算法通過從人類演示中獲取魯棒策略，有效地彌補了硬件固有的缺陷，從而將人類的靈巧性和適應性轉移到精度較低的機器上。這種范式轉變預示著機器人系統的未來發展方向，即學習型方法可能優先于純粹以硬件為中心的精度。

演示的精細操作任務和成功率

任務	成功率	演示數量（片段）	備注
插入電池 / 打開調味杯 / 穿線	80-90%	10分鐘	2023年論文中的初始任務
掛襯衫 (簡單)	75%	8658	涉及變形物體
掛襯衫 (凌亂)	70%	8658	涉及變形物體，高變異性
系鞋帶 (簡單)	70%	5133	涉及變形物體
系鞋帶 (凌亂)	40%	5133	涉及變形物體，高變異性
更換機器人手指	75%	5247	需要毫米級精度
插入齒輪-1	95%	4005	需要毫米級精度
插入齒輪-2	75%	4005
插入齒輪-3	40%	4005
隨機廚房堆疊 (碗)	95%	3198
隨機廚房堆疊 (碗+杯)	65%	3198
隨機廚房堆疊 (碗+杯+叉)	25%	3198	高變異性

Mobile ALOHA

原始 ALOHA 系統在桌面操作方面具有開創性，但其靜態性質限制了更廣泛的實際應用。Mobile ALOHA?的開發將平臺能力擴展到全身移動操作，顯著擴大了其效用。

1、Mobile ALOHA 的設計原則：

原理：轉向Mobile ALOHA的驅動力在于認識到人類環境中大多數機器人任務都需要超越固定工作空間的移動性和全身控制。Mobile ALOHA直接解決了這個問題，將機器人能力從受限的桌面設置推向更通用和動態的真實世界場景。盡管桌面操作令人印象深刻，但它“缺乏執行通用任務所需的移動性和靈巧性”。這突出了靜態機器人設置的根本局限性。為了使機器人真正融入并服務于以人為中心的環境（如家庭、辦公室或工廠），它們必須具備在更廣闊、動態的物理空間中導航和與物體交互的能力。 Mobile ALOHA直接解決了這一關鍵需求，有效地將研究重點從受限的實驗室環境轉向更現實、非結構化和廣闊的真實世界場景。這種向移動操作的演進是開發真正通用機器人的關鍵一步，使其從高度專業化的工業機械臂轉變為多功能、適應性強的助手，能夠執行各種任務。 ?
設計原則： Mobile ALOHA被構想為一個低成本、全身遙操作系統，專門為移動操作任務中的高效數據收集而設計。 ?
- 它通過將其集成到輪式移動基座上，增強了現有的ALOHA系統（包括靈巧的雙臂）。 ?
- 該系統具有創新的全身遙操作界面：操作員通過物理連接到系統并“反向驅動”輪子，從而允許移動基座獨立移動，同時操作員雙手控制兩個ALOHA機械臂。這實現了運動和操作的無縫協調。 ?
- 硬件設計包括兩個腕部攝像頭和一個頂部攝像頭，以及集成的板載電源和計算單元。機器人手臂（Interbotix ViperX 300）提供了顯著的伸展范圍，最小/最大高度為65厘米/200厘米，從基座延伸100厘米。 ?
- 移動基座設計實用，能夠以與人類步行相當的速度（約1.42米/秒）移動，即使在操作重型家用物品時也能保持穩定。

2、全身遙操作與增強數據收集

Mobile ALOHA采用監督行為克隆作為其主要的模仿學習方法，根據通過其全身遙操作系統收集的多樣化數據訓練策略。Mobile ALOHA的動作空間巧妙地通過將ALOHA機械臂的14個自由度（DoF）關節位置與移動基座的線速度和角速度連接起來，形成一個全面的16維動作向量。這種直接的表達方式允許現有深度模仿學習算法的直接應用，幾乎無需對其實現進行任何修改。Mobile ALOHA設計的一個顯著特點是，它通過簡單地將機械臂關節位置與移動基座速度連接成一個單一的統一動作向量，從而實現了全身控制。這種方法“幾乎不需要對現有深度模仿學習算法的實現進行任何改變”，這是一個了不起的簡化。這表明復雜的全身協調和涌現行為可以從相對簡單的動作空間擴展中產生，而不需要根本性的新架構設計或復雜的層次控制范式。這表明端到端學習的內在力量，模型隱式地學習了機械臂運動和基座運動之間復雜的關聯和依賴關系，這些對于執行諸如在后退的同時打開柜子等復雜任務是必要的。 ?

3、Mobile ALOHA與靜態ALOHA數據集協同訓練的影響

Mobile ALOHA研究的一項重要發現是，通過將新收集的移動操作數據與現有靜態ALOHA數據集（來自原始桌面設置）進行協同訓練，可以顯著提高性能。 ?

這種協同訓練策略已被證明可以將移動操作任務的成功率提高高達90%，即使每個任務的演示次數少至50次。 ?
靜態ALOHA數據集通常更豐富且更容易收集，它們提供了寶貴的基礎知識和先驗經驗，這些知識和經驗可以有效地轉移到更復雜的移動場景中。 ?

發現“與現有靜態ALOHA數據集協同訓練可以提高性能” 代表了一個重要的研究發現。這一發現意味著，即使是在更簡單、更受控的靜態環境中收集的數據，也包含可轉移的知識，可以顯著加速和改進在更復雜的移動場景中的學習。這是一種強大的遷移學習或課程學習形式，其中在受控環境中獲得的基礎技能被有效地用于解決更高級和更具挑戰性的任務。這種方法最終使整體數據收集過程更高效，因為并非所有必要的數據都需要在最復雜和資源密集型的移動設置中收集。豐富靜態操作數據的可用性，當與協同訓練技術結合時，能夠顯著提高數據效率，并增強在復雜移動操作任務上的性能。 ?

ALOHA 在更廣泛機器人領域中的地位

理解ALOHA的獨特貢獻需要將其與其他新興機器人范式（特別是視覺-語言-動作（VLA）模型）區分開來，同時也要認識到潛在的協同作用。

A. ALOHA與視覺-語言-動作（VLA）模型的區別：模態與通用性聚焦

ALOHA本質上不是一個VLA（視覺-語言-動作）模型，因為它“沒有語言模態處理” 。

VLA定義：視覺-語言-動作（VLA）模型，是復雜的智能系統，旨在將視覺感知與語言理解相結合，以實現機器人控制和更高層次的推理。它們被設計用于解釋和執行自然語言指令（無論是口頭還是書面）以及視覺觀測，以執行真實世界任務。 ?
ALOHA的模態：相比之下，ALOHA的主要輸入模態是視覺數據（來自攝像頭）和本體感受數據（機器人關節狀態）。其策略是通過直接模仿人類演示來學習的，這意味著它本身不處理或響應語言命令來執行任務。 ?
任務通用性：
- ALOHA：作為針對遙操作優化的硬件平臺和模仿學習框架，ALOHA的任務通用性主要受限于提供人類演示的具體任務。它通常被描述為“一個模型一個任務”的基礎，對于每項新技能都需要新的演示。 ?
- VLA模型： VLA模型旨在實現“通用機器人策略（GRP）”，即能夠解決多個下游任務或適應新任務的統一、單一模型，而無需進行任務特定的微調。這些模型旨在發展出涌現行為，使其能夠泛化到未見過的任務、新穎場景甚至不同的硬件配置。著名的例子包括Google DeepMind的RT-2、Pi-Zero和Groot N1 。 ?
基本作用： ALOHA主要作為硬件平臺，用于人類控制的遙操作以及開發和評估模仿學習算法的穩健測試平臺。相反，VLA模型本質上是軟件模型，通過語言理解賦予機器人自主感知、推理和行動的能力。 ?

VLA定義為“結合視覺和語言知識以進行機器人控制和更好推理的智能系統”，而ALOHA主要是一個用于遙操作的“硬件平臺”。這是一個關鍵的概念區分。ALOHA提供了強大的物理交互手段和復雜的低級控制框架（ACT），而VLA則貢獻了高級認知智能，包括感知、推理和語言理解。這兩個類別并非相互競爭，而是互補的。

ALOHA 與視覺-語言-動作（VLA）模型對比

特征	ALOHA	視覺-語言-動作（VLA）模型
主要作用	遙操作硬件平臺和模仿學習測試平臺	用于自主感知、推理和動作的軟件模型
語言處理	無原生語言處理	原生語言理解（文本/語音）
關鍵模態	視覺、本體感受	視覺、語言、動作（及其他傳感器數據）
任務通用性	任務特定（一個模型，一個任務）	通用（可適應未見任務，零樣本/少樣本）
學習范式	模仿學習（行為克隆）	大規模多模態訓練
成本/可及性理念	低成本、開源
示例	原始 ALOHA、Mobile ALOHA	RT-2、Pi-Zero、Groot N1

B.?ALOHA 的獨特優勢與貢獻：

可及性：其低成本和開源性質使先進機器人研究民主化。
低成本硬件實現高精度：通過有效應用模仿學習，證明無需昂貴硬件也能實現高精度操作。
通過動作分塊實現魯棒性：ACT 架構有效緩解了復合誤差問題。
注重實際部署：TEDA 和模型壓縮等創新解決了在資源受限平臺上部署計算密集型 AI 模型的實際挑戰。
移動操作的基礎：進化到Mobile ALOHA顯著擴展了任務范圍，從固定基座桌面操作轉向動態全身移動操作，從而為更通用和廣泛適用的機器人系統奠定了關鍵基礎。

ALOHA 的開源、低成本特性，加上其在靈巧操作方面的強大性能，使其成為一項“賦能技術”，為其他研究人員測試和驗證 AI 模型提供了可及的工具。

技術實現與硬件細節

ALOHA 的實際成功取決于其穩健的技術實現，包括硬件設計和支持操作及模型部署的軟件環境。

ALOHA 硬件組件與組裝：

系統圍繞?Interbotix XS 機械臂構建（Mobile ALOHA 使用 ViperX 300 機械臂）。
雙臂系統，包含多個攝像頭提供全面的視覺反饋（原始 ALOHA 四個攝像頭，Mobile ALOHA 兩個腕部和一個頂部攝像頭）。
Mobile ALOHA 具有板載電源和計算能力。
原始 ALOHA 系統成本約為?20,000 美元，體現了其對經濟實惠的承諾。
該項目提供了廣泛的開源資源，包括詳細的硬件組裝教程和快速入門指南，以使用戶能夠構建自己的系統。關鍵的設置程序包括通過USB將機器人連接到計算機并通電。建議使用Dynamixel Wizard等調試工具來驗證機器人連接和電機狀態。一個已解決的實際挑戰是USB端口分配的動態性；項目提供了使用udevadm規則將每個機器人綁定到固定符號鏈接端口（例如，ttyDXL_master_right）的說明，以確保一致的識別。此外，為了防止電機過載，特別是在夾持機構中，建議設置特定的電流限制（例如，200）

軟件環境與開發工作流程：

主要在?Ubuntu (18.04/20.04)?上運行，使用?ROS 1 Noetic，目前正努力確保與 ROS 2 兼容性。
軟件安裝包括 ROS 和 Interbotix 軟件套件。
代碼庫包含機器人配置、ROS 啟動文件以及遙操作和數據收集的 Python 腳本。tonyzhaozh/act GitHub 倉庫是官方開源中心,提供了在模擬環境（通過gym-aloha）和物理ALOHA硬件上訓練和評估ACT策略所需的代碼。

模型部署考慮：資源受限平臺的壓縮與量化：

為了在資源受限的嵌入式平臺上部署大型基于 Transformer 的模型，ALOHA 采用了：

模型壓縮：為了促進大型基于Transformer的模型在資源受限的嵌入式平臺（通常稱為“邊緣設備”）上的部署，ALOHA采用了對稱量化（SQ）等技術。此過程涉及將模型參數從其原始的32位浮點表示轉換為更緊湊的16位整數格式。這顯著減少了模型的內存占用和計算需求，使得在資源有限的硬件上實現高效推理成為可能。

對稱量化（無零點）

假設浮點值分布關于0對稱（即最大值和最小值絕對值相近），可忽略零點，直接映射到對稱的整數區間。

統計參數的最大值? $S_{\text{float, max}}$ 和最小值? $S_{\text{float, min}}$ ，取絕對值較大者作為動態范圍? $S = \max(|S_{\text{float, max}}|, |S_{\text{float, min}}|)$ 。

計算縮放因子? $\text{scale} = \frac{2S}{2^{16} - 1}$ （int16的非零范圍為±32767）。浮點值? $x$ 轉換為整數? $q$ 的公式：
$[ q = \text{round}\left( \frac{x}{\text{scale}} \right) ]$