微軟具身智能感知交互多面手！Magma：基于基礎模型的多模態AI智能體

作者： Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, MuCai, SeonghyeonYe, JoelJang, Yuquan Deng, Lars Liden, Jianfeng Gao
單位：微軟研究院，馬里蘭大學，威斯康星大學麥迪遜分校，KAIST，華盛頓大學
論文標題：Magma: A Foundation Model for Multimodal AI Agents
論文鏈接：https://www.arxiv.org/pdf/2502.13130
項目主頁：https://microsoft.github.io/Magma/
代碼鏈接：https://github.com/microsoft/Magma

主要貢獻

Magma不僅具備多模態理解能力，還具備在數字和物理環境中進行智能體任務所需的時空推理能力的模型，能夠處理來自不同領域（包括數字和物理）的多模態輸入。
提出Set-of-Mark（SoM）和Trace-of-Mark（ToM）來顯著增強模型的時空智能，以便進行動作對齊和規劃，使得Magma能夠在大量異構數據集上進行有效預訓練。
創建了大規模的預訓練數據集，包含來自開源視覺語言數據集、UI數據、機器人數據和人類教學視頻的多樣化樣本，為模型的廣泛任務適應提供了基礎。
通過廣泛的實驗驗證，Magma在多個任務上表現出色，特別是在UI導航和機器人操作任務上達到了SOTA。

研究背景

研究問題

近年來，基于視覺-語言-動作（VLA）模型的AI智能體引起了廣泛關注，但這些模型通常針對特定任務進行訓練，導致在不同環境和任務之間的泛化能力有限。

本文的任務是開發能夠感知視覺刺激、語言輸入和其他環境數據的自主智能體，并在物理和數字環境中產生有意義的具身動作以完成特定任務。

研究難點

該問題的研究難點包括：

不同環境（如2D數字世界和3D物理世界）之間的固有差異；
如何有效地將視覺語言理解能力（言語智能）與視覺空間世界中的規劃和行動能力（時空智能）結合起來。

多模態智能體建模

問題定義

定義了一個通用的多模態AI智能體的問題框架，能夠處理過去視覺觀察和文本任務描述，并輸出一組token作為其響應。多模態AI智能體的定義如下：

其中：

是過去的一系列視覺觀察（例如圖像序列）。
是一個文本描述的任務。
表示上下文信息。
表示第個token 是語言token還是空間token。

該框架適用于不同的任務，具體如下：

UI導航：在2D屏幕截圖中，任務可能是“預訂酒店”，輸出應包括表示動作語義類型的token（例如“type”、“click”等）以及動作應用的位置（或）。
機器人操作：在3D世界中，任務可能是“關閉抽屜”，輸出包括末端執行器的6-DoF位移（），在某些情況下還包括一個額外的維度來指示夾持器是否打開。
多模態理解任務：當任務僅涉及時（例如VQA任務），問題被簡化為生成輸入圖像/視頻的文本描述和/或對象位置的多模態理解任務。

輸出表示：

為了便于模型學習，論文將所有輸出轉換為文本token。具體來說，他們將2D動作轉換為文本字典，并使用LLMs中很少使用的最后256個離散語言token來表示機器人動作。
盡管如此，不同任務之間仍存在顯著的沖突，并在實驗中展示了如何緩解這些挑戰以在廣泛的訓練數據上訓練智能體。

方法

該部分討論了構建多模態AI智能體基礎模型的兩個關鍵挑戰：預訓練目標（Pretraining objectives）和數據擴展（Data scaling-up）。

預訓練目標（Pretraining Objectives）：
- 論文面臨如何創建統一的預訓練接口以促進聯合訓練的挑戰。直接預測UI導航的2D坐標和機器人任務的3D位置存在領域差距。
- 為了解決這個問題，提出使用Set-of-Mark（SoM）提示。SoM用于在圖像上實現動作對齊，簡化了任務并幫助模型預測可操作點的數值token。
數據擴展（Data Scaling-up）：
- 現有的視覺-語言-動作數據集數量有限且缺乏多樣性。
- 論文提出使用Trace-of-Mark（ToM）來擴展數據集。ToM通過在視頻中預測未來軌跡來增強模型的能力，幫助模型理解時間動態并從原始視頻中獲取動作監督。

通過結合SoM和ToM，能夠在不同類型的任務之間實現無縫協同，并有效地擴展數據集。

Set-of-Mark (SoM)

SoM 是一種提示策略，用于增強模型在圖像上的動作對齊能力。

輸入處理：給定一個圖像觀察值和任務描述，模型首先提取一組候選區域或點，這些區域或點是可操作的（例如，可點擊的按鈕或機器人手臂的位置）。
token疊加：在圖像上疊加token和框（如果有的話），并用數值標簽token這些位置，形成一個新的token圖像。
輸出生成：模型需要選擇候選token并給出原始坐標，以便于動作對齊。公式表示為：其中，是的子集。
應用場景：SoM適用于UI截圖、機器人操作和人類視頻等多種場景。通過使用不同的網絡（如圖像分割模型、目標檢測模型）來獲取候選區域，模型可以有效地進行動作對齊。

Trace-of-Mark (ToM)

ToM 是一種從視頻中學習動作規劃的方法，通過預測未來的動作軌跡來增強模型的時間動態理解能力。具體方法如下：

輸入處理：給定一個視頻序列的視覺觀察值，模型沿時間軸擴展到未來幀，形成未來幀序列。
軌跡提取：在當前幀的個token中，提取未來幀中對應位置的軌跡。
輸出生成：模型不僅需要預測動作類型和有效token，還需要預測有效token的未來軌跡：其中，是的軌跡序列的子集。
應用場景：ToM通過預測未來的動作軌跡，幫助模型在視頻數據中學習動作規劃。這種方法不僅減少了token的數量，還能捕捉更長的時間動態和動作相關的對象動態。

智能體模型

為了保留Magma所需的多模態理解能力，視覺觀察通過視覺編碼器編碼后，與語言token一起輸入到一個解碼器中。
視覺編碼器采用ConvNeXt，支持任意圖像分辨率的編碼。
最終的智能體建模被描述為一個自回歸解碼過程，模型根據視覺輸入和語言任務描述生成輸出token。

多模態智能體預訓練

數據集

為了開發一個具有語言和空間智能的基礎模型，能夠處理多種智能體任務，論文從廣泛的圖像、視頻和機器人領域中收集了一個綜合的預訓練數據集。

機器人操作數據

來源：遵循OpenVLA的研究方法，使用Open-X-Embodiment的數據集。
內容：包含用于機器人任務的9.4百萬個圖像-語言-動作三元組，這些三元組是從326K條軌跡中提取的。

UI導航數據

來源：利用兩個預訓練數據集，SeeClick和Vision2UI。
內容：包括用于UI導航的屏幕截圖和相關標注。

指導性視頻

來源：編輯ic-Kitchen、Ego4d、Something-Something v2和其他相關指導性視頻，這些視頻提供豐富的粗粒度目標驅動的人類動作。
內容：包含大量的人類日常活動視頻片段，用于學習智能體模型的執行能力。

多模態理解數據

來源：包括ShareGPT4V的1.2百萬個合成圖像-文本對，以及LLaVA-1.5的665K圖像指令調整數據。
內容：用于保留基礎模型的通用多模態理解能力。

SoM和ToM生成

SoM用于UI導航

應用：應用于所有UI數據以學習統一的動作定位。
生成：基于DOM樹和Android視圖層次結構提取邊界框，并在圖像上繪制token。

SoM和ToM用于視頻和機器人數據

應用：使用token和軌跡作為替代動作監督來預訓練Magma模型，用于動作定位和規劃。
生成：使用點跟蹤模型CoTracker從視頻段中提取未來軌跡，并應用同源變換去除全局運動。

預訓練

通過上述數據集和標注，創建了一個全面的預訓練套件，涵蓋了不同的數字和物理環境、語言和空間標注以及各種多模態理解和智能體任務。

數據集規模

UI導航：約2.7百萬個UI導航屏幕截圖。
機器人操作：970K條軌跡，包含9.4百萬個圖像-語言-動作三元組。
視頻：超過25百萬個樣本，來自約4百萬個一致的短視頻片段。
多模態理解：1.2百萬個圖像和文本對。

預訓練架構

默認設置：使用LLaMA-3-8B作為語言骨干網絡，ConvNext-XXlarge作為視覺骨干網絡。
訓練：使用Magma-SFT（820K）進行最多三輪預訓練，學習率為1e-5。

實驗

zero-shot評估

zero-shot評估旨在驗證Magma模型在不經過特定任務微調的情況下，能否在多種智能體任務上表現出色。研究者們在不同的基準測試上評估了Magma的zero-shot遷移能力。

UI導航

數據集：使用ScreenSpot和VisualWebBench評估UI動作定位和導航。
- ScreenSpot：用于評估UI動作定位，包含iOS、Android、macOS、Windows和網頁的屏幕截圖。
- VisualWebBench：用于評估網頁UI的理解和導航。
結果：Magma在UI導航任務上顯著優于其他通用領域的多模態模型和特定領域的智能體模型。特別是，Magma在屏幕截圖上的表現比使用GPT-4V和OmniParser的方法更好。

機器人操作

數據集：使用SimplerEnv評估機器人操作。
- SimplerEnv：包含多個機器人操作任務，用于評估機器人在模擬環境中的操作能力。
結果：Magma在機器人操作任務上表現出色，成功率顯著高于其他模型，尤其是在復雜任務中。

多模態理解

數據集：在VQA任務上評估模型的通用性和文本豐富性。
- VQAv2：用于評估視覺問答任務。
- POPE：用于評估對象幻覺任務。
結果：Magma在多模態理解任務上也表現出色，優于其他模型。

高效微調

高效微調部分展示了通過適度微調，預訓練的Magma模型如何輕松轉移到各種下游智能體任務。

UI導航

數據集：在Mind2Web和AITW上微調，評估網頁和移動UI導航能力。
- Mind2Web：用于評估文本驅動的網頁UI導航。
- AITW：用于評估Android UI導航。
結果：Magma在UI導航任務上優于開源或商業模型，顯示出其在實際應用中的強大能力。

機器人操作

數據集：在真實機器人數據和模擬環境中微調，評估任務適應能力和泛化能力。
- 真實機器人：在WidowX機器人上評估復雜的多任務操作。
- 模擬環境：在LIBERO基準測試上評估任務適應能力。
結果：Magma在真實機器人操作任務中表現出色，能夠處理復雜的日常對象操作任務，并且在未見過的任務上也能保持良好的泛化能力。

空間推理能力

論文認為，Magma模型在UI導航和機器人操作任務上表現出的改進性能，主要是由于其空間推理能力的提高。

為了驗證這一點，論文在幾個具有挑戰性的空間推理基準測試上評估了Magma模型的效果。

基準測試

使用了幾個基準測試來評估Magma模型的空間推理能力：

VSR：是評估模型在視覺場景中進行空間推理的能力的基準測試。在zero-shot設置下評估了Magma模型，并與其他方法進行了比較。
BLINK：是多模態語言模型基準測試，專注于評估模型在視覺-語言任務中的感知能力。論文展示了Magma模型在沒有特定指令微調的情況下，在BLINK數據集上的表現。
SpatialEval：是綜合性的空間推理基準測試，涵蓋了多種空間推理任務。論文在zero-shot設置下評估了Magma模型，并與其他方法進行了比較。

結果分析

Magma的表現：
- 在VSR和SpatialEval基準測試上，Magma模型顯著優于現有的方法，顯示出其在空間推理任務上的強大能力。
- 盡管Magma模型在預訓練時只使用了大約2900萬張圖像，但在這些基準測試上的表現與使用1.5億張圖像進行預訓練的CogVLM相當。
消融研究：
- 論文還進行了消融研究，以驗證SoM和ToM預訓練任務對提高Magma模型空間推理能力的效果。
- 結果表明，使用SoM和ToM進行預訓練顯著提高了Magma模型在空間推理任務上的表現。
- 此外，論文還發現，去除訓練數據中的視頻會導致BLINK任務上的性能下降約8%，這進一步證明了視頻數據在預訓練中的重要性。

結論

通過這些評估，證明Magma模型在空間推理任務上的優異表現主要歸功于其在預訓練過程中通過SoM和ToM任務獲得的空間推理能力的提升。
這些結果表明，Magma模型不僅在多模態理解任務上表現出色，而且在需要復雜空間推理的任務上也具有強大的能力。

接下來主要關注評估Magma模型在多模態理解任務上的表現，通過一系列基準測試來驗證Magma在處理多模態輸入（如圖像和視頻）時的能力。

圖像理解任務

論文通過連續微調的方式，評估Magma在圖像理解任務上的表現，并將其與其他現有的多模態模型進行比較。

數據集

MME（Multimodal Multiple Choice）：用于評估模型在多模態選擇題任務上的表現。
GQA（Generic Question Answering）：用于評估模型在通用視覺問答任務上的表現。
ChartQA：用于評估模型在圖表理解任務上的表現。

結果

MME和GQA：Magma在大多數任務上優于最近提出的多模態模型，顯示出其在多模態理解任務上的優勢。
ChartQA：Magma在圖表理解任務上取得了顯著的提升，特別是在需要復雜邏輯推理的任務上。

預訓練任務的影響

SoM和ToM的貢獻：研究者的消融實驗表明，使用SoM和ToM進行預訓練任務有助于提高Magma在多模態理解任務上的表現，特別是在圖表理解任務上。

視頻理解任務

在多個視頻理解任務上評估了Magma的表現，以驗證其在處理動態多模態輸入時的能力。

數據集

IntentQA：用于評估模型在視頻意圖識別任務上的表現。
NextQA：用于評估模型在視頻上下文理解任務上的表現。
VideoMME：用于評估模型在視頻多模態任務上的表現。
MVBench：用于評估模型在多模態視頻理解任務上的表現。

結果

視頻任務：Magma在大多數視頻任務上優于現有的最先進模型，顯示出其在處理視頻數據時的競爭力。
視頻任務的優勢：Magma在視頻任務上的表現優于LongVA等模型，盡管其使用的視頻和文本數據量較小。

預訓練任務的影響

ToM的貢獻：研究者的實驗表明，ToM預訓練任務有助于提高Magma在視頻任務上的表現，特別是在動作預測和序列生成任務上。

討論

該部分討論了Magma模型的社會影響、局限性以及負責任的人工智能（Responsible AI）方面的考慮。

社會影響和局限性

為了開發一個具有語言和空間智能的多模態基礎模型，能夠處理數字和物理環境中的多樣化任務，論文從廣泛的圖像、視頻和機器人領域中整理了一個綜合的預訓練數據集。具體來說：

UI導航數據：使用了兩個預訓練數據集SeeClick和Vision2UI。
教學視頻：為了學習能夠執行日常任務的智能體模型，論文編譯了來自Epic Kitchen、Ego4d、Something-Something v2和其他教學視頻的數據。
機器人操作數據：遵循OpenVLA的方法，利用Open-X-Embodiment中的機器人數據。
多模態理解數據：包括少量的多模態預訓練數據ShareGPT4V，以及LLaVA-1.5和其他特定領域的指令調整數據，以保留預訓練模型的通用多模態理解能力。

盡管如此，教學視頻中的人物身份和活動分布并不代表全球人類人口和社會的多樣性。意識到使用這些數據進行訓練可能會引入無意的性別、種族和其他偏見。因此，論文將在發布模型時確保有必要的免責聲明，并強調模型的使用場景和預期用途。

負責任的AI

論文強調，模型專門設計用于在受控的Web UI和Android模擬器中進行UI導航，以及在機器人操作任務中使用。
建議的使用場景應限于被訓練的環境，即配備有機器人臂和日常物品的封閉環境，以及運行在計算機上的Android模擬器進行UI操作。
對于UI導航任務，研究人員應確保人類始終在控制中，對智能體系統生成的每個動作進行監督。由于模型本身不能自行行動，研究人員使用的子模塊在執行UI導航動作時應確保不會因執行模型提出的UI動作而導致意外后果。
論文還提到，盡管模型在UI導航和機器人操作方面表現出色，但作為產品不可用于剝削性場景。恐怖威脅者可能將模型作為自動化UI導航的基礎，利用特定的訓練數據來針對特定惡意任務進行訓練。這是與智能體模型相關的通用風險。