字節跳動 UI-TARS 匯總整理報告

1. 摘要

UI-TARS 是字節跳動開發的一種原生圖形用戶界面（GUI）代理模型。它將感知、行動、推理和記憶整合到一個統一的視覺語言模型（VLM）中。UI-TARS 旨在跨桌面、移動和 Web 平臺實現與 GUI 的無縫交互。實驗結果表明，在各種 GUI 相關任務中，UI-TARS 的性能優于 GPT-4o 和 Claude 等現有模型。 ?

將核心人工智能組件集成到單個模型中，標志著 GUI 自動化領域從傳統模塊化方法的一次轉變。傳統系統通常將感知、規劃和行動分離為不同的模塊，這可能導致數據流和協調方面的效率低下和復雜性。UI-TARS 的統一架構可能允許更直接和優化的學習與執行。此外，聲稱優于已建立模型的性能表明該領域取得了重大進展，可能影響各種應用程序的生產力、可訪問性和自動化水平。如果 UI-TARS 確實能夠比 GPT-4o 和 Claude 等最先進的模型更有效地處理 GUI 任務，那么它可能成為下一代自動化工具和用戶界面的基礎技術。

2. UI-TARS 簡介

2.1 GUI 自動化面臨的挑戰背景

傳統的 GUI 自動化通常依賴于預定義的工作流程、手動規則和腳本編寫（例如 AutoHotkey、Selenium）。這些方法可能較為脆弱，需要針對不斷發展的界面進行持續更新，并且缺乏從真實世界交互中進行學習的無縫集成。現有的代理框架可能依賴于對商業模型（例如 GPT-4o）的深度封裝，并使用專家精心設計的提示和工作流程，這與端到端模型相比，可擴展性和適應性可能較差。這些傳統方法和基于框架的方法的局限性凸顯了對像 UI-TARS 這樣更智能、更具適應性的解決方案的需求。對舊方法中手動配置和外部模型的依賴會造成瓶頸，并阻礙其泛化到新的或動態的 GUI 環境的能力。UI-TARS 旨在通過其集成和數據驅動的特性來克服這些限制。 ?

2.2 UI-TARS 作為下一代原生 GUI 代理模型的介紹

UI-TARS 被稱為“下一代原生 GUI 代理模型” 。它被設計為利用類似人類的感知、推理和行動能力與 GUI 進行無縫交互。“原生”一詞暗示了與 GUI 的像素級直接交互，因為它“僅將屏幕截圖作為輸入進行感知” 。這種“原生”特性至關重要，因為它意味著 UI-TARS 不依賴于底層系統 API 或 DOM 結構，這使其在不同的平臺和應用程序中可能更具魯棒性。通過處理原始屏幕截圖，UI-TARS 模仿了人類視覺感知和與界面交互的方式，這可能使其能夠更有效地處理各種 GUI 元素和動態變化。 ?

2.3 強調 UI-TARS 獨特的端到端架構和關鍵創新

與傳統的模塊化框架不同，UI-TARS 將感知、推理、基礎和記憶集成在一個單一的 VLM 中。關鍵創新包括增強的感知能力、統一的行動建模以及通過反思性在線軌跡進行的迭代訓練。端到端架構可能允許更有效的信息流和學習過程，因為該模型可以直接將視覺輸入映射到行動，而無需中間表示或手動特征工程。將所有組件集成到一個模型中可以降低模塊之間錯誤傳播的風險，并允許對整個系統進行更全面的優化。此外，強調使用反思性在線軌跡進行迭代訓練，表明存在一種基于真實世界交互進行持續學習和改進的機制，從而解決了早期模型的適應性限制。通過從錯誤中學習并根據持續的交互數據改進其策略，UI-TARS 可能會隨著時間的推移實現更高的魯棒性和泛化能力。 ?

3. 核心特性與能力

3.1 四個核心組件的深入解釋

3.1.1 感知 UI-TARS 處理多模態輸入（文本、圖像、交互）以構建對界面的連貫理解。它利用大規模的 GUI 屏幕截圖數據集，通過精確標注界面元素來實現全面的 GUI 理解。該模型能夠持續監控動態 GUI，并準確響應實時變化。其功能包括屏幕截圖收集、元素描述、密集標注、狀態轉換標注和問答。處理多模態輸入的能力對于與包含各種信息類型的復雜 GUI 進行交互至關重要。GUI 不僅僅是視覺元素的集合；它還包括文本標簽、圖標和交互式組件。UI-TARS 處理所有這些模態的能力使其能夠更豐富地理解界面。實時交互對于用戶體驗至關重要，使代理能夠適應 GUI 中的動態變化，而無需手動干預或重新加載。許多應用程序的界面會頻繁更新（例如，帶有動畫的網頁、帶有進度條的桌面應用程序）。UI-TARS 的實時監控功能確保即使在界面發生變化時也能繼續運行。 ?
3.1.2 行動 UI-TARS 采用統一的行動空間，在桌面、移動和 Web 平臺之間使用標準化的行動定義。它支持特定于平臺的行動，例如熱鍵、長按和手勢。根據任務的不同，它可以生成諸如單擊、雙擊、鍵入和保存等可能的行動。統一的行動空間簡化了 UI-TARS 在不同操作系統和設備上的開發和部署。通過抽象用戶輸入（例如，鼠標點擊與觸摸手勢）的平臺特定細節，UI-TARS 可以更輕松地跨各種環境進行訓練和應用。包含特定于平臺的行動表明該模型了解不同用戶界面的細微差別，并允許進行更自然和有效的交互。雖然統一的行動空間提供了一個共同的基礎，但某些平臺具有獨特的交互模式，UI-TARS 可以利用這些模式來獲得更好的性能。 ?
3.1.3 推理 UI-TARS 結合了快速、直觀的（系統 1）響應和針對復雜任務的深思熟慮的高級規劃（系統 2）。它支持任務分解、反思和錯誤糾正，以實現穩健的任務執行。系統 2 推理已被證明在各種真實世界場景中是有益的。系統 1 和系統 2 推理的集成表明了一種復雜的任務執行方法，使 UI-TARS 能夠有效地處理簡單和復雜的場景。系統 1 推理能夠對常規任務做出快速有效的響應，而系統 2 推理則允許在更具挑戰性的情況下進行更周密的規劃和問題解決。分解任務和反思過去行動的能力對于處理多步驟工作流程和從錯誤中恢復至關重要，這使得 UI-TARS 在實際應用中更加可靠。 ?
3.1.4 記憶 UI-TARS 利用短期記憶來捕獲特定于任務的上下文以實現情境感知。它采用長期記憶來保留歷史交互和知識，以改進決策。短期記憶使 UI-TARS 能夠在特定任務中保持上下文，而長期記憶則使其能夠從過去的經驗中學習并提高其在未來任務中的表現。與人類認知類似，UI-TARS 使用記憶來理解當前情況并利用過去的知識來做出更好的決策并更有效地執行任務。 ?

3.2 每個組件內的子特性詳細分解（已在 3.1 中涵蓋）

3.3 跨平臺交互和多步驟任務執行能力的討論

UI-TARS 通過統一的行動框架支持桌面、移動和 Web 環境。它經過訓練，可以通過多步驟軌跡和推理來處理復雜的任務。在諸如 OSWorld 和 AndroidWorld 等具有挑戰性的多步驟基準測試中，它取得了優異的成績。跨平臺能力是一個顯著的優勢，因為它允許用戶使用一致的方法跨各種設備和操作系統自動化任務。在當今多設備的世界中，能夠跨不同平臺無縫自動化任務對于提高生產力和便利性非常有價值。多步驟任務執行方面的熟練程度表明 UI-TARS 能夠處理通常涉及一系列操作的復雜現實世界場景。許多日常任務需要多個步驟和邏輯依賴關系。UI-TARS 在多步驟軌跡上的訓練使其能夠處理這些更復雜的流程。 ?

4. 技術架構與實現細節

4.1 底層視覺語言模型（VLM）的解釋

UI-TARS 將所有關鍵組件集成在一個單一的視覺語言模型（VLM）中。它在一個包含約 500 億個 token 的語料庫上進行了訓練。該模型有三種變體：UI-TARS-2B、UI-TARS-7B 和 UI-TARS-72B 。這些模型可在 Hugging Face 上找到。使用大規模 VLM 表明 UI-TARS 利用深度學習的力量來理解視覺和文本信息，并將其映射到行動。視覺語言模型在理解和生成基于視覺和文本輸入的內容方面表現出了卓越的能力。將這項技術應用于 GUI 自動化，使 UI-TARS 能夠有效地解釋屏幕內容和自然語言命令。不同模型尺寸（2B、7B、72B 參數）的可用性表明計算資源和性能之間存在權衡，允許用戶選擇適合其需求的模型。較大的模型通常具有學習復雜模式的更大能力，但需要更多的計算能力。提供不同的尺寸使得 UI-TARS 更容易被更廣泛的用戶和硬件配置所接受。 ?

4.2 UI-TARS-desktop 應用程序及其功能的概述

一個桌面應用程序（UI-TARS-desktop）可用于本地個人設備操作。它允許用戶使用自然語言控制他們的計算機。其功能包括自然語言控制、屏幕截圖和視覺識別支持、精確的鼠標和鍵盤控制、跨平臺支持（Windows/macOS）、實時反饋以及用于隱私和安全的本地處理。它還集成了命令行和文件系統。GitHub 存儲庫顯示了一個結構良好的代碼庫，其中包含用于應用程序、文檔、示例、包等的文件夾。桌面應用程序為與 UI-TARS 交互提供了一個用戶友好的界面，使其功能更容易被研究人員和開發人員以外的更廣泛受眾所接受。雖然底層模型很復雜，但桌面應用程序通過自然語言界面簡化了其使用，從而可能普及 GUI 自動化。本地處理方面解決了與將敏感用戶交互發送到云端相關的潛在隱私問題。通過在本地執行所有處理，UI-TARS-desktop 確保用戶數據和交互保留在其設備上。 ?

4.3 通過 Midscene.js 與 Web 自動化集成

UI-TARS 可以通過開源項目 Midscene.js 用于 Web 自動化。Midscene.js 允許對網頁進行視覺解釋。與專用 Web 自動化工具的集成突顯了 UI-TARS 的多功能性及其簡化 Web 瀏覽器中執行任務的潛力。Web 瀏覽器是許多用戶日常工作流程的核心部分。UI-TARS 自動化 Web 頁面內交互的能力顯著擴展了其適用性。 ?

4.4 部署選項（云端和本地）及相關技術方面的討論

UI-TARS 提供云端和本地部署選項（使用 Transformers 和 vLLM）。云端部署信息可在 ModelScope 上的中文指南中找到。本地部署類似于 Qwen2-VL 。該項目還提到了一個用于構建 GUI 自動化代理的 UI TARS SDK 。提供云端和本地部署選項可以滿足不同用戶的偏好和技術能力。云端部署提供可擴展性和易用性，而本地部署則提供更多控制和可能更好的隱私。開發 SDK 表明正在努力使開發人員能夠使用 UI-TARS 的核心功能構建自定義應用程序和集成。SDK 將降低希望在其項目中使用 UI-TARS 的開發人員的入門門檻，從而可能導致該技術的更廣泛采用。 ?

5. 設計理念與關鍵原則

5.1 UI-TARS 背后的設計原則分析

關鍵原則包括增強的感知能力、統一的行動建模、高級推理（系統 2）和迭代訓練。增強的感知能力通過精心策劃的數據集確保準確識別 GUI 元素。統一的行動建模將元素描述與空間坐標聯系起來，以實現精確的基礎。迭代訓練涉及動態數據收集、錯誤識別以及通過反思性調整進行的適應。設計原則強調數據驅動的方法，旨在最大限度地減少人為干預，并最大限度地提高模型學習和適應的能力。通過專注于高質量的訓練數據和持續學習，UI-TARS 旨在克服基于規則和手動設計的 GUI 自動化系統的局限性。 ?

5.2 與傳統模塊化 GUI 自動化框架的比較

UI-TARS 的端到端設計與依賴于手工方法、專家知識和特定于任務的優化的傳統模塊化架構形成對比。與端到端模型相比，模塊化框架的可擴展性和適應性可能較差。向端到端模型的轉變標志著邁向更通用和魯棒的 GUI 自動化解決方案的轉變，這種解決方案需要更少的人工工程。通過直接從數據中學習，與依賴于預定義模塊和規則的系統相比，UI-TARS 可以潛在地處理更廣泛的 GUI 任務并更輕松地適應新的界面。 ?

5.3 強調數據驅動的方法和從真實世界交互中學習

UI-TARS 從大規模的 GUI 屏幕截圖和行動軌跡數據集中學習。通過反思性調整進行的迭代訓練允許從錯誤中持續學習并適應不可預見的情況。對數據的嚴重依賴和持續學習機制是 UI-TARS 能夠實現高性能并適應不斷變化的圖形用戶界面格局的關鍵。現代人工智能模型的成功通常取決于大量多樣化數據集的可用性。UI-TARS 的數據驅動方法使其能夠學習復雜的 GUI 交互模式并隨著時間的推移提高其能力。 ?

6. 實驗結果與性能評估

6.1 實驗設置和使用的基準數據集概述

UI-TARS 在 10 多個 GUI 代理基準測試中進行了評估。這些基準測試包括 VisualWebBench、WebSRC、ScreenSpot Pro、OSWorld、AndroidWorld、Multimodal Mind2Web 和 Android Control 。實驗涵蓋了感知、基礎和代理能力。使用各種基準測試表明對 UI-TARS 在 GUI 交互的不同方面進行了全面的評估。在多個基準測試中進行評估可確保模型的性能不特定于某種類型的任務或環境，從而更全面地了解其優勢和劣勢。 ?

6.2 定量結果的詳細展示

UI-TARS-72B 在 VisualWebBench 上取得了 82.8 的分數，高于 GPT-4o 的 78.5 。在 ScreenSpot Pro 上獲得了 38.1 的最高分數。在 OSWorld 中，UI-TARS-72B 在 50 步時取得了 24.6 的分數，在 15 步時取得了 22.7 的分數，優于 Claude 的 22.0 和 14.9 。在 AndroidWorld 中，取得了 46.6 的分數，超過了 GPT-4o 的 34.5 。在所有基準測試中，UI-TARS-72B 的性能始終優于之前的最先進模型，提升高達 +42.9%（例如，在 GUI-Odyssey 中）。定量結果清楚地表明，在各種具有挑戰性的 GUI 交互任務中，UI-TARS 的性能優于領先模型。不同基準測試的特定分數提供了 UI-TARS 在感知、基礎和復雜任務執行方面取得進展的具體證據。 ?

性能比較表

6.3 結果意義的討論

結果突出了系統 1 和系統 2 推理的重要性。系統 2 推理在各種真實世界場景中是有益的。擴大模型尺寸提高了推理和決策能力，尤其是在在線任務中。對不同推理機制和模型尺寸的影響的分析，為架構選擇及其對性能的影響提供了寶貴的見解。了解不同組件如何影響整體性能有助于進一步完善模型并指導未來的研究。 ?

6.4 模型縮放（2B、7B、72B 參數）影響的分析

該模型開發了三種變體：UI-TARS-2B、UI-TARS-7B 和 UI-TARS-72B 。擴大模型尺寸提高了推理和決策能力。UI-TARS-72B 在幾乎所有任務中都表現出色。隨著模型尺寸的增大，性能持續提升，這表明增加模型的容量使其能夠學習更復雜的模式，并在具有挑戰性的 GUI 任務中取得更好的結果。這與深度學習的一般趨勢一致，即在有足夠訓練數據的情況下，較大的模型通常表現出更優越的性能。 ?

7. 應用、優勢與潛在價值

7.1 探索各種應用場景

UI-TARS 可用于提高日常生產力（自動化文件管理、電子郵件、表格）、軟件測試和質量保證（自動化 UI 測試）、教育和無障礙支持（為殘疾用戶提供自然語言控制）、跨平臺自動化（集成桌面和 Web 應用程序），以及在軟件開發（自動化編碼和調試）、研究自動化（數據收集、報告生成）和一般計算任務（日程安排、電子郵件管理）方面具有潛力。廣泛的潛在應用突顯了 UI-TARS 在各個領域的變革潛力，從個人生產力到企業級自動化。以類似人類的方式與 GUI 交互的能力為自動化任務和改善用戶體驗開辟了無數的可能性。 ?

7.2 強調 UI-TARS 相對于現有解決方案的優勢

UI-TARS 無需預定義工作流程或手動規則，并實現了端到端的任務處理。它在動態環境中具有高度的適應性和靈活性，并且在 GUI 相關任務中優于 GPT-4o 和 Claude 等其他模型。與傳統的腳本工具相比，它更智能、更靈活，并通過自然語言控制降低了技術門檻。UI-TARS 的優勢使其成為傳統 GUI 自動化方法的重要改進，提供了更高的靈活性、智能性和易用性。通過消除手動配置的需要并依賴其人工智能能力，UI-TARS 可以自動化更廣泛的任務，并更有效地適應不斷變化的界面。 ?

7.3 討論 UI-TARS 的潛在價值和影響

UI-TARS 有望徹底改變任務自動化、增強可訪問性并簡化工作流程。它可能導致依賴手動計算機操作的行業出現職位流失，代表了人工智能驅動的計算機交互方面的重大突破，并具有技術應用和效率方面的潛在飛躍。UI-TARS 有可能顯著影響人類與計算機的交互方式，為提高效率帶來巨大的機遇，同時也帶來與勞動力市場顛覆相關的潛在挑戰。隨著人工智能模型越來越能夠自動化復雜的任務，考慮更廣泛的社會和經濟影響非常重要。 ?

8. 不同來源信息的比較

8.1 識別共同主題和一致信息

一個共同的主題是，UI-TARS 是字節跳動開發的一種新型 GUI 代理模型，它使用人工智能與計算機界面進行交互（所有來源）。另一個共同的主題是，它集成了感知、行動、推理和記憶。此外，它在 GUI 任務中優于 GPT-4o 和 Claude 等模型。最后，它具有桌面應用程序，可用于 Web 自動化。這些核心主題在各種來源（技術報告、新聞文章、GitHub 存儲庫）中的一致性增強了 UI-TARS 的可信度和重要性。當多個獨立來源報告相同的關鍵信息時，人們對這些細節的準確性和重要性更有信心。 ?

8.2 突出顯示特定來源的任何差異或獨特見解

知乎上的文章無法訪問。騰訊云開發者社區的文章詳細介紹了技術特點、應用場景和優勢。GitHub 存儲庫提供了對項目代碼結構、桌面應用程序的具體功能和技術文檔的見解。arXiv 論文在正式的學術背景下介紹了技術原理、實現方法和詳細的實驗結果。新聞文章則提供了關于 UI-TARS 的影響、安全問題和專家意見的更廣泛的視角。每個來源都提供了一個獨特的視角來理解 UI-TARS，從而形成對該項目的更全面的認識。通過檢查來自不同類型來源（技術文檔、新聞報道、學術論文）的信息，我們可以更全面地了解 UI-TARS 的功能、應用和影響。 ?

8.3 綜合理解

UI-TARS 是一種尖端的人工智能模型，代表了 GUI 自動化領域的重大進步。它利用統一的 VLM 架構，具有增強的感知和迭代訓練等創新功能，從而在各種平臺和任務中實現了最先進的性能。其開源特性以及桌面應用程序和 SDK 的可用性表明，該項目正在大力推動實際應用并鼓勵社區進一步開發。然而，其強大的功能也引發了關于安全性和潛在就業崗位流失的重要考慮。

9. 結論與未來方向

9.1 總結 UI-TARS 的關鍵發現和貢獻

UI-TARS 引入了一種新穎的端到端 GUI 自動化方法，其性能優于現有模型，并在適應性、智能性和易用性方面提供了顯著優勢。其核心特性、技術架構和令人印象深刻的實驗結果使其成為人機交互領域的領先技術。

9.2 討論潛在的未來研究方向和進展

未來的研究可以側重于增強長期記憶能力、提高處理高度動態和復雜界面的魯棒性、探索其與其他人工智能模態的集成，以及解決這種強大的自動化技術所帶來的倫理和社會影響。主動學習和終身學習也被強調為未來的研究領域。對 UI-TARS 當前能力和局限性的分析有助于指導 GUI 代理領域的未來研究工作，從而可能產生更先進和更有益的技術。識別需要改進的領域并探索新的研究方向對于人工智能及其在人機交互中的應用的持續發展至關重要。