[特殊字符] UI-Trans：字節跳動發布的多模態 UI 轉換大模型工具，重塑界面智能化未來

2025 年，字節跳動（ByteDance）發布了革命性的多模態 UI 轉換模型 —— UI-Trans，引發了業界廣泛關注。作為一款融合視覺理解、語義分析與用戶交互意圖解析的 AI 工具，UI-Trans 在多個領域展現出強大能力，正在重塑 UI 智能生成和多模態理解的未來。

UI-Trans 是一種面向用戶界面（UI）的多模態預訓練模型，具備如下核心能力：

UI-Trans 采用視覺 Transformer 架構，將 圖像（UI 截圖）與文本描述（自然語言指令） 完整對齊，在單一模型中完成：

這使得模型能“看懂”UI、“聽懂”人話、“動手”重構。

UI-Trans 訓練使用了字節自建的 高質量 UI-Instruction 數據集，覆蓋：

這為模型的泛化能力和真實任務遷移提供堅實基礎。

UI-Trans 不僅支持傳統的“UI→代碼”任務，還能完成：

根據官方技術報告，UI-Trans 在 UI-Bench、MUIT、VDOM-Bench 等多個標準評測中全面超越 GPT-4V、Claude 3、Gemini Ultra 等主流多模態模型。

模型	UI結構重建準確率	UI元素定位 mAP	文本生成 BLEU
GPT-4V	78.5%	61.3	69.0
Gemini	75.2%	63.0	65.5
UI-Trans	89.7%	72.8	81.4

輸入：

🖼? 一張登錄頁 UI 圖片
💬 指令：“請將‘手機號登錄’改為‘郵箱登錄’，并移除驗證碼輸入框。”

輸出（結構 JSON）：

{"type": "form","children": [{"type": "input", "label": "郵箱"},{"type": "input", "label": "密碼"},{"type": "button", "text": "登錄"}]
}

UI-Trans 的發布標志著多模態 AI 在真實軟件系統中的落地邁出了關鍵一步。未來，它將成為 UI 自動化、無代碼開發、輔助可訪問性、UI 生成式編程等多個領域的核心組件。

字節跳動已表示將開放部分模型與 API，推動社區共建。我們有理由相信，UI-Trans 將成為智能人機交互的新起點。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84421.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84421.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84421.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！