多模態大語言模型arxiv論文略讀（五十五）

請添加圖片描述

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

?? 論文標題：MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
?? 論文作者：Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
?? 研究機構: ByteDance、Rutgers University
?? 問題背景：隨著大規模文本到圖像擴散模型的快速發展，個性化圖像生成的需求日益增長。然而，現有的個性化圖像生成方法在細節保真度、身份保留和文本提示一致性方面存在不足，且大多數方法需要針對每個實例進行微調，這限制了它們的實際應用。
?? 研究動機：為了克服現有方法的局限性，研究團隊提出了一種新的、無需微調的個性化圖像生成模型MoMA。該模型旨在提高生成圖像的細節保真度、對象身份相似性和文本提示的一致性，同時支持零樣本能力。
?? 方法簡介：MoMA利用多模態大語言模型（MLLM）作為特征提取器和生成器，通過結合參考圖像和文本提示信息，生成高質量的圖像特征。為了進一步提高生成圖像的細節質量，研究團隊引入了一種新的自注意力快捷方法，該方法能夠高效地將圖像特征傳遞到擴散模型中，從而在不增加計算開銷的情況下顯著提升目標對象的細節質量。
?? 實驗設計：研究團隊在多個任務上對MoMA進行了評估，包括背景重置任務和紋理修改任務。實驗結果表明，MoMA在不同背景下的細節準確性和對目標對象的忠實度方面表現出色，同時在紋理修改任務中能夠根據文本提示準確地改變目標對象的紋理，而不會影響未提及的視覺特征。此外，MoMA通過廣泛的預訓練，消除了評估階段的微調需求，從而實現了高效、高質量的個性化圖像生成。

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

?? 論文標題：Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
?? 論文作者：Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
?? 研究機構: Apple
?? 問題背景：盡管多模態大語言模型（Multimodal Large Language Models, MLLMs）在多種任務中表現出色，但它們在理解和交互移動用戶界面（UI）屏幕方面的能力仍然有限。移動UI屏幕通常具有更長的寬高比，并包含較小的感興趣對象（如圖標和文本），這使得直接將自然圖像模型應用于UI屏幕存在局限性。
?? 研究動機：為了克服現有模型在處理UI屏幕時的不足，研究團隊提出了Ferret-UI，這是一個專門針對移動UI屏幕設計的MLLM。Ferret-UI不僅能夠執行精確的引用和定位任務，還能理解和執行開放式的語言指令。研究團隊通過改進模型架構、精心策劃訓練數據和建立全面的基準測試，旨在提升模型在UI屏幕上的理解和交互能力。
?? 方法簡介：Ferret-UI基于Ferret模型，通過集成“任意分辨率”（anyres）技術，靈活適應不同屏幕的寬高比。模型將屏幕劃分為子圖像，分別編碼后再送入語言模型，以增強細節和視覺特征。訓練數據包括基本的UI任務（如圖標識別、文本查找）和高級任務（如詳細描述、交互對話、功能推斷），以全面覆蓋UI屏幕理解的各個方面。
?? 實驗設計：研究團隊在14個不同的移動UI任務上進行了實驗，包括3個來自Spotlight的任務（screen2words、widget captions、taperception）和11個針對iPhone和Android屏幕的雙版本任務。實驗評估了多種UI理解模型，包括開源MLLMs和GPT-4V。結果顯示，Ferret-UI在基本UI任務上顯著超越了GPT-4V，并在高級任務上也表現出色。

VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

?? 論文標題：VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
?? 論文作者：Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, Xiang Yue
?? 研究機構: Carnegie Mellon University、The Chinese University of Hong Kong、School of Computer Science, Peking University、MBZUAI、Allen Institute for AI
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在網頁相關的任務中展現出潛力，但評估這些模型在網頁領域的性能仍面臨挑戰。現有的基準測試要么設計用于通用多模態任務，無法捕捉網頁的獨特特性，要么專注于端到端的網頁代理任務，無法衡量細粒度的能力，如OCR、理解和定位。因此，需要一個全面的基準測試來評估MLLMs在網頁領域的表現。
?? 研究動機：為了填補這一空白，研究團隊開發了VisualWebBench，這是一個多模態基準測試，旨在評估MLLMs在多種網頁任務中的能力。VisualWebBench包含七個任務，涵蓋了1.5K個人工標注的實例，來自139個真實網站，覆蓋87個子領域。通過評估14個開源MLLMs、Gemini Pro、Claude-3系列和GPT-4V(ision)在VisualWebBench上的表現，研究揭示了當前MLLMs在網頁理解中的顯著挑戰和性能差距。
?? 方法簡介：研究團隊構建了VisualWebBench，該基準測試包括七個任務：網頁描述、網頁問答、標題OCR、元素OCR、元素定位、動作預測和動作定位。每個任務都設計為問答形式，以評估模型在網頁理解、OCR、定位和推理方面的能力。所有截圖統一為1280像素寬度，并經過仔細驗證和標注。
?? 實驗設計：研究團隊在VisualWebBench上評估了14個開源MLLMs、Gemini Pro、Claude-3系列和GPT-4V(ision)。實驗結果表明，即使是性能最強的GPT-4V，其平均得分也只有64.6，顯示出當前模型在網頁任務中仍有很大的提升空間。此外，研究還發現開源MLLMs與專有模型（如GPT-4V和Claude系列）之間存在顯著的性能差距，模型規模的擴大有助于提升性能。然而，專門針對GUI任務的MLLMs（如SeeClick和CogAgent）在VisualWebBench上的表現并不顯著，這表明需要更通用的GUI特定訓練技術來增強MLLMs在網頁場景中的表現。

HRVDA: High-Resolution Visual Document Assistant

?? 論文標題：HRVDA: High-Resolution Visual Document Assistant
?? 論文作者：Chaohu Liu, Kun Yin, Haoyu Cao, Xinghua Jiang, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Linli Xu
?? 研究機構: 中國科學技術大學、認知智能國家重點實驗室、騰訊優圖實驗室
?? 問題背景：盡管多模態大語言模型（MLLMs）在多種任務中展現了強大的視覺理解能力，但在處理視覺文檔理解任務時，其性能仍有待提高。主要原因是現有模型通常使用低分辨率圖像，導致視覺信息的大量損失，且缺乏針對文檔的視覺指令調優。
?? 研究動機：為了解決上述問題，研究團隊提出了一種新的多模態大語言模型——高分辨率視覺文檔助手（HRVDA），該模型通過內容過濾機制和指令過濾模塊，有效處理高分辨率圖像輸入，提高了模型的訓練和推理效率。
?? 方法簡介：HRVDA模型包括內容檢測器、圖像編碼器、指令過濾模塊和大語言模型（LLM）。內容檢測器用于識別圖像中的重要內容區域，圖像編碼器提取圖像特征，指令過濾模塊進一步過濾與指令無關的視覺令牌，最后將處理后的視覺令牌和指令輸入LLM生成響應。
?? 實驗設計：研究團隊在多個文檔理解數據集上進行了實驗，包括文檔分類、信息提取、視覺問答、光學字符識別、視覺定位、圖像描述和表格重建等任務。實驗結果表明，HRVDA在這些任務上均達到了當前最先進的性能，同時保持了與低分辨率模型相當的訓練效率和推理速度。

UMBRAE: Unified Multimodal Brain Decoding

?? 論文標題：UMBRAE: Unified Multimodal Brain Decoding
?? 論文作者：Weihao Xia, Raoul de Charette, Cengiz ?ztireli, Jing-Hao Xue
?? 研究機構: University College London、Inria、University of Cambridge
?? 問題背景：當前的腦信號解碼研究面臨兩個主要挑戰。首先，將腦信號解碼為單一模態（如文本或圖像）會導致信息丟失，無法全面捕捉腦活動的細節。其次，由于個體間腦活動模式的差異，現有的方法通常需要為每個受試者單獨訓練模型，這限制了模型的泛化能力和實用性。
?? 研究動機：為了解決上述挑戰，研究團隊提出了一種統一的多模態腦解碼方法（UMBRAE），旨在通過將腦信號與多模態大語言模型（MLLMs）對齊，實現對腦信號的細粒度解碼。此外，該方法還引入了跨受試者訓練策略，以學習跨受試者的通用表示，從而減少對大量訓練數據的依賴，并提高模型的適應性和泛化能力。
?? 方法簡介：UMBRAE方法包括一個靈活的腦編碼器架構和跨受試者訓練策略。腦編碼器通過輕量級的Transformer架構處理不同長度的腦響應輸入，并通過主體特定的分詞器和通用感知編碼器將腦信號映射到一個共同的特征空間。跨受試者訓練策略通過均勻采樣確保模型在訓練過程中不會偏向特定受試者，同時保持對不同受試者的識別能力。
?? 實驗設計：研究團隊在四個受試者的數據集上進行了實驗，包括腦信號解碼為文本（腦字幕）、視覺定位（腦定位）、檢索（腦檢索）和視覺重建（視覺解碼）等任務。實驗評估了UMBRAE在不同任務上的性能，并與現有的方法進行了比較。實驗結果表明，UMBRAE不僅在新任務上取得了優異的表現，而且在傳統任務上也優于或與現有方法持平。此外，UMBRAE還支持弱監督適應，能夠在少量訓練數據的情況下快速適應新受試者。