多模態大語言模型arxiv論文略讀(五十五)

請添加圖片描述

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

?? 論文標題:MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
?? 論文作者:Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
?? 研究機構: ByteDance、Rutgers University
?? 問題背景:隨著大規模文本到圖像擴散模型的快速發展,個性化圖像生成的需求日益增長。然而,現有的個性化圖像生成方法在細節保真度、身份保留和文本提示一致性方面存在不足,且大多數方法需要針對每個實例進行微調,這限制了它們的實際應用。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的、無需微調的個性化圖像生成模型MoMA。該模型旨在提高生成圖像的細節保真度、對象身份相似性和文本提示的一致性,同時支持零樣本能力。
?? 方法簡介:MoMA利用多模態大語言模型(MLLM)作為特征提取器和生成器,通過結合參考圖像和文本提示信息,生成高質量的圖像特征。為了進一步提高生成圖像的細節質量,研究團隊引入了一種新的自注意力快捷方法,該方法能夠高效地將圖像特征傳遞到擴散模型中,從而在不增加計算開銷的情況下顯著提升目標對象的細節質量。
?? 實驗設計:研究團隊在多個任務上對MoMA進行了評估,包括背景重置任務和紋理修改任務。實驗結果表明,MoMA在不同背景下的細節準確性和對目標對象的忠實度方面表現出色,同時在紋理修改任務中能夠根據文本提示準確地改變目標對象的紋理,而不會影響未提及的視覺特征。此外,MoMA通過廣泛的預訓練,消除了評估階段的微調需求,從而實現了高效、高質量的個性化圖像生成。

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

?? 論文標題:Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
?? 論文作者:Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
?? 研究機構: Apple
?? 問題背景:盡管多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種任務中表現出色,但它們在理解和交互移動用戶界面(UI)屏幕方面的能力仍然有限。移動UI屏幕通常具有更長的寬高比,并包含較小的感興趣對象(如圖標和文本),這使得直接將自然圖像模型應用于UI屏幕存在局限性。
?? 研究動機:為了克服現有模型在處理UI屏幕時的不足,研究團隊提出了Ferret-UI,這是一個專門針對移動UI屏幕設計的MLLM。Ferret-UI不僅能夠執行精確的引用和定位任務,還能理解和執行開放式的語言指令。研究團隊通過改進模型架構、精心策劃訓練數據和建立全面的基準測試,旨在提升模型在UI屏幕上的理解和交互能力。
?? 方法簡介:Ferret-UI基于Ferret模型,通過集成“任意分辨率”(anyres)技術,靈活適應不同屏幕的寬高比。模型將屏幕劃分為子圖像,分別編碼后再送入語言模型,以增強細節和視覺特征。訓練數據包括基本的UI任務(如圖標識別、文本查找)和高級任務(如詳細描述、交互對話、功能推斷),以全面覆蓋UI屏幕理解的各個方面。
?? 實驗設計:研究團隊在14個不同的移動UI任務上進行了實驗,包括3個來自Spotlight的任務(screen2words、widget captions、taperception)和11個針對iPhone和Android屏幕的雙版本任務。實驗評估了多種UI理解模型,包括開源MLLMs和GPT-4V。結果顯示,Ferret-UI在基本UI任務上顯著超越了GPT-4V,并在高級任務上也表現出色。

VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

?? 論文標題:VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
?? 論文作者:Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, Xiang Yue
?? 研究機構: Carnegie Mellon University、The Chinese University of Hong Kong、School of Computer Science, Peking University、MBZUAI、Allen Institute for AI
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在網頁相關的任務中展現出潛力,但評估這些模型在網頁領域的性能仍面臨挑戰。現有的基準測試要么設計用于通用多模態任務,無法捕捉網頁的獨特特性,要么專注于端到端的網頁代理任務,無法衡量細粒度的能力,如OCR、理解和定位。因此,需要一個全面的基準測試來評估MLLMs在網頁領域的表現。
?? 研究動機:為了填補這一空白,研究團隊開發了VisualWebBench,這是一個多模態基準測試,旨在評估MLLMs在多種網頁任務中的能力。VisualWebBench包含七個任務,涵蓋了1.5K個人工標注的實例,來自139個真實網站,覆蓋87個子領域。通過評估14個開源MLLMs、Gemini Pro、Claude-3系列和GPT-4V(ision)在VisualWebBench上的表現,研究揭示了當前MLLMs在網頁理解中的顯著挑戰和性能差距。
?? 方法簡介:研究團隊構建了VisualWebBench,該基準測試包括七個任務:網頁描述、網頁問答、標題OCR、元素OCR、元素定位、動作預測和動作定位。每個任務都設計為問答形式,以評估模型在網頁理解、OCR、定位和推理方面的能力。所有截圖統一為1280像素寬度,并經過仔細驗證和標注。
?? 實驗設計:研究團隊在VisualWebBench上評估了14個開源MLLMs、Gemini Pro、Claude-3系列和GPT-4V(ision)。實驗結果表明,即使是性能最強的GPT-4V,其平均得分也只有64.6,顯示出當前模型在網頁任務中仍有很大的提升空間。此外,研究還發現開源MLLMs與專有模型(如GPT-4V和Claude系列)之間存在顯著的性能差距,模型規模的擴大有助于提升性能。然而,專門針對GUI任務的MLLMs(如SeeClick和CogAgent)在VisualWebBench上的表現并不顯著,這表明需要更通用的GUI特定訓練技術來增強MLLMs在網頁場景中的表現。

HRVDA: High-Resolution Visual Document Assistant

?? 論文標題:HRVDA: High-Resolution Visual Document Assistant
?? 論文作者:Chaohu Liu, Kun Yin, Haoyu Cao, Xinghua Jiang, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Linli Xu
?? 研究機構: 中國科學技術大學、認知智能國家重點實驗室、騰訊優圖實驗室
?? 問題背景:盡管多模態大語言模型(MLLMs)在多種任務中展現了強大的視覺理解能力,但在處理視覺文檔理解任務時,其性能仍有待提高。主要原因是現有模型通常使用低分辨率圖像,導致視覺信息的大量損失,且缺乏針對文檔的視覺指令調優。
?? 研究動機:為了解決上述問題,研究團隊提出了一種新的多模態大語言模型——高分辨率視覺文檔助手(HRVDA),該模型通過內容過濾機制和指令過濾模塊,有效處理高分辨率圖像輸入,提高了模型的訓練和推理效率。
?? 方法簡介:HRVDA模型包括內容檢測器、圖像編碼器、指令過濾模塊和大語言模型(LLM)。內容檢測器用于識別圖像中的重要內容區域,圖像編碼器提取圖像特征,指令過濾模塊進一步過濾與指令無關的視覺令牌,最后將處理后的視覺令牌和指令輸入LLM生成響應。
?? 實驗設計:研究團隊在多個文檔理解數據集上進行了實驗,包括文檔分類、信息提取、視覺問答、光學字符識別、視覺定位、圖像描述和表格重建等任務。實驗結果表明,HRVDA在這些任務上均達到了當前最先進的性能,同時保持了與低分辨率模型相當的訓練效率和推理速度。

UMBRAE: Unified Multimodal Brain Decoding

?? 論文標題:UMBRAE: Unified Multimodal Brain Decoding
?? 論文作者:Weihao Xia, Raoul de Charette, Cengiz ?ztireli, Jing-Hao Xue
?? 研究機構: University College London、Inria、University of Cambridge
?? 問題背景:當前的腦信號解碼研究面臨兩個主要挑戰。首先,將腦信號解碼為單一模態(如文本或圖像)會導致信息丟失,無法全面捕捉腦活動的細節。其次,由于個體間腦活動模式的差異,現有的方法通常需要為每個受試者單獨訓練模型,這限制了模型的泛化能力和實用性。
?? 研究動機:為了解決上述挑戰,研究團隊提出了一種統一的多模態腦解碼方法(UMBRAE),旨在通過將腦信號與多模態大語言模型(MLLMs)對齊,實現對腦信號的細粒度解碼。此外,該方法還引入了跨受試者訓練策略,以學習跨受試者的通用表示,從而減少對大量訓練數據的依賴,并提高模型的適應性和泛化能力。
?? 方法簡介:UMBRAE方法包括一個靈活的腦編碼器架構和跨受試者訓練策略。腦編碼器通過輕量級的Transformer架構處理不同長度的腦響應輸入,并通過主體特定的分詞器和通用感知編碼器將腦信號映射到一個共同的特征空間。跨受試者訓練策略通過均勻采樣確保模型在訓練過程中不會偏向特定受試者,同時保持對不同受試者的識別能力。
?? 實驗設計:研究團隊在四個受試者的數據集上進行了實驗,包括腦信號解碼為文本(腦字幕)、視覺定位(腦定位)、檢索(腦檢索)和視覺重建(視覺解碼)等任務。實驗評估了UMBRAE在不同任務上的性能,并與現有的方法進行了比較。實驗結果表明,UMBRAE不僅在新任務上取得了優異的表現,而且在傳統任務上也優于或與現有方法持平。此外,UMBRAE還支持弱監督適應,能夠在少量訓練數據的情況下快速適應新受試者。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/79163.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/79163.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/79163.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go-web開發之帖子功能

帖子功能 route.go r.Use(middleware.JWTAuthMiddleware()){r.POST("/post", controller.CreatePostHandler)r.GET("/post/:id", controller.GetPostDetailHandler)}post.go 定義帖子結構 type Post struct {Id int64 json:"id" …

C++ 項目中的多語言字符串管理方案(支持自動提示與動態加載)

💬 C 項目中的多語言字符串管理方案(支持自動提示與動態加載) 在中大型 C 應用中,我們常常會面臨界面提示文本繁多、需要支持多語言切換的問題。為了解決字符串管理混亂、缺乏自動提示、難以維護等問題,本文將提供一種…

數控滑臺:將制造業推向智能化的關鍵裝備

隨著制造業的不斷發展和智能化進程的加速推進,數控滑臺作為一種關鍵的裝備,在各種工業生產中發揮著越來越重要的作用。數控滑臺不僅提高了生產效率,節約了人力物力資源,還大大降低了生產過程中的錯誤率,保障了產品的質…

【STM32】定時器輸入捕獲

STM32 定時器輸入捕獲功能筆記 一、什么是輸入捕獲(Input Capture) 輸入捕獲是利用定時器的輸入通道,在檢測到信號電平變化(如上升沿或下降沿)時,立即將當前計數器的值捕獲并保存到捕獲寄存器&#xff08…

Qt通過QXlsx庫文件寫入到excl文件,讀取excl文件

第一:下載QXlsx庫文件 https://download.csdn.net/download/qq_32663053/90739425 第二:在Qt項目中引入QXlsx庫,需要把QXlsx庫文件放在項目文件夾下 第三:將tableview中的數據存入到excl文件 代碼: void MainWindow…

【KWDB 創作者計劃】一款面向 AIoT 的多模數據庫實戰體驗

一、KWDB:AIoT 時代的數據庫新選擇 KWDB 是由開放原子開源基金會孵化的分布式多模數據庫,專為物聯網、工業互聯網等場景設計。其核心價值在于時序與關系數據融合處理能力: ?多模統一引擎?:單個實例可同時建立時序庫&#xff08…

【教學類-102-22】蝴蝶彩色1——通義萬相“彩色蝴蝶”透明切邊基礎圖片制作(五款板式、批量下載、修圖、透明、切邊)

一、下載圖片 關鍵詞:卡通簡筆畫,白色背景,黑白輪廓線,、鮮艷,彩色,一只蝴蝶,簡單,可愛,矢量圖,大。 簡筆畫 強度1 4:3(長方形適配A4紙) 五…

【JAVA】方法定義與重載:JVM方法調用機制(8)

核心知識點詳細解釋 Java方法的定義和使用 在Java中,方法是一段具有特定功能的代碼塊,它可以接受參數并返回一個值。方法的定義包括方法的修飾符、返回類型、方法名、參數列表和方法體。其基本語法如下: 修飾符 返回類型 方法名(參數列表)…

基于STM32的帶恒溫系統智能外賣柜設計

標題:基于STM32的帶恒溫系統智能外賣柜設計 內容:1.摘要 隨著外賣行業的迅速發展,對外賣存放設備的智能化和功能性要求日益提高。本設計的目的是開發一種基于STM32的帶恒溫系統智能外賣柜。方法上,以STM32微控制器為核心,結合溫度傳感器、加…

【綜述】相位解包裹算法對比分析

引言 相位解包裹是基于干涉的位相測量技術中的重要環節,如合成孔徑雷達干涉、光學干涉測量技術、醫學成像技術、數字全息三維成像、相干衍射成像等技術中都涉及位相解包裹。位相解包裹也稱為位相展開、位相解截斷、位相解纏繞等。與之相反的過程謂之包裹位相、截斷…

Rust 學習筆記:關于枚舉與模式匹配的練習題

Rust 學習筆記:關于枚舉與模式匹配的練習題 Rust 學習筆記:關于枚舉與模式匹配的練習題以下程序能否通過編譯?若能,輸出是什么?考慮這兩種表示結果類型的方式,若計算成功,則包含值 T&#xff1b…

C++負載均衡遠程調用學習之QPS性能測試

目錄 1.昨日回顧 2.QPS_TEST_PROTOBUF協議的集成 3.QPS_TEST_SERVER端實現 4.QPS_TEST_QPS簡單介紹 5.QPS_TEST_QPS客戶端工具編寫和性能測試 1.昨日回顧 2.QPS_TEST_PROTOBUF協議的集成 ## 14) Reactor框架QPS性能測試 ? 接下來我們寫一個測試用例來測一下我們…

【MySQL數據庫】視圖

1,視圖的基本介紹 視圖是一個虛擬表,其內容由查詢定義。與真實表一樣的是,視圖包含帶有名稱的列和行數據;與真實表不一樣的是,視圖本身并不在數據庫中存儲數據。視圖的數據變化會影響到基表,基表的數據變化…

Linux系統安裝方式+適合初學者的發行版本

Linux系統安裝方式適合初學者發行版—目錄 一、Linux系統的安裝方式1. 物理機直接安裝2. 虛擬機安裝3. 雙系統安裝4. Live USB試用5. 云服務器安裝 二、適合初學者的Linux發行版1. Ubuntu2. Linux Mint3. Zorin OS4. Pop!_OS5. Elementary OS6. Fedora7. Manjaro 三、選擇建議場…

Linux C++ JNI封裝、打包成jar包供Java調用詳細介紹

在前面 Android專欄 中詳細介紹了如何在Android Studio中調用通過jni封裝的c庫。 在Android使用 opencv c代碼,需要準備opencv4android,也就是c的任何代碼,是使用Android NDK編譯的,相當于在windows/mac上使用Android stdido交叉…

4.1 模塊概述

1.Python結構 工程 > 包 > 模塊 Python工程: “Python項目中最大的文件夾(本質就是一個文件夾)” --- 左側的 CODE文件夾 為Python工程 Python包: 本質就是一個文件夾,但是python包中具備具體的標識,如果沒有標識則不能導入 --- 左側的 01.Python基礎 文件夾為python包 P…

AJAX 實例

AJAX 實例 引言 Ajax(Asynchronous JavaScript and XML)是一種在無需重新加載整個頁面的情況下,與服務器交換數據并更新部分網頁的技術。Ajax通過在后臺與服務器交換數據,實現了頁面的動態更新,從而提高了用戶體驗和…

相機的基礎架構

📷 相機相關基礎架構學習路徑 一、了解手機相機系統架構 Android Camera HAL(如果你是做 Android 平臺) 學習 Camera HAL3 架構(基于 camera_device_t, camera3_device_ops 接口) 熟悉 CameraService → CameraProvid…

MLX Chat - 基于 Streamlit 的 MLX 前端界面

本文翻譯整理自:https://github.com/da-z/mlx-ui 一、關于 MLX Chat 一個基于 Streamlit 的簡單 UI/網頁前端,用于 MLX mlx-lm 項目。 相關鏈接資源 github : https://github.com/da-z/mlx-uiMLX 社區模型庫:https://huggingface.co/mlx-co…

el-table 自定義列、自定義數據

一、對象數組格式自定義拆分為N列 1-1、數據格式: const arrayList ref([{"RACK_NO": "A-1-001"},{"RACK_NO": "A-1-002"},{ "RACK_NO": "A-1-003"},//省略多個{"RACK_NO": "A-1-100…