多模態大語言模型arxiv論文略讀(105)

在這里插入圖片描述

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

?? 論文標題:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
?? 論文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
?? 研究機構: ByteDance Inc, Fudan University, University of Science and Technology of China
?? 問題背景:多模態大語言模型(MLLMs)在多種任務中展現了卓越的能力,但這些模型通常針對特定任務進行訓練,依賴于特定的輸入-輸出格式,限制了它們在更廣泛任務中的應用。這引發了如何開發一種統一的方法來表示和處理不同多模態任務,以最大化MLLMs的通用性的問題。
?? 研究動機:現有的多模態大語言模型雖然在特定任務上表現出色,但缺乏處理多種任務的通用性和理解人類意圖的能力。為了克服這些限制,研究團隊提出了UnifiedMLLM,旨在通過引入任務令牌和定位令牌,實現不同任務的統一表示,從而增強模型的通用性和任務處理能力。
?? 方法簡介:UnifiedMLLM通過構建任務特定數據集和多任務數據集,采用三階段訓練策略,逐步提升模型的感知理解、任務理解和完成能力。模型結構包括多模態編碼器、適配器、統一表示層、任務路由器和專家模型集成。通過這種方式,模型能夠理解用戶指令的隱含意圖,并生成文本響應、任務令牌和定位令牌,指導后續任務的執行。
?? 實驗設計:實驗在多個公開數據集上進行,包括參考分割任務(RefCOCO, RefCOCO+, RefCOCOg)和圖像推理編輯任務。實驗評估了模型在不同任務中的性能,特別是在復雜場景下的任務理解和完成能力。實驗結果表明,UnifiedMLLM在多個任務中表現出色,超越了現有的方法。

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

?? 論文標題:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
?? 論文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao
?? 研究機構: Shanghai Jiao Tong University, Meta
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)在圖形用戶界面(GUI)環境中展現了顯著的潛力,能夠執行復雜的交互任務。然而,這些模型在面對環境中的干擾內容時,是否能夠保持對用戶目標的忠誠度,仍是一個開放的問題。研究發現,環境中的干擾內容(如廣告、彈窗等)可能會導致GUI代理偏離用戶目標,執行不相關的操作,甚至表現出不受控制的行為。
?? 研究動機:盡管現有研究主要關注多模態代理的有用性(即行動準確性),但本研究旨在探討這些代理在面對環境干擾時的忠誠度問題。研究團隊通過構建模擬數據集,評估了不同MLLMs在干擾環境中的表現,揭示了代理在面對干擾時的脆弱性,并提出了環境注入的對抗性設置,展示了這些干擾可以被惡意利用,導致不可預測的風險。
?? 方法簡介:研究團隊定義了環境干擾問題,并提出了三種行動類型:正確行動、干擾行動和無效行動。通過構建包含四種常見干擾場景(彈窗、搜索、推薦和聊天)的模擬數據集,研究團隊評估了不同MLLMs在干擾環境中的表現。實驗設計了三種工作模式,分別對應不同的環境感知水平,以全面評估代理在不同條件下的表現。
?? 實驗設計:實驗在10個流行的MLLMs上進行,包括通用代理和專門的GUI代理。實驗結果表明,無論是通用代理還是專門的GUI代理,都容易受到環境干擾的影響。研究團隊進一步提出了環境注入的對抗性設置,證明了通過利用這些干擾,可以對代理進行攻擊,導致其行為偏離用戶目標。

Targeted Visual Prompting for Medical Visual Question Answering

?? 論文標題:Targeted Visual Prompting for Medical Visual Question Answering
?? 論文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
?? 研究機構: University of Bern, Bern, Switzerland
?? 問題背景:醫療視覺問答(Med-VQA)近年來迅速發展,多模態大語言模型(MLLMs)因其能夠將視覺信息融入預訓練的語言模型中,為圖像解釋帶來了新的能力。然而,簡單的視覺錯誤引發了對這些模型實際視覺理解能力的質疑。為了評估和增強模型的視覺理解能力,研究提出了基于區域的問題(Region-based Questions),通過組合評估來實現。
?? 研究動機:盡管MLLMs在Med-VQA中表現出色,但其視覺理解能力的不足仍然存在。為了檢測這些視覺理解失敗并提高模型的解釋性,研究團隊引入了目標視覺提示(Targeted Visual Prompting),旨在通過提供區域及其上下文的定制視覺提示,增強MLLMs處理局部問題的能力。
?? 方法簡介:研究團隊提出了一種新的方法,通過設計包含全局和局部視覺標記的定制視覺提示,使模型能夠從兩個角度編碼圖像:僅包含圖像區域的視角和包含區域上下文的視角。該方法允許模型在不增加額外參數的情況下,提高VQA任務的性能。
?? 實驗設計:研究在三個公開數據集上進行了實驗,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。實驗設計了多種基線方法,包括不使用區域信息、在問題中指定區域、在圖像上標記區域、僅提供上下文、僅提供裁剪區域以及使用二值圖像表示區域的方法。實驗結果表明,目標視覺提示方法在所有數據集上均優于其他基線方法,特別是在處理局部問題時表現尤為突出。

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

?? 論文標題:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
?? 論文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu
?? 研究機構: Harvard University, Bytedance
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種數據類型(如圖像、文本和音頻)上取得了顯著的性能,廣泛應用于多模態翻譯、視覺問答和內容生成等領域。然而,現有的分布式訓練系統在訓練MLLMs時效率低下,主要原因是異構模態模型和3D并行中的復雜數據依賴導致了大量GPU空閑時間(bubbles)。
?? 研究動機:現有的優化方法主要針對單模態模型,未能有效解決MLLMs訓練中的GPU空閑問題。研究團隊通過分析大規模MLLMs訓練任務,發現超過48%的GPU周期被浪費。為了提高訓練效率,研究團隊提出了Optimus系統,通過在LLM空閑時間內調度編碼器計算,減少GPU空閑時間,從而加速MLLMs的訓練。
?? 方法簡介:Optimus系統通過以下核心設計決策來實現高效訓練:

  1. 編碼器和LLM的獨立并行計劃:每個GPU同時持有編碼器和LLM的模型狀態,確保所有GPU都能在LLM空閑時間內執行編碼器計算。
  2. 雙階段依賴管理:通過局部調度和全局排序來處理MLLM訓練中的復雜依賴關系,確保編碼器和LLM之間的微批次級依賴。
  3. 內核級調度:將編碼器層分解為內核,利用亞毫秒級的空閑時間,同時在LLM計算期間調度編碼器通信內核,以減少迭代時間。
    ?? 實驗設計:研究團隊在多個代表性的MLLM模型上進行了實驗,包括ViT-22B和GPT-175B模型,使用超過3072個GPU。實驗結果表明,Optimus系統在訓練過程中平均加速了20.3%,在生產集群中加速了20.5%-21.3%。實驗還驗證了Optimus在不同模型規模和GPU數量下的良好擴展性。

NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

?? 論文標題:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
?? 論文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao
?? 研究機構: 東南大學、密歇根州立大學
?? 問題背景:多語言大型語言模型(MLLMs)在非主導語言中的表現不如在主導語言中。盡管現有的翻譯-回答方法在一定程度上緩解了這一問題,但其背后的機制尚不明確。研究發現,這些方法雖然提供了足夠的語言觸發(LTs),但在領域觸發(DTs)的保留上存在不足。
?? 研究動機:為了進一步理解翻譯-回答方法的有效性及其對MLLMs中主導語言知識提取的影響,研究團隊通過類比人類認知過程中的語言觸發(LTs)和領域觸發(DTs),分析了現有方法的局限性,并提出了一種新的方法——原生語言提示(NatLan),以改善非主導語言問答中的知識提取。
?? 方法簡介:研究團隊提出了NatLan,采用多MLLM協作策略,引入了一個增強角色的領域特定MLLM作為翻譯者,以提供足夠的LTs并最大限度地保留DTs。NatLan通過構建領域特定的角色指令和少量示例(5-shot)來注入領域特定的上下文,從而實現個體增強和聯合增強。
?? 實驗設計:研究在五個非主導語言問答基準上進行了實驗,包括多語言MMLU(MMMLU)和C-Eval中文基準。實驗設計了不同語言(如阿拉伯語、中文、法語、德語和日語)的問答任務,以評估NatLan在不同條件下的表現。實驗結果表明,NatLan在DTs保留和準確性方面均優于現有的頂級方法。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/83827.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/83827.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/83827.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQLServer中的存儲過程與事務

一、存儲過程的概念 1. 定義 存儲過程(Stored Procedure)是一組預編譯的 SQL 語句的集合,它們被存儲在數據庫中,可以通過指定存儲過程的名稱并執行來調用它們。存儲過程可以接受輸入參數、輸出參數,并且可以返回執行…

使用UDP連接ssh

使用UDP連接ssh mosh簡介兩端安裝moshWindows安裝mosh 放行端口使用mosh登錄Linuxdebug mosh簡介 Mosh最大的特點是基于UDP方式傳輸,支持在服務端創建一個臨時的Key供客戶端一次性連接,退出后失效;也支持通過SSH的配置進行認證,但…

軟件功能模塊歸屬論證方法

文章目錄 **一、核心設計原則****二、論證方法****三、常見決策模式****四、驗證方法****五、反模式警示****總結** 在討論軟件功能點應該歸屬哪些模塊時,并沒有放之四海而皆準的固定方法,但可以通過系統化的論證和設計原則來做出合理決策。以下是常見的…

ServBay 1.13.0 更新,新增第三方反向代理/內網穿透

ServBay 作為一款簡化本地開發環境搭建與管理的強大工具,致力于打造一個開箱即用、穩定可靠的本地開發平臺,讓用戶專注于代碼編寫,提升開發效率。 ServBay 1.13.0 正式發布!本次更新聚焦于提升本地開發項目的外部可訪問性、增強國…

如何利用樂維網管進行IP管理

IP管理是網絡管理中的關鍵環節,對于保障網絡的正常運行、提升資源利用效率以及保障網絡安全等方面都具有不可忽視的重要性。樂維網管在IP管理方面具有多種實用功能,以下從IP規劃與分配、IP狀態監測、IP沖突處理、IP審計與報表生成四個方面,介…

Go語言學習-->go的跨平臺編譯

Go語言學習–>go的跨平臺編譯 默認我們go build的可執行文件都是當前操作系統可執行的文件,Go語言支持跨平臺編譯——在當前平臺下編譯其他平臺的可執行文件。 eg:在windows界面的代碼,編譯完成后在linux上面運行 實現方式&#…

SpringBoot自動配置原理深度解析

一、引言 SpringBoot的"約定優于配置"理念極大地簡化了Spring應用的開發流程,而其核心魔法就是自動配置(Auto-Configuration)。本文將深入剖析自動配置的實現原理,幫助開發者更好地理解和定制SpringBoot應用。 二、自動配置核心機制 1. Ena…

使用阿里云百煉embeddings+langchain+Milvus實現簡單RAG

使用阿里云百煉embeddingslangchainMilvus實現簡單RAG 注意測試時,替換其中的key、文檔等 import os from langchain_community.embeddings import DashScopeEmbeddings from langchain_community.vectorstores import Milvus from langchain_text_splitters impor…

事件監聽 ——CAD C#二次開發

一、AutoCAD .NET API 事件機制 1. 事件監聽核心 - Database.ModifyObjects 事件 當數據庫中的實體(如圖形對象)發生修改時觸發,包括: - 幾何屬性變更(移動、縮放、旋轉)。 - 非幾何屬性變更&#xff08…

動量及在機器人控制中的應用

動量是物理學中的一個基本概念,在機器人學中也有重要應用。以下是詳細解釋: 1. 動量的基本定義 動量(Momentum)是描述物體運動狀態的物理量,定義為: 線性動量:$ p mv $ $ m $ 為質量&#xf…

LeetCode 2434.使用機器人打印字典序最小的字符串:貪心(棧)——清晰題解

【LetMeFly】2434.使用機器人打印字典序最小的字符串:貪心(棧)——清晰題解 力扣題目鏈接:https://leetcode.cn/problems/using-a-robot-to-print-the-lexicographically-smallest-string/ 給你一個字符串 s 和一個機器人,機器人當前有一個…

影樓精修-AI衣服祛褶皺算法解析

注:為避免侵權,本文所用圖像均為AIGC生成或無版權網站提供; 衣服祛褶皺功能,目前在像素蛋糕、美圖云修、百度網盤AI修圖、阿里云都有相關的功能支持,它的價值就是將不平整的衣服圖像,變得整齊平整&#xf…

Celery 核心概念詳解及示例

Celery 核心概念詳解及示例 Celery 是一個簡單、靈活且可靠的分布式系統,用于處理大量消息,提供對任務隊列的操作,并支持任務的調度和異步執行。它常用于深度優化 Web 應用的性能和響應速度,通過將耗時的操作移到后臺異步執行&am…

智能對聯網頁小程序的倉頡之旅

#傳統楹聯遇上AI智能體:我的Cangjie Magic開發紀實 引言:一場跨越千年的數字對話 "云對雨,雪對風,晚照對晴空"。昨天晚上星空璀璨,當我用倉頡語言寫下第一個智能對聯網頁小程序的Agent DSL代碼時&#xff0…

《ERP原理與應用教程》第3版習題和答案

ERP原理與應用教程是一門系統介紹企業資源計劃(Enterprise Resource Planning, ERP)系統核心理論、技術架構及實施應用的綜合性課程。它主要面向管理類、信息類、工程類等專業學生及企業管理者,旨在培養對現代企業信息化管理的理解與實踐能力。以下是該課程的詳細解析: 一…

SOC-ESP32S3部分:32-LVGL顯示框架

飛書文檔https://x509p6c8to.feishu.cn/wiki/Ly6ywvphqi6HZlk38vHcz2OgnXg LVGL是一個開源的顯示框架,使用它可以加速我們開發帶顯示屏交互的應用。 IDF對于LVGL的支持一直有更新的,我們可以很方便在組件庫中搜索到對應版本的LVGL,并把它添…

原理圖與 PCB 設計流程及注意事項

原理圖與 PCB 設計流程及注意事項 一、原理圖設計 1. 首先,需要創建一個新的項目,在此項目中建立原理圖。 2. 接著,在原理圖中添加元件和芯片。可以從元件庫中挑選所需的元件,如電阻、電容等。既可以在元件庫中進行搜索查找&…

LeetCode--23.合并k個升序鏈表

解題思路: 1.獲取信息: 給出了多個升序鏈表,要求合并成一個升序鏈表,返回首元結點 2.分析題目: 外面在21題的時候,講了怎樣合并兩個升序鏈表為一個升序鏈表,不了解的,建議去看一下21…

【國產化適配】如何選擇高效合規的安全數據交換系統?

一、安全數據交換系統的核心價值與國產化需求 在數字化轉型浪潮中,企業數據流動的頻率與規模呈指數級增長,跨網文件傳輸已成為日常運營的剛需,所以安全數據交換系統也是企業必備的工具。然而,數據泄露事件頻發、行業合規要求趨嚴…

JMM初學

文章目錄 1,線程間的同步和通信1.1, 共享內存并發模型 (Shared Memory Model)線程通信機制線程同步機制特點 1.2, 消息傳遞并發模型 (Message Passing Model)線程通信機制線程同步機制特點 適用場景對比 2,Java內存模型JMM2.0,Java內存模型的基礎(1)內存…