UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
?? 論文標題:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
?? 論文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
?? 研究機構: ByteDance Inc, Fudan University, University of Science and Technology of China
?? 問題背景:多模態大語言模型(MLLMs)在多種任務中展現了卓越的能力,但這些模型通常針對特定任務進行訓練,依賴于特定的輸入-輸出格式,限制了它們在更廣泛任務中的應用。這引發了如何開發一種統一的方法來表示和處理不同多模態任務,以最大化MLLMs的通用性的問題。
?? 研究動機:現有的多模態大語言模型雖然在特定任務上表現出色,但缺乏處理多種任務的通用性和理解人類意圖的能力。為了克服這些限制,研究團隊提出了UnifiedMLLM,旨在通過引入任務令牌和定位令牌,實現不同任務的統一表示,從而增強模型的通用性和任務處理能力。
?? 方法簡介:UnifiedMLLM通過構建任務特定數據集和多任務數據集,采用三階段訓練策略,逐步提升模型的感知理解、任務理解和完成能力。模型結構包括多模態編碼器、適配器、統一表示層、任務路由器和專家模型集成。通過這種方式,模型能夠理解用戶指令的隱含意圖,并生成文本響應、任務令牌和定位令牌,指導后續任務的執行。
?? 實驗設計:實驗在多個公開數據集上進行,包括參考分割任務(RefCOCO, RefCOCO+, RefCOCOg)和圖像推理編輯任務。實驗評估了模型在不同任務中的性能,特別是在復雜場景下的任務理解和完成能力。實驗結果表明,UnifiedMLLM在多個任務中表現出色,超越了現有的方法。
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
?? 論文標題:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
?? 論文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao
?? 研究機構: Shanghai Jiao Tong University, Meta
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)在圖形用戶界面(GUI)環境中展現了顯著的潛力,能夠執行復雜的交互任務。然而,這些模型在面對環境中的干擾內容時,是否能夠保持對用戶目標的忠誠度,仍是一個開放的問題。研究發現,環境中的干擾內容(如廣告、彈窗等)可能會導致GUI代理偏離用戶目標,執行不相關的操作,甚至表現出不受控制的行為。
?? 研究動機:盡管現有研究主要關注多模態代理的有用性(即行動準確性),但本研究旨在探討這些代理在面對環境干擾時的忠誠度問題。研究團隊通過構建模擬數據集,評估了不同MLLMs在干擾環境中的表現,揭示了代理在面對干擾時的脆弱性,并提出了環境注入的對抗性設置,展示了這些干擾可以被惡意利用,導致不可預測的風險。
?? 方法簡介:研究團隊定義了環境干擾問題,并提出了三種行動類型:正確行動、干擾行動和無效行動。通過構建包含四種常見干擾場景(彈窗、搜索、推薦和聊天)的模擬數據集,研究團隊評估了不同MLLMs在干擾環境中的表現。實驗設計了三種工作模式,分別對應不同的環境感知水平,以全面評估代理在不同條件下的表現。
?? 實驗設計:實驗在10個流行的MLLMs上進行,包括通用代理和專門的GUI代理。實驗結果表明,無論是通用代理還是專門的GUI代理,都容易受到環境干擾的影響。研究團隊進一步提出了環境注入的對抗性設置,證明了通過利用這些干擾,可以對代理進行攻擊,導致其行為偏離用戶目標。
Targeted Visual Prompting for Medical Visual Question Answering
?? 論文標題:Targeted Visual Prompting for Medical Visual Question Answering
?? 論文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
?? 研究機構: University of Bern, Bern, Switzerland
?? 問題背景:醫療視覺問答(Med-VQA)近年來迅速發展,多模態大語言模型(MLLMs)因其能夠將視覺信息融入預訓練的語言模型中,為圖像解釋帶來了新的能力。然而,簡單的視覺錯誤引發了對這些模型實際視覺理解能力的質疑。為了評估和增強模型的視覺理解能力,研究提出了基于區域的問題(Region-based Questions),通過組合評估來實現。
?? 研究動機:盡管MLLMs在Med-VQA中表現出色,但其視覺理解能力的不足仍然存在。為了檢測這些視覺理解失敗并提高模型的解釋性,研究團隊引入了目標視覺提示(Targeted Visual Prompting),旨在通過提供區域及其上下文的定制視覺提示,增強MLLMs處理局部問題的能力。
?? 方法簡介:研究團隊提出了一種新的方法,通過設計包含全局和局部視覺標記的定制視覺提示,使模型能夠從兩個角度編碼圖像:僅包含圖像區域的視角和包含區域上下文的視角。該方法允許模型在不增加額外參數的情況下,提高VQA任務的性能。
?? 實驗設計:研究在三個公開數據集上進行了實驗,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。實驗設計了多種基線方法,包括不使用區域信息、在問題中指定區域、在圖像上標記區域、僅提供上下文、僅提供裁剪區域以及使用二值圖像表示區域的方法。實驗結果表明,目標視覺提示方法在所有數據集上均優于其他基線方法,特別是在處理局部問題時表現尤為突出。
Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
?? 論文標題:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
?? 論文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu
?? 研究機構: Harvard University, Bytedance
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種數據類型(如圖像、文本和音頻)上取得了顯著的性能,廣泛應用于多模態翻譯、視覺問答和內容生成等領域。然而,現有的分布式訓練系統在訓練MLLMs時效率低下,主要原因是異構模態模型和3D并行中的復雜數據依賴導致了大量GPU空閑時間(bubbles)。
?? 研究動機:現有的優化方法主要針對單模態模型,未能有效解決MLLMs訓練中的GPU空閑問題。研究團隊通過分析大規模MLLMs訓練任務,發現超過48%的GPU周期被浪費。為了提高訓練效率,研究團隊提出了Optimus系統,通過在LLM空閑時間內調度編碼器計算,減少GPU空閑時間,從而加速MLLMs的訓練。
?? 方法簡介:Optimus系統通過以下核心設計決策來實現高效訓練:
- 編碼器和LLM的獨立并行計劃:每個GPU同時持有編碼器和LLM的模型狀態,確保所有GPU都能在LLM空閑時間內執行編碼器計算。
- 雙階段依賴管理:通過局部調度和全局排序來處理MLLM訓練中的復雜依賴關系,確保編碼器和LLM之間的微批次級依賴。
- 內核級調度:將編碼器層分解為內核,利用亞毫秒級的空閑時間,同時在LLM計算期間調度編碼器通信內核,以減少迭代時間。
?? 實驗設計:研究團隊在多個代表性的MLLM模型上進行了實驗,包括ViT-22B和GPT-175B模型,使用超過3072個GPU。實驗結果表明,Optimus系統在訓練過程中平均加速了20.3%,在生產集群中加速了20.5%-21.3%。實驗還驗證了Optimus在不同模型規模和GPU數量下的良好擴展性。
NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
?? 論文標題:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
?? 論文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao
?? 研究機構: 東南大學、密歇根州立大學
?? 問題背景:多語言大型語言模型(MLLMs)在非主導語言中的表現不如在主導語言中。盡管現有的翻譯-回答方法在一定程度上緩解了這一問題,但其背后的機制尚不明確。研究發現,這些方法雖然提供了足夠的語言觸發(LTs),但在領域觸發(DTs)的保留上存在不足。
?? 研究動機:為了進一步理解翻譯-回答方法的有效性及其對MLLMs中主導語言知識提取的影響,研究團隊通過類比人類認知過程中的語言觸發(LTs)和領域觸發(DTs),分析了現有方法的局限性,并提出了一種新的方法——原生語言提示(NatLan),以改善非主導語言問答中的知識提取。
?? 方法簡介:研究團隊提出了NatLan,采用多MLLM協作策略,引入了一個增強角色的領域特定MLLM作為翻譯者,以提供足夠的LTs并最大限度地保留DTs。NatLan通過構建領域特定的角色指令和少量示例(5-shot)來注入領域特定的上下文,從而實現個體增強和聯合增強。
?? 實驗設計:研究在五個非主導語言問答基準上進行了實驗,包括多語言MMLU(MMMLU)和C-Eval中文基準。實驗設計了不同語言(如阿拉伯語、中文、法語、德語和日語)的問答任務,以評估NatLan在不同條件下的表現。實驗結果表明,NatLan在DTs保留和準確性方面均優于現有的頂級方法。