AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
?? 論文標題:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
?? 論文作者:Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
?? 研究機構: 香港科技大學(廣州)、北京工業大學、德雷塞爾大學、牛津大學
?? 問題背景:上下文學習(In-context Learning, ICL)在大規模語言模型(LLMs)中展現了顯著的能力,無需更新數十億參數即可在未見過的數據上獲得理想性能。然而,在多模態大規模語言模型(MLLMs)中,ICL的應用面臨兩個主要問題:(1) 大多數主要的MLLMs僅在單圖像數據集上訓練,無法處理額外的多模態演示;(2) 隨著演示數量的增加,數千個視覺標記對硬件資源造成巨大挑戰,并降低ICL性能。
?? 研究動機:研究團隊發現,MLLMs在生成過程中更關注語言模態,而非視覺模態。基于這一發現,研究團隊提出了一種新的框架AIM,通過將多模態演示中的圖像信息聚合到文本的潛在空間中,減少視覺標記的數量,從而提高MLLMs在多模態ICL中的效率和性能。
?? 方法簡介:AIM框架通過將多模態演示中的圖像信息聚合到文本的潛在空間中,生成融合的虛擬標記,以替代原始的圖像-文本對。這些融合的虛擬標記與文本長度相同,從而顯著減少了演示的長度。AIM可以在不改變查詢圖像和文本的情況下,將多圖像提示近似轉換為包含單個查詢圖像的提示,從而提高模型的性能。
?? 實驗設計:研究團隊在三個公開數據集上進行了實驗,包括圖像描述(Image Caption)、視覺問答(VQA)和仇恨言論檢測(Hateful Speech Detection)。實驗設計了不同因素(如圖像數量、圖像分辨率和文本長度)的變化,以及不同類型的評估任務(如開放性問題和封閉性問題),以全面評估AIM在多模態ICL中的表現。實驗結果表明,AIM在減少內存使用和提高推理吞吐量方面表現出色,同時在多個任務上取得了與基礎模型相當或更好的性能。
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
?? 論文標題:MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
?? 論文作者:Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
?? 研究機構: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
?? 問題背景:隨著大規模語言模型(LLMs)的快速發展,多模態大規模語言模型(MLLMs)在多種任務中展現了卓越的能力。然而,MLLMs在實際應用中面臨復雜的場景,容易受到潛在的惡意指令的影響,從而帶來安全風險。現有的評估基準雖然包含了一定的安全考慮,但往往缺乏全面性和嚴謹性,例如使用GPT-4V同時作為評估者和被評估模型,存在自我偏見的問題。
?? 研究動機:為了應對MLLMs在安全評估方面的不足,研究團隊開發了MLLMGUARD,一個多維度的安全評估套件,旨在為MLLMs提供全面的安全評估。MLLMGUARD不僅涵蓋了隱私、偏見、毒性、真實性和合法性五個重要安全維度,還通過引入對抗性樣本和高質量的人工標注,提高了評估的挑戰性和準確性。
?? 方法簡介:MLLMGUARD包括一個雙語(英語和中文)圖像-文本評估數據集、推理工具和一個輕量級評估器。數據集主要來源于社交媒體,通過紅隊技術(Red Teaming Techniques)和人工標注,確保數據的多樣性和挑戰性。輕量級評估器GUARDRANK通過預訓練語言模型(如LLaMA-2和Roberta-large)進行微調,實現了對MLLMs的自動化評估,顯著提高了評估的準確性和效率。
?? 實驗設計:研究團隊在13個先進的MLLMs上進行了評估,包括2個閉源模型和11個開源模型。評估涵蓋了隱私、偏見、毒性、真實性和合法性五個維度,每個維度下設多個子任務。實驗結果表明,盡管GPT-4V在多個維度上表現最佳,但MiniGPT-v2在某些方面(如真實性和合法性)的表現更為出色。此外,GUARDRANK在評估準確性上顯著優于GPT-4,證明了其在多模態模型安全評估中的有效性和可靠性。
Grounding Multimodal Large Language Models in Actions
?? 論文標題:Grounding Multimodal Large Language Models in Actions
?? 論文作者:Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
?? 研究機構: Apple, Georgia Tech, Mila
?? 問題背景:多模態大語言模型(MLLMs)在多個領域展示了廣泛的能力,尤其是在具身AI中。然而,這些模型在具身任務中的能力受限于其輸出空間(自然語言)與具身代理的動作空間之間的差距,特別是在連續動作空間中,低級控制器可能需要高度的精度。
?? 研究動機:為了克服MLLMs在具身任務中的局限性,研究團隊通過系統的方法研究了如何將MLLMs有效地與不同的具身體現及其動作空間結合,旨在提高模型在具身任務中的性能。
?? 方法簡介:研究團隊提出了一種統一的架構,通過動作空間適配器(Action Space Adapters, ASAs)來重新參數化MLLMs的輸出,使其能夠生成動作。研究包括了連續動作空間和離散動作空間的ASAs,通過學習的分詞策略和語義對齊策略來優化模型的性能。
?? 實驗設計:研究在五個不同的具身AI環境中進行了實驗,包括三個機器人連續控制環境和兩個離散動作環境,涵蓋了114個具身任務。實驗評估了不同ASAs在任務成功率、RL樣本效率等方面的表現,結果表明,對于連續動作空間,學習的分詞策略(Residual VQ)表現最佳;對于離散動作空間,語義對齊策略(Semantic Tokenization)表現最佳。
Multimodal Table Understanding
?? 論文標題:Multimodal Table Understanding
?? 論文作者:Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
?? 研究機構: 中國科學院信息工程研究所、中國科學院大學網絡空間安全學院、百度公司、北京師范大學人工智能學院
?? 問題背景:盡管基于大型語言模型(LLMs)的表格理解方法取得了顯著進展,但這些方法通常依賴于將表格轉換為特定的文本序列(如Markdown或HTML)作為模型輸入。然而,在某些現實場景中,獲取高質量的文本表格表示形式非常困難,而表格圖像則更為常見。因此,如何直接利用直觀的視覺信息來理解表格,成為開發更實用應用的關鍵和緊迫挑戰。
?? 研究動機:現有的表格理解方法,包括基于LLMs的方法,大多只能處理有限的任務,且需要將表格轉換為文本序列。這限制了表格理解技術在實際場景中的應用。為了克服這一限制,研究團隊提出了多模態表格理解問題,旨在使模型能夠基于表格圖像直接生成正確的響應,以應對各種表格相關請求。
?? 方法簡介:研究團隊構建了一個大規模的數據集MMTab,涵蓋了廣泛的表格圖像、指令和任務。基于此數據集,研究團隊開發了一個通用的多模態大型語言模型(MLLM)Table-LLaVA,該模型在23個基準測試中顯著優于最近的開源MLLM基線模型。
?? 實驗設計:實驗在三個公開數據集上進行,包括多模態表格理解任務。實驗設計了不同因素(如表格結構、樣式和領域)的變化,以及不同類型的任務(如表格問答、表格事實驗證和表格到文本生成),以全面評估模型的多模態表格理解能力。
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
?? 論文標題:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
?? 論文作者:Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
?? 研究機構: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種視覺-語言任務中表現出色,但其輸出主要局限于文本形式,限制了其在結構化或視覺信息表示上的能力。此外,現有的擴展MLLM輸出格式的方法未能完全滿足實際需求,如密集對象檢測、姿態估計和圖像生成等任務。
?? 研究動機:為了克服現有MLLMs的局限性,研究團隊開發了VisionLLM v2,這是一個端到端的通用多模態大模型,旨在統一視覺感知、理解和生成任務。該模型不僅擴展了MLLMs的應用范圍,還通過引入“超級鏈接”技術,實現了任務信息和梯度反饋在多任務解碼器之間的高效傳輸,避免了任務沖突。
?? 方法簡介:VisionLLM v2通過引入“超級鏈接”技術,將MLLM與特定任務解碼器連接起來。該技術包括路由令牌(Routing Token)和超級鏈接查詢(Super-Link Queries)兩部分。路由令牌用于觸發特定解碼器的選擇,而超級鏈接查詢則作為MLLM與任務解碼器之間的橋梁,確保任務信息的準確傳輸和梯度反饋。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,涵蓋了從視覺感知到視覺理解的各種任務,包括弱交互(如封閉集任務)和強交互(如視覺提示+語言提示)任務,以及常見領域和長尾領域(如醫療、遙感、工業)的任務。實驗結果表明,VisionLLM v2在各種標準基準測試中達到了與任務專用模型相當的性能。