From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
?? 論文標題:From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
?? 論文作者:Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang
?? 研究機構: Shanghai AI Laboratory, National University of Singapore, Nanjing University, Beihang University, Fudan University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
?? 問題背景:多模態大型語言模型(MLLMs)在生成合理響應方面展現了令人印象深刻的能力,尤其是在處理多模態內容時。然而,盡管OpenAI的GPT-4和Google的Gemini等最強大的模型已被部署,這些模型在實際應用中的表現仍未能完全滿足公眾的期望。研究指出,MLLMs在泛化能力、可信度和因果推理能力方面存在不足,這些不足限制了它們在各種下游多模態應用中的可靠性。
?? 研究動機:為了縮小當前MLLMs性能與公眾期望之間的差距,研究團隊通過定性研究,評估了近期專有和開源MLLMs在文本、代碼、圖像和視頻四種模態下的泛化能力、可信度和因果推理能力。研究旨在提高MLLMs的透明度,為未來的多模態應用提供更可靠的模型。
?? 方法簡介:研究團隊評估了閉源的GPT-4和Gemini,以及6個開源的LLMs和MLLMs。評估基于232個手動設計的案例,這些案例涵蓋了四種模態(文本、代碼、圖像、視頻)和三個屬性(泛化能力、可信度、因果推理能力)。研究團隊通過12個評分(4種模態×3個屬性)總結了定性結果,揭示了14個有助于理解MLLMs能力和局限性的實證發現。
?? 實驗設計:實驗設計了不同模態的輸入,包括文本、代碼、圖像和視頻,以及不同類型的評估任務,如數學能力、多語言能力、推理能力、角色扮演能力、創意寫作能力、領域知識熟悉度等。此外,研究還評估了模型在安全性、可靠性、魯棒性、道德性、數據保護、公平性和合法性等方面的性能。通過這些評估,研究團隊全面分析了不同模型在各種條件下的表現,為提高MLLMs的可靠性和安全性提供了有價值的見解。
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
?? 論文標題:Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
?? 論文作者:Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang
?? 研究機構: University of California, Santa Cruz、eBay
?? 問題背景:多面板圖像,如網頁截圖、海報等,廣泛存在于日常生活中,通過不同的布局組合多個子圖來有效傳達信息。隨著多模態大型語言模型(MLLMs)的發展,理解和處理多面板圖像的能力變得尤為重要。然而,現有的研究和基準測試主要集中在單面板圖像上,而多面板圖像的理解對MLLMs來說仍然是一個挑戰。
?? 研究動機:盡管人類在處理多面板圖像時幾乎能達到99%的準確率,但現有的MLLMs在處理多面板圖像時表現不佳。為了評估和理解MLLMs在多面板圖像理解上的能力,研究團隊提出了MultipanelVQA基準,旨在全面評估MLLMs在多面板圖像理解上的表現,并通過合成數據集分析影響模型性能的各種因素。
?? 方法簡介:研究團隊構建了MultipanelVQA基準,包含6,600個問題-答案-多面板圖像的三元組,旨在評估MLLMs在多面板圖像理解上的能力。該基準包括真實世界數據和合成數據兩個子集,其中合成數據集通過自動化腳本生成,確保了多面板圖像屬性的均勻分布,如子圖數量、大小和布局復雜性等。
?? 實驗設計:研究團隊在MultipanelVQA基準上評估了八個流行的MLLMs,包括開源模型和專有模型。實驗設計了三種不同風格的問題,分別評估模型在識別多面板圖像內容、特定子圖內容和視覺定位上的能力。此外,研究團隊還通過合成數據集進行了詳細的錯誤分析,以探究影響模型性能的各種因素,如子圖內容、布局、背景和視覺文本提示等。
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
?? 論文標題:Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
?? 論文作者:Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
?? 研究機構: Beijing Jiaotong University、Alibaba Group
?? 問題背景:基于多模態大語言模型(MLLM)的移動設備代理正在成為一種流行的應用。然而,現有的MLLM,包括最先進的GPT-4V,仍然缺乏足夠的視覺感知能力,無法作為有效的代理來操作移動設備。此外,現有的解決方案依賴于應用程序的XML文件或移動系統的元數據,這限制了它們在不同移動操作系統環境中的適應性。
?? 研究動機:為了解決現有方法對底層文件的依賴問題,研究團隊提出了Mobile-Agent,一個具有視覺感知能力的自主移動設備代理。Mobile-Agent通過視覺感知工具,僅使用移動設備的屏幕截圖就能準確地定位操作位置,從而實現了在不同移動操作系統環境中的高度適應性,無需特定系統的定制。
?? 方法簡介:Mobile-Agent框架包括最先進的MLLM GPT-4V、文本檢測模塊和圖標檢測模塊。通過這些工具,Mobile-Agent能夠準確地識別和定位應用程序界面中的視覺和文本元素。基于感知到的視覺上下文,Mobile-Agent能夠自主規劃和分解復雜的操作任務,并通過一系列步驟完成任務。此外,研究團隊還引入了自我反思方法,以提高代理在遇到錯誤時的自我糾正能力。
?? 實驗設計:為了全面評估Mobile-Agent的性能,研究團隊引入了Mobile-Eval基準測試,該基準測試涵蓋了10個常用的移動應用程序,并設計了不同難度級別的指令。實驗結果表明,Mobile-Agent在指令完成率和操作準確性方面表現出色,即使在復雜的多應用程序操作中也能成功完成任務。
LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
?? 論文標題:LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
?? 論文作者:Shaoxiang Chen, Zequn Jie, Lin Ma
?? 研究機構: Meituan Inc.
?? 問題背景:多模態大語言模型(MLLMs)在多種任務中表現出色,但當混合來自不同領域的指令數據時,數據沖突問題會導致特定任務的性能下降。例如,當將文檔和生物醫學數據與通用多任務數據混合時,模型在通用多任務基準上的性能顯著下降。
?? 研究動機:為了解決數據沖突問題,研究團隊提出了一種稀疏的LoRA專家混合(Sparse Mixture of LoRA Experts, MoLE)方法,用于指令微調MLLMs。該方法通過在Transformer層中引入多個LoRA專家,并根據輸入令牌的特征選擇最合適的專家,從而擴展模型處理多領域數據的能力。
?? 方法簡介:研究團隊在LLaVA-1.5的基礎上,通過在每個Transformer層的MLP中引入多個LoRA專家,并使用路由函數選擇每個令牌最合適的專家,提出了LLaVA-MoLE模型。每個令牌僅激活一個專家,從而保持了與原始LoRA方法相近的訓練和推理成本。
?? 實驗設計:實驗在多個數據集上進行,包括通用多任務、文檔和生物醫學領域的數據。實驗設計了不同的數據混合配置,以評估模型在不同條件下的性能。結果表明,LLaVA-MoLE在混合數據集上不僅解決了數據沖突問題,還在多個基準測試中取得了優于基線模型的性能。
EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
?? 論文標題:EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
?? 論文作者:Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao
?? 研究機構: 北京理工大學、IEEE會員
?? 問題背景:多模態大語言模型(MLLMs)在自然圖像領域的視覺和視覺-語言任務中表現出色。然而,由于自然圖像與遙感(RS)圖像之間的顯著差異,如成像條件、環境、尺度和物體視角,MLLMs在RS領域的應用仍處于初級階段。現有的RS MLLMs,如RSGPT和GeoChat,雖然在某些任務上有所進展,但仍然存在局限性,如任務特定性、多傳感器模態支持不足等。
?? 研究動機:為了填補這一空白,本文提出了一種名為EarthGPT的多模態大語言模型,旨在統一處理多傳感器RS圖像的多種解釋任務。EarthGPT通過構建大規模多模態RS指令跟隨數據集MMRS-1M,解決了現有MLLMs在RS領域專業知識不足的問題,促進了RS領域MLLMs的發展。
?? 方法簡介:研究團隊提出了三個關鍵技術:1)視覺增強感知機制,通過混合多種視覺骨干網絡來提取粗粒度和細粒度的視覺信息;2)跨模態互理解方法,通過直接連接視覺特征和語言特征來生成多模態輸入,增強視覺-語言對齊;3)統一指令調優方法,通過在新構建的MMRS-1M數據集上進行偏差調優,使模型能夠統一處理多種RS任務。
?? 實驗設計:在多個RS數據集上進行了廣泛的實驗,包括場景分類、圖像描述、區域級描述、視覺問答(VQA)、視覺定位和目標檢測等任務。實驗結果表明,EarthGPT在大多數RS任務中超越了現有的專業模型和MLLMs,特別是在圖像描述、VQA和視覺定位任務中表現突出。此外,EarthGPT在開放集推理任務中也表現出色,如零樣本場景分類和目標檢測。