多模態大語言模型arxiv論文略讀（154）

在這里插入圖片描述

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

?? 論文標題：Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
?? 論文作者：Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang
?? 研究機構: Hefei University of Technology, University of Science and Technology of China, Hefei Comprehensive National Science Center
?? 問題背景：當前的知識編輯方法主要集中在大型語言模型（LLMs）上，旨在高效且成本效益地糾正不準確信息和更新過時信息。然而，隨著多模態大型語言模型（MLLMs）的興起，這些模型集成了文本和視覺信息，帶來了新的編輯復雜性。現有的多模態知識編輯方法主要關注文本導向的粗粒度場景，未能解決多模態環境下的獨特挑戰。
?? 研究動機：為了應對多模態知識編輯中的復雜挑戰，研究團隊提出了一種視覺導向的細粒度多模態知識編輯任務，旨在精確編輯圖像中的多個交互實體。研究團隊還引入了Fine-Grained Visual Knowledge Editing (FGVEdit) 基準，以評估這一任務。此外，研究團隊提出了Multimodal Scope Classifier-based Knowledge Editor (MSCKE) 框架，該框架通過結合視覺和文本信息，實現對特定實體的精確知識更新。
?? 方法簡介：MSCKE框架基于SERAC方法進行了改進，通過引入多模態范圍分類器（Multimodal Scope Classifier），結合視覺和文本信息，準確識別和更新與特定實體相關的知識。該框架包括四個主要組件：多模態編輯記憶（Multimodal Edit Memory）、多模態范圍分類器、基礎多模態模型（Base Multimodal Model）和反事實多模態模型（Counterfactual Multimodal Model）。在編輯過程中，MSCKE不會修改基礎模型的參數，而是將編輯示例存儲在多模態編輯記憶中。當接收到新輸入時，多模態范圍分類器會評估輸入與存儲的編輯示例的相關性，并決定是否調用編輯信息。
?? 實驗設計：研究團隊在FGVEdit基準上進行了廣泛的實驗，評估了MSCKE框架在細粒度視覺知識編輯任務中的表現。實驗設計了多個評估指標，包括特異性（Specificity）、可靠性（Reliability）、局部性（Locality）和泛化性（Generality），以全面評估模型的編輯性能。實驗結果表明，MSCKE框架在這些指標上均優于現有方法，展示了其在解決多模態知識編輯復雜挑戰方面的有效性。

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

?? 論文標題：Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving
?? 論文作者：Hao Zhou, Zhanning Gao, Maosheng Ye, Zhili Chen, Qifeng Chen, Tongyi Cao, Honggang Qi
?? 研究機構: UCAS、HKUST、DeepRoute.AI
?? 問題背景：當前的多模態大語言模型（Multimodal Large Language Models, MLLMs）在自動駕駛的視覺問答（VQA）任務中面臨挑戰，尤其是在復雜交互和長尾場景的表示上。盡管CLIP等模型在視覺編碼器中表現出色，但它們在實例級結構和領域特定語義信息的表示上存在不足，導致在復雜駕駛場景中的表現不佳。
?? 研究動機：為了提高MLLMs在自動駕駛VQA任務中的表現，研究團隊提出了“提示的暗示”（Hints of Prompt, HoP）框架，通過引入三種增強提示（Affinity hint、Semantic hint、Question hint）來豐富視覺表示，增強模型對復雜駕駛場景的理解和響應能力。
?? 方法簡介：HoP框架通過Affinity hint捕捉實例級結構，通過Semantic hint引入領域特定的高層次語義信息，通過Question hint將視覺特征與問題上下文對齊，確保模型關注與問題相關的關鍵區域。這些提示通過一個簡單的Hint Fusion模塊融合，與視覺令牌結合，經過適配器處理后傳遞給大語言模型（LLM）生成答案。
?? 實驗設計：研究團隊在LingoQA、DRAMA和BDD-X三個數據集上進行了實驗，評估了HoP框架在不同任務（如物體識別、場景描述、駕駛推理等）中的表現。實驗設計了不同的提示類型和融合策略，以驗證每種提示對模型性能的貢獻，并探索了高效版本的HoP方法，通過輕量級頭部結構提取提示信息，減少計算負擔。
?? 實驗結果：實驗結果表明，HoP框架在所有關鍵指標上顯著優于現有方法，特別是在LingoQA數據集上，HoP取得了67.8的Lingo-Judge得分，刷新了該數據集的最新記錄。此外，HoP在DRAMA和BDD-X數據集上也表現出色，展示了其在不同難度場景下的魯棒性和有效性。

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

?? 論文標題：DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
?? 論文作者：Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen
?? 研究機構: 武漢大學計算機學院、中國科學院自動化研究所、Waytous、悉尼科技大學HAI中心、AAII計算機科學學院、牛津大學計算機科學系、TikTok、西安交通大學人工智能與機器人研究所
?? 問題背景：自動駕駛需要全面理解3D環境，以支持高層次任務，如運動預測、規劃和地圖構建。盡管在基于對象的識別任務中取得了巨大進展，但自動駕駛中的對象間空間關系推理仍被忽視，這對實現全面的3D場景理解至關重要。現有的多模態大語言模型（MLLMs）在處理這些復雜的空間關系方面存在局限性。
?? 研究動機：為了評估MLLMs在自動駕駛中的空間理解能力，研究團隊提出了DriveMLLM基準測試。該基準測試旨在評估MLLMs在處理絕對和相對空間關系任務中的表現，揭示當前模型的局限性，并推動更高級的MLLM空間推理方法的發展。
?? 方法簡介：研究團隊基于nuScenes數據集構建了DriveMLLM基準測試，該數據集包含880張前視攝像頭圖像和多樣化的自然語言問題。DriveMLLM引入了絕對空間推理和相對位置關系推理任務，以全面評估模型的空間理解能力。研究團隊還提出了新的評估指標，以更準確地衡量模型的性能。
?? 實驗設計：研究團隊在DriveMLLM基準測試上評估了多種最先進的MLLMs，包括GPT-4o、GPT-4o-mini、LLaVA-ov-7b、LLaVA-ov-72b、Qwen2-vl-7b、Qwen2-vl-72b和Gemini-1.5-flash。實驗設計了零樣本、單樣本和五樣本學習三種設置，以評估模型在不同條件下的表現。評估指標包括準確性、效率和綜合評分，以全面評估模型的空間理解能力和輸出格式的合規性。

AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations

?? 論文標題：AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
?? 論文作者：Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso
?? 研究機構: Georgia Institute of Technology, J.P. Morgan AI Research
?? 問題背景：當前的多模態網絡代理（Multimodal Web Agents）雖然在處理用戶指令和與圖形用戶界面（GUI）交互方面表現出色，但它們在未見過的網站和領域中的泛化能力有限，這限制了它們在企業特定和專有平臺上的應用。現有的方法主要依賴于大規模預訓練和微調，但這些方法成本高昂且效率低下。
?? 研究動機：為了提高多模態網絡代理在未見過的網站和領域中的適應能力，研究團隊提出了一種新的框架——AdaptAgent，該框架通過少量的人類演示（1-2個示例）來快速適應新的環境。研究旨在探索多模態網絡代理是否可以通過少量的人類演示來提高其在未見過的網站和領域中的任務成功率。
?? 方法簡介：AdaptAgent框架結合了上下文學習（In-Context Learning, ICL）和元學習（Meta-Learning）兩種方法。對于專有模型（如GPT-4o），通過在上下文中加入多模態人類演示來實現快速適應；對于開源模型（如CogAgent），則通過元學習來優化模型的初始參數，然后使用少量的人類演示進行微調，以實現快速適應。
?? 實驗設計：研究團隊在兩個廣泛使用的基準數據集——Mind2Web和VisualWebArena上進行了實驗。實驗設計了不同數量的演示示例（1個或2個），以評估模型在不同條件下的適應能力和任務成功率。實驗結果表明，使用少量的人類演示可以顯著提高任務成功率，特別是在未見過的網站和領域中。具體來說，AdaptAgent框架在Mind2Web和VisualWebArena上的任務成功率分別提高了3.36%到7.21%，相對提高了21.03%到65.75%。
?? 主要貢獻：

提出了AdaptAgent框架，使最先進的多模態網絡代理能夠通過少量的人類演示快速適應新的網站和領域。
通過在Mind2Web和VisualWebArena上的廣泛實驗，驗證了AdaptAgent框架的有效性，特別是在未見過的網站和領域中。
進行了額外的分析，提供了關于多模態演示與文本演示的效果對比、元學習中不同數據選擇策略的影響以及少量示例數量對代理性能的影響的見解。

Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

?? 論文標題：Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs
?? 論文作者：Rui Cao, Yuming Jiang, Michael Schlichtkrull, Andreas Vlachos
?? 研究機構: University of Cambridge、Nanyang Technological University、Queen Mary University of London
?? 問題背景：多模態大語言模型（MLLMs）通過與人類偏好對齊，可以增強其可信度。然而，現有的方法在利用評估模型生成偏好數據時面臨挑戰，尤其是在處理MLLMs的長且復合的響應時，這些響應往往需要多樣的推理技能，而單一評估模型可能不具備這些技能。此外，大多數現有方法依賴于閉源模型作為評估者，這既昂貴又限制了透明度。
?? 研究動機：為了克服上述限制，研究團隊提出了DecompGen，一個可分解的框架，利用開源專家模型的集合來生成高質量的反饋。DecompGen通過將每個響應分解為原子驗證任務，并將每個任務分配給適當的專家模型，生成細粒度的評估。這些評估用于自動構建偏好數據集DGPref，以優化MLLMs的偏好學習，從而顯著提高其可信度。
?? 方法簡介：DecompGen框架包括兩個步驟：響應分解和專家模型執行。首先，給定一個響應，DecompGen會生成一個響應特定的布局，將響應分解為原子驗證任務（如對象存在驗證和空間關系驗證）。然后，根據布局動態組裝和執行專家模型，每個模型負責一個特定的原子驗證任務。通過專家模型的執行，生成細粒度的反饋，這些反饋用于構建偏好數據集DGPref。
?? 實驗設計：研究團隊在三個基準數據集上進行了實驗，包括ObjHal、MMHal和AMBER，這些數據集分別評估了對象幻覺、信息量和幻覺率等多個維度。實驗設計了不同的響應生成指令和偏好數據的分類方法，以全面評估MLLMs在偏好學習后的表現。實驗結果表明，使用DGPref進行偏好學習的MLLMs在減少幻覺的同時，保持了較高的信息量和覆蓋率，顯著提高了模型的可信度。