多模態大語言模型arxiv論文略讀（148）

在這里插入圖片描述

A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks

?? 論文標題：A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks
?? 論文作者：Chia Xin Liang, Pu Tian, Caitlyn Heqi Yin, Yao Yua, Wei An-Hou, Li Ming, Tianyang Wang, Ziqian Bi, Ming Liu
?? 研究機構: JTB Technology Corp.、Stockton University、University of Wisconsin-Madison、AppCubic USA、Nomad Sustaintech LTD、Georgia Institute of Technology、University of Liverpool、Indiana University、Purdue University
?? 問題背景：多模態大型語言模型（Multimodal Large Language Models, MLLMs）在視覺-語言任務中迅速發展，這些模型能夠整合文本、圖像、視頻和音頻等多種數據類型，實現跨模態理解和生成。MLLMs在視覺故事講述、內容創作、跨模態檢索和增強無障礙性等多個領域展現出巨大的應用潛力。
?? 研究動機：盡管MLLMs在多個領域取得了顯著進展，但它們在模型架構、可擴展性、跨模態學習、模型魯棒性和可靠性、解釋性和倫理考慮等方面仍面臨諸多挑戰。研究團隊通過全面的調查和案例分析，旨在探討這些挑戰，并為未來的MLLMs發展提供理論框架和實踐指導。
?? 方法簡介：研究團隊通過文獻綜述和案例研究，系統地分析了MLLMs的架構、訓練方法、應用領域以及面臨的挑戰。研究涵蓋了從基礎概念到具體應用的各個方面，包括模型的訓練策略、跨模態任務的處理、模型的魯棒性和解釋性等。
?? 實驗設計：研究團隊在多個實際應用案例中評估了MLLMs的性能，包括圖像生成、代碼生成、搜索和信息檢索、多模態助手和聊天機器人、視頻分析和生成、音頻和語音處理、機器人和具身AI等。通過詳細的案例分析，研究團隊探討了MLLMs在不同應用場景中的表現和潛在問題。

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

?? 論文標題：Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models
?? 論文作者：Jungseok Hong, Ran Choi, John J. Leonard
?? 研究機構: MIT CSAIL
?? 問題背景：當前的語義同時定位與建圖（Semantic SLAM）系統在處理語義相似的物體時存在困難，尤其是在雜亂的室內環境中。這些系統通常只能提供通用的標簽（如“鞋”），導致相似的物體被融合成單一的地標。此外，錯誤的地標和物體檢測器的固有偏差也是維持地圖一致性的重要挑戰。
?? 研究動機：為了克服這些挑戰，研究團隊提出了一種新的SLAM系統——SEO-SLAM，該系統利用視覺-語言模型（VLM）和多模態大語言模型（MLLM）來增強物體級別的語義映射。SEO-SLAM通過生成更具體和描述性的開放詞匯物體標簽、同時糾正導致錯誤地標的因素，并動態更新多類混淆矩陣，從而提高了語義映射的準確性和魯棒性。
?? 方法簡介：SEO-SLAM系統集成了圖像標記、基于標簽的定位和分割模型，以實現描述性的開放詞匯物體檢測和地標語義信息的細化。該系統利用MLLM生成更描述性的地標標簽，并通過MLLM的反饋更新多類預測混淆矩陣，識別重復地標。具體來說，系統通過將3D地標投影到當前相機幀上，生成每個地標的邊界框，并將這些邊界框疊加到當前的RGB圖像上，形成復合圖像。MLLM通過評估這些復合圖像來識別消失的物體、糾正錯誤標簽的物體，并選擇最合適的地標標簽。
?? 實驗設計：研究團隊在六個包含日常物體的室內環境數據集上進行了實驗，這些數據集根據物體數量分為小（約10個）、中（約20個）和大（約30個）三類。實驗評估了地標語義準確性、錯誤地標數量和絕對姿態誤差（APE）。實驗結果表明，SEO-SLAM在語義準確性和地標估計數量方面均優于其他方法，尤其是在處理復雜環境中的相似物體時表現出色。

CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models

?? 論文標題：CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models
?? 論文作者：Junho Kim, Hyungjin Chung, Byung-Hoon Kim
?? 研究機構: EverEx, KAIST, Yonsei University
?? 問題背景：傳統的類別特定姿態估計（Category-Specific Pose Estimation, CSP）主要集中在訓練模型以識別單一類別（如人類、車輛或動物）的關鍵點。然而，這些模型無法處理未見過的類別和關鍵點。類別無關姿態估計（Category-Agnostic Pose Estimation, CAPE）旨在通過利用輸入圖像和一組支持數據來預測新類別對象的關鍵點位置。然而，支持數據的使用存在固有的局限性，如依賴于支持圖像和關鍵點注釋，導致模型性能受支持數據質量的影響。
?? 研究動機：為了克服傳統CAPE方法的局限性，研究團隊提出了一種新的方法CapeLLM，該方法利用多模態大語言模型（Multimodal Large Language Model, MLLM）進行支持圖像無關的CAPE。通過僅使用查詢圖像和詳細的文本描述作為輸入，CapeLLM能夠預測未見過類別對象的關鍵點位置，從而提高了模型的泛化能力和魯棒性。
?? 方法簡介：CapeLLM結合了一個預訓練的視覺編碼器和一個大語言模型（LLM）。視覺編碼器用于提取圖像特征，而LLM則用于處理文本描述并生成關鍵點坐標。研究團隊定義了各類別關鍵點的名稱和描述，并將其轉換為適合CAPE的指令格式。通過這種方式，CapeLLM能夠在沒有支持圖像的情況下，僅依賴查詢圖像和文本描述來預測關鍵點位置。
?? 實驗設計：研究團隊在MP-100基準數據集上進行了實驗，該數據集包含100個類別和約20,000張圖像。實驗設計了不同的訓練策略，包括將關鍵點分組為固定大小的單元，并允許圖像重復以確保所有關鍵點在訓練中都被覆蓋。實驗結果表明，CapeLLM在1-shot設置下超越了現有的5-shot性能，達到了新的最先進水平。

Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

?? 論文標題：Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
?? 論文作者：Tiejin Chen, Kaishen Wang, Hua Wei
?? 研究機構: Arizona State University, USA
?? 問題背景：多模態大語言模型（MLLMs）在處理文本和圖像輸入方面表現出色，但這些模型的安全性引起了廣泛關注。研究發現，通過精心設計的提示，可以“越獄”這些模型，使其生成有害內容。現有的越獄方法主要依賴于梯度方法，這些方法在白盒設置下表現良好，但在黑盒設置下效果不佳，因為黑盒模型不提供內部參數訪問權限。
?? 研究動機：現有的越獄方法在黑盒設置下效果有限，因為這些方法通常依賴于轉移攻擊，即在白盒模型上生成惡意輸入，然后應用于黑盒模型，但這種方法的攻擊成功率較低。為了克服這一挑戰，研究團隊提出了一種新的方法——Zer0-Jack，該方法利用零階優化技術直接生成惡意圖像輸入，以攻擊黑盒MLLMs，顯著降低了內存使用量，并提高了攻擊成功率。
?? 方法簡介：Zer0-Jack利用零階優化技術，通過估計梯度而不訪問模型參數，來生成能夠繞過安全機制的惡意圖像輸入。為了減少高維輸入的估計誤差，Zer0-Jack優化圖像的特定部分，而不是整個圖像，從而顯著降低了內存使用量。具體來說，Zer0-Jack使用了SPSA-P方法，即在每個迭代中僅擾動圖像的一個小塊（patch），并根據估計的梯度更新該小塊。
?? 實驗設計：研究團隊在三個公開數據集上進行了實驗，包括Harmful Behaviors Multi-modal Dataset和MM-SafetyBench-T。實驗評估了Zer0-Jack在不同模型上的攻擊成功率，并與現有的白盒和轉移攻擊方法進行了比較。實驗結果表明，Zer0-Jack在黑盒設置下能夠達到與白盒方法相當的攻擊成功率，例如在MiniGPT-4上使用Harmful Behaviors Multi-modal Dataset時，Zer0-Jack的攻擊成功率達到95%。此外，Zer0-Jack還能夠直接攻擊商業MLLMs，如GPT-4o。

Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding

?? 論文標題：Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
?? 論文作者：Zirui Shao, Chuwei Luo, Zhaoqing Zhu, Hangdi Xing, Zhi Yu, Qi Zheng, Jiajun Bu
?? 研究機構: 浙江大學、阿里巴巴集團
?? 問題背景：多模態大語言模型（MLLMs）在文檔理解等多模態任務中展現了顯著的能力。然而，這些模型在感知（perception）和認知（cognition）之間經常面臨沖突。例如，在文檔視覺問答（VQA）任務中，模型可能生成與OCR識別的視覺內容不匹配的答案，這表明模型在“看到”和“理解”之間存在內在連接的困難。
?? 研究動機：當前的MLLMs在感知和認知之間存在顯著的沖突，這些沖突不僅影響模型的性能，還降低了模型的可解釋性。為了系統地評估這些沖突，并提出有效的緩解方法，研究團隊定義了認知與感知知識沖突（Cognition and Perception, C&P knowledge conflicts），并評估了現有MLLMs在這方面的表現。
?? 方法簡介：研究團隊提出了一種新的方法——多模態知識一致性微調（Multimodal Knowledge Consistency Fine-tuning），該方法通過三個階段的微調任務來提高模型在認知和感知任務之間的一致性。具體包括：感知一致性任務、認知一致性任務和C&P連接任務。這些任務旨在確保任務內部的一致性，并建立認知和感知知識之間的內在聯系。
?? 實驗設計：實驗在六個公開的文檔理解數據集上進行，包括DocVQA、DeepForm、KLC、FUNSD、ChartQA和WTQ。實驗評估了模型在認知任務一致性、感知任務一致性和C&P一致性方面的表現。結果表明，多模態知識一致性微調方法顯著提高了所有測試模型的C&P一致性，尤其是在Qwen-VL-Chat、InternVL2-2b和InternVL2-8b等模型上表現尤為明顯。