多模態大語言模型arxiv論文略讀（十五）

請添加圖片描述

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

?? 論文標題：Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
?? 論文作者：Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
?? 研究機構: Huazhong University of Science and Technology, Lehigh University
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在生成詳細圖像描述、代碼生成、視覺對象定位和高級多模態推理等任務中表現出強大的能力。然而，這些模型在訓練過程中可能會接觸到有害或私密內容，因此需要通過安全機制進行微調，以確保生成的內容安全。盡管如此，研究發現，通過對抗性攻擊，可以繞過這些模型的安全約束和內容過濾機制，尤其是通過模型API的漏洞。
?? 研究動機：現有的研究主要集中在模型輸入中的對抗性樣本，而對模型API中的漏洞關注較少。為了填補這一研究空白，研究團隊發現了GPT-4V中的系統提示泄露漏洞，并基于此提出了一種新的MLLM破解攻擊方法——SASP（Self-Adversarial Attack via System Prompt）。此外，研究還探討了修改系統提示以防御破解攻擊的潛力。
?? 方法簡介：研究團隊通過精心設計的對話模擬，成功提取了GPT-4V的內部系統提示。基于這些系統提示，他們開發了SASP方法，通過GPT-4作為紅隊工具，自動搜索潛在的破解提示。此外，通過人工修改這些提示，進一步提高了攻擊成功率至98.7%。研究還評估了修改系統提示以防御破解攻擊的效果，結果表明，適當設計的系統提示可以顯著降低破解成功率。
?? 實驗設計：實驗在三個公開數據集上進行，包括面部識別任務。實驗設計了不同語言（英語、中文、泰語）的四種提示類型（直接請求、基線攻擊、SASP、SASP+人工修改），以全面評估模型對破解提示的敏感性和抗干擾能力。實驗結果表明，SASP方法在英語提示下的攻擊成功率為59%，而經過人工修改后的攻擊成功率高達99%。此外，研究還通過系統提示召回方法，評估了系統提示在防御破解攻擊中的有效性。

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

?? 論文標題：Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
?? 論文作者：Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
?? 研究機構: vivo Mobile Communication Co., Ltd
?? 問題背景：當前的偽裝物體檢測（Camouflaged Object Detection, COD）方法主要依賴于監督學習模型，這些模型需要大量準確標注的數據集，導致其泛化能力較弱。此外，現有的COD方法在處理新場景時表現不佳，尤其是在視頻偽裝物體檢測（VCOD）等新場景中，性能顯著下降。
?? 研究動機：為了克服現有COD方法的局限性，研究團隊提出了一種基于多模態大語言模型（Multimodal Large Language Models, MLLMs）的零樣本偽裝物體檢測框架（Multimodal Camo-Perceptive Framework, MMCPF）。該框架旨在利用MLLMs的強大泛化能力，提高在偽裝場景中的檢測性能，而無需重新訓練或微調模型。
?? 方法簡介：研究團隊設計了鏈式視覺感知（Chain of Visual Perception, CoVP）機制，從語言和視覺兩個方面增強MLLMs在偽裝場景中的感知能力。CoVP包括語言提示機制和視覺完成機制，前者通過描述偽裝物體的屬性、多義性和多樣性來增強MLLMs的感知能力，后者通過改進MLLMs輸出的不確定坐標來提高最終生成的二值掩碼的準確性。
?? 實驗設計：研究團隊在五個廣泛使用的COD數據集上進行了實驗，包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。實驗設計了不同的提示機制，從簡單的文本提示到包含物理和動態描述的復雜提示，以及視覺完成機制，以全面評估MMCPF在不同條件下的表現。實驗結果表明，MMCPF在零樣本設置下顯著優于現有的零樣本COD方法，并且在弱監督和全監督方法中也表現出競爭力。

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

?? 論文標題：InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
?? 論文作者：Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
?? 研究機構: ByteDance Inc.
?? 問題背景：多模態大型語言模型（MLLMs）在人工智能領域日益突出，不僅在傳統的視覺-語言任務中表現出色，還在當代多模態基準測試中展示了令人印象深刻的能力。然而，現有的多模態基準測試通常集中在基本的推理任務上，往往只能產生簡單的“是/否”或多選答案，這導致了對MLLMs推理能力評估的混淆和困難。
?? 研究動機：為了緩解這一問題，研究團隊手動策劃了一個專門針對MLLMs的基準數據集，重點在于復雜的推理任務。該基準數據集包括三個關鍵的推理類別：演繹推理、溯因推理和類比推理。每個樣本都設計了多個步驟的推理過程，以評估模型在生成答案時的推理能力。
?? 方法簡介：研究團隊提出了一個系統的方法，通過構建InfiMM-Eval基準數據集，來評估MLLMs在復雜視覺推理問題上的表現。該數據集不僅包括圖像和問題，還包括詳細的推理步驟，這些步驟對于評估模型的推理能力至關重要。評估協議包括直接正確答案的滿分和基于推理步驟的相關性和邏輯性的部分分數。
?? 實驗設計：研究團隊在InfiMM-Eval基準數據集上對多個代表性的MLLMs進行了評估，包括了演繹推理、溯因推理和類比推理的樣本。實驗設計了不同復雜度的推理任務，以全面評估模型的推理能力和決策過程。評估結果通過一個綜合的評分系統計算，該系統考慮了推理的復雜度和模型生成答案的準確性。

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

?? 論文標題：LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
?? 論文作者：Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
?? 研究機構: Harbin Institute of Technology, Shenzhen
?? 問題背景：現有的多模態大語言模型（MLLMs）主要采用粗略對齊的圖像-文本對預訓練的視覺編碼器，導致視覺知識的提取和推理不足。這使得MLLMs在處理視覺-語言任務時，容易產生錯誤和幻覺響應。
?? 研究動機：為了克服這一問題，研究團隊設計了一種雙層視覺知識增強的多模態大語言模型（LION），通過細粒度的空間感知視覺知識和高層次的語義視覺證據的注入，提升MLLMs的視覺理解能力。
?? 方法簡介：LION通過兩個層面增強視覺信息：1) 逐步融合細粒度的空間感知視覺知識，設計了一個視覺聚合器與區域級視覺-語言任務合作，采用分階段的指令調優策略和混合適配器來解決圖像級和區域級任務之間的沖突；2) 軟提示高層次的語義視覺證據，利用圖像標簽作為補充信息，并設計了一種軟提示方法來減輕不準確標簽的影響。
?? 實驗設計：在多個多模態基準數據集上進行了實驗，包括圖像描述生成、視覺問答（VQA）和視覺定位任務。實驗結果表明，LION在多個任務上顯著優于現有模型，例如在VSR任務上比InstructBLIP提高了約5%的準確率，在TextCaps任務上提高了約3%的CIDEr分數，在RefCOCOg任務上比Kosmos-2提高了約5%的準確率。

A Survey on Multimodal Large Language Models for Autonomous Driving

?? 論文標題：A Survey on Multimodal Large Language Models for Autonomous Driving
?? 論文作者：Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
?? 研究機構: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
?? 問題背景：隨著大型語言模型（LLMs）和視覺基礎模型（VFMs）的出現，多模態AI系統在感知現實世界、做出決策和控制工具方面展現出與人類相當的潛力。LLMs在自動駕駛和地圖系統中受到了廣泛關注。盡管具有巨大潛力，但目前對將LLMs應用于自動駕駛系統的關鍵挑戰、機遇和未來方向的理解仍然不足。
?? 研究動機：為了系統地探討多模態大型語言模型（MLLMs）在自動駕駛中的應用，本文提供了該領域的全面調查。研究旨在介紹MLLMs的背景、發展以及自動駕駛的歷史，概述現有的MLLM工具、數據集和基準，總結首屆WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作，并討論使用MLLMs在自動駕駛系統中需要解決的重要問題。
?? 方法簡介：研究團隊通過分析現有文獻和數據集，總結了MLLMs在自動駕駛中的應用，特別是在感知、運動規劃和運動控制模塊中的作用。此外，研究還探討了MLLMs在提高車輛智能、決策和乘客互動方面的潛力。
?? 實驗設計：研究沒有進行具體的實驗設計，而是通過文獻綜述和案例分析，探討了MLLMs在自動駕駛中的應用現狀和未來方向。研究團隊還組織了首屆WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)，以促進學術界和工業界的合作，探索多模態大型語言模型在自動駕駛領域的可能性和挑戰。