Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
?? 論文標題:Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
?? 論文作者:Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
?? 研究機構: 南京大學、北京大學、Intel Lab China
?? 問題背景:多模態大語言模型(MLLMs)在視覺-語言任務中展現了卓越的能力,主要得益于大語言模型(LLMs)的上下文理解和多任務學習能力。然而,盡管現有的MLLMs能夠識別圖像中的物體,但在有效辨別物體的位置,尤其是場景深度方面,仍面臨挑戰。這限制了模型在多模態任務中的全面理解能力。
?? 研究動機:為了克服MLLMs在圖像幾何感知上的局限性,研究團隊提出了Proximity QA框架,旨在通過問答指令格式增強MLLMs對圖像中物體幾何信息的理解能力。該框架通過兩個階段的訓練,使模型能夠估計物體的相對深度值,并推斷物體之間的空間接近關系,從而實現對圖像的綜合理解。
?? 方法簡介:Proximity QA框架包括兩個階段:感知階段和推理階段。在感知階段,模型通過問答指令學習估計圖像中物體的相對深度值;在推理階段,模型利用第一階段獲得的深度信息,推斷物體之間的空間接近關系。研究團隊還構建了一個名為Proximity-110K的VQA數據集,包含深度信息和物體接近關系的指令,以支持模型的訓練和評估。
?? 實驗設計:研究團隊在Proximity-110K數據集上進行了廣泛的實驗,驗證了Proximity QA框架在深度感知和接近關系分析方面的優越性能。實驗結果表明,Proximity QA框架在這些任務上顯著優于其他最先進的MLLMs。此外,研究團隊還分析了數據集中的問題和答案的分布情況,以及模型生成的對話的質量,以評估框架的有效性和準確性。
From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information
?? 論文標題:From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information
?? 論文作者:Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
?? 研究機構: Sun Yat-Sen University, Alibaba Group
?? 問題背景:多模態大語言模型(MLLMs)在融合文本和圖像模態方面展現了強大的能力,但在準確識別圖像中的細粒度元素方面仍存在挑戰。視覺檢測模型在識別圖像中的細粒度細節方面表現出色,因此被廣泛用于增強MLLMs的視覺理解能力。然而,大多數研究集中在無需訓練的方法上,直接將檢測信息以文本形式注入MLLMs,而對適應性訓練方法的研究較少。
?? 研究動機:盡管無需訓練的方法在注入文本檢測信息方面表現良好,但適應性訓練方法是否能進一步提升MLLMs的性能仍是一個未解的問題。研究團隊通過系統地比較無需訓練、重新訓練和微調三種策略,旨在探討適應性訓練對MLLMs理解文本檢測信息的影響。
?? 方法簡介:研究團隊提出了一種系統的方法,通過將視覺檢測模型的輸出轉換為文本信息,并將其輸入到MLLMs中,來評估不同訓練策略的效果。具體來說,研究團隊設計了三種訓練策略:無需訓練的注入(TFI)、基于重新訓練的注入(RBI)和基于微調的注入(FTBI)。實驗在多個基準數據集上進行,以評估不同策略對MLLMs性能的影響。
?? 實驗設計:實驗在10個廣泛認可的基準數據集上進行,包括VQAv2、GQA、TextVQA、MMBench等。實驗設計了不同的訓練策略,評估了MLLMs在細粒度圖像識別、文本識別、感知和推理等方面的能力。結果顯示,基于微調的注入(FTBI)策略在所有基準數據集上都表現最佳,相比無需訓練的注入(TFI)策略,FTBI-13B模型在10個基準數據集上的平均性能提升了6.71%。此外,微調策略還使MLLMs在更換檢測模型后仍能保持性能提升。
Safety of Multimodal Large Language Models on Images and Texts
?? 論文標題:Safety of Multimodal Large Language Models on Images and Texts
?? 論文作者:Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
?? 研究機構: East China Normal University、Midea Group、Shanghai AI Laboratory
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在近年來取得了顯著的發展,如GPT-4、LLaMA-2和Mixtral 8x7B等。這些模型不僅為人類生活提供了便利,同時也帶來了巨大的安全風險。本文系統地調查了當前在MLLMs圖像和文本上的評估、攻擊和防御技術,旨在幫助研究者了解該領域的詳細范圍,并為未來的安全防護提供有價值的見解和方法。
?? 研究動機:盡管通過各種對齊技術(如Rafailov等人的研究)已經成功增強了大語言模型(LLMs)的安全性,但MLLMs的安全研究仍處于早期階段。本文旨在通過系統地回顧MLLMs的安全評估、攻擊和防御技術,揭示圖像模態帶來的新風險,評估MLLMs的安全水平,并探討抵抗不安全查詢的方法。
?? 方法簡介:研究團隊首先介紹了MLLMs的概述和安全性的理解,然后回顧了用于評估MLLMs安全性的數據集和度量標準。接著,全面展示了與MLLMs安全性相關的攻擊和防御技術。最后,分析了幾個未解決的問題,并討論了有前景的研究方向。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括針對MLLMs的隱私保護能力(如PrivQA)、基于模因的多模態社會濫用(如GOAT-Bench)和圖像描述任務中的毒性輸出(如ToViLaG)。實驗設計了不同的攻擊場景,如對抗性攻擊和視覺提示注入,以及不同的攻擊目標,以全面評估MLLMs的安全性和抗干擾能力。
Can MLLMs Perform Text-to-Image In-Context Learning?
?? 論文標題:Can MLLMs Perform Text-to-Image In-Context Learning?
?? 論文作者:Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee
?? 研究機構: University of Wisconsin-Madison、FuriosaAI、Seoul National University、Ajou University
?? 問題背景:從大型語言模型(LLMs)到多模態大型語言模型(MLLMs)的演變,推動了將上下文學習(In-Context Learning, ICL)擴展到多模態領域的研究。現有的研究主要集中在圖像到文本的ICL上,而文本到圖像的ICL(T2I-ICL)因其獨特的特性和潛在應用,尚未得到充分探索。
?? 研究動機:為了填補這一研究空白,研究團隊正式定義了T2I-ICL任務,并提出了CoBSAT,這是首個T2I-ICL基準數據集,涵蓋了十個任務。通過利用該數據集評估六個最先進的MLLMs在T2I-ICL上的表現,研究團隊揭示了這些模型在解決T2I-ICL任務時遇到的主要挑戰,并探討了通過微調和鏈式思維提示(Chain-of-Thought prompting)等策略來緩解這些挑戰的方法。
?? 方法簡介:研究團隊構建了CoBSAT數據集,該數據集包括十個任務,分為五個不同的主題:顏色、背景、風格、動作和紋理。每個任務都有預定義的文本輸入和潛在變量列表,用于生成上下文提示。通過這些提示,研究團隊評估了MLLMs在不同條件下的表現,包括對象推斷任務和屬性推斷任務。
?? 實驗設計:研究團隊在CoBSAT數據集上進行了實驗,評估了十個最先進的MLLMs在T2I-ICL任務上的表現。實驗設計了不同數量的示例(2-shot、4-shot、6-shot、8-shot),以全面評估模型在不同條件下的表現。實驗結果表明,SEED-LLaMA在多個任務中表現最佳,尤其是在Color-I任務中達到了68%的準確率。其他模型如Emu和GILL的表現則較差,準確率大多在10%以下。研究團隊還發現,通過微調和鏈式思維提示,可以顯著提升MLLMs在T2I-ICL任務上的表現。
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models
?? 論文標題:Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models
?? 論文作者:Yunhong He, Jianling Qiu, Wei Zhang, Zhengqing Yuan
?? 研究機構: Anhui Polytechnic University (School of Mathematics-Physics and Finance, School of Artificial Intelligence)
?? 問題背景:大型語言模型(LLMs)如GPT-3.5和LLaMA-2在自然語言處理和人工智能領域取得了顯著進展,但這些模型在應用中也面臨諸多挑戰,包括倫理困境、釣魚攻擊和隱私泄露等。
?? 研究動機:為了應對這些挑戰,研究團隊提出了一種多管齊下的方法,旨在通過過濾敏感詞匯、檢測角色扮演、實施自定義規則引擎等手段,增強LLMs的安全性和倫理標準,同時保持模型的高性能。
?? 方法簡介:研究團隊提出的方法包括:1) 過濾用戶輸入中的敏感詞匯,防止不道德的響應;2) 檢測角色扮演,阻止可能導致“越獄”情景的互動;3) 實施自定義規則引擎,限制生成禁止內容;4) 將這些方法擴展到多模態大型語言模型(MLLMs)。
?? 實驗設計:實驗在單個NVIDIA A100 GPU(80 GB VRAM)和AMD EPYC 7552 48核處理器上進行,內存分配為160 GB。軟件環境使用PyTorch 2.0.0。實驗設計了多種攻擊場景,包括直接指令、指令重復、認知攻擊、少樣本攻擊和語法變換等,以全面評估模型的防御能力。