AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting
?? 論文標題:AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting
?? 論文作者:Yu Wang, Xiaogeng Liu, Yu Li, Muhao Chen, Chaowei Xiao
?? 研究機構: Peking University、University of Wisconsin–Madison、International Digital Economy Academy、University of California, Davis
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在視覺-語言推理能力方面取得了顯著進展,但這些模型也面臨著新的安全威脅,特別是結構化越獄攻擊(structure-based jailbreak attacks)。這些攻擊通過在圖像中嵌入惡意內容,誤導MLLMs生成有害響應,從而繞過模型的安全機制。
?? 研究動機:為了應對結構化越獄攻擊,研究團隊提出了一種新的防御框架——自適應屏蔽提示(Adaptive Shield Prompting, AdaShield)。該框架通過在模型輸入前添加防御提示,無需微調MLLMs或訓練額外模塊,即可有效防御結構化越獄攻擊,同時保持模型在標準良性任務上的性能。
?? 方法簡介:研究團隊首先設計了一個靜態防御提示(AdaShield-Static, AdaShield-S),該提示能夠有效防御結構化越獄攻擊。為進一步提高防御效果,團隊引入了一個自適應自動優化框架(AdaShield-Adaptive, AdaShield-A),該框架通過目標MLLM和防御者模型(Defender)的對話交互,自動優化防御提示,生成多樣化的防御提示池,以適應不同的攻擊場景。
?? 實驗設計:研究團隊在兩個標準的結構化越獄攻擊數據集(FigStep和QR)上進行了實驗,驗證了AdaShield-A的有效性。實驗結果表明,AdaShield-A不僅能夠有效防御結構化越獄攻擊,而且不會影響模型在標準良性任務上的性能。
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
?? 論文標題:Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
?? 論文作者:Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang
?? 研究機構: Southern University of Science and Technology, Hong Kong University of Science and Technology, Huawei Noah’s Ark Lab
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)在多種任務中展現了強大的推理能力。然而,與傳統的大型語言模型(LLMs)相比,MLLMs更容易受到越獄攻擊。盡管MLLMs能夠檢測到不安全的響應,但研究發現,引入圖像特征可以輕松繞過MLLMs的安全機制。
?? 研究動機:現有的研究已經揭示了圖像特征可以顯著削弱MLLMs的安全機制。為了進一步理解這些威脅,并探索其背后的原因,研究團隊全面分析了MLLMs在引入圖像特征后的安全評估能力,旨在為未來的安全防護提供有價值的見解和方法。
?? 方法簡介:研究團隊提出了一種名為ECSO(Eyes Closed, Safety On)的新型無訓練保護方法,該方法利用MLLMs的內在安全意識,通過將不安全的圖像轉換為文本,激活預對齊LLMs的內在安全機制,從而生成更安全的響應。ECSO首先利用MLLMs的安全意識評估其自身響應的安全性,一旦檢測到不安全的初始響應,ECSO會將圖像輸入轉換為文本,減少MLLMs到(僅文本)LLMs,然后在沒有圖像的情況下生成安全響應。
?? 實驗設計:研究團隊在五個最先進的MLLMs上進行了實驗,包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLM-XComposer。實驗在MM-SafetyBench和VLSafe數據集上進行,評估了ECSO在不同惡意內容(如非法活動、仇恨言論、惡意軟件生成等)下的表現。實驗結果表明,ECSO顯著提高了模型的安全性,例如在MM-SafetyBench (SD+OCR)上提高了37.6%,在VLSafe上提高了71.3%,同時保持了模型在常見任務上的性能。此外,ECSO還可以作為數據引擎,生成監督微調(SFT)數據,用于MLLMs的對齊,而無需額外的人工干預。
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
?? 論文標題:MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
?? 論文作者:Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
?? 研究機構: Apple
?? 問題背景:近年來,多模態大語言模型(MLLMs)在語言建模和圖像理解方面取得了顯著進展。這些模型通過大規模的圖像-文本數據和計算資源,實現了高性能的多模態任務處理。然而,關于這些模型的具體構建過程,尤其是多模態預訓練的細節,公開的信息較少。本研究旨在通過詳細的實驗和分析,提供構建高性能MLLMs的設計原則和教訓。
?? 研究動機:現有的多模態大語言模型(MLLMs)在透明度上存在不足,大多數模型要么完全封閉,要么開放但缺乏詳細的構建過程描述。為了推動該領域的研究,本研究詳細記錄了MLLMs的構建過程,并通過廣泛的實驗和分析,總結了構建高性能MLLMs的關鍵設計原則。
?? 方法簡介:研究團隊通過小規模的實驗,對模型架構決策和預訓練數據選擇進行了廣泛的消融實驗。實驗涉及了圖像編碼器、視覺-語言連接器和預訓練數據的混合比例等多個方面。研究發現,圖像分辨率、視覺編碼器的損失和容量對模型性能影響最大,而視覺-語言連接器的設計影響相對較小。此外,研究還探討了不同類型的預訓練數據(圖像-標題、交錯圖像-文本和純文本數據)對模型性能的影響。
?? 實驗設計:實驗在多個公開數據集上進行,包括COCO Captioning、NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA和OK-VQA等。實驗設計了不同條件下的零樣本和少樣本性能評估,以全面評估模型在不同任務上的表現。研究發現,交錯圖像-文本數據對少樣本和純文本任務性能提升顯著,而圖像-標題數據對零樣本任務性能提升明顯。此外,研究還發現,純文本數據有助于保持模型的語言理解能力。
A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
?? 論文標題:A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
?? 論文作者:Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang
?? 研究機構: Tsinghua University、City University of Hong Kong、OPPO Research Institute、The Hong Kong Polytechnic University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在視覺理解和推理方面取得了顯著進展,但其作為圖像質量評估(Image Quality Assessment, IQA)的強大、靈活、可解釋和文本驅動模型的潛力尚未得到充分探索。IQA旨在開發計算模型以預測圖像質量,這些模型應能模擬人類視覺系統(HVS)的感知。
?? 研究動機:盡管MLLMs在視覺任務中表現出色,但它們在IQA中的應用仍面臨挑戰,尤其是在細粒度質量區分和多圖像質量分析方面。本研究旨在通過系統地評估不同的提示系統,探索MLLMs在IQA中的表現,以期為未來的模型優化提供指導。
?? 方法簡介:研究團隊設計了九種提示系統,結合了心理物理學中的標準化測試程序(單刺激、雙刺激和多刺激方法)和自然語言處理中的流行提示策略(標準提示、上下文提示和鏈式思維提示)。此外,研究團隊還提出了一種困難樣本選擇方法,以進一步挑戰MLLMs,該方法考慮了樣本的多樣性和不確定性。
?? 實驗設計:實驗在全參考(Full-Reference, FR)和無參考(No-Reference, NR)場景下進行,使用了三個開源和一個閉源的MLLMs。實驗評估了多個圖像質量屬性,包括結構和紋理失真、幾何變換和顏色差異。實驗結果表明,閉源的GPT-4V在人類感知的圖像質量評估中表現較為合理,但在細粒度質量區分和多圖像質量分析方面仍有不足。
Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
?? 論文標題:Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
?? 論文作者:ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim
?? 研究機構: SeoulTech、Yonsei University、Teddysum、KISTI
?? 問題背景:大型語言模型(LLMs)通過預訓練來預測后續詞匯,但其擴展需要大量的計算資源。盡管許多大型科技公司和研究機構已經開發了多語言LLMs(MLLMs)以滿足當前需求,但資源較少的語言(LRLs)仍然被忽視。例如,Llama2模型雖然支持28種語言,但用于韓語的數據僅占0.06%。這導致了韓語在詞匯表達和語義理解上的顯著挑戰。
?? 研究動機:為了提高LRLs的性能,研究團隊提出了三種策略:擴展LRLs的詞匯量以增強表達能力;使用雙語數據進行預訓練以對齊高資源和低資源語言;構建高質量的小規模指令數據集并進行指令調優以增強LRLs的實用性。研究旨在通過這些策略提升韓語在Llama2模型中的表現。
?? 方法簡介:研究團隊首先擴展了Llama2的韓語詞匯量,然后使用韓英雙語語料庫進行預訓練,最后基于韓語LIMA數據集進行指令調優。通過這些方法,研究團隊構建了Bllossom模型,旨在提高韓語在多種任務中的性能。
?? 實驗設計:實驗使用了Llama2模型,并在八個任務上進行了定量評估,包括自然語言推理(NLI)、語義文本相似度(STS)、主題分類(YNAT)等。此外,還進行了基于人類評價和GPT4的定性評估。實驗結果表明,Bllossom模型在定性分析中優于其他韓語單語模型,性能提升從1.8%到8%不等。