SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models
?? 論文標題:SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models
?? 論文作者:Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He, Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao
?? 研究機構: Shanghai Jiao Tong University、Shijiazhuang Tiedao University、Xiamen University、Eastern Institute of Advanced Study、University of California, Los Angeles、NLPR, CASIA、Shenzhen University、Great Bay University、Sun Yat-sen University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種視覺領域(如通用對象識別和定位)中展示了卓越的問題解決能力,基于強大的視覺語義表示和語言推理能力。然而,MLLMs是否對細微的視覺欺騙/偽造線索敏感,以及它們在面部攻擊檢測領域的表現如何,仍是一個未探索的領域。當前的面部攻擊檢測模型通常專注于單一模態或特定類型的欺騙攻擊,缺乏對更廣泛和多樣攻擊場景的適應性。
?? 研究動機:為了探索MLLMs在面部攻擊檢測領域的應用潛力和優勢,研究團隊引入了一個新的基準測試——SHIELD,用于評估MLLMs在面部欺騙和偽造檢測任務中的能力。通過設計多項選擇和真假問題,評估多模態面部數據,旨在為未來的生物識別安全提供有價值的見解和方法。
?? 方法簡介:研究團隊構建了SHIELD基準測試,包括面部反欺騙任務和面部偽造檢測任務。對于面部反欺騙任務,評估了三種不同的模態(RGB、紅外、深度)在四種類型的呈現攻擊(打印攻擊、重放攻擊、剛性面具、紙面具)下的表現。對于面部偽造檢測任務,評估了基于GAN和擴散模型的數據,同時考慮了視覺和聲學模態。每個問題都在零樣本和少樣本測試中進行了評估,包括標準設置和鏈式思維(COT)設置。
?? 實驗設計:實驗在多個公開數據集上進行,包括WMCA數據集(用于面部反欺騙任務)和FaceForensics++數據集(用于面部偽造檢測任務)。實驗設計了不同類型的攻擊(如打印攻擊、重放攻擊、剛性面具、紙面具)和不同的模態(RGB、紅外、深度),以及不同類型的偽造技術(如Deepfakes、Face2Face、FaceSwap、NeuralTextures)。每個任務都設計了真假問題和多項選擇問題,以全面評估MLLMs在不同條件下的表現。此外,研究團隊還提出了一種新的多屬性鏈式思維(MA-COT)范式,用于描述和判斷面部圖像的各種任務特定和任務無關屬性,提供豐富的任務相關知識,以挖掘細微的欺騙/偽造線索。
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
?? 論文標題:MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
?? 論文作者:Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Yao Wan, Pan Zhou, Lichao Sun
?? 研究機構: 華中科技大學、浙江工業大學、LAIR Lab(Lehigh University)
?? 問題背景:多模態大語言模型(MLLMs)在生成內容方面取得了顯著進展,尤其是在文本生成、代碼生成和視頻合成等領域。然而,評估MLLMs的效用面臨巨大挑戰,主要是因為缺乏與人類偏好對齊的多模態基準。受LLM-as-a-Judge概念的啟發,本文提出了一種新的基準,稱為MLLM-as-a-Judge,用于評估MLLMs在不同模態任務中的輔助判斷能力。
?? 研究動機:盡管MLLMs在某些任務中表現出與人類偏好高度一致的能力,但在評分評估和批量排名任務中,這些模型與人類偏好的差異顯著。此外,研究發現,即使在高級模型如GPT-4V中,也存在多種偏見、幻覺響應和判斷不一致的問題。這些發現強調了在將MLLMs視為可靠評估者之前,需要進行改進和進一步研究。
?? 方法簡介:研究團隊構建了一個包含14個數據集的綜合基準,涵蓋圖像描述、數學推理、文本閱讀和信息圖理解等任務,共收集了4,414個圖像-指令對。隨后,使用六個主流的MLLMs生成響應,并通過人類評估者進行嚴格注釋,以確保對MLLMs判斷的公正和全面評估。
?? 實驗設計:實驗在三個不同的評估設置下進行,包括評分評估、成對比較和批量排名。實驗設計了不同任務和設置下的評估,以全面評估MLLMs在多模態任務中的判斷能力。研究發現,GPT-4V在所有任務和設置中表現最佳,而其他模型如Gemini、LLaVA和CogVLM則表現較差。此外,研究還揭示了MLLMs在判斷過程中存在的幻覺、偏見和不一致問題。
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
?? 論文標題:SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
?? 論文作者:Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
?? 研究機構: University of Notre Dame、New York University、Hong Kong University of Science and Technology
?? 問題背景:當前的多模態問答(Multimodal Question Answering, MMQA)基準測試主要集中在小學到大學水平,但忽略了高中和大學入學水平這一關鍵教育階段。這一階段的學習內容對人類學習過程至關重要,但現有的基準測試要么過于簡單,要么難度過高,無法全面評估AI模型在這一階段的表現。
?? 研究動機:為了填補這一空白,研究團隊開發了一個新的基準測試——SceMQA(Science College Entrance Level Multimodal Question Answering),專門針對高中和大學入學水平的多模態科學問題。SceMQA涵蓋了數學、物理、化學和生物四個核心科學科目,旨在評估AI模型在解決復雜科學問題時的多模態理解和推理能力。
?? 方法簡介:SceMQA包含261個問題,每個科目平均65個問題,問題形式包括選擇題和自由回答題。每個問題都配有詳細的解答和解釋,并且每個問題都關聯了特定的知識點。此外,SceMQA還設計了基于同一背景但不同問題的題組,以測試模型的深度理解和推理能力。
?? 實驗設計:研究團隊在SceMQA上評估了多個開源和閉源的多模態大語言模型(MLLMs),包括InstructBLIP、MiniGPT4、LLaVA、Google Bard、Gemini Pro和GPT4-V。實驗設置了零樣本、少樣本和僅文本三種模式,以全面評估模型在不同條件下的表現。結果表明,即使是性能最強的模型(如GPT4-V),在SceMQA上的準確率也僅為50%到60%,顯示出進一步研究和開發的必要性。
λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
?? 論文標題: λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
?? 論文作者:Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
?? 研究機構: Arizona State University
?? 問題背景:當前的個性化文本到圖像(P-T2I)生成模型在實現高保真度和多樣性方面取得了顯著進展,但多主體驅動的個性化生成仍面臨資源效率低下和泛化能力不足的問題。現有的方法,如Hypernetworks和多模態大語言模型(MLLMs),雖然能夠實現快速個性化,但需要大量的計算資源,從600到12300 GPU小時不等。這些方法依賴于潛在擴散模型(LDMs)的潛在空間,導致資源消耗巨大,且結果不一致。
?? 研究動機:為了提高多概念個性化圖像生成的資源效率,研究團隊提出了一種新的訓練策略,即λ-ECLIPSE,該策略在預訓練的CLIP模型的潛在空間中工作,而不需要依賴擴散UNet模型。研究旨在通過減少對擴散模型的依賴,提高多主體驅動個性化生成的效率和性能。
?? 方法簡介:λ-ECLIPSE通過利用UnCLIP T2I模型的特性,將輸出空間與CLIP視覺空間對齊,而不是CLIP文本空間。該方法接受多張圖像和文本指令作為輸入,估計相應的視覺嵌入,這些嵌入可以被凍結的擴散UNet模型用于生成圖像。此外,λ-ECLIPSE還引入了圖像-文本交錯預訓練策略,通過創建200萬高質量的圖像-文本對,將文本嵌入替換為相應的圖像嵌入,以優化映射到目標潛在空間的過程。
?? 實驗設計:研究在Dreambench、Multibench和ConceptBed三個公開數據集上進行了實驗,評估了λ-ECLIPSE在單主體和多主體驅動個性化生成任務中的性能。實驗設計了不同的控制條件,如Canny邊緣圖,以評估模型在不同條件下的表現。實驗結果表明,λ-ECLIPSE在僅34M參數和74 GPU小時的訓練下,能夠實現與大型模型相當的性能,同時在概念和組成對齊方面表現出色。
LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
?? 論文標題:LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
?? 論文作者:Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim
?? 研究機構: Korea University, University of Nebraska-Lincoln, Seoul Metropolitan Office of Education, Seoul National University, Seoul National University of Education
?? 問題背景:盡管各種AI系統在不同領域支持學習方面取得了進展,但在藝術鑒賞教育中,AI輔助的應用尚未得到廣泛探索。藝術鑒賞通常被視為少數人的精英活動,許多人在日常生活中遇到藝術時會感到 intimidat 或缺乏信心。缺乏有效的指導和教育阻礙了人們與藝術的深入互動。本研究探討了多模態大語言模型(MLLMs)在藝術鑒賞教育中的應用,特別是開發了 LLaVA-Docent,旨在作為藝術鑒賞的個人導師。
?? 研究動機:研究旨在通過開發 LLaVA-Docent,解決藝術鑒賞教育中的挑戰,如缺乏個性化反饋、互動有限等問題。研究團隊希望通過結合建構主義教學理論和AI技術,提供一種新的藝術鑒賞教育方法,使藝術鑒賞更加可及和有意義。
?? 方法簡介:研究團隊采用設計與開發研究(DDR)方法,通過迭代增強設計和開發 LLaVA-Docent。研究包括六個階段:原型開發、文獻回顧與初步驗證、數據設計框架的驗證與精煉、數據生成、模型訓練和模型評估。研究團隊還建立了一個虛擬對話數據集,用于訓練 LLaVA-Docent,并通過定量和定性方法評估了模型的性能。
?? 實驗設計:研究團隊使用了 vicuna-13b-v1.5 作為語言模型,clip-vit-large-patch14 作為圖像編碼器,并通過線性層進行模態投影。模型訓練分為預訓練和微調兩個階段。預訓練階段使用了 cc3m_595k_images 數據集,微調階段使用了 LLaVA-Instruct-150K 數據集。模型評估包括與 GPT-4 的對比測試,以及基于 Anderson 的關鍵階段理論的對話質量評估。