Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
?? 論文標題:Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
?? 論文作者:Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Aiwei Liu, Xuming Hu
?? 研究機構: The Hong Kong University of Science and Technology (Guangzhou)、The Hong Kong University of Science and Technology、Tsinghua University
?? 問題背景:多模態大語言模型(MLLMs)在各種基準測試中展示了令人印象深刻的能力。然而,現有的基準測試中包含許多樣本,所有MLLMs在遇到誤導信息時表現出高度的響應不確定性,需要5-15次響應嘗試才能有效評估不確定性。因此,研究團隊提出了一種兩階段的管道:首先收集沒有誤導信息的MLLMs響應,然后通過特定的誤導指令收集誤導信息。通過計算誤導率,并捕捉正確到錯誤和錯誤到正確的響應轉變,可以有效度量模型的響應不確定性。
?? 研究動機:現有的研究已經揭示了MLLMs在處理高誤導率數據時表現出顯著的不確定性。為了進一步理解這些威脅,并探索其背后的原因,研究團隊全面分析了不同MLLMs在誤導信息下的性能變化,旨在為未來的安全防護提供有價值的見解和方法。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建多模態不確定性基準(MUB),來評估不同類型誤導指令對MLLMs的影響。MUB包含了一系列的基礎清潔數據、因素修改和不同目標威脅,以全面評估模型在不同條件下的表現。研究團隊還提出了顯式和隱式誤導指令的生成方法,以更全面地評估模型的響應不確定性。
?? 實驗設計:在九個公開數據集上進行了實驗,包括多模態多選題和真假題任務。實驗設計了不同因素(如誤導指令的類型、強度和位置)的變化,以及不同類型的攻擊目標(如保護性、有害性、偏見性和中性內容),以全面評估模型對誤導信息的敏感性和抗干擾能力。實驗結果表明,所有開源和閉源MLLMs都高度易受誤導指令的影響,平均誤導率超過86%。通過混合顯式和隱式誤導數據對所有開源MLLMs進行微調,顯著降低了誤導率,同時保持了模型的泛化能力。
Multimodal Commonsense Knowledge Distillation for Visual Question Answering
?? 論文標題:Multimodal Commonsense Knowledge Distillation for Visual Question Answering
?? 論文作者:Shuo Yang, Siwen Luo, Soyeon Caren Han
?? 研究機構: University of Melbourne、University of Western Australia
?? 問題背景:現有的多模態大型語言模型(MLLMs)和視覺語言預訓練模型(VLPMs)在通用視覺問答(VQA)任務中表現出色。然而,這些模型在處理需要外部常識知識的VQA問題時存在困難,主要由于生成高質量提示的挑戰和微調的高計算成本。
?? 研究動機:為了克服現有模型在處理需要外部常識知識的VQA問題時的局限性,研究團隊提出了一種基于圖的多模態常識知識蒸餾框架。該框架通過構建統一的關系圖,將常識知識、視覺對象和問題通過圖卷積網絡(GCN)進行關聯學習,旨在提高模型在VQA任務中的性能,尤其是在需要外部常識知識的情況下。
?? 方法簡介:研究團隊提出了一種多模態教師-學生知識蒸餾框架,該框架通過構建一個統一的關系圖,將圖像、問題和常識知識圖中的對象實體整合在一起,并通過GCN顯式學習它們之間的關系。學習到的圖特征被傳遞給學生模型,用于最終的答案預測。該框架可以靈活地與任何預訓練的視覺和文本編碼器結合,以實現多樣化的特征提取。
?? 實驗設計:研究團隊在ScienceQA數據集上評估了所提出的框架。實驗設計了不同大小的基線模型(包括小型MLP、中型Transformer和大型VLPMs),并在這些模型中分別測試了是否集成所提出的圖基知識蒸餾框架。實驗結果表明,無論是在小型、中型還是大型模型中,集成該框架后,模型的性能都有顯著提升,特別是在需要外部常識知識的VQA任務中。
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
?? 論文標題:MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
?? 論文作者:Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai
?? 研究機構: HiThink Research、Imperial College London、Beihang University、Nanjing University、Fudan University
?? 問題背景:近年來,多模態基準測試在通用領域的發展迅速,推動了多模態模型在通用任務上的進步。然而,金融領域具有獨特性,包括特有的圖形圖像(如K線圖、技術指標圖)和豐富的金融知識(如期貨、換手率)。因此,通用領域的基準測試往往無法有效評估多模態模型在金融領域的表現,也無法有效指導大型金融模型的快速發展。
?? 研究動機:為了促進大型金融多模態模型的發展,研究團隊提出了MME-Finance,這是一個雙語、開放性、實用導向的視覺問答(VQA)基準測試。MME-Finance旨在評估多模態模型在金融領域的感知、推理和認知能力,通過構建反映用戶實際使用需求的圖表、根據金融領域查詢偏好創建問題,并由具有10年以上金融行業經驗的專家進行標注,確保了基準測試的質量和專業性。
?? 方法簡介:研究團隊設計了一個多層次的開放性問答任務體系,涵蓋了從基本的視覺感知任務(如OCR)到復雜的認知任務(如提供投資建議)。為了確保MME-Finance的質量,團隊精心設計了標注流程,并邀請了金融行業的專家進行詳細驗證。此外,研究團隊還開發了一個定制的金融評估系統,首次在多模態評估過程中引入了視覺信息,以提高評估性能。
?? 實驗設計:研究團隊在MME-Finance上對19個主流的多模態大語言模型(MLLMs)進行了廣泛的評估,測試了它們在感知、推理和認知方面的能力。實驗結果表明,即使在通用基準測試中表現良好的模型,在MME-Finance上的表現也不盡如人意,尤其是在與金融相關的任務上,如K線圖和技術指標圖的處理。此外,研究還發現,MLLMs在處理移動攝影相關的問題時表現較差,而這類問題是金融問答中相對高頻的使用場景。
StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
?? 論文標題:StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
?? 論文作者:Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun
?? 研究機構: Tsinghua University、Institute for AI Industry Research (AIR)、Beijing University of Posts and Telecommunications
?? 問題背景:多模態大語言模型(MLLMs)在視頻理解任務中表現出色,但大多數模型主要集中在離線視頻理解上,需要處理完所有視頻幀后才能進行查詢。這與人類實時觀看、聽、思考和響應流式輸入的能力存在顯著差距,突顯了當前MLLMs的局限性。
?? 研究動機:為了評估MLLMs在流式視頻理解方面的能力,研究團隊開發了StreamingBench,這是第一個全面評估MLLMs流式視頻理解能力的基準。StreamingBench旨在評估三個核心方面:實時視覺理解、多源理解、上下文理解。通過這一基準,研究團隊希望推動MLLMs在更接近人類水平的視頻理解與交互方面的發展。
?? 方法簡介:StreamingBench包含900個視頻和4,500個人工標注的問答對,涵蓋了八個不同的視頻類別,反映了廣泛的真實場景。每個視頻包含五個問題,分別在不同的時間點提出,以模擬連續的流式場景。這些問題被分為18個任務,主要分為三個類別:實時視覺理解、多源理解、上下文理解。
?? 實驗設計:研究團隊在StreamingBench上對13個開源和專有的MLLMs進行了實驗,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。實驗設計了不同任務,如實時視覺理解、多源理解、上下文理解等,以全面評估模型在流式視頻理解任務中的表現。實驗結果顯示,即使是性能最好的模型Gemini 1.5 Pro,其平均準確率也只有67.07%,遠低于人類水平。研究團隊進一步分析了模型在實時處理、上下文理解和主動輸出等方面的表現,揭示了當前模型的不足之處。
Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education
?? 論文標題:Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education
?? 論文作者:Anand Syamkumar, Nora Tseng, Kaycie Barron, Shanglin Yang, Shamya Karumbaiah, Rheeya Uppal, Junjie Hu
?? 研究機構: Stony Brook University, University of Wisconsin-Madison
?? 問題背景:大型語言模型(LLMs)在生成教育內容、提供教師反饋和減少評估工作量方面展現出巨大潛力。然而,現有的研究主要集中在單語環境,尤其是英語環境,對于雙語或多語環境的支持有限。雙語學習者在使用語言模型時面臨的問題,如語言切換(code-switching)和多語言處理能力不足,需要進一步研究。
?? 研究動機:盡管多語言大型語言模型(MLLMs)在處理單一語言任務時表現出色,但在處理雙語或多語任務時,尤其是在語言切換方面,表現不佳。研究團隊通過評估MLLMs在單語(英語、西班牙語)和雙語(Spanglish)學生寫作評估中的表現,旨在揭示這些模型在雙語環境中的偏見,并探索通過微調等技術提高其性能的方法。
?? 方法簡介:研究團隊構建了平行的英語、西班牙語和Spanglish數據集,用于評估MLLMs在不同語言環境下的表現。通過使用合成數據生成技術,研究團隊創建了包含科學和社會科學概念的問答對,并進行了人工評估以確保數據質量。實驗設計包括零樣本、少樣本提示和微調三種方法,以評估模型在不同條件下的性能。
?? 實驗設計:實驗分為三個部分:1) 零樣本基線實驗,評估MLLMs在英語、西班牙語和Spanglish中的原始性能;2) 提高Spanglish性能實驗,通過少樣本提示和微調來改進Spanglish任務的性能;3) 跨語言遷移實驗,評估在不同語言上微調后的模型在其他語言上的表現。實驗使用了Llama 3.1和Mistral NeMo兩個開源模型,并通過LoRA技術加速微調過程。