Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning
?? 論文標題:Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning
?? 論文作者:Wenwen Zhuang, Xin Huang, Xiantao Zhang, Jin Zeng
?? 研究機構: University of Chinese Academy of Sciences、Beijing Institute of Technology、Beihang University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在解決基于文本的數學問題方面表現出色,但在處理涉及圖像的數學問題時面臨挑戰。這些模型主要在自然場景圖像上進行訓練,導致在處理數學圖表時性能下降。人類在解決問題時,無論信息以何種模態呈現,難度通常相似,且視覺輔助通常能增強解決問題的能力。然而,MLLMs在處理視覺信息時的能力顯著下降,尤其是在從文本到視覺的過渡中。
?? 研究動機:為了解決MLLMs在處理數學圖表時的不足,研究團隊提出了Math-PUMA,一種基于漸進式向上多模態對齊(Progressive Upward Multimodal Alignment, PUMA)的方法,旨在通過三個階段的訓練過程增強MLLMs的數學推理能力。該方法通過構建大規模的數據集和多模態對齊技術,有效縮小了不同模態問題之間的性能差距。
?? 方法簡介:Math-PUMA方法包括三個階段:1) 首先,通過大量基于文本的數學問題數據集訓練語言模型,增強其數學推理能力;2) 然后,構建包含不同模態信息的數據對,通過計算KL散度實現視覺和文本模態的對齊,逐步提升模型處理多模態數學問題的能力;3) 最后,利用高質量的多模態數據進行指令調優,進一步增強模型的多模態數學推理能力。
?? 實驗設計:研究團隊在三個廣泛使用的多模態數學問題解決基準上進行了實驗,包括MATHVERSE、MATHVISTA和WE-MATH。實驗結果表明,經過Math-PUMA訓練的MLLMs在多個基準上顯著優于大多數開源模型,特別是在處理不同模態的問題時,性能差距明顯縮小。
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm
?? 論文標題:Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm
?? 論文作者:Hongcheng Liu, Yusheng Liao, Siqv Ou, Yuhao Wang, Heyang Liu, Yanfeng Wang, Yu Wang
?? 研究機構: Shanghai Jiao Tong University, Shanghai AI Lab
?? 問題背景:盡管多模態大語言模型(MLLMs)在醫療領域展現出處理多模態信息的能力,但其在臨床場景中的應用仍處于探索階段。現有的醫療多模態基準測試主要集中在醫療視覺問答(VQA)和報告生成上,未能全面評估MLLMs在復雜臨床多模態任務中的表現。此外,這些模型在處理個性化患者模擬器時,未能有效收集多模態信息,并在決策任務中表現出潛在的偏見。
?? 研究動機:為了更全面地評估MLLMs在實際臨床場景中的性能,研究團隊提出了一個新穎的醫療個性化多模態咨詢(Med-PMC)范式。Med-PMC通過構建模擬臨床環境,要求MLLMs與患者模擬器進行多輪互動,以完成多模態信息收集和決策任務。研究旨在通過這一范式,揭示MLLMs在處理復雜和動態臨床互動中的能力,為未來醫療MLLMs的發展提供指導。
?? 方法簡介:研究團隊設計了一個模擬臨床環境,其中MLLMs需要與個性化患者模擬器進行多輪互動,以收集患者的多模態癥狀信息,并最終提供可能的診斷結果和治療建議。患者模擬器由狀態跟蹤器、響應生成器和個性化演員三個主要組件構成,能夠模擬真實臨床場景中的患者多樣性,確保模擬的可靠性和真實性。
?? 實驗設計:研究在30個真實的醫療案例上進行了實驗,這些案例主要來自普通外科。實驗評估了12種不同類型的MLLMs在信息收集和最終決策兩個方面的表現。評估指標包括信息收集的召回率和決策的準確性,采用自動評估和基于大語言模型的評估方法進行驗證。實驗結果表明,即使是最先進的醫療MLLMs在處理多模態醫療信息時仍存在顯著不足,為未來的研究指明了方向。
ECG-Chat: A Large ECG-Language Model for Cardiac Disease Diagnosis
?? 論文標題:ECG-Chat: A Large ECG-Language Model for Cardiac Disease Diagnosis
?? 論文作者:Yubao Zhao, Tian Zhang, Xu Wang, Puyu Han, Tong Chen, Linlin Huang, Youzhu Jin, Jiaju Kang
?? 研究機構: 北京師范大學、中國地質大學、法國高等電力學院、山東建筑大學、南方科技大學、英國利物浦大學、吉林大學珠海學院、北京工業大學
?? 問題背景:多模態大語言模型(MLLMs)在醫療輔助領域展現了巨大潛力,允許患者使用生理信號數據進行對話。然而,現有的MLLMs在心臟病診斷方面表現不佳,尤其是在ECG數據分析和長文本醫療報告生成的整合上,主要原因是ECG數據分析的復雜性和文本與ECG信號模態之間的差距。此外,模型在長文本生成中往往表現出嚴重的穩定性不足,缺乏與用戶查詢緊密相關的精確知識。
?? 研究動機:為了解決上述問題,研究團隊提出了ECG-Chat,這是第一個專注于ECG醫療報告生成的多任務MLLM,提供基于心臟病學知識的多模態對話能力。研究旨在通過對比學習方法整合ECG波形數據與文本報告,實現ECG特征與報告內容的細粒度對齊,從而提高模型在信號數據表示上的性能。此外,研究還構建了一個19K的ECG診斷數據集和25K的多輪對話數據集,用于訓練和微調ECG-Chat,以提供專業的診斷和對話能力。
?? 方法簡介:研究團隊提出了一種系統的方法,通過對比學習方法將ECG波形數據與文本報告結合,實現ECG特征與報告內容的細粒度對齊。此外,研究團隊還構建了一個新的數據生成管道,使用現有數據集和GPT-4創建了一個ECG指令調優數據集(ECG-Instruct),包含19K的診斷數據和25K的對話數據。基于這些數據集,研究團隊微調了Vicuna-13B,創建了一個ECG領域的語言模型ECG-Chat,支持報告生成、ECG問題回答等多種功能。
?? 實驗設計:研究團隊在多個任務上測試了模型的性能,包括ECG報告檢索、ECG分類和ECG報告生成,并建立了ECG報告生成任務的基準。實驗結果表明,ECG-Chat在分類、檢索、多模態對話和醫療報告生成任務上均取得了最佳性能。此外,研究團隊還提出了一種診斷驅動的提示(DDP)方法,有效提高了模型的準確性,并使用自動化LaTeX生成管道生成了詳細的ECG報告。
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models
?? 論文標題:Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models
?? 論文作者:Kening Zheng, Junkai Chen, Yibo Yan, Xin Zou, Xuming Hu
?? 研究機構: Hong Kong University of Science and Technology (Guangzhou), Hong Kong University of Science and Technology
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種任務中展現了強大的能力,但它們在生成過程中容易產生幻覺(hallucinations),尤其是關系幻覺(relation hallucinations)。現有的研究和基準測試主要集中在對象級和屬性級幻覺上,而忽視了更復雜的關系幻覺,這些幻覺需要更高級的推理能力。此外,現有的關系幻覺基準測試缺乏詳細的評估和有效的緩解策略,且數據集往往存在系統性偏差。
?? 研究動機:為了應對上述研究空白,研究團隊提出了Reefknot,這是一個全面的基準測試,旨在評估和緩解多模態大語言模型中的關系幻覺。Reefknot包含超過20,000個真實世界的樣本,通過系統地定義關系幻覺并構建基于場景圖數據集的關系語料庫,研究團隊揭示了當前MLLMs在處理關系幻覺方面的顯著局限性。此外,研究團隊提出了一種基于置信度的緩解策略,該策略在三個數據集上平均減少了9.75%的幻覺率。
?? 方法簡介:研究團隊構建了Reefknot基準測試,該基準測試包括感知和認知兩個類別的關系幻覺,以及三種評估任務(Yes/No、多項選擇題和視覺問答)。Reefknot的數據集基于Visual Genome場景圖數據集中的語義三元組構建,確保了數據的真實性和多樣性。研究團隊還提出了一種名為“Detect-Then-Calibrate”的方法,通過分析模型在生成過程中的置信度變化來檢測和緩解幻覺。
?? 實驗設計:研究團隊在Reefknot基準測試上評估了多個主流的MLLMs,包括LLaVA、MiniGPT4-v2、Qwen-vl等。實驗設計了不同的任務類型(如Yes/No、多項選擇題和視覺問答),以全面評估模型在處理關系幻覺方面的表現。實驗結果表明,MLLMs在感知關系幻覺方面比認知關系幻覺更容易出現問題。此外,研究團隊通過分析模型在不同層的置信度變化,揭示了關系幻覺生成的機制,并提出了基于置信度的緩解策略。
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant
?? 論文標題:FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant
?? 論文作者:Zhengchao Huang, Bin Xia, Zicheng Lin, Zhun Mou, Wenming Yang, Jiaya Jia
?? 研究機構: Tsinghua University、The Chinese University of Hong Kong、HKUST
?? 問題背景:隨著深度偽造技術的快速發展,面部偽造對公共信息安全構成了嚴重威脅。現有的面部偽造分析數據集缺乏對偽造技術、面部特征和環境因素的詳細描述,導致模型在復雜條件下的偽造檢測能力有限。此外,現有的方法難以提供用戶友好且可解釋的結果,阻礙了對模型決策過程的理解。
?? 研究動機:為了應對上述挑戰,研究團隊引入了一種新的開放世界面部偽造分析視覺問答任務(OW-FFA-VQA)及其相應的基準測試。通過構建包含多樣化的真偽面部圖像及其描述和偽造推理的FFA-VQA數據集,研究團隊旨在提高模型的泛化能力和魯棒性,同時提供用戶友好且可解釋的結果。
?? 方法簡介:研究團隊提出了FFAA(Face Forgery Analysis Assistant),該系統由一個微調的多模態大語言模型(MLLM)和多答案智能決策系統(MIDS)組成。通過在FFA-VQA數據集上微調MLLM,并結合假設性提示,FFAA能夠有效緩解模糊分類邊界的影響,增強模型的魯棒性。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括OW-FFA-Bench。實驗設計了多種因素的變化,如圖像質量、面部屬性和環境因素,以全面評估模型在復雜條件下的表現。實驗結果表明,FFAA不僅提供了用戶友好且可解釋的結果,還在準確性和魯棒性方面顯著優于現有方法。