多模態大語言模型arxiv論文略讀（140）

在這里插入圖片描述

SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation

?? 論文標題：SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
?? 論文作者：Junda Wang, Yujan Ting, Eric Z. Chen, Hieu Tran, Hong Yu, Weijing Huang, Terrence Chen
?? 研究機構: United Imaging Intelligence, Manning College of Information and Computer Sciences, University of Massachusetts Amherst, Department of Medicine, University of Massachusetts Medical School, Miner School of Computer and Information Sciences, University of Massachusetts Lowell
?? 問題背景：多模態大語言模型（MLLMs）在醫療領域面臨挑戰，主要由于其在理解特定領域視覺特征方面的局限性。盡管在實驗室環境中表現出色，但這些模型在實際應用中往往表現不佳，尤其是在處理復雜的醫學圖像和文本描述時。此外，高質量的標注醫療數據獲取困難，進一步限制了這些模型的性能和可擴展性。
?? 研究動機：為了克服現有醫療多模態模型在實際應用中的局限性，研究團隊提出了一種新的方法，通過構建SemiHVision數據集，結合人類標注和自動化增強技術，以提高模型的醫學知識表示和診斷推理能力。此外，研究團隊還開發了新的評估基準JAMA Clinical Challenge，以更準確地評估模型在實際臨床任務中的表現。
?? 方法簡介：研究團隊構建了SemiHVision數據集，該數據集結合了人類標注和自動化增強技術，涵蓋了多種醫學影像模態（如X射線、CT、MRI等）。通過多模態檢索系統，該數據集能夠從OpenGuidelines和Eurorad等資源中檢索相關指南和類似病例，生成高質量的圖像標注和臨床報告。此外，研究團隊還設計了專門的醫療問答對，用于優化模型的診斷推理和醫療決策能力。
?? 實驗設計：研究團隊在多個公開數據集上進行了實驗，包括SLAKE、VQA-RAD和JAMA Clinical Challenge。實驗設計了不同的評估指標，以全面評估模型在傳統基準和實際臨床任務中的表現。實驗結果表明，PMC-Cambrian-AN在多個任務上顯著優于現有的公共醫療模型和通用模型，特別是在JAMA Clinical Challenge基準上，其表現尤為突出。

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

?? 論文標題：LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
?? 論文作者：Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang
?? 研究機構: ZJU-UIUC Institute, Zhejiang University, University of Washington, Zhejiang University School of Medicine Sir Run Run Shaw Hospital, Shanghai Artificial Intelligence Laboratory
?? 問題背景：多模態大語言模型（Multimodal Large Language Model, MLLM）在視覺語言任務中展現出顯著的能力，但現有的通用視覺語言模型（VLM）在醫療視覺問答（Med-VQA）任務中表現不佳，尤其是在處理細微的醫學圖像時。此外，現有的醫療多模態模型在處理數據冗余時也存在不足，這在臨床場景中非常常見。
?? 研究動機：為了提高多模態大語言模型在醫療領域的適應性和魯棒性，研究團隊提出了一種細粒度的適應性VLM架構，通過參數高效的調優方法，增強模型對細微醫學視覺語義的理解，并設計了自適應采樣模塊來處理醫療場景中的數據冗余問題。
?? 方法簡介：研究團隊提出了LLaVA-Ultra，這是一種針對中文醫療領域的大型語言和視覺助手。該模型通過融合細粒度的視覺編碼器（如Segment Anything Model, SAM）和CLIP編碼器，增強了視覺特征的提取能力。此外，團隊還設計了自適應采樣策略，通過特征評分和注意力評分來篩選有效的圖像信息，以提高模型在復雜醫療場景中的表現。
?? 實驗設計：研究團隊利用從醫院數據庫中收集的大規模中文超聲多模態數據集，生成了專業的多模態指令數據，用于模型的微調。實驗在三個公開的醫療視覺問答（Med-VQA）數據集上進行，評估了LLaVA-Ultra在不同任務中的性能。實驗結果表明，LLaVA-Ultra在多個指標上超越了現有的最先進模型。

Modality-Fair Preference Optimization for Trustworthy MLLM Alignment

?? 論文標題：Modality-Fair Preference Optimization for Trustworthy MLLM Alignment
?? 論文作者：Songtao Jiang, Yan Zhang, Ruizhe Chen, Yeying Jin, Zuozhu Liu
?? 研究機構: 浙江大學、新加坡國立大學
?? 問題背景：直接偏好優化（Direct Preference Optimization, DPO）在對齊大型語言模型（LLMs）方面非常有效，但在應用于多模態模型（MLLMs）時，往往傾向于文本信息而忽視圖像信息，導致輸出不可靠和視覺幻覺。視覺幻覺是指模型生成的文本不準確地描述視覺內容或引用不存在的對象，這在視覺問答（VQA）等任務中尤為關鍵。
?? 研究動機：現有的偏好優化方法雖然在減少幻覺方面取得了一些進展，但往往忽視了文本和圖像模態偏好優化之間的平衡。為了平衡這兩種模態的偏好優化，并確保文本級別的優化能夠結合圖像偏好，研究團隊提出了模態公平偏好優化（Modality-Fair Preference Optimization, MFPO）方法。
?? 方法簡介：研究團隊首先構建了圖像偏好數據，以整合圖像級別的獎勵函數。通過提取關鍵詞并映射到相應的圖像區域，生成細粒度的噪聲圖像作為被拒絕的偏好數據。然后，設計了一個學習目標，確保模型在捕捉文本和圖像偏好時保持高質量的輸出。最后，采用多階段對齊方法來穩定訓練并提高跨模態的學習效果。
?? 實驗設計：在多個公開數據集上進行了實驗，包括Object HalBench、MMHalBench和AMBER。實驗設計了不同因素（如圖像噪聲的強度和位置）的變化，以及不同類型的評估指標（如幻覺率、覆蓋率和認知幻覺率），以全面評估模型在不同條件下的表現。實驗結果表明，MFPO顯著提高了MLLMs的可信度，尤其是在減少幻覺方面表現突出。

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

?? 論文標題：Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining
?? 論文作者：Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang
?? 研究機構: University of Chinese Academy of Sciences (UCAS)、Baichuan Inc.、New Laboratory of Pattern Recognition (NLPR)、Institute of Automation, Chinese Academy of Sciences (CASIA)、Gaoling School of Artificial Intelligence, Renmin University of China
?? 問題背景：多模態大語言模型（MLLMs）通過整合視覺和文本模態，顯著擴展了人工智能的能力。然而，訓練MLLMs的關鍵因素之一是多模態預訓練數據集中圖像-文本對的質量。現有的基于過濾的數據質量增強方法通常會因為圖像和文本之間的語義對齊不足而丟棄大量高質量圖像數據，導致數據利用效率低下和擴展性差。
?? 研究動機：現有的過濾方法在提高數據質量的同時，不可避免地丟棄了大量高質量圖像。為了在保持高數據質量的同時最大化數據量，研究團隊提出了自適應圖像-文本質量增強器（AITQE），旨在動態評估和增強圖像-文本對的質量，從而在不顯著改變文本分布的情況下，最小化調整文本，以保留數據量并提高質量。
?? 方法簡介：研究團隊提出了AITQE模型，該模型通過文本重寫機制對低質量的圖像-文本對進行增強，并引入了對比樣本學習策略，通過在訓練過程中故意納入低質量樣本，以增強模型的評估能力。與現有方法相比，AITQE最小化調整文本，以保留數據量并提高質量，同時促進預訓練數據的高效探索。
?? 實驗設計：實驗在多個基準數據集上進行，包括SEED-Bench-2、MME、AMBER、OKVQA、VQAv2、DocVQA、TextVQA和Textcaps。實驗設計了不同數據集的隨機采樣和AITQE增強數據的對比分析，以全面評估模型在不同條件下的表現。實驗結果表明，AITQE在多個基準測試中超越了現有方法，有效地利用了原始數據，并且隨著數據量的增加，表現更加穩定。

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

?? 論文標題：LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
?? 論文作者：Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Xiang Bai
?? 研究機構: 華中科技大學、浙江大學、騰訊優圖實驗室、華中農業大學
?? 問題背景：大型語言模型（LLM）的成功促使研究人員探索多模態大型語言模型（MLLM），以實現統一的視覺和語言理解。然而，MLLM的模型規模和計算復雜度限制了其在資源受限環境中的應用。小型MLLM（s-MLLM）雖然減少了計算需求，但性能顯著下降。為了解決這些問題，研究團隊提出了一種新的框架LLaVA-KD，通過知識蒸餾技術將大型MLLM（l-MLLM）的知識轉移到小型MLLM。
?? 研究動機：現有的研究主要通過優化模型結構和提高訓練數據質量來提升小型MLLM的性能，但這些方法通常需要復雜的模型結構或多個教師模型。本研究旨在通過優化訓練策略，而不改變模型架構，來顯著提升小型MLLM的性能。
?? 方法簡介：研究團隊提出了一個三階段的訓練方案，包括蒸餾預訓練（DPT）、監督微調（SFT）和蒸餾微調（DFT）。DPT階段通過多模態蒸餾（MDist）和關系蒸餾（RDist）來對齊視覺和文本特征；SFT階段通過監督學習初始化模型的推理和指令跟隨能力；DFT階段進一步通過MDist和RDist將大型MLLM的能力轉移到小型MLLM。
?? 實驗設計：研究團隊在五個流行的多模態基準數據集上進行了實驗，包括VQAv2、VizWiz、MMB、GQA和POPE。實驗設計了不同的訓練階段和蒸餾策略，以全面評估LLaVA-KD的有效性和效率。實驗結果表明，LLaVA-KD在模型規模為1B參數的情況下，顯著超越了現有的大型MLLM模型，如BLIP2-13B和InstructBLIP-7B。