多模態大語言模型arxiv論文略讀（125）

在這里插入圖片描述

Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE

?? 論文標題：Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
?? 論文作者：Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu
?? 研究機構: 清華大學電子工程系、北京郵電大學人工智能學院、清華大學人工智能學院
?? 問題背景：多模態大語言模型（MLLMs）在多種視覺和語言任務中展現了卓越的能力。然而，在醫療領域構建統一的多任務學習MLLMs仍然是一個棘手的挑戰。特別是在多模態多任務優化中，任務之間的沖突和數據不平衡會導致模型性能下降。這種問題在醫療領域尤為嚴重，因為醫療任務和模態高度專業化和多樣化。
?? 研究動機：現有的研究主要集中在改進MLLMs的語言模型組件，而忽視了連接不同模態的連接器。為了緩解多任務學習中的“拉鋸戰”問題，研究團隊提出了一種新的醫療通用基礎模型——Uni-Med，該模型通過引入連接器混合專家（CMoE）模塊，有效對齊視覺和語言嵌入空間，從而減少任務沖突并提高任務協同。
?? 方法簡介：Uni-Med模型由通用視覺特征提取模塊、CMoE模塊和大語言模型（LLM）組成。CMoE模塊包含多個投影專家和一個軟路由網絡，能夠自適應地最小化任務沖突并最大化任務協同。通過在不同任務和數據集上進行實驗，研究團隊驗證了CMoE的有效性，并提供了關于“拉鋸戰”問題優化的詳細解釋。
?? 實驗設計：研究團隊在多個公開數據集上進行了實驗，包括視覺問答（VQA）、報告生成（RG）、指代表達理解（REC）、指代表達生成（REG）和圖像分類（CLS）等任務。實驗設計了不同的壓縮率和路由策略，以評估模型在不同條件下的性能。實驗結果表明，Uni-Med在多個任務上取得了顯著的性能提升，平均性能提升高達8%。

EAGLE: Egocentric AGgregated Language-video Engine

?? 論文標題：EAGLE: Egocentric AGgregated Language-video Engine
?? 論文作者：Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu
?? 研究機構: University of Rochester
?? 問題背景：第一人稱視角（egocentric）視頻分析的快速發展為理解人類活動和意圖提供了新的視角。然而，任務的碎片化，如動作識別、程序學習和時刻檢索等，加上不一致的注釋和孤立的模型開發，阻礙了對視頻內容的全面理解。
?? 研究動機：為了應對上述挑戰，研究團隊引入了EAGLE（Egocentric AGgregated Language-video Engine）模型和EAGLE-400K數據集，旨在提供一個統一的框架，整合多種第一人稱視頻理解任務。EAGLE-400K是首個大規模指令調優數據集，專門針對第一人稱視頻，包含400K多樣化的樣本，以增強從活動識別到程序知識學習的廣泛任務。此外，EAGLE模型設計用于有效捕捉空間和時間信息，旨在為第一人稱視頻理解提供強大的支持。
?? 方法簡介：研究團隊提出了EAGLE-400K數據集，該數據集整合了Ego4D、EPIC-KITCHENS和PTA（Perception-driven Task Assistance）數據集，通過指令調優提供統一的任務接口。EAGLE模型通過集成Adapter增強了其空間和時間推理能力。此外，研究團隊還提出了新的評估指標，以全面評估當前流行的多模態大語言模型（MLLMs）在第一人稱視頻理解中的表現。
?? 實驗設計：研究團隊在EAGLE-400K數據集上進行了廣泛的實驗，包括活動識別、程序知識學習等任務。實驗設計了不同的任務類型和評估指標，以全面評估EAGLE模型的性能。實驗結果表明，EAGLE在多個任務上均優于現有的模型，特別是在平衡任務特定理解和整體視頻解釋方面表現出色。

A Survey on Multimodal Benchmarks: In the Era of Large AI Models

?? 論文標題：A Survey on Multimodal Benchmarks: In the Era of Large AI Models
?? 論文作者：Lin Li, Guikun Chen, Hanrong Shi, Jun Xiao, Long Chen
?? 研究機構: 香港科技大學 (HKUST)、浙江大學 (Zhejiang University)
?? 問題背景：多模態大語言模型（MLLMs）的快速發展顯著提升了人工智能在理解和生成多模態內容方面的能力。然而，與這些模型的架構和訓練方法相比，用于評估這些模型的基準測試的發展相對滯后。現有的基準測試往往側重于增加數據量或類別數量，難以全面評估MLLMs的多方面能力。
?? 研究動機：為了填補這一空白，研究團隊系統地回顧了211個評估MLLMs的基準測試，涵蓋了理解、推理、生成和應用四個核心領域。研究旨在提供任務設計、評估指標和數據集構建的詳細分析，為未來的MLLM研究提供全面的概述，并指出有前景的研究方向。
?? 方法簡介：研究團隊提出了一個系統的方法，通過構建一個全面的多模態基準測試數據庫，評估MLLMs在不同任務和應用場景中的表現。該數據庫包括了從低級感知到高級理解的各種任務，以及多語言和多模態環境下的評估。
?? 實驗設計：研究在多個公開數據集上進行了實驗，包括視覺感知、上下文理解、視頻理解、音頻理解、3D理解等多個領域的任務。實驗設計了不同類型的輸入（如單模態、多模態、長文本、多圖像等），以及不同應用場景（如醫療、機器人、設計、社交媒體等），以全面評估MLLMs的多方面能力。

Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing

?? 論文標題：Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
?? 論文作者：Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy
?? 研究機構: 阿拉伯美國大學、哥倫比亞大學、布達佩斯技術與經濟大學、阿曼亞爾大學、昆士蘭科技大學
?? 問題背景：隨著城市化和人口增長，交通運輸系統變得越來越復雜，準確的物體檢測對于提高交通安全、效率和規劃至關重要。傳統的物體檢測方法依賴于單一模態數據，如圖像或文本，存在效率和準確性上的局限性。多模態大型語言模型（MLLMs）和大型視覺模型（VLMs）的出現，為解決這些問題提供了新的可能，它們能夠處理和分析來自多種來源的數據，提供更全面的環境理解。
?? 研究動機：盡管MLLMs和VLMs在物體檢測方面展現出巨大潛力，但它們在交通運輸領域的應用仍處于探索階段。本研究旨在全面回顧和實證評估MLLMs在交通運輸物體檢測中的應用，探討其優勢和局限性，為未來的研究和發展提供方向。
?? 方法簡介：研究團隊首先對MLLMs和VLMs在交通運輸物體檢測中的應用進行了全面回顧，分析了現有技術的優勢和局限。隨后，提出了一個結構化的分類法，用于描述基于MLLMs的端到端物體檢測方法。最后，通過三個實際的交通運輸問題（道路安全屬性提取、安全關鍵事件檢測、熱圖像的視覺推理）進行了實證測試，以評估MLLMs的性能。
?? 實驗設計：實驗使用了多個公開數據集，包括KITTI、COCO等，以及一些定制數據集。實驗設計了不同的數據類型（如圖像、文本、視頻）和模型（如GPT-4、YOLOv8、Vision Transformer），以全面評估MLLMs在不同條件下的表現。實驗結果不僅評估了模型的準確性，還探討了模型在實時性能、細粒度識別、上下文理解等方面的能力和局限。

Align $^2$ LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation

?? 論文標題：Align $^2$ LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation
?? 論文作者：Hongzhe Huang, Jiang Liu, Zhewen Yu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang
?? 研究機構: 浙江大學、阿里巴巴
?? 問題背景：多模態大語言模型（MLLMs）如LLaVA系列模型，通過大規模機器生成的指令跟隨數據進行調優，取得了顯著進展。然而，這種自動指令收集管道無意中引入了數據質量的顯著變異性，尤其是在視覺-語言指令跟隨數據稀缺的情況下，當代MLLMs傾向于利用數據重格式化方法，這可能導致次優的多模態指令跟隨能力。
?? 研究動機：現有的合成指令生成范式可能導致不準確的視覺-語言對齊和內部語言差距，這影響了MLLMs的性能。為了優化合成指令生成，研究團隊提出了一種新的數據整理方法，通過逐步對齊人類專家和預訓練LLM的偏好，來解決這些問題。
?? 方法簡介：研究團隊提出了一個名為Align2LLaVA的數據整理范式，包括三個步驟：1) 人類知識對齊，通過收集人類偏好指令并訓練獎勵模型來評估和過濾視覺指令；2) LLM特征對齊，利用內部LLM調整軟格式視覺指令的寫作風格，確保原始語義不變；3) 通過兩階段過濾過程，從大規模合成視覺指令數據中篩選出高質量的指令。
?? 實驗設計：研究團隊將Align2LLaVA應用于158K合成指令數據集，生成了一個壓縮后的數據集Align2LLaVA-Instruct，該數據集包含30%的原始問題和30%的剩余答案，僅為原數據集的9%。使用Align2LLaVA-Instruct結合LLaVA-1.5-665K數據集的標題和短VQA部分對LLaVA-1.5模型進行微調，結果顯示在8個基準測試中，模型性能與使用完整指令數據訓練的模型相當或更優。