VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
?? 論文標題:VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
?? 論文作者:Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu
?? 研究機構: University of Rochester, Arizona State University
?? 問題背景:多模態大語言模型(MLLMs)在理解多模態內容方面取得了顯著進展,尤其是在視頻內容分析方面。然而,現有的評估基準主要關注抽象的視頻理解,缺乏對視頻組成(即視覺元素如何在高度編排的視頻中結合和互動)的詳細評估。
?? 研究動機:為了填補這一空白,研究團隊引入了VidComposition,這是一個新的基準,旨在評估MLLMs在理解視頻組成方面的能力。通過使用精心策劃的編排視頻和電影級別的注釋,VidComposition涵蓋了982個視頻和1706個多項選擇題,涉及攝像技巧、角色理解、敘事理解、場景感知和制作分析等多個方面。
?? 方法簡介:研究團隊構建了一個包含982個編排視頻和1706個多項選擇題的數據集,這些題目涵蓋了視頻組成的五個主要方面:攝像技巧分析、角色理解、敘事理解、場景感知和制作分析。每個方面包括多個子任務,如鏡頭運動感知、鏡頭大小感知、鏡頭角度感知、情感感知、動作感知等。
?? 實驗設計:研究團隊在VidComposition數據集上評估了33個開源和專有MLLMs的性能,包括27個開源模型和6個專有模型。實驗設計了多個任務,如攝像技巧分析、角色理解、敘事理解、場景感知和制作分析,以全面評估模型在不同任務上的表現。實驗結果揭示了當前MLLMs在理解復雜編排視頻組成方面的顯著性能差距,為未來的模型改進提供了有價值的見解。
Multilingual Large Language Models: A Systematic Survey
?? 論文標題:Multilingual Large Language Models: A Systematic Survey
?? 論文作者:Shaolin Zhu, Supryadi, Shaoyang Xu, Haoran Sun, Leiyu Pan, Menglong Cui, Jiangcun Du, Renren Jin, António Branco, Deyi Xiong
?? 研究機構: TJUNLP Lab, College of Intelligence and Computing, Tianjin University、NLX, Department of Informatics, University of Lisbon
?? 問題背景:多語言大型語言模型(MLLMs)不僅能夠跨語言理解和生成語言,而且代表了人工智能的重要進展。隨著全球化的加深,語言技術的發展和對多語言理解的追求加速了。然而,MLLMs在處理語言多樣性時面臨諸多挑戰,特別是在處理非英語和低資源語言時。
?? 研究動機:盡管許多調查研究探討了MLLMs的具體方面,如訓練數據、架構或應用,但對MLLMs的多語言能力、局限性和挑戰的全面考察仍然不足。此外,與負責任的人工智能相關的關鍵問題,如公平性和毒性,也未得到充分解決。本調查旨在填補這一空白,提供對MLLMs研究的全面綜述。
?? 方法簡介:研究團隊提出了一種系統的分類方法,將MLLMs的研究領域分為六個基本且相互關聯的領域:多語言數據、神經架構選擇、預訓練和微調方法、評估方法、可解釋性技術以及實際應用。通過這一分類方法,研究團隊詳細分析了MLLMs的架構、訓練數據、預訓練目標、微調策略、評估方法、可解釋性技術及其在不同領域的應用。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括多語言預訓練數據集和多語言對齊數據集。實驗設計了不同的訓練目標(如掩碼語言建模和翻譯語言建模)和微調技術(如指令微調和偏好微調),以全面評估MLLMs在不同任務中的表現。此外,研究還探討了多語言評估基準和數據集,以及如何使用MLLMs本身作為評估工具。
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
?? 論文標題:MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
?? 論文作者:Yingjie Zhou, Zicheng Zhang, Jiezhang Cao, Jun Jia, Yanwei Jiang, Farong Wen, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai
?? 研究機構: Shanghai Jiaotong University, Harvard Medical School, PengCheng Laboratory
?? 問題背景:當前,人工智能(AI)在多個領域展示了顯著的能力,特別是在人機交互(HCI)、具身智能和虛擬數字人的設計與動畫中,AI理解和表達情感的能力變得越來越重要。然而,AI是否能夠準確解讀人類情感仍然是一個關鍵挑戰。現有的AI模型主要分為生成模型和多模態大語言模型(MLLMs),這些模型在情感分析方面的能力需要進一步評估。
?? 研究動機:為了評估生成模型和MLLMs在情感分析方面的能力,研究團隊引入了MEMO-Bench,這是一個全面的基準測試,包含7,145張由12個文本到圖像(T2I)模型生成的肖像圖像,每張圖像代表六種不同情感之一。MEMO-Bench不僅評估了T2I模型的情感生成能力,還評估了MLLMs的情感理解能力,特別是從粗粒度到細粒度的情感分析。
?? 方法簡介:研究團隊構建了一個包含7,145張情感生成圖像的大型數據集MEMO-Bench,這些圖像由12個T2I模型生成,每種情感使用100個不同的提示。此外,研究團隊還設計了一個漸進式的情感評估方法,從粗粒度的情感分類到細粒度的情感強度分析,以全面評估MLLMs的情感理解能力。
?? 實驗設計:實驗在三個維度上進行了評估:情感類別、情感強度和圖像質量。15名男性和14名女性志愿者參與了主觀標注,評估了7,145張圖像。實驗結果表明,現有的T2I模型在生成積極情感方面表現較好,但在生成消極情感方面存在局限。MLLMs在粗粒度情感分類方面表現較好,但在細粒度情感分析方面仍存在不足。
CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
?? 論文標題:CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
?? 論文作者:Zhiming Wang, Mingze Wang, Sheng Xu, Yanjing Li, Baochang Zhang
?? 研究機構: Beihang University
?? 問題背景:遙感圖像變化描述(RSICC)旨在生成自然語言描述,解釋多時相遙感圖像之間的地表變化,包括變化對象的類別、位置和動態。當前方法雖然嘗試利用多模態大語言模型(MLLMs)的長序列理解和推理能力,但缺乏全面的數據支持,這些方法往往改變了MLLMs的核心特征傳輸路徑,破壞了模型的內在知識,限制了其在RSICC中的潛力。
?? 研究動機:為了增強MLLMs在RSICC領域的性能,同時盡可能保留MLLMs的內在知識結構,研究團隊提出了一種新的模型CCExpert。該模型通過數據驅動的持續預訓練和專門設計的模塊,顯式增強視覺上下文特征,從而加強MLLMs在RSICC領域的表現。
?? 方法簡介:CCExpert基于先進的多模態大模型框架,設計了一個差異感知集成模塊(Difference-aware Integration Module),用于捕捉多尺度的雙時相圖像差異,并將其整合到原始圖像特征中,從而提高差異特征的表示能力。此外,研究團隊構建了一個大規模的CC-Foundation數據集,包含200,000對遙感圖像和1.2百萬個描述,以提供豐富的數據支持。最后,通過三階段的訓練過程,確保差異注入模塊與現有的多模態大模型深度集成。
?? 實驗設計:實驗在LEVIR-CC等多個公開數據集上進行,評估了CCExpert在不同條件下的表現。實驗設計了多種因素(如圖像對的復雜度、變化區域的顯著性等),以及不同類型的評估目標(如準確性、魯棒性等),以全面評估模型的性能。實驗結果表明,CCExpert在LEVIR-CC基準測試中取得了顯著的性能提升,S?m = 81.80,顯著超越了現有的最先進方法。
MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
?? 論文標題:MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
?? 論文作者:Harshita Sharma, Valentina Salvatelli, Shaury Srivastav, Kenza Bouzid, Shruthi Bannur, Daniel C. Castro, Maximilian Ilse, Sam Bond-Taylor, Mercy Prasanna Ranjit, Fabian Falck, Fernando Pérez-García, Anton Schwaighofer, Hannah Richardson, Maria Teodora Wetscherek, Stephanie L. Hyland, Javier Alvarez-Valle
?? 研究機構: Microsoft Health Futures, Cambridge, UK; Microsoft Research India; Department of Radiology, University of Cambridge and Cambridge University Hospitals NHS Foundation Trust, Cambridge, UK
?? 問題背景:放射學報告生成涉及從醫學影像中自動生成自由文本的初步報告。當前的多模態大語言模型(MLLMs)在胸部X光(CXR)報告生成中表現出色,但這些模型通常忽略了與圖像一起整合像素級輸入,這限制了它們基于區域和細粒度的圖像解釋能力。在生物醫學領域,單個醫學影像可能包含多個細微的發現、復雜的結構和相關的上下文,這些都代表了感興趣的區域(ROI)。這一差距為通過整合分割掩碼來增強MLLMs的輸出提供了機會。
?? 研究動機:研究團隊提出了一種新的框架MAIRA-Seg,該框架利用來自語義醫學圖像分割的細粒度掩碼特征,與CXR輸入圖像一起生成初步的放射學報告。通過在MLLMs的輸入中整合像素級知識,研究旨在提高模型的像素級視覺理解和增強生成的放射學報告的質量和準確性。
?? 方法簡介:研究團隊首先訓練了結構特定的專家模型,用于分割多個CXR結構。這些模型生成的分割掩碼作為偽標簽輸入到MLLM中進行訓練或推理。掩碼與圖像編碼器特征一起用于訓練基于Osprey架構的分割令牌提取器,該提取器為每個單獨的掩碼生成兩個額外的分割令牌(掩碼令牌和空間令牌)。研究團隊探索了將這些令牌整合到大型語言模型(LLM)輸入中的方法,并使用可用的掩碼信息動態增強輸入提示,而無需生成新的指令調優數據集來訓練MLLM。
?? 實驗設計:研究團隊在公開的MIMIC-CXR數據集上進行了實驗,評估了MAIRA-Seg在單視圖和多視圖輸入下的性能。實驗設計了不同的分割令牌整合方法,包括直接連接所有圖像和分割令牌、在圖像令牌基礎上連接分割令牌,以及為圖像中的每個結構使用單獨的分割令牌。研究團隊還進行了在線掩碼感知提示,使用輸入掩碼信息(即當存在正向掩碼時的結構名稱)和相應的分割令牌,以快速原型化,而無需生成新的指令調優數據集來訓練MLLM。實驗結果表明,MAIRA-Seg在多個評估指標上優于非分割基線模型。