多模態大語言模型arxiv論文略讀（九十八）

在這里插入圖片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

?? 論文標題：Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
?? 論文作者：Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
?? 研究機構: Ant Group、Huazhong University of Science and Technology
?? 問題背景：當前的多模態大語言模型（Multimodal Large Language Models, MLLMs）在視覺-語言任務中展現了卓越的能力，如圖像描述、視覺問答和視覺定位。然而，隨著數據量的增加，模型的預訓練時間顯著延長，成為進一步研究和應用的主要障礙。傳統的MLLMs在預訓練階段處理大量的視覺token，導致計算成本高昂，且預訓練時間過長。
?? 研究動機：為了減少預訓練時間，同時不犧牲模型性能，研究團隊提出了Chain-of-Sight，一種視覺-語言橋接模塊。該模塊通過多尺度視覺重采樣器和復合token擴展策略，顯著減少了預訓練階段所需的視覺token數量，從而加速預訓練過程。
?? 方法簡介：Chain-of-Sight的核心機制是多尺度視覺重采樣器，該重采樣器能夠生成多尺度的視覺token。通過在預訓練階段減少視覺token的數量，并在微調階段擴展token數量，Chain-of-Sight能夠在保持或提升模型性能的同時，顯著加速預訓練過程。具體來說，該方法在預訓練階段使用少量的視覺token，而在微調階段通過分辨率擴展和窗口擴展策略，將token數量增加到原來的16倍。
?? 實驗設計：研究團隊在多個視覺-語言基準數據集上進行了實驗，包括圖像描述、視覺問答和文本識別任務。實驗結果表明，Chain-of-Sight不僅能夠將預訓練時間減少約73%，而且在多個任務上達到了與使用全部視覺token的模型相當或更好的性能。此外，通過進一步擴展token數量，模型的性能還可以進一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

?? 論文標題：UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
?? 論文作者：Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
?? 研究機構: 中國科學技術大學 & 國家認知智能重點實驗室
?? 問題背景：多模態實體鏈接（Multimodal Entity Linking, MEL）是一項關鍵任務，旨在將多模態上下文中的模糊提及鏈接到多模態知識庫中的實體。現有的方法過于復雜，且忽視了視覺語義信息，導致在處理文本模糊性、冗余和噪聲圖像等問題時性能嚴重下降。大型語言模型（LLMs）和多模態大型語言模型（MLLMs）的出現為解決這些問題提供了新的思路。
?? 研究動機：盡管LLMs在許多數據任務中表現出色，但它們在處理多模態實體鏈接任務時仍面臨挑戰，如有效融合視覺和文本上下文、缺乏領域特定知識等。為了克服這些挑戰，研究團隊提出了一個統一的框架UniMEL，旨在利用LLMs和MLLMs處理多模態實體鏈接任務。
?? 方法簡介：UniMEL框架通過以下方式增強實體鏈接任務：1) 使用MLLMs處理提及的圖像和上下文信息，提取更深層次的語義關系；2) 使用LLMs的總結能力生成簡潔的實體描述；3) 使用嵌入模型檢索和重新排序候選實體；4) 通過微調LLMs的少量參數來選擇最終的實體。
?? 實驗設計：在三個公開的多模態實體鏈接數據集上進行了實驗，包括Richpedia、WikiMEL和Wikidiverse。實驗設計了不同的模塊，如LLMs和MLLMs的增強、檢索增強和多選選擇，以全面評估UniMEL在不同條件下的表現。實驗結果表明，UniMEL在這些數據集上取得了最先進的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

?? 論文標題：INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
?? 論文作者：Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
?? 研究機構: Xiamen University (XMU)
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在各種任務中展現了卓越的能力，但其視覺編碼器的二次復雜度限制了輸入圖像的分辨率。現有的方法通過將高分辨率圖像裁剪為較小的子圖像來處理這一問題，但這些方法在捕捉全局上下文和局部細節方面存在不足。
?? 研究動機：為了克服現有方法的局限性，研究團隊提出了一種新的MLLM框架——INF-LLaVA，旨在有效處理高分辨率圖像，同時保持全局和局部信息的完整性。
?? 方法簡介：INF-LLaVA引入了兩個創新組件：雙視角裁剪模塊（Dual-perspective Cropping Module, DCM）和雙視角增強模塊（Dual-perspective Enhancement Module, DEM）。DCM確保每個子圖像從局部和全局視角包含連續的詳細信息和全面的信息。DEM通過局部和全局特征的相互增強，使模型能夠有效處理高分辨率圖像。
?? 實驗設計：研究團隊在多個基準數據集上進行了廣泛的消融研究和實驗，驗證了DCM和DEM的有效性。實驗結果表明，INF-LLaVA在處理高分辨率圖像時不僅性能優越，而且顯著優化了計算效率。

Harmonizing Visual Text Comprehension and Generation

?? 論文標題：Harmonizing Visual Text Comprehension and Generation
?? 論文作者：Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
?? 研究機構: East China Normal University, ByteDance
?? 問題背景：當前的多模態生成模型在視覺文本理解與生成任務中表現出色，但同時生成圖像和文本時，由于視覺和語言模態之間的固有不一致性，通常會導致性能下降。現有的方法通過模態特定的數據進行監督微調，需要不同的模型實例，這限制了模型的通用性和效率。
?? 研究動機：為了克服多模態生成中的模態不一致性問題，并實現單一模型實例中視覺和語言生成的統一，研究團隊提出了Slide-LoRA方法。該方法通過動態聚合模態特定和模態無關的LoRA專家，部分解耦多模態生成空間，從而在不顯著增加參數的情況下，提升模型的多模態生成能力。
?? 方法簡介：研究團隊提出了TextHarmony，一個統一且多功能的多模態生成模型，擅長理解和生成視覺文本。TextHarmony通過集成視覺編碼器、LLM和圖像解碼器，實現了文本和圖像的同步生成。為了緩解視覺和語言模態之間的不一致性，研究團隊提出了Slide-LoRA，該方法通過動態調整不同模態生成任務的參數空間，部分解耦多模態生成空間。此外，研究團隊還構建了一個高質量的圖像字幕數據集DetailedTextCaps-100K，以進一步提升視覺文本生成能力。
?? 實驗設計：研究團隊在多個基準數據集上進行了實驗，包括視覺文本理解任務（如DocVQA、TabFact、TextVQA等）和視覺文本生成任務（如AnyText-benchmark-EN、MARIOEval等）。實驗結果表明，TextHarmony在視覺文本理解任務上達到了與專門的文本理解模型相當的性能，在視覺文本生成任務上也表現出色。具體來說，TextHarmony在視覺文本理解任務上平均提升了2.5%，在視覺文本生成任務上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

?? 論文標題：MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
?? 論文作者：Liyun Zhang
?? 研究機構: Osaka University
?? 問題背景：現有的多模態大語言模型（MLLMs）在多模態情感識別任務中表現出色，能夠整合視覺、聲學和語言模態的信息來識別人類的情感狀態。然而，這些模型在捕捉微表情的時間動態和話語感知的時間段的上下文依賴性方面存在不足，限制了其在多模態情感識別任務中的有效性。
?? 研究動機：為了提高多模態情感識別的準確性和細致度，研究團隊提出了MicroEmo，一個時間敏感的MLLM，旨在關注面部微表情的時間動態和話語感知視頻片段的上下文依賴性。通過引入全局-局部注意力視覺編碼器和話語感知視頻Q-Former，MicroEmo能夠捕捉更細微和深層次的情感信息，提供更豐富和可靠的情感識別結果。
?? 方法簡介：研究團隊提出了兩個關鍵模塊：1) 全局-局部注意力視覺編碼器，整合全局幀級時間戳綁定圖像特征與局部面部特征的時間動態；2) 話語感知視頻Q-Former，通過生成每個話語段和整個視頻的視覺令牌序列來捕捉多尺度和上下文依賴性。
?? 實驗設計：研究團隊在新的Explainable Multimodal Emotion Recognition (EMER)任務上進行了初步的定性實驗，該任務利用多模態和多方面的線索以開放詞匯的方式預測情感。實驗結果表明，MicroEmo在捕捉細微情感變化方面優于現有方法，同時保持了上下文的準確性。