多模態大語言模型arxiv論文略讀（141）

在這里插入圖片描述

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

?? 論文標題：Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
?? 論文作者：Zhangwei Gao, Zhe Chen, Erfei Cui, Yiming Ren, Weiyun Wang, Jinguo Zhu, Hao Tian, Shenglong Ye, Junjun He, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang
?? 研究機構: Shanghai AI Laboratory, Tsinghua University, Nanjing University, Fudan University, The Chinese University of Hong Kong, SenseTime Research, Shanghai Jiao Tong University
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在視覺-語言任務中展現了卓越的性能，但其龐大的模型規模和高昂的計算成本限制了在消費級GPU或邊緣設備上的訓練和部署，阻礙了其廣泛應用。此外，MLLMs在長尾領域特定任務上的表現不佳，進一步限制了其實際應用。
?? 研究動機：為了克服現有MLLMs的計算成本高和領域適應性差的問題，研究團隊提出了一種輕量級的多模態模型Mini-InternVL，該模型在參數量大幅減少的情況下，仍能保持較高的性能。此外，研究團隊還開發了一種統一的遷移學習框架，使Mini-InternVL能夠高效地適應各種下游任務，包括自動駕駛、醫學圖像和遙感等。
?? 方法簡介：研究團隊首先通過知識蒸餾技術，使用InternViT-6B作為教師模型，訓練了一個輕量級的視覺編碼器InternViT-300M。然后，結合預訓練的語言模型（如Qwen2-0.5B、InternLM2-1.8B和Phi-3-Mini），開發了Mini-InternVL系列模型（1B、2B和4B參數量）。此外，研究團隊還提出了一種統一的遷移學習框架，通過標準化模型架構、數據格式和訓練策略，使模型能夠高效地適應特定領域的下游任務。
?? 實驗設計：研究團隊在多個通用和領域特定的基準數據集上進行了廣泛的實驗，包括AI2D、ChartQA、DocVQA、InfoVQA、MathVista和MMBench等。實驗結果表明，Mini-InternVL在通用多模態基準上達到了90%的性能，而參數量僅為大型模型的5%。在特定領域的任務中，通過少量的微調，Mini-InternVL能夠與專有商業模型相媲美。研究團隊還進行了消融實驗，探討了數據樣本量對領域適應性的影響，為MLLMs在特定領域的應用提供了有價值的見解。

IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing

?? 論文標題：IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing
?? 論文作者：Kang Chen, Qingheng Zhang, Chengbao Lian, Yixin Ji, Xuwei Liu, Shuguang Han, Guoqiang Wu, Fei Huang, Jufeng Chen
?? 研究機構: Alibaba Group, Fudan University
?? 問題背景：在消費者對消費者的（C2C）電子商務平臺上，個人賣家通常缺乏足夠的電子商務經驗，難以創建高質量的產品描述。這不僅影響了產品上市的成功率，還影響了上市產品的整體質量和可發現性。為了解決這些問題，研究團隊開發了IPL（Intelligent Product Listing），一個智能產品上市工具，旨在通過上傳產品照片自動生成產品描述，從而簡化個人賣家的產品上市過程。
?? 研究動機：現有的多模態大型語言模型（MLLMs）在視覺理解和自然語言生成方面取得了顯著進展，使得基于產品照片自動生成產品描述成為可能。然而，這些模型在生成產品描述時面臨幾個挑戰，包括缺乏領域知識、幻覺問題以及生產部署的挑戰。研究團隊通過進一步的指令調優和多模態檢索增強生成（RAG）方法，旨在提高模型的領域知識理解能力，減少幻覺問題，并確保系統的高效部署。
?? 方法簡介：研究團隊首先通過進一步指令調優，將領域知識注入到一個開源的多模態大型語言模型中，顯著增強了模型對領域知識的理解能力。其次，引入了一種創新的多模態RAG方法，通過檢索相似產品來增強描述的質量并減少幻覺風險。最后，該系統成功部署在生產環境中，為實際用戶提供了智能撰寫服務。
?? 實驗設計：研究團隊在多個數據集上進行了實驗，包括領域特定任務和通用任務。實驗評估了不同訓練數據量對模型性能的影響，以及RAG方法在減少幻覺問題方面的效果。實驗結果表明，經過領域特定訓練的模型在多個任務上顯著優于基線模型，尤其是在生成符合C2C平臺風格的產品描述方面。此外，RAG方法有效減少了模型的幻覺問題，提高了生成內容的準確性。

Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models

?? 論文標題：Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models
?? 論文作者：Zhijie Tan, Xu Chu, Weiping Li, Tong Mo
?? 研究機構: 北京大學軟件與微電子學院
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）利用文本、圖像或視頻等多種模態的上下文來解決各種多模態任務。然而，研究發現，改變多模態輸入的順序會導致模型性能在高級表現和隨機猜測之間波動。這種現象不僅存在于單模態（僅文本或僅圖像）上下文中，也存在于混合模態（圖像-文本對）上下文中。
?? 研究動機：現有的研究已經揭示了在大語言模型（LLMs）中，輸入順序對模型性能有顯著影響。為了進一步探討這種順序敏感性是否也存在于MLLMs中，以及什么樣的順序對MLLMs的性能有益，研究團隊設計了一系列實驗，旨在全面評估不同模態上下文順序對MLLMs性能的影響。
?? 方法簡介：研究團隊通過設計一系列實驗，包括文本順序敏感性、圖像順序敏感性以及混合模態順序敏感性的評估，來探討MLLMs對不同上下文順序的敏感性。實驗中，研究團隊使用了多個公開數據集，如CelebAText-HQ、COCO等，通過改變上下文中的正確選項位置，評估模型在不同位置的性能表現。
?? 實驗設計：實驗設計了三個主要任務，分別評估MLLMs在文本順序、圖像順序和混合模態順序上的敏感性。每個任務中，研究團隊通過改變正確選項的位置（如開始、中間、結束），統計模型在不同位置的準確率，以評估模型對上下文順序的依賴程度。此外，研究團隊還設計了兩個基于順序敏感性的任務：視頻-字幕匹配任務和帶有檢索增強生成（RAG）的視覺問答任務，以進一步驗證特殊位置對模型性能的提升效果。

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

?? 論文標題：LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
?? 論文作者：Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
?? 研究機構: Meta AI, King Abdullah University of Science and Technology (KAUST), Korea University
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在理解和分析視頻內容方面取得了顯著進展。然而，處理長視頻時，由于LLMs的上下文長度限制，仍然面臨重大挑戰。例如，處理一小時長的視頻可能需要超過200k的token，而常用的上下文長度僅為8k。這導致了在視頻處理中，尤其是在長視頻理解任務中，需要在幀數和每幀token數之間做出權衡。
?? 研究動機：為了克服長視頻處理中的上下文長度限制，研究團隊提出了LongVU，一種時空自適應壓縮機制，旨在減少視頻token數量的同時，保留視頻的視覺細節。通過這種方法，LongVU能夠在不超出常用LLMs上下文長度的情況下，處理長達一小時的視頻。
?? 方法簡介：LongVU通過三個步驟實現長視頻的有效處理：1) 利用DINOv2特征進行時間維度的幀序列壓縮，去除冗余幀；2) 通過跨模態查詢選擇性地減少某些幀的視覺token，保留關鍵幀的高分辨率token；3) 基于幀間時間依賴性進行空間token壓縮，進一步減少token數量。這種方法能夠有效地處理大量幀，同時保持視覺信息的完整性。
?? 實驗設計：研究團隊在多個視頻理解基準數據集上進行了實驗，包括EgoSchema、MVBench、VideoMME和MLVU。實驗評估了LongVU在不同視頻長度和內容類型上的表現，結果表明LongVU在多個基準測試中顯著優于現有的視頻LLMs模型，尤其是在處理長達一小時的視頻時。此外，實驗還驗證了LongVU在輕量級LLM上的有效性，展示了其在小型模型上的優越性能。

Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact

?? 論文標題：Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact
?? 論文作者：Junhua Liu, Bin Fu
?? 研究機構: Forth AI、Shopee
?? 問題背景：多語言大型語言模型（Multilingual Large Language Models, MLLMs）在推動人工智能（AI）的多語言包容性方面具有重要意義。然而，當前的MLLMs主要集中在高資源語言上，如英語，而許多低資源語言在AI技術中被忽視，導致了數字語言鴻溝和技術不平等。
?? 研究動機：為了應對多語言支持和語言包容性在最先進的大型語言模型（LLMs）中的不足，本研究探討了MLLMs的發展趨勢和有前景的方向，旨在更好地解決語言多樣性和代表性挑戰。研究強調了技術、語言和文化視角在MLLMs開發中的重要性，并提出了實際解決方案。
?? 方法簡介：研究團隊提出了一個全面的端到端框架，涵蓋了從數據預處理到模型部署的整個MLLM生命周期。此外，通過Llama2的案例研究，提供了詳細的優化策略，包括課程學習方法、分詞策略和有效的采樣方法。研究還從技術、語言和文化角度進行了跨學科分析，以更全面地理解創建有效多語言模型的復雜性。
?? 實驗設計：研究通過實際應用案例，如客戶服務、搜索引擎和機器翻譯，探討了多語言模型在不同場景下的表現。研究分析了不同語言資源類別（從0到5）的特點和挑戰，特別是低資源語言（如類別0和1的語言）在數據資源和模型性能上的不足。通過這些分析，研究提出了具體的策略，以提高MLLMs在低資源語言上的表現和包容性。