多模態大語言模型arxiv論文略讀（117）

在這里插入圖片描述

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity

?? 論文標題：Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity
?? 論文作者：Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
?? 研究機構: National Sun Yat-sen University, Kaohsiung, Taiwan
?? 問題背景：組合圖像檢索（Composed Image Retrieval, CIR）通過結合參考圖像和修改后的文本，以更準確地捕捉用戶意圖，成為一種新的圖像搜索形式。然而，現有的CIR模型通常需要大量的人工標注數據進行監督訓練，這不僅耗時耗力，而且在處理未見過的數據時性能有限。盡管零樣本CIR（Zero-shot CIR, ZS-CIR）方法可以避免在特定下游數據集上的訓練，但它們仍然需要在大規模圖像數據集上進行預訓練，這同樣需要大量資源。
?? 研究動機：為了克服現有ZS-CIR方法的局限性，研究團隊提出了一種完全無需訓練的ZS-CIR方法。該方法利用預訓練的視覺-語言模型（VLMs）和多模態大語言模型（MLLMs），通過簡單的加權融合圖像和文本模態，直接構建查詢表示，從而實現高效的圖像檢索。此外，通過生成數據庫圖像的文本描述并將其納入相似度計算，進一步增強了檢索性能。
?? 方法簡介：研究團隊提出了一種名為WeiMoCIR的方法，該方法包括三個模塊：加權模態融合模塊用于構建查詢表示，增強表示模塊通過MLLM生成的圖像描述來改進數據庫圖像的表示，加權模態相似度模塊則在檢索過程中同時考慮圖像和文本信息。具體來說，通過預訓練的VLM（如CLIP）提取參考圖像和文本修改的特征，然后通過加權融合生成查詢表示。在檢索階段，不僅比較查詢特征與數據庫圖像的視覺特征，還通過MLLM生成的圖像描述來計算查詢與數據庫圖像的文本相似度，最終通過加權平均得到綜合相似度。
?? 實驗設計：實驗在兩個公開數據集上進行，分別是FashionIQ和CIRR。實驗設計了不同的超參數（如α和β）的變化，以評估不同加權策略對檢索性能的影響。實驗結果表明，WeiMoCIR在FashionIQ和CIRR數據集上均取得了與現有方法相當或更好的性能，特別是在使用較大的CLIP模型時，性能提升更為顯著。此外，通過消融實驗，研究團隊還探討了不同預訓練VLMs對檢索性能的影響，發現經過COCO或Flickr30k數據集微調的BLIP模型在兩個數據集上均表現更佳。

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

?? 論文標題：MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
?? 論文作者：Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
?? 研究機構: 深圳先進技術研究院、中國科學院大學、阿里巴巴集團、同濟大學、獨立研究員、悉尼大學
?? 問題背景：多模態大語言模型（MLLMs）在多種領域（如多模態代理、具身智能）中展現出顯著的發展潛力。然而，隨著模型驅動方法的邊際收益逐漸減少，數據驅動方法雖然更有效，但面臨數據多樣性和復雜性不足的挑戰。高質量數據的缺乏成為MLLMs發展的主要障礙。
?? 研究動機：為了克服數據質量瓶頸，研究團隊提出了MMEvol，一種新的多模態指令數據進化框架。該框架通過細粒度感知、認知推理和交互進化相結合的方式，迭代地提高數據質量，生成更復雜和多樣的圖像-文本指令數據集，以增強MLLMs的能力。
?? 方法簡介：MMEvol框架從初始指令集SEED-163K開始，通過細粒度感知進化、認知推理進化和交互進化三個方向，系統地擴展指令類型的多樣性，延長視覺推理步驟以提高認知推理能力，并深入探索圖像中的細粒度信息以增強視覺理解和魯棒性。每個進化周期包括指令進化和指令消除兩個主要步驟，以確保進化數據的質量。
?? 實驗設計：研究團隊在13個視覺-語言任務上進行了廣泛的定性和定量實驗，驗證了MMEvol的有效性。實驗結果表明，與使用初始種子數據訓練的基線模型相比，MMEvol方法在平均準確率上提高了3.1個百分點，并在九個任務中達到了使用更少數據的最先進性能。此外，還進行了詳細的定性分析和消融實驗，展示了方法中每個組件的貢獻。

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

?? 論文標題：Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
?? 論文作者：Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
?? 研究機構: New York University, Hello Robot Inc., Meta Inc.
?? 問題背景：盡管機器人模型在特定環境中的訓練數據充足時可以很好地完成任務，但需要為每個新環境微調模型，這與語言和視覺模型的零樣本部署能力形成鮮明對比。這種微調需求限制了機器人模型在新環境中的快速部署能力。
?? 研究動機：為了克服這一限制，研究團隊開發了Robot Utility Models (RUMs)，這是一種新的框架，旨在訓練和部署無需進一步訓練或微調即可在新環境中直接使用的通用機器人策略。研究旨在通過大規模數據收集、多模態行為學習算法和自檢重試機制，提高機器人在新環境中的零樣本部署能力。
?? 方法簡介：研究團隊開發了一種名為Stick-v2的手持數據收集工具，用于快速收集大規模、高質量的演示數據。這些數據被用于訓練多模態行為生成模型，模型能夠吸收和擴展大規模演示數據。此外，研究團隊還設計了一種基于多模態大語言模型（mLLM）的自檢和重試系統，以提高模型在新環境中的成功率。
?? 實驗設計：研究團隊在25個未見過的環境中進行了2,950次機器人實驗，包括紐約市、新澤西州和賓夕法尼亞州的家庭環境。實驗評估了RUMs在不同任務（如開門、抽屜開啟、物體重新定向、紙巾拾取和紙袋拾取）中的表現。實驗結果表明，RUMs在未見過的環境中平均成功率為90%，其中多模態策略和mLLM自檢重試系統是提高成功率的關鍵技術。

MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning

?? 論文標題：MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning
?? 論文作者：Jianyi Zhang, Hao Frank Yang, Ang Li, Xin Guo, Pu Wang, Haiming Wang, Yiran Chen, Hai Li
?? 研究機構: Duke University, Johns Hopkins University, University of Maryland College Park, Lenovo Research
?? 問題背景：聯邦學習（Federated Learning, FL）在處理不同客戶端之間的數據異質性時，經常遇到性能下降的問題。盡管已有一些方法嘗試解決這一問題，但大多數方法未能在提升性能的同時，有效緩解隱私泄露和增加本地設備計算負擔的問題。
?? 研究動機：鑒于多模態大語言模型（Multimodal Large Language Models, MLLMs）在多模態任務中的卓越表現，研究團隊提出了一種新的聯邦學習框架——多模態大語言模型輔助聯邦學習（MLLM-LLaVA-FL），旨在利用MLLMs的強大跨模態表示能力和豐富的開放詞匯先驗知識，解決數據異質性和長尾分布帶來的挑戰，同時提高數據利用效率和服務器計算能力的利用。
?? 方法簡介：MLLM-LLaVA-FL框架包含三個關鍵階段：1) 全局多模態預訓練（Global Multimodal Pretraining），利用MLLMs生成描述，對未標注的在線數據進行預處理；2) 聯邦微調（Federated Finetuning），將預訓練模型分發給客戶端進行本地訓練；3) 全局對齊（Global Alignment），在服務器端對聚合后的模型進行進一步優化，以提高模型的性能和安全性。
?? 實驗設計：研究團隊在CIFAR-10-LT、CIFAR-100-LT和ImageNet-LT三個長尾分布數據集上進行了實驗。實驗結果表明，MLLM-LLaVA-FL框架在處理數據異質性和類別分布不平衡方面，顯著優于現有的聯邦學習方法，同時在隱私保護和減少本地設備計算負擔方面也表現出色。

MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

?? 論文標題：MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
?? 論文作者：Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon
?? 研究機構: IIT Ropar、Curtin University、University of Canberra、Flinders University
?? 問題背景：在多人群體社交場景中定位最重要的人員（MIP）對于圖像標注、社會關系分析、群體活動識別、群體情緒分析和群體中的主導人物識別等實際應用至關重要。然而，由于場景中對象和人類之間的高階關系、情境影響、相機位置、遮擋、模糊和多人存在等因素，MIP估計在不受限制的環境中極具挑戰性。此外，MIP估計的因果方面非常主觀和多樣。
?? 研究動機：現有的MIP數據集規模較小，且主要集中在受控環境下的特定場景，這限制了MIP定位算法在真實世界中的應用。為了克服這些限制，研究團隊構建了一個大規模的“在野”數據集MIP-GAF，旨在提供更全面的MIP定位基準，涵蓋多樣化的場景和上下文理解。
?? 方法簡介：研究團隊提出了一種半自動的多模態大語言模型（MLLM）數據標注策略，通過結合MLLM的初步標注和人工驗證，確保數據集的高質量。MIP-GAF數據集包含16,550張圖像，每張圖像都標注了MIP的邊界框及其重要性的解釋，這些解釋與圖像上下文對齊，有助于理解MIP的確定依據。
?? 實驗設計：研究團隊在四個學習范式（零樣本、完全監督、半監督和自監督）下，使用最先進的MIP檢測算法對MIP-GAF數據集進行了全面的基準測試。實驗結果表明，與現有的數據集相比，MIP-GAF數據集在性能上具有顯著的挑戰性，特別是在“在野”情況下，現有的MIP定位算法需要更加魯棒。此外，實驗還展示了MIP-GAF數據集在不同場景下的適用性和挑戰性。