多模態大語言模型arxiv論文略讀（六）

請添加圖片描述

FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings

?? 論文標題：FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings
?? 論文作者：Zhen Wang, Da Li, Yulin Su, Min Yang, Minghui Qiu, Walton Wang
?? 研究機構: ByteDance Inc.
?? 問題背景：當前的商標嵌入模型主要依賴于純視覺理解，忽略了文本信息對商標識別的輔助作用。這種模型在處理商標時，往往無法充分關注到圖像中的商標區域，尤其是在商標占據圖像較小面積的情況下。研究團隊提出了一種新的框架——FashionLOGO，通過利用多模態大語言模型（MLLMs）生成的文本信息，增強視覺模型對商標的嵌入能力。
?? 研究動機：現有的商標嵌入方法主要關注于視覺特征的提取，而忽視了文本信息的輔助作用。研究團隊旨在通過結合文本信息，提高視覺模型對商標區域的關注度，從而生成更通用和魯棒的商標嵌入。
?? 方法簡介：FashionLOGO框架包括三個主要模塊：視覺編碼器（提取圖像特征）、文本編碼器（生成文本信息）和表示增強模塊（融合視覺和文本特征）。研究團隊使用了LLaVA生成三種類型的文本信息（OCR文本、簡要描述和詳細描述），并通過交叉注意力機制將這些文本信息與視覺特征融合，以增強商標嵌入。
?? 實驗設計：研究團隊在Logodet3K和Open Brands兩個數據集上進行了訓練，并在多個基準數據集上進行了評估，包括Open Brands、Logo-2K+和IPRLogo。實驗結果表明，FashionLOGO在所有基準測試中均表現出色，特別是在跨域泛化能力方面，相比其他基線模型有顯著提升。

Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems

?? 論文標題：Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems
?? 論文作者：Zeinab Sadat Taghavi, Soroush Gooran, Seyed Arshan Dalili, Hamidreza Amirzadeh, Mohammad Jalal Nematbakhsh, Hossein Sameti
?? 研究機構: Sharif University of Technology
?? 問題背景：當前的大型語言模型（LLMs）和多模態大型語言模型（MLLMs）在自然語言處理任務中表現出色，但主要局限于文本模態。研究團隊提出了一種新的AI系統，該系統通過引入一個受想象力啟發的模塊，能夠將文本輸入轉化為圖像，從而豐富了從文本中提取的信息，并生成了獨立的感知，這種感知可能與人類的感知不同但同樣有效。
?? 研究動機：現有的AI系統在處理多模態數據時，通常依賴于用戶提供的多模態數據。為了打破這一限制，研究團隊設計了一個能夠自動生成其他模態數據的系統，從而在不依賴用戶提供的多模態數據的情況下，實現對多種數據類型的處理、生成和整合。此外，該系統還借鑒了哲學和心理分析中的想象力概念，旨在使AI系統能夠生成深刻且有意義的信息。
?? 方法簡介：研究團隊提出了一種系統的方法，通過將文本輸入轉化為圖像，然后將文本和圖像一起輸入到多模態大型語言模型（MLLM）中，來評估該系統的性能。該系統的核心是一個多模態大型語言模型，能夠處理和生成多種模態的數據。此外，研究團隊還設計了一系列實驗，以評估該系統在不同任務中的表現，包括情感識別和問答任務。
?? 實驗設計：研究團隊在多個公開數據集上進行了實驗，包括MELD、IEMOCAP和CoQA數據集。實驗設計了不同的輸入處理方式，如僅關注文本、僅關注圖像、同時關注文本和圖像等，以及特殊指令，如將任務視為分類任務、選擇情感等，以全面評估系統的性能。實驗結果表明，該系統在情感識別和問答任務中均優于其他大型語言模型。

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

?? 論文標題：WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
?? 論文作者：Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin
?? 研究機構: Shanghai AI Laboratory
?? 問題背景：隨著ChatGPT和GPT-4等大型模型的興起，大規模語言模型（LLMs）和多模態大型語言模型（MLLMs）的發展顯著加速。這些模型的卓越性能得益于高質量的數據。然而，由于訓練數據的細節通常保密，加上開源數據的稀缺，這阻礙了社區的進一步發展。為應對這一挑戰，本文介紹了“Wan Juan”，一個包含中文和英文數據的大型多模態數據集，數據來源廣泛，總容量超過2TB。
?? 研究動機：為了促進大型語言模型和多模態模型的發展，研究團隊構建了“Wan Juan”數據集，旨在提供一個高質量、多模態的數據資源，以支持模型訓練和多模態任務的研究。該數據集不僅包括文本數據，還包括圖像-文本和視頻數據，覆蓋了多個領域，確保了數據的多樣性和高質量。
?? 方法簡介：研究團隊從多個來源收集、處理和篩選了文本、圖像-文本和視頻數據。文本數據涵蓋了科技、文學、媒體、教育和法律等多個領域；圖像-文本數據涵蓋了新聞事件、人物、自然景觀和社會生活等多個領域；視頻數據涵蓋了軍事、藝術、體育、自然、現實世界、知識、電影藝術、媒體、食品、歷史、科學和教育等多個領域。數據集的構建過程中，通過算法處理和人工驗證，確保了數據的安全性、高質量和價值一致性。
?? 實驗設計：數據集包括超過6億份文本文檔（數據存儲量超過1TB）、超過2200萬份圖像-文本文檔（數據大小超過200GB）和超過1000個視頻文件（數據大小超過900GB）。數據集的構建過程中，采用了多步驟的文本提取、語言檢測、語料庫過濾和去重等方法，以確保數據的高質量。此外，還訓練了內容安全模型和數據質量模型，以過濾有害和低質量的內容。

VIGC: Visual Instruction Generation and Correction

?? 論文標題：VIGC: Visual Instruction Generation and Correction
?? 論文作者：Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He
?? 研究機構: Shanghai AI Laboratory, SenseTime Research, The Chinese University of Hong Kong, Sun Yat-sen University
?? 問題背景：當前的多模態大語言模型（Multimodal Large Language Models, MLLMs）在視覺-語言任務中取得了顯著進展，但高質量的指令調優數據的稀缺仍然是一個挑戰。現有的方法，如LLaVA，依賴于僅語言的GPT-4生成數據，這需要預標注的圖像描述和檢測邊界框，導致對圖像細節的理解不足。此外，現有的MLLMs在生成數據時往往產生不充分的響應和虛假信息，如幻覺現象。
?? 研究動機：為了解決上述問題，研究團隊提出了視覺指令生成與校正（Visual Instruction Generation and Correction, VIGC）框架，旨在利用現有的視覺-語言模型自動生成高質量的指令調優數據，并通過迭代更新機制減少模型幻覺現象，從而提高數據質量。
?? 方法簡介：VIGC框架由兩個子模塊組成：視覺指令生成（Visual Instruction Generation, VIG）和視覺指令校正（Visual Instruction Correction, VIC）。VIG模塊負責生成與特定指令相關的視覺問答對，而VIC模塊通過迭代更新機制（Iterative Q-Former, IQF）校正VIG生成的數據，減少幻覺現象，確保數據的準確性。
?? 實驗設計：研究團隊在兩個類型的視覺-語言指令調優數據集上訓練了VIGC網絡，包括手動標注的LLaVA數據集和來自公開圖像-文本數據集的多模態指令調優數據。實驗評估了VIGC在處理相同或不同圖像域數據集（如COCO和Objects365）上的有效性。實驗結果表明，VIGC不僅彌補了僅語言數據生成方法的不足，還顯著提升了基準性能。

Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models

?? 論文標題：Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
?? 論文作者：Chi Chen, Ruoyu Qin, Fuwen Luo, Xiaoyue Mi, Peng Li, Maosong Sun, Yang Liu
?? 研究機構: 清華大學計算機科學與技術系、清華大學人工智能產業研究院、中國科學院計算技術研究所
?? 問題背景：多模態大語言模型（MLLMs）通過視覺指令調優，使大語言模型（LLMs）能夠解釋圖像，取得了顯著的成功。然而，現有的視覺指令調優方法僅利用圖像-語言指令數據來對齊語言和圖像模態，缺乏更細粒度的跨模態對齊。這導致了模型在詳細圖像理解方面的能力有限，尤其是在處理復雜場景中的特定對象時。
?? 研究動機：為了增強MLLMs的細粒度圖像理解和交互能力，研究團隊提出了位置增強的視覺指令調優（PVIT），通過集成區域級視覺編碼器，促進模型對圖像的更詳細理解。此外，研究還旨在通過構建區域級指令數據集和設計新的評估數據集，來解決細粒度多模態指令數據稀缺的問題。
?? 方法簡介：PVIT通過在現有的MLLM基礎上集成一個區域級視覺編碼器，擴展了模型的功能。該編碼器從RegionCLIP中提取區域特征，并通過線性投影層將這些特征映射到LLM的表示空間。研究團隊設計了兩階段的訓練策略，首先預訓練線性投影層以對齊區域特征，然后進行端到端的微調以支持復雜的細粒度指令。
?? 實驗設計：研究在MS COCO和GQA數據集上進行了實驗，評估了模型在對象識別和多模態推理任務上的性能。實驗設計了不同的數據生成策略，包括數據集轉換、任務特定指令數據生成和通用指令數據生成，以構建區域級指令數據集。此外，研究團隊還提出了一個新的評估數據集FineEval，專門用于評估MLLMs在遵循需要細粒度空間細節的指令方面的能力。