FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings
?? 論文標題:FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings
?? 論文作者:Zhen Wang, Da Li, Yulin Su, Min Yang, Minghui Qiu, Walton Wang
?? 研究機構: ByteDance Inc.
?? 問題背景:當前的商標嵌入模型主要依賴于純視覺理解,忽略了文本信息對商標識別的輔助作用。這種模型在處理商標時,往往無法充分關注到圖像中的商標區域,尤其是在商標占據圖像較小面積的情況下。研究團隊提出了一種新的框架——FashionLOGO,通過利用多模態大語言模型(MLLMs)生成的文本信息,增強視覺模型對商標的嵌入能力。
?? 研究動機:現有的商標嵌入方法主要關注于視覺特征的提取,而忽視了文本信息的輔助作用。研究團隊旨在通過結合文本信息,提高視覺模型對商標區域的關注度,從而生成更通用和魯棒的商標嵌入。
?? 方法簡介:FashionLOGO框架包括三個主要模塊:視覺編碼器(提取圖像特征)、文本編碼器(生成文本信息)和表示增強模塊(融合視覺和文本特征)。研究團隊使用了LLaVA生成三種類型的文本信息(OCR文本、簡要描述和詳細描述),并通過交叉注意力機制將這些文本信息與視覺特征融合,以增強商標嵌入。
?? 實驗設計:研究團隊在Logodet3K和Open Brands兩個數據集上進行了訓練,并在多個基準數據集上進行了評估,包括Open Brands、Logo-2K+和IPRLogo。實驗結果表明,FashionLOGO在所有基準測試中均表現出色,特別是在跨域泛化能力方面,相比其他基線模型有顯著提升。
Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems
?? 論文標題:Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems
?? 論文作者:Zeinab Sadat Taghavi, Soroush Gooran, Seyed Arshan Dalili, Hamidreza Amirzadeh, Mohammad Jalal Nematbakhsh, Hossein Sameti
?? 研究機構: Sharif University of Technology
?? 問題背景:當前的大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在自然語言處理任務中表現出色,但主要局限于文本模態。研究團隊提出了一種新的AI系統,該系統通過引入一個受想象力啟發的模塊,能夠將文本輸入轉化為圖像,從而豐富了從文本中提取的信息,并生成了獨立的感知,這種感知可能與人類的感知不同但同樣有效。
?? 研究動機:現有的AI系統在處理多模態數據時,通常依賴于用戶提供的多模態數據。為了打破這一限制,研究團隊設計了一個能夠自動生成其他模態數據的系統,從而在不依賴用戶提供的多模態數據的情況下,實現對多種數據類型的處理、生成和整合。此外,該系統還借鑒了哲學和心理分析中的想象力概念,旨在使AI系統能夠生成深刻且有意義的信息。
?? 方法簡介:研究團隊提出了一種系統的方法,通過將文本輸入轉化為圖像,然后將文本和圖像一起輸入到多模態大型語言模型(MLLM)中,來評估該系統的性能。該系統的核心是一個多模態大型語言模型,能夠處理和生成多種模態的數據。此外,研究團隊還設計了一系列實驗,以評估該系統在不同任務中的表現,包括情感識別和問答任務。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括MELD、IEMOCAP和CoQA數據集。實驗設計了不同的輸入處理方式,如僅關注文本、僅關注圖像、同時關注文本和圖像等,以及特殊指令,如將任務視為分類任務、選擇情感等,以全面評估系統的性能。實驗結果表明,該系統在情感識別和問答任務中均優于其他大型語言模型。
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
?? 論文標題:WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
?? 論文作者:Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin
?? 研究機構: Shanghai AI Laboratory
?? 問題背景:隨著ChatGPT和GPT-4等大型模型的興起,大規模語言模型(LLMs)和多模態大型語言模型(MLLMs)的發展顯著加速。這些模型的卓越性能得益于高質量的數據。然而,由于訓練數據的細節通常保密,加上開源數據的稀缺,這阻礙了社區的進一步發展。為應對這一挑戰,本文介紹了“Wan Juan”,一個包含中文和英文數據的大型多模態數據集,數據來源廣泛,總容量超過2TB。
?? 研究動機:為了促進大型語言模型和多模態模型的發展,研究團隊構建了“Wan Juan”數據集,旨在提供一個高質量、多模態的數據資源,以支持模型訓練和多模態任務的研究。該數據集不僅包括文本數據,還包括圖像-文本和視頻數據,覆蓋了多個領域,確保了數據的多樣性和高質量。
?? 方法簡介:研究團隊從多個來源收集、處理和篩選了文本、圖像-文本和視頻數據。文本數據涵蓋了科技、文學、媒體、教育和法律等多個領域;圖像-文本數據涵蓋了新聞事件、人物、自然景觀和社會生活等多個領域;視頻數據涵蓋了軍事、藝術、體育、自然、現實世界、知識、電影藝術、媒體、食品、歷史、科學和教育等多個領域。數據集的構建過程中,通過算法處理和人工驗證,確保了數據的安全性、高質量和價值一致性。
?? 實驗設計:數據集包括超過6億份文本文檔(數據存儲量超過1TB)、超過2200萬份圖像-文本文檔(數據大小超過200GB)和超過1000個視頻文件(數據大小超過900GB)。數據集的構建過程中,采用了多步驟的文本提取、語言檢測、語料庫過濾和去重等方法,以確保數據的高質量。此外,還訓練了內容安全模型和數據質量模型,以過濾有害和低質量的內容。
VIGC: Visual Instruction Generation and Correction
?? 論文標題:VIGC: Visual Instruction Generation and Correction
?? 論文作者:Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He
?? 研究機構: Shanghai AI Laboratory, SenseTime Research, The Chinese University of Hong Kong, Sun Yat-sen University
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在視覺-語言任務中取得了顯著進展,但高質量的指令調優數據的稀缺仍然是一個挑戰。現有的方法,如LLaVA,依賴于僅語言的GPT-4生成數據,這需要預標注的圖像描述和檢測邊界框,導致對圖像細節的理解不足。此外,現有的MLLMs在生成數據時往往產生不充分的響應和虛假信息,如幻覺現象。
?? 研究動機:為了解決上述問題,研究團隊提出了視覺指令生成與校正(Visual Instruction Generation and Correction, VIGC)框架,旨在利用現有的視覺-語言模型自動生成高質量的指令調優數據,并通過迭代更新機制減少模型幻覺現象,從而提高數據質量。
?? 方法簡介:VIGC框架由兩個子模塊組成:視覺指令生成(Visual Instruction Generation, VIG)和視覺指令校正(Visual Instruction Correction, VIC)。VIG模塊負責生成與特定指令相關的視覺問答對,而VIC模塊通過迭代更新機制(Iterative Q-Former, IQF)校正VIG生成的數據,減少幻覺現象,確保數據的準確性。
?? 實驗設計:研究團隊在兩個類型的視覺-語言指令調優數據集上訓練了VIGC網絡,包括手動標注的LLaVA數據集和來自公開圖像-文本數據集的多模態指令調優數據。實驗評估了VIGC在處理相同或不同圖像域數據集(如COCO和Objects365)上的有效性。實驗結果表明,VIGC不僅彌補了僅語言數據生成方法的不足,還顯著提升了基準性能。
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
?? 論文標題:Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
?? 論文作者:Chi Chen, Ruoyu Qin, Fuwen Luo, Xiaoyue Mi, Peng Li, Maosong Sun, Yang Liu
?? 研究機構: 清華大學計算機科學與技術系、清華大學人工智能產業研究院、中國科學院計算技術研究所
?? 問題背景:多模態大語言模型(MLLMs)通過視覺指令調優,使大語言模型(LLMs)能夠解釋圖像,取得了顯著的成功。然而,現有的視覺指令調優方法僅利用圖像-語言指令數據來對齊語言和圖像模態,缺乏更細粒度的跨模態對齊。這導致了模型在詳細圖像理解方面的能力有限,尤其是在處理復雜場景中的特定對象時。
?? 研究動機:為了增強MLLMs的細粒度圖像理解和交互能力,研究團隊提出了位置增強的視覺指令調優(PVIT),通過集成區域級視覺編碼器,促進模型對圖像的更詳細理解。此外,研究還旨在通過構建區域級指令數據集和設計新的評估數據集,來解決細粒度多模態指令數據稀缺的問題。
?? 方法簡介:PVIT通過在現有的MLLM基礎上集成一個區域級視覺編碼器,擴展了模型的功能。該編碼器從RegionCLIP中提取區域特征,并通過線性投影層將這些特征映射到LLM的表示空間。研究團隊設計了兩階段的訓練策略,首先預訓練線性投影層以對齊區域特征,然后進行端到端的微調以支持復雜的細粒度指令。
?? 實驗設計:研究在MS COCO和GQA數據集上進行了實驗,評估了模型在對象識別和多模態推理任務上的性能。實驗設計了不同的數據生成策略,包括數據集轉換、任務特定指令數據生成和通用指令數據生成,以構建區域級指令數據集。此外,研究團隊還提出了一個新的評估數據集FineEval,專門用于評估MLLMs在遵循需要細粒度空間細節的指令方面的能力。