MLLM-DataEngine: An Iterative Refinement Approach for MLLM
?? 論文標題:MLLM-DataEngine: An Iterative Refinement Approach for MLLM
?? 論文作者:Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He
?? 研究機構: Shanghai AI Laboratory
?? 問題背景:多模態大語言模型(MLLMs)在指令數據集構建和基準測試方面取得了顯著進展。然而,訓練和評估的獨立性使得當前的MLLMs難以在評估結果的指導下進一步提升能力,尤其是在人力成本相對較低的情況下。此外,現有的數據收集方法與基準測試分離,導致生成的數據針對性、質量和正確性不足。
?? 研究動機:為了解決上述問題,研究團隊提出了MLLM-DataEngine,旨在通過數據生成、模型訓練和評估的閉環系統,實現數據和模型性能的迭代提升。該系統能夠根據評估結果生成針對性更強、質量更高、正確性更好的增量數據集,從而在少量人力參與的情況下,有效提升模型能力。
?? 方法簡介:MLLM-DataEngine通過四個主要步驟實現其目標:1) 模型評估:識別模型的弱點并收集不良案例;2) 查詢構建:使用自適應不良案例采樣(ABS)模塊選擇合適的查詢圖像和上下文學習示例;3) 數據生成:利用GPT-4生成高質量的問答數據,并通過交互式提示優化(IPO)策略提高數據質量;4) 模型訓練:根據最新生成的數據對模型進行微調,并循環回到模型評估階段。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括MMBenchmark和A-OKVQA。實驗設計了不同的微調策略(如僅微調投影層和LoRA微調),以評估生成數據對模型性能的影響。實驗結果表明,MLLM-DataEngine能夠顯著提升模型性能和數據質量,尤其是在迭代過程中。
Enhancing Subtask Performance of Multi-modal Large Language Model
?? 論文標題:Enhancing Subtask Performance of Multi-modal Large Language Model
?? 論文作者:Yongqiang Zhao, Zhenyu Li, Feng Zhang, Xinhai Xu, Donghong Liu
?? 研究機構: Peking University、Academy of Military Science
?? 問題背景:多模態大型語言模型(MLLMs)通過大型語言模型(LLMs)的認知引擎處理和推斷多模態數據,成為多模態理解研究和應用的重要推動力。現有的MLLMs通常通過LLMs將任務分解為多個子任務,使用單個預訓練模型完成特定子任務,最后再通過LLMs整合所有子任務的結果以獲得最終任務結果。然而,這種方法在實際應用中難以確保每個子任務的最佳結果,從而影響整體任務的性能。
?? 研究動機:為了提高MLLMs的子任務性能,研究團隊提出了一種新方法,即利用多個預訓練模型完成同一子任務,并通過LLMs選擇最佳結果。這種方法旨在通過多模型的協同工作,提高子任務結果的準確性和可靠性,從而增強MLLMs的整體性能。
?? 方法簡介:研究團隊提出了一種系統的方法,包括任務規劃、最佳子任務結果獲取和響應生成三個部分。在任務規劃階段,模型從用戶輸入請求中識別子任務需求,并提取相關數據和上下文信息。在最佳子任務結果獲取階段,為每個子任務選擇多個預訓練模型并并行執行,通過LLMs分析和選擇最佳結果。在響應生成階段,模型整合所有子任務的最佳結果,生成最終響應。
?? 實驗設計:研究團隊在GPT-4標注數據集和人工標注數據集上進行了實驗,評估了模型在單任務、順序任務和圖任務中的性能。實驗結果表明,所提出的方法在所有任務中均顯著優于現有的HuggingGPT模型,特別是在F1分數和編輯距離等指標上表現突出。
MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
?? 論文標題:MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval
?? 論文作者:Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
?? 研究機構: The University of Glasgow, Scotland, UK
?? 問題背景:隨著多模態大語言模型(MLLMs)的規模不斷增大,針對特定任務的模型適應變得越來越具有挑戰性,主要原因是高計算和內存需求。傳統的微調方法成本高昂,需要大量的任務特定訓練。雖然存在一些高效的適應方法,但它們通常存在模態間對齊淺的問題,嚴重影響了模型的有效性。
?? 研究動機:現有的高效適應方法雖然減少了計算成本,但模態間對齊不足,導致模型在多模態任務中的表現不佳。為了克服這一問題,研究團隊提出了一種新的框架——MultiWay-Adapter(MWA),旨在通過增強模態間對齊來提高模型的適應性和有效性。
?? 方法簡介:MWA框架包含兩個核心組件:新知識提取器(New Knowledge Extractor)和模態增強器(Alignment Enhancer)。新知識提取器用于從下游任務中提取新知識,而模態增強器則通過增強模態間的對齊來提高模型的性能。MWA通過僅微調新添加的模塊,顯著減少了計算資源的消耗。
?? 實驗設計:研究團隊在兩個最先進的多模態大語言模型(BEiT-3 Base和BEiT-3 Large)上進行了實驗,使用了兩個廣泛使用的圖像-文本檢索數據集(MSCOCO和Flickr30K)。實驗設計了不同的參數設置,包括不同的中間維度和訓練參數比例,以全面評估MWA在不同條件下的性能。實驗結果表明,MWA不僅在微調性能上優于傳統的全模型微調方法,而且在零樣本性能上也表現出色,同時顯著減少了計算時間和資源消耗。
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
?? 論文標題:Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
?? 論文作者:Haoqin Tu, Bingchen Zhao, Chen Wei, Cihang Xie
?? 研究機構: University of Chinese Academy of Sciences、University of Edinburgh、Johns Hopkins University、UC Santa Cruz
?? 問題背景:多模態大型語言模型(MLLMs)在多種任務中展現了卓越的能力,尤其是在視覺-語言理解和生成任務中。然而,這些模型在純自然語言處理(NLP)任務中的表現往往被低估,且未得到充分測試。研究發現,視覺指令調優(Visual Instruction Tuning, VIT)不僅能夠提升模型的多模態能力,還能意外地增強模型在純NLP任務中的真實性和倫理一致性。
?? 研究動機:盡管多模態模型在視覺任務中表現出色,但其在純NLP任務中的表現和潛在改進尚未得到充分探索。本研究旨在通過視覺指令調優,探討多模態訓練如何影響大型語言模型(LLMs)在純NLP任務中的表現,特別是真實性和倫理一致性。
?? 方法簡介:研究團隊采用了一種系統的方法,通過多模態數據集對LLMs進行調優,包括視覺-語言連接器的訓練和LLMs的微調。實驗中使用了80k的多模態數據集,這些數據集包含圖像和文本對,用于評估模型在不同任務中的表現。
?? 實驗設計:實驗在多個基準數據集上進行,包括TruthfulQA和Ethics,以評估模型在真實性和倫理一致性方面的表現。實驗設計了不同的調優方法(如全參數微調和LoRA微調),以及不同的數據類型(如對話、細節和推理數據),以全面評估視覺指令調優對模型性能的影響。結果表明,視覺指令調優不僅能夠顯著提升模型在真實性和倫理一致性方面的表現,而且在某些情況下還能保持或提升模型在標準NLP任務中的能力。
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
?? 論文標題:Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
?? 論文作者:Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych
?? 研究機構: Ubiquitous Knowledge Processing Lab, Technical University of Darmstadt, Natural Language Processing Department, MBZUAI
?? 問題背景:大型語言模型(LLMs)在問答和推理任務中表現出色,但在情境推理中,不同文化背景下的期望可能有所不同。語言與文化緊密相連,因此多語言LLMs(mLLMs)應具備跨文化的推理能力。然而,現有研究對跨語言設置中的文化共同基礎理解不足,且在現有LLM文獻中被忽視。
?? 研究動機:研究團隊旨在通過研究mLLMs在處理諺語和俗語時的表現,探討這些模型是否嵌入了文化共同基礎的知識,以及這種知識如何影響其推理性能。此外,研究還探討了mLLMs是否能在需要理解文化共同基礎的情境中進行推理,以及在跨文化推理中是否存在文化差距。
?? 方法簡介:研究團隊構建了MAPS(MulticulturAl Proverbs and Sayings)數據集,該數據集包含來自六種不同語言的諺語和俗語,以及在對話情境中使用這些諺語的推理任務。數據集還包括二元標簽,指示諺語的使用是否具有隱喻性。通過這一數據集,研究團隊評估了多種開源mLLMs在諺語記憶和推理方面的能力。
?? 實驗設計:研究團隊設計了一系列實驗,使用MAPS數據集評估了多種開源mLLMs在諺語記憶和推理任務中的表現。實驗包括零樣本評估和少量樣本評估,以探討模型在不同語言和文化背景下的表現。此外,研究還通過機器翻譯和人工適應翻譯,評估了跨文化推理中的文化差距。