DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation
?? 論文標題:DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation
?? 論文作者:Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Mohammadmehdi Ataei, Hyunmin Cheong, Faez Ahmed
?? 研究機構: Massachusetts Institute of Technology (MIT), Autodesk Research, MIT Motorsports
?? 問題背景:當前的大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在處理各種任務時表現出色,尤其是在工程設計領域。然而,這些模型在處理復雜的技術文檔時仍存在局限性,尤其是在理解多模態信息(如文本、CAD圖像和工程圖紙)方面。為了評估這些模型在工程設計任務中的表現,研究團隊開發了DesignQA,這是一個新的多模態基準,旨在評估MLLMs在理解和應用工程設計要求方面的能力。
?? 研究動機:盡管MLLMs在某些工程設計任務中表現出色,但它們在處理復雜的技術文檔時仍面臨挑戰,如從文檔中提取相關規則、識別CAD圖像中的技術組件以及分析工程圖紙。為了更好地理解這些模型的局限性,并為未來的改進提供方向,研究團隊開發了DesignQA,以全面評估MLLMs在工程設計任務中的表現。
?? 方法簡介:研究團隊構建了DesignQA基準,該基準包含1451個問題,基于Formula SAE 2024規則文檔和MIT Motorsports團隊提供的CAD模型和測試數據。DesignQA分為三個部分:規則提取(Rule Extraction)、規則理解(Rule Comprehension)和規則遵守(Rule Compliance),每個部分進一步細分為具體的任務。此外,DesignQA還包含自動評估指標,以確保評估的客觀性和可重復性。
?? 實驗設計:研究團隊使用DesignQA基準評估了多個最先進的MLLMs,包括GPT-4o、GPT-4、Gemini-1.0、Claude-Opus和LLaVA-1.5。實驗設計了不同的任務,如規則提取、規則理解和規則遵守,以全面評估模型在處理多模態信息和復雜技術文檔時的能力。實驗結果表明,盡管這些模型在某些任務上表現良好,但在提取規則、識別CAD圖像中的技術組件和分析工程圖紙等方面仍存在顯著困難。這些發現強調了開發更強大的多模態模型的必要性,以更好地處理工程設計任務中的多模態信息。
LaVy: Vietnamese Multimodal Large Language Model
?? 論文標題:LaVy: Vietnamese Multimodal Large Language Model
?? 論文作者:Chi Tran, Huong Le Thanh
?? 研究機構: Hanoi University of Science and Technology
?? 問題背景:盡管大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在自然語言處理任務中展現了卓越的能力,但越南語多模態資源的缺乏限制了越南語MLLMs的發展。高質量的多模態數據集對于訓練和評估MLLMs至關重要,因為這些模型需要整合視覺和文本信息來有效執行多模態任務。
?? 研究動機:為了解決越南語多模態資源的缺乏問題,并促進越南語多模態語言理解的研究,研究團隊介紹了LaVy,這是首個越南語MLLM,并且在越南視覺語言任務中達到了最先進的性能。此外,研究團隊還提出了LaVy-Bench基準,用于評估MLLMs在越南視覺語言任務中的理解能力。
?? 方法簡介:LaVy基于LlaVA架構構建,包括視覺編碼器、MLP投影器和語言模型三個主要組件。研究團隊通過翻譯和精煉、以及合成數據的方法,構建了一個包含708K圖像-字幕對的預訓練數據集和166K高質量指令的微調數據集。訓練過程分為預訓練和微調兩個階段,分別優化跨模態投影器和整個模型。
?? 實驗設計:實驗使用了Vistral 7B作為語言模型的骨干,并使用CLIP大型視覺編碼器。預訓練階段使用708K字幕數據集訓練1個epoch,微調階段使用166K指令數據集訓練1個epoch。評估時,使用貪婪解碼生成模型的響應。LaVy在零樣本視覺問答(VQA)和野外基準測試中表現出色,顯著優于多語言基線模型mBLIP。
On Speculative Decoding for Multimodal Large Language Models
?? 論文標題:On Speculative Decoding for Multimodal Large Language Models
?? 論文作者:Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
?? 研究機構: Qualcomm AI Research
?? 問題背景:多模態大型語言模型(MLLMs)在推理過程中由于其大型語言模型(LLMs)的主干結構,面臨內存帶寬瓶頸和自回歸生成的問題,導致推理速度緩慢。本文探討了通過投機解碼(speculative decoding)來提高MLLMs推理效率的方法,特別是針對LLaVA 7B模型。
?? 研究動機:現有的研究主要集中在單模態LLMs的投機解碼上,而針對多模態模型的研究較少。本文旨在填補這一空白,通過實驗驗證投機解碼在多模態模型中的應用效果,特別是探索語言模型作為草案模型在不考慮圖像信息時的性能。
?? 方法簡介:研究團隊提出了一種使用較小的語言模型作為草案模型的投機解碼方法,該方法可以繞過圖像令牌及其相關處理組件。此外,還構建了一個包含圖像適配器的小型LLaVA草案模型,以評估其在不同任務中的表現。
?? 實驗設計:實驗在三個不同的任務上進行,包括LLaVA Instruct 150K數據集上的圖像問答、COCO數據集上的圖像描述生成以及ScienceQA數據集上的科學問題回答。實驗設計了不同階段訓練和微調的草案模型,評估了不同草案模型在不同任務中的性能,特別是內存限制下的加速比、塊效率和生成速率。
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
?? 論文標題:TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
?? 論文作者:Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
?? 研究機構: Huawei Inc.
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種多模態任務中展現了卓越的能力。然而,大多數現有的MLLMs并不適合處理文檔導向的任務,這些任務需要細粒度的圖像感知和信息壓縮。文檔圖像理解能力作為MLLMs的核心能力之一,對于實現基于MLLM的智能手機應用代理、富文本輔助閱讀等前沿應用至關重要。然而,文檔圖像具有高分辨率和高信息密度的特點,這給MLLMs帶來了兩個主要挑戰:實現文檔內容的細粒度視覺感知和高效壓縮文檔圖像信息。
?? 研究動機:盡管先前的工作在解決上述困難方面取得了一定進展,但在細粒度視覺感知和文檔信息壓縮方面仍有改進空間。此外,大多數當前的MLLMs難以在通用能力和文檔能力之間取得平衡。為了解決這些問題,研究團隊提出了TextHawk,旨在探索高效的細粒度感知方法,同時保持MLLMs的通用能力。
?? 方法簡介:TextHawk通過設計四個專用組件來實現其目標。首先,提出了一種重采樣和重新排列(ReSampling and ReArrangement, ReSA)模塊,以減少文檔文本的冗余并降低計算成本。其次,引入了可擴展的位置嵌入(Scalable Positional Embeddings, SPEs),以保持不同圖像大小的可擴展性。第三,采用查詢提案網絡(Query Proposal Network, QPN)在不同子圖像中動態初始化查詢。最后,設計了多級交叉注意力(Multi-Level Cross-Attention, MLCA)機制,以捕捉文檔圖像的層次結構和語義關系,增強細粒度視覺感知能力。
?? 實驗設計:研究團隊在多個基準數據集上進行了廣泛的實驗,包括通用和文檔導向的MLLM基準。實驗結果表明,TextHawk在文檔基準和通用基準上均取得了最先進的結果,展示了其在細粒度視覺感知和通用視覺語言能力方面的優越性。此外,研究團隊還通過Gemini Pro豐富了多模態文檔數據,以緩解指令調優數據不足的問題。
UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
?? 論文標題:UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
?? 論文作者:Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang
?? 研究機構: 北京大學深圳研究生院、快手科技
?? 問題背景:圖像美學評估(Image Aesthetic Assessment, IAA)是計算機視覺中的一個重要任務,旨在評估圖像的攝影技術和藝術手法。然而,現有的IAA方法通常局限于單一數據集或任務,限制了其通用性和廣泛應用。此外,當前的IAA方法與人類美學過程的對齊度不高,且缺乏標準化的數據格式,難以在統一架構下進行訓練。
?? 研究動機:為了更好地與人類美學對齊,研究團隊提出了一種統一的多模態圖像美學評估框架(UNIAA),包括一個多模態大語言模型(MLLM)UNIAA-LLaVA和一個全面的基準UNIAA-Bench。該框架旨在整合不同來源和格式的美學數據,并在多個美學子任務中取得良好效果。
?? 方法簡介:研究團隊采用LLaVA架構,并通過美學視覺指令調優數據進一步微調,以獲得UNIAA-LLaVA。為了構建調優數據,研究團隊提出了一種低成本的IAA數據集轉換范式(IDCP),將現有的IAA數據集轉換為適合MLLM微調的格式。UNIAA-LLaVA通過視覺編碼器的視覺感知和LLM的記憶能力,展示了強大的學習和與人類美學對齊的能力。
?? 實驗設計:研究團隊構建了UNIAA-Bench,從感知、描述和評估三個維度全面評估MLLM的美學能力。UNIAA-Bench包括三個部分:感知部分包含5354個多項選擇題,描述部分包含501個專家標注的長文本,評估部分包含4個主流的IAA數據集。實驗結果表明,UNIAA-LLaVA在所有層次的UNIAA-Bench上都表現出競爭力,尤其是在美學感知方面,甚至接近初級人類水平。