When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation
?? 論文標題:When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation
?? 論文作者:Yuli Zhou, Guolei Sun, Yawei Li, Luca Benini, Ender Konukoglu
?? 研究機構: ETH Zürich、University of Zürich、Integrated System Laboratory (ETH Zürich)、University of Bologna
?? 問題背景:視頻偽裝對象分割(VCOS)是一項具有挑戰性的任務,涉及在視頻中檢測與背景高度相似的偽裝對象。傳統的分割模型在處理偽裝對象時表現不佳,而最近的模型如SINet、SLT-Net和ZoomNeXt等雖然有所改進,但在動態偽裝場景中的表現仍有待提高。Segment Anything Model 2 (SAM2) 作為一種先進的視頻基礎模型,已經在多種任務中展現出潛力,但其在動態偽裝場景中的有效性尚未得到充分探索。
?? 研究動機:為了評估SAM2在視頻偽裝對象分割任務中的性能,并探索其在該領域的潛力,研究團隊進行了全面的評估和適應性研究。研究旨在通過不同的提示策略和模型調整,提高SAM2在偽裝對象分割中的準確性和魯棒性。
?? 方法簡介:研究團隊通過三個主要部分對SAM2進行了評估和改進:
- 零樣本能力評估:在偽裝視頻數據集上評估SAM2的自動和半監督模式下的性能,使用點擊、框和掩碼等不同提示。
- 與現有模型的結合:探索SAM2與多模態大語言模型(MLLMs)和現有VCOS方法的結合,通過提示驅動的細化提高分割準確性。
- 特定任務的微調:在MoCA-Mask數據集上對SAM2進行微調,以適應偽裝對象分割任務,提高其在特定場景中的性能。
?? 實驗設計:實驗在兩個視頻偽裝對象檢測數據集(MoCA-Mask和CAD)上進行,使用了多種評估指標(如S-measure、F-measure、MAE等)。實驗設計了不同的提示策略(點擊、框和掩碼)和提示時間(視頻的起始、中間和結束幀),以全面評估SAM2在不同條件下的表現。此外,還通過微調SAM2的參數,進一步提高了其在偽裝對象分割任務中的性能。
Enhancing Explainability in Multimodal Large Language Models Using Ontological Context
?? 論文標題:Enhancing Explainability in Multimodal Large Language Models Using Ontological Context
?? 論文作者:Jihen Amara, Birgitta K?nig-Ries, Sheeba Samuel
?? 研究機構: Friedrich Schiller University Jena、Michael Stifel Center Jena、Chemnitz University of Technology
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在多種任務中展現了卓越的能力,尤其是在圖像和文本的集成任務中,如圖像描述和視覺問答。然而,這些模型在特定領域應用中仍面臨挑戰,尤其是在準確描述和解釋特定視覺概念和類別方面,特別是在農業或醫療等特定領域。
?? 研究動機:現有的MLLMs在特定領域的知識應用方面仍存在不足,尤其是在處理領域特定任務時。研究團隊提出了一種新的框架,通過將本體知識與MLLMs結合,以提高模型在特定領域任務中的性能,特別是植物疾病圖像分類任務。該框架旨在通過本體知識增強MLLMs的語義理解和解釋能力。
?? 方法簡介:研究團隊提出了一種結合本體知識和MLLMs的新框架,用于分類植物疾病圖像。該方法首先從現有的疾病本體中提取與疾病相關的異常概念,然后通過這些概念生成提示,提供給MLLMs。MLLMs返回的異常觀察結果被轉換為OWL類定義,再通過推理器從本體中獲取相應的疾病類別,最終返回診斷結果。
?? 實驗設計:研究團隊在四個不同的水稻疾病類別(Brown Spot、Leaf Blast、Leaf Scald、Narrow Brown Spot)上進行了實驗,每個類別收集了20張圖像。實驗評估了四種領先的MLLMs(GPT-4V、Gemini-Pro-Vision、LLaVA、Claude-3)在不同概念(癥狀、顏色、形狀)識別上的性能。評估指標包括Exact Measure (EM) 和 ConceptWiseAccuracy,以衡量模型輸出與本體定義概念的對齊程度。
Surveying the MLLM Landscape: A Meta-Review of Current Surveys
?? 論文標題:Surveying the MLLM Landscape: A Meta-Review of Current Surveys
?? 論文作者:Ming Li, Keyu Chen, Ziqian Bi, Ming Liu, Benji Peng, Qian Niu, Junyu Liu, Jinlang Wang, Sen Zhang, Xuanhe Pan, Jiawei Xu, Pohsun Feng
?? 研究機構: Georgia Institute of Technology、Indiana University、Purdue University、AppCubic、Kyoto University、University of Wisconsin-Madison、Rutgers University、National Taiwan Normal University
?? 問題背景:多模態大型語言模型(Multimodal Large Language Models, MLLMs)已成為人工智能領域的重要力量,能夠處理和生成多種模態的內容,如文本、圖像、音頻和視頻。這些模型通過整合多種數據類型,超越了單模態模型的限制,實現了更全面和復雜的應用,從自主系統到醫療診斷。隨著MLLMs能力的擴展,對其性能進行全面和準確的評估變得越來越重要。
?? 研究動機:隨著MLLMs的快速發展,該領域產生了大量的調查文獻,每篇文獻都探討了這些模型的特定方面。然而,這些文獻的數量和多樣性使得研究人員和從業者難以把握該領域的當前狀態。因此,本研究旨在通過“調查的調查”(survey of surveys)來綜合現有文獻的關鍵見解,并將其組織成11個核心領域:通用、評估、安全、偏見、代理、應用、檢索增強生成(RAG)、圖、數據、持續學習和高效學習。這有助于識別主要主題、趨勢和挑戰,突出基準測試、數據集和性能指標,并為未來的研究方向提供指導。
?? 方法簡介:研究團隊綜合了58篇最新和最前沿的調查文獻,這些文獻涵蓋了MLLM領域的廣泛主題,從總體概述到具體應用和挑戰。每篇調查文獻都基于技術焦點(架構、模型、數據集)、應用(計算機視覺、醫療保健、機器人等)、安全性和偏見(模型安全、公平性、魯棒性)以及新興趨勢(未來方向)進行了分析。
?? 實驗設計:研究沒有進行具體的實驗設計,而是通過對現有文獻的綜合分析,識別了MLLM領域的關鍵主題、趨勢和挑戰。研究團隊詳細比較了不同調查文獻的貢獻和方法,并考察了它們在學術界的影響。此外,研究還識別了MLLM研究中的新興趨勢和未充分探索的領域,提出了未來研究的潛在方向。
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
?? 論文標題:CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
?? 論文作者:Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
?? 研究機構: The Chinese University of Hong Kong, Shanghai AI Laboratory, Schoow University
?? 問題背景:對比語言-圖像預訓練(CLIP)模型在多模態智能中扮演了重要角色,但其在編碼過程中存在顯著的信息損失,尤其是在處理視覺細節豐富的圖像時。這種信息損失限制了單個CLIP模型的性能,尤其是在作為多模態大語言模型(MLLMs)的視覺編碼器時。
?? 研究動機:為了克服CLIP模型在信息編碼上的局限性,研究團隊提出了一種新的方法——Diversified Multiplet Upcycling (DMU),通過將多個CLIP模型集成到一個混合專家(MoE)架構中,以捕捉多樣化的、互補的信息,從而提高模型的性能和效率。
?? 方法簡介:研究團隊首先使用多階段對比學習(MCL)對基礎CLIP模型進行多階段微調,生成一系列捕捉不同信息的CLIP模型。這些模型共享所有參數,除了前饋網絡(FFN)層。然后,這些FFN層被用作MoE模型的專家,初始化一個CLIP-MoE模型。最后,通過微調CLIP-MoE中的路由器,確保所有專家的有效利用,從而捕捉更豐富和有用的信息。
?? 實驗設計:研究團隊在兩個高質量的圖像-文本數據集(Recap-DataComp-1M和ShareGPT4V)上進行了實驗,評估了CLIP-MoE在零樣本圖像-文本檢索、零樣本圖像分類任務以及作為MLLMs視覺編碼器時的性能。實驗結果表明,CLIP-MoE在這些任務上顯著優于基礎CLIP模型和其他基線方法,同時計算成本較低。
Visual Question Decomposition on Multimodal Large Language Models
?? 論文標題:Visual Question Decomposition on Multimodal Large Language Models
?? 論文作者:Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
?? 研究機構: Technical University of Munich, Amazon Web Services, LMU Munich, Munich Center for Machine Learning, MBZUAI, University of Oxford
?? 問題背景:復雜問題的回答需要隱含的多步驟推理,而問題分解(Question Decomposition, QD)是一種有效的策略,可以提高大型語言模型(LLMs)在回答復雜問題時的表現。然而,現有的研究主要集中在單模態語言模型上,而多模態大型語言模型(MLLMs)在視覺問題分解(Visual Question Decomposition, VQD)方面的能力尚未得到充分探索。
?? 研究動機:盡管一些最近的研究開始探索視覺問答(VQA)任務中的問題分解,但這些研究主要依賴于圖像的文本描述,而不是直接利用圖像信息,這可能導致信息丟失。本研究旨在系統地調查MLLMs在VQD方面的能力,評估現有MLLMs生成的子問題的質量,并提出方法來增強MLLMs的VQD能力。
?? 方法簡介:研究團隊提出了一種系統性的評估框架,包括一個評估數據集和多個評估標準,用于評估MLLMs生成的子問題的質量。此外,研究團隊還構建了一個專門用于VQD的微調數據集DecoVQA,以及一個升級版數據集DecoVQA+,后者包含了一個額外的問答輪次,用于訓練模型在面對不同難度的問題時決定是否進行問題分解。
?? 實驗設計:研究團隊在A-OKVQA和VQA-Introspect兩個數據集上進行了實驗,評估了多個MLLMs在VQD任務上的表現。實驗設計了不同的評估標準,包括非重復性、相關性和可驗證性,以全面評估模型生成的子問題的質量。此外,研究團隊還通過DecoVQA+數據集對MLLMs進行了微調,并通過一個結合了下一個詞預測損失(NTP loss)和二元交叉熵損失(BCE loss)的訓練目標,進一步提高了模型在選擇性問題分解方面的能力。