Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
?? 論文標題:Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
?? 論文作者:Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang
?? 研究機構: 同濟大學、北京大學
?? 問題背景:多模態大型語言模型(MLLMs)在各種視覺-語言任務中表現出色。然而,這些模型容易出現視覺幻覺,即生成的響應與提供的圖像不符。視覺幻覺可能表現為生成沖突或虛構的內容,或忽略關鍵的視覺細節。
?? 研究動機:研究發現,MLLMs在視覺幻覺時可能并非完全忽視準確的視覺線索,而是對準確和錯誤的內容都有一定的支持。為了減少視覺幻覺,研究團隊提出了一種新的方法Pensieve,該方法通過回顧相似圖像作為參考,并通過比較這些參考圖像與測試圖像的置信度分數來識別準確的視覺線索。
?? 方法簡介:Pensieve是一種無需訓練的方法,通過構建一個包含多種視覺概念的參考數據庫,使MLLMs能夠回顧相關圖像。具體來說,Pensieve在推理過程中使MLLMs能夠回顧與測試圖像具有相似語義和外觀的圖像,并通過置信度分數的對比來突出準確的候選詞。
?? 實驗設計:研究團隊在四個基準數據集上進行了實驗,包括Whoops、LLaVA Bench、POPE和MME。實驗結果表明,Pensieve在減少視覺幻覺方面優于其他先進的解碼策略,顯著提高了FaithScore和總分。此外,Pensieve還幫助MLLMs識別圖像中的視覺細節,增強了生成的圖像描述的特異性。
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
?? 論文標題:MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
?? 論文作者:Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
?? 研究機構: CUHK MMLab、Shanghai Artificial Intelligence Laboratory、University of California, Los Angeles
?? 問題背景:多模態大語言模型(MLLMs)在視覺上下文中表現出色,但其在解決涉及圖表的數學問題方面的能力尚未得到充分評估和理解。當前的基準測試中,文本問題中包含過多的視覺內容,這可能幫助MLLMs在不真正解釋輸入圖表的情況下推導出答案。
?? 研究動機:研究團隊發現,現有的數學基準測試在評估MLLMs的視覺數學問題解決能力時存在三個主要問題:1) MLLMs是否真正看到了數學圖表;2) 僅通過最終答案評估是否公平;3) 是否專門針對數學推理評估。為了解決這些問題,研究團隊引入了MATHVERSE,一個全面的視覺數學基準,旨在公平和深入地評估MLLMs的多模態數學推理能力。
?? 方法簡介:MATHVERSE包含2,612個高質量的多學科數學問題,每個問題由人類注釋者轉換成六個不同版本,每個版本提供不同程度的多模態信息,總共生成15,000個測試樣本。研究團隊還提出了一個Chain-of-Thought (CoT) 評估策略,通過GPT-4提取和評估每個關鍵推理步驟,提供詳細的錯誤分析。
?? 實驗設計:研究團隊在MATHVERSE上對流行的閉源和開源MLLMs進行了廣泛的實驗。實驗設計了不同版本的問題,以評估MLLMs在不同信息內容下的表現。實驗結果表明,大多數現有的MLLMs在解決數學問題時依賴于文本信息,而不是視覺圖表。GPT-4V和ShareGPT4V在視覺內容理解方面表現較好,而其他一些模型在沒有視覺輸入的情況下表現更好。
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
?? 論文標題:Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
?? 論文作者:Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
?? 研究機構: Xiamen University (Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Institute of Artificial Intelligence)
?? 問題背景:多模態大型語言模型(MLLMs)在學術界和工業界引起了廣泛關注。然而,這些模型在下游任務應用中不僅需要更新大量參數,還消耗了過多的計算資源。因此,如何在保持模型性能的同時,減少參數和計算開銷,成為了一個重要的研究課題。
?? 研究動機:現有的研究已經提出了一些參數和計算高效的調優方法,但這些方法在減少參數和計算開銷方面仍有改進空間。特別是,多頭注意力機制(MHAs)在MLLMs中占據了主要的計算資源,但這些注意力機制在特定任務中往往是冗余的。因此,研究團隊提出了一種新的方法,通過有效跳過多余的注意力機制,來提高模型的效率和性能。
?? 方法簡介:研究團隊提出了一種名為有效注意力跳過(EAS)的新方法。EAS首先評估MLLMs中MHAs的冗余性,并跳過多余的MHAs以加速推理。此外,EAS還引入了一種新的傳播信息適配器(PIA),該適配器不僅可以在跳過MHAs時保持參數效率,還可以在推理時重新參數化為前饋網絡(FFNs),從而實現零額外延遲。
?? 實驗設計:研究團隊將EAS應用于最近提出的MLLM LaVIN,并在ScienceQA等多個視覺-語言基準數據集上進行了廣泛的實驗。實驗設計了不同的參數和計算效率評估指標,以全面評估EAS在減少參數更新規模和加速推理速度方面的效果。實驗結果表明,EAS不僅能夠保持LaVIN的高性能,還能顯著減少參數更新規模并加速推理速度。例如,LaVIN-EAS在ScienceQA上的準確率達到了89.98%,同時推理速度提高了2.2倍。
Elysium: Exploring Object-level Perception in Videos via MLLM
?? 論文標題:Elysium: Exploring Object-level Perception in Videos via MLLM
?? 論文作者:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
?? 研究機構: ByteDance Inc.
?? 問題背景:多模態大語言模型(MLLMs)在處理靜態圖像中的對象感知任務方面表現出色,但在視頻相關任務中的應用,如對象跟蹤,仍處于研究初期。主要挑戰包括需要大規模視頻數據集進行預訓練以理解跨幀關系,以及在大語言模型(LLMs)的上下文窗口中處理大量幀帶來的計算負擔。
?? 研究動機:為了克服上述挑戰,研究團隊構建了一個大規模視頻數據集ElysiumTrack-1M,并提出了一種視覺令牌壓縮網絡T-Selector,旨在提高MLLMs在視頻對象感知任務中的性能,同時減少計算負擔。
?? 方法簡介:研究團隊構建了ElysiumTrack-1M數據集,包含127萬個標注視頻幀及其對應的對象框和描述,支持單對象跟蹤(SOT)、指代單對象跟蹤(RSOT)和視頻指代表達生成(Video-REG)任務。此外,他們提出了Elysium模型,結合了視覺編碼器、大語言模型(LLM)和T-Selector,以實現對象級別的視頻任務。
?? 實驗設計:實驗在多個數據集上進行,包括圖像接地(Image Grounding)和視頻問答(VideoQA)任務。實驗設計了不同的任務類型,如SOT、RSOT和Video-REG,以全面評估Elysium在不同任務中的表現。實驗結果表明,Elysium在圖像接地和視頻問答任務中均達到了最先進的性能。
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
?? 論文標題:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
?? 論文作者:Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
?? 研究機構: The Chinese University of Hong Kong、SenseTime Research、University of Toronto、Shanghai Artificial Intelligence Laboratory、CPII under InnoHK
?? 問題背景:多模態大語言模型(MLLMs)在各種視覺問答任務中表現出色,但它們在處理復雜視覺輸入時往往缺乏解釋性和準確性,尤其是在輸入圖像分辨率高或關鍵信息區域較小時。此外,現有的MLLMs和相關基準主要基于靜態圖像上下文輸入,缺乏對特定局部區域的動態關注能力。
?? 研究動機:為了提高MLLMs的解釋性和準確性,研究團隊開發了一個大規模的視覺鏈式思維(Visual CoT)數據集,包含438,000個問題-答案對,每個對都標注了關鍵區域的邊界框。此外,約98,000個問題-答案對還包含詳細的推理步驟。研究團隊還提出了一種多輪處理管道,旨在動態關注視覺輸入并提供可解釋的中間思考過程。
?? 方法簡介:研究團隊構建了一個名為VisCoT的框架,該框架通過在問題中添加鏈式思維提示,要求模型識別圖像中最關鍵的區域并生成其邊界框。在訓練階段,使用真實邊界框提取視覺信息,而不是預測的邊界框。視覺采樣器從原始圖像中提取包含詳細信息的局部圖像,視覺編碼器和投影器提取視覺標記,MLLMs則整合來自原始圖像和局部圖像的視覺標記,以提供更精確和全面的答案。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括文本/文檔、細粒度理解、圖表、通用VQA和關系推理等五個領域。實驗評估了不同模型在不同任務中的表現,特別是在需要關注特定局部區域或原因以識別對象的場景中。實驗結果表明,VisCoT框架顯著提高了MLLMs的性能和解釋性。