多模態大語言模型arxiv論文略讀(五十)

請添加圖片描述

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

?? 論文標題:Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
?? 論文作者:Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang
?? 研究機構: 同濟大學、北京大學
?? 問題背景:多模態大型語言模型(MLLMs)在各種視覺-語言任務中表現出色。然而,這些模型容易出現視覺幻覺,即生成的響應與提供的圖像不符。視覺幻覺可能表現為生成沖突或虛構的內容,或忽略關鍵的視覺細節。
?? 研究動機:研究發現,MLLMs在視覺幻覺時可能并非完全忽視準確的視覺線索,而是對準確和錯誤的內容都有一定的支持。為了減少視覺幻覺,研究團隊提出了一種新的方法Pensieve,該方法通過回顧相似圖像作為參考,并通過比較這些參考圖像與測試圖像的置信度分數來識別準確的視覺線索。
?? 方法簡介:Pensieve是一種無需訓練的方法,通過構建一個包含多種視覺概念的參考數據庫,使MLLMs能夠回顧相關圖像。具體來說,Pensieve在推理過程中使MLLMs能夠回顧與測試圖像具有相似語義和外觀的圖像,并通過置信度分數的對比來突出準確的候選詞。
?? 實驗設計:研究團隊在四個基準數據集上進行了實驗,包括Whoops、LLaVA Bench、POPE和MME。實驗結果表明,Pensieve在減少視覺幻覺方面優于其他先進的解碼策略,顯著提高了FaithScore和總分。此外,Pensieve還幫助MLLMs識別圖像中的視覺細節,增強了生成的圖像描述的特異性。

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

?? 論文標題:MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
?? 論文作者:Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
?? 研究機構: CUHK MMLab、Shanghai Artificial Intelligence Laboratory、University of California, Los Angeles
?? 問題背景:多模態大語言模型(MLLMs)在視覺上下文中表現出色,但其在解決涉及圖表的數學問題方面的能力尚未得到充分評估和理解。當前的基準測試中,文本問題中包含過多的視覺內容,這可能幫助MLLMs在不真正解釋輸入圖表的情況下推導出答案。
?? 研究動機:研究團隊發現,現有的數學基準測試在評估MLLMs的視覺數學問題解決能力時存在三個主要問題:1) MLLMs是否真正看到了數學圖表;2) 僅通過最終答案評估是否公平;3) 是否專門針對數學推理評估。為了解決這些問題,研究團隊引入了MATHVERSE,一個全面的視覺數學基準,旨在公平和深入地評估MLLMs的多模態數學推理能力。
?? 方法簡介:MATHVERSE包含2,612個高質量的多學科數學問題,每個問題由人類注釋者轉換成六個不同版本,每個版本提供不同程度的多模態信息,總共生成15,000個測試樣本。研究團隊還提出了一個Chain-of-Thought (CoT) 評估策略,通過GPT-4提取和評估每個關鍵推理步驟,提供詳細的錯誤分析。
?? 實驗設計:研究團隊在MATHVERSE上對流行的閉源和開源MLLMs進行了廣泛的實驗。實驗設計了不同版本的問題,以評估MLLMs在不同信息內容下的表現。實驗結果表明,大多數現有的MLLMs在解決數學問題時依賴于文本信息,而不是視覺圖表。GPT-4V和ShareGPT4V在視覺內容理解方面表現較好,而其他一些模型在沒有視覺輸入的情況下表現更好。

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

?? 論文標題:Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
?? 論文作者:Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
?? 研究機構: Xiamen University (Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Institute of Artificial Intelligence)
?? 問題背景:多模態大型語言模型(MLLMs)在學術界和工業界引起了廣泛關注。然而,這些模型在下游任務應用中不僅需要更新大量參數,還消耗了過多的計算資源。因此,如何在保持模型性能的同時,減少參數和計算開銷,成為了一個重要的研究課題。
?? 研究動機:現有的研究已經提出了一些參數和計算高效的調優方法,但這些方法在減少參數和計算開銷方面仍有改進空間。特別是,多頭注意力機制(MHAs)在MLLMs中占據了主要的計算資源,但這些注意力機制在特定任務中往往是冗余的。因此,研究團隊提出了一種新的方法,通過有效跳過多余的注意力機制,來提高模型的效率和性能。
?? 方法簡介:研究團隊提出了一種名為有效注意力跳過(EAS)的新方法。EAS首先評估MLLMs中MHAs的冗余性,并跳過多余的MHAs以加速推理。此外,EAS還引入了一種新的傳播信息適配器(PIA),該適配器不僅可以在跳過MHAs時保持參數效率,還可以在推理時重新參數化為前饋網絡(FFNs),從而實現零額外延遲。
?? 實驗設計:研究團隊將EAS應用于最近提出的MLLM LaVIN,并在ScienceQA等多個視覺-語言基準數據集上進行了廣泛的實驗。實驗設計了不同的參數和計算效率評估指標,以全面評估EAS在減少參數更新規模和加速推理速度方面的效果。實驗結果表明,EAS不僅能夠保持LaVIN的高性能,還能顯著減少參數更新規模并加速推理速度。例如,LaVIN-EAS在ScienceQA上的準確率達到了89.98%,同時推理速度提高了2.2倍。

Elysium: Exploring Object-level Perception in Videos via MLLM

?? 論文標題:Elysium: Exploring Object-level Perception in Videos via MLLM
?? 論文作者:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
?? 研究機構: ByteDance Inc.
?? 問題背景:多模態大語言模型(MLLMs)在處理靜態圖像中的對象感知任務方面表現出色,但在視頻相關任務中的應用,如對象跟蹤,仍處于研究初期。主要挑戰包括需要大規模視頻數據集進行預訓練以理解跨幀關系,以及在大語言模型(LLMs)的上下文窗口中處理大量幀帶來的計算負擔。
?? 研究動機:為了克服上述挑戰,研究團隊構建了一個大規模視頻數據集ElysiumTrack-1M,并提出了一種視覺令牌壓縮網絡T-Selector,旨在提高MLLMs在視頻對象感知任務中的性能,同時減少計算負擔。
?? 方法簡介:研究團隊構建了ElysiumTrack-1M數據集,包含127萬個標注視頻幀及其對應的對象框和描述,支持單對象跟蹤(SOT)、指代單對象跟蹤(RSOT)和視頻指代表達生成(Video-REG)任務。此外,他們提出了Elysium模型,結合了視覺編碼器、大語言模型(LLM)和T-Selector,以實現對象級別的視頻任務。
?? 實驗設計:實驗在多個數據集上進行,包括圖像接地(Image Grounding)和視頻問答(VideoQA)任務。實驗設計了不同的任務類型,如SOT、RSOT和Video-REG,以全面評估Elysium在不同任務中的表現。實驗結果表明,Elysium在圖像接地和視頻問答任務中均達到了最先進的性能。

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

?? 論文標題:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
?? 論文作者:Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
?? 研究機構: The Chinese University of Hong Kong、SenseTime Research、University of Toronto、Shanghai Artificial Intelligence Laboratory、CPII under InnoHK
?? 問題背景:多模態大語言模型(MLLMs)在各種視覺問答任務中表現出色,但它們在處理復雜視覺輸入時往往缺乏解釋性和準確性,尤其是在輸入圖像分辨率高或關鍵信息區域較小時。此外,現有的MLLMs和相關基準主要基于靜態圖像上下文輸入,缺乏對特定局部區域的動態關注能力。
?? 研究動機:為了提高MLLMs的解釋性和準確性,研究團隊開發了一個大規模的視覺鏈式思維(Visual CoT)數據集,包含438,000個問題-答案對,每個對都標注了關鍵區域的邊界框。此外,約98,000個問題-答案對還包含詳細的推理步驟。研究團隊還提出了一種多輪處理管道,旨在動態關注視覺輸入并提供可解釋的中間思考過程。
?? 方法簡介:研究團隊構建了一個名為VisCoT的框架,該框架通過在問題中添加鏈式思維提示,要求模型識別圖像中最關鍵的區域并生成其邊界框。在訓練階段,使用真實邊界框提取視覺信息,而不是預測的邊界框。視覺采樣器從原始圖像中提取包含詳細信息的局部圖像,視覺編碼器和投影器提取視覺標記,MLLMs則整合來自原始圖像和局部圖像的視覺標記,以提供更精確和全面的答案。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括文本/文檔、細粒度理解、圖表、通用VQA和關系推理等五個領域。實驗評估了不同模型在不同任務中的表現,特別是在需要關注特定局部區域或原因以識別對象的場景中。實驗結果表明,VisCoT框架顯著提高了MLLMs的性能和解釋性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/77972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/77972.shtml
英文地址,請注明出處:http://en.pswp.cn/web/77972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

智能駕駛新時代:NVIDIA高級輔助駕駛引領未來出行安全

智能駕駛新時代:NVIDIA高級輔助駕駛引領未來出行安全 在全球汽車產業數字化轉型的時代潮流中,高級輔助駕駛技術已逐漸成為推動產業革新的核心動力。作為這一領域的領導者之一,NVIDIA通過其先進的技術解決方案,正在積極塑造未來的…

總結小程序的坑

小程序中的wxss中 background不能使用本地圖片 解決方法: 使用 Base64 編碼(適合小圖片)使用網絡圖片, 網絡圖片需要用https用 image 標簽替代 分包的圖片主包不能使用,這是分包中的圖片資源默認不能被主包或其他分包直…

供應鏈管理-國際結算:本幣互換 / 數字貨幣橋 / 我國在沙特發行美債

一、本幣互換 本幣互換(Local Currency Swap)是指兩國(或地區)的央行(貨幣當局)簽訂協議,約定在一定條件下,任何一方可以一定數量的本幣交換等值的對方貨幣,用于雙邊貿易…

湖北理元理律師事務所:從法律視角看債務優化的合規實踐

在債務糾紛高發的社會背景下,法律服務機構如何通過合規手段幫助債務人實現債務優化,成為公眾關注的議題。湖北理元理律師事務所作為經國家司法局注冊登記的債事服務機構,其服務模式與成果為行業提供了可參考的樣本。 服務框架:法…

免費在Colab運行Qwen3-0.6B——輕量高性能實戰

Qwen一直在默默地接連推出新模型。 每個模型都配備了如此強大的功能和高度量化的規模,讓人無法忽視。 繼今年的QvQ、Qwen2.5-VL和Qwen2.5-Omni之后,Qwen團隊現在發布了他們最新的模型系列——Qwen3。 這次他們不是發布一個而是發布了八個不同的模型——參數范圍從6億到235…

【Java】打印運行環境中某個類引用的jar版本路徑

背景 正式環境出現jar版本不匹配問題,不知道正式環境用的哪個jar版本。通過一下可以打印出類調用的jar // 獲取 POIFSFileSystem 類的加載器并打印其來源路徑 ClassLoader classloaderPOIFS org.apache.poi.poifs.filesystem.POIFSFileSystem.class.getClassLoade…

Python生活手冊-元組:保險柜與瑞士軍刀

一、元組的本質:數據世界的保險柜 Python元組就像銀行金庫里的??智能保險箱??,一旦存放物品就會自動焊死箱門。當你把結婚戒指和房產證放進保險箱后,任何人都無法替換或破壞這些物品,只能通過特定窗口查看內容。 # 創建家庭…

dameng-mcp-server達夢MCP服務

達夢數據庫手寫MCP服務 文件名稱 server.py 源代碼 參考mysql-mcp-server寫的dameng數據庫版本的 點擊訪問mysql-mcp-server的github倉庫 mcp服務端 import asyncio import logging import os import sys from dmPython import connect from mcp.server import Server from mc…

IntelliJ IDEA 內存優化

優化插件使用 1)卸載不必要插件:進入 “設置”→“插件”→“已安裝”,查看并卸載不常用的插件,如代碼分析、代碼覆蓋率等不常用的插件,只保留必要的插件。2)定期清理與更新插件:定期檢查插件更…

TCL中環深化全球布局,技術迭代應對行業調整

在全球能源轉型加速與光伏行業深度調整的雙重背景下,TCL中環憑借前瞻性的全球化布局與核心技術突破,持續鞏固行業領先地位。2024年年報顯示,報告期內實現營業收入284.19億元,凈利潤為-108.06億元。面對行業周期性虧損與產業鏈價格非理性競爭帶來的業績壓力,公司自2024年下半年起…

dubbo 異步化實踐

DubboService public class AsyncOrderFacadeImpl implements AsyncOrderFacade {private Logger logger LoggerFactory.getLogger(AsyncOrderFacadeImpl.class);// 構建線程池ThreadPoolExecutor threadPoolExecutor new ThreadPoolExecutor(1000, 1000, 10, TimeUnit.SECOND…

CSS3布局方式介紹

CSS3布局方式介紹 CSS3布局(Layout)系統是現代網頁設計中用于構建頁面結構和控制元素排列的一組強大工具。CSS3提供了多種布局方式,每種方式都有其適用場景,其中最常用的是Flexbox和CSS Grid。 先看傳統上幾種布局方式,再較詳細的介紹現代布局方式Flexbox和CSS Grid。 傳…

MoonBit支持國產芯片開發--性能媲美C

MoonBit支持國產芯片開發–性能媲美C 在 ESP32-C3 上實現生命游戲 過去,我們曾在文章《硬件實現:在ESP32-C6單片機上運行MoonBit WASM-4小游戲》中,展示了如何通過 WebAssembly (WASM) 將 MoonBit 程序移植到物理硬件,初步探索其…

【RAG 框架部署】LangChain-Chatchat (原 Langchain-ChatGLM) + Ollama

目錄 前言 一、什么是RAG? 二、環境準備和Ollama搭建 1、conda虛擬環境配置 2、Ollama搭建 三、LangChain-Chatchat搭建 1、框架安裝 2、文件配置 3、初始化知識庫 4、啟動Langchan-Chatchat 前言 由于LangChain-Chatchat的 0.3.0 版本已修改為支持不同模…

python對接馬來西亞股票完整代碼

StockTV全球股票數據API對接實戰:構建智能金融分析系統 一、StockTV API核心功能解析 StockTV作為覆蓋200國家證券市場的數據平臺,其API提供三大核心模塊的對接能力: 市場列表查詢 - 獲取指定國家的股票基礎數據個股詳情檢索 - 查詢實時行情…

普通IT的股票交易成長史--20250430晚

聲明:本文章的內容只是自己學習的總結,不構成投資建議。文中觀點基本來自yt站Andylee,美股Alpha姐,綜合自己的觀點得出。感謝他們的無私分享。 送給自己的話: 倉位就是生命,絕對不能滿倉!&…

windows 下 oracle 數據庫的備份與還原

1、備份 創建備份出來的文件存放的位置。 創建目錄對象,在數據庫中創建一個目錄對象,該對象指向文件系統中用于存儲導出文件的實際目錄( sql 命令,可以在 plsql 中執行)。 -- 創建目錄對象,\D:\Oracle19c\…

基于單片機的智能藥盒系統

標題:基于單片機的智能藥盒系統 內容:1.摘要 本文聚焦于基于單片機的智能藥盒系統。背景方面,隨著人口老齡化加劇,老年人按時準確服藥問題愈發凸顯,同時現代快節奏生活也使人們容易遺忘服藥時間。目的是設計并實現一個能幫助人們按時、按量服…

“100% 成功的 PyTorch CUDA GPU 支持” 安裝攻略

#工作記錄 一、總述 在深度學習領域,PyTorch 憑借其靈活性和強大的功能,成為了眾多開發者和研究者的首選框架。而 CUDA GPU 支持能夠顯著加速 PyTorch 的計算過程,大幅提升訓練和推理效率。然而,安裝帶有 CUDA GPU 支持的 PyTor…

圖數據庫榜單網站

圖數據庫榜單 https://db-engines.com/en/ranking/graphdbms點擊跳轉