多模態大語言模型arxiv論文略讀(146)

在這里插入圖片描述

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

?? 論文標題:Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
?? 論文作者:Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Aiwei Liu, Xuming Hu
?? 研究機構: The Hong Kong University of Science and Technology (Guangzhou)、The Hong Kong University of Science and Technology、Tsinghua University
?? 問題背景:多模態大語言模型(MLLMs)在各種基準測試中展示了令人印象深刻的能力。然而,現有的基準測試中包含許多樣本,所有MLLMs在遇到誤導信息時表現出高度的響應不確定性,需要5-15次響應嘗試才能有效評估不確定性。因此,研究團隊提出了一種兩階段的管道:首先收集沒有誤導信息的MLLMs響應,然后通過特定的誤導指令收集誤導信息。通過計算誤導率,并捕捉正確到錯誤和錯誤到正確的響應轉變,可以有效度量模型的響應不確定性。
?? 研究動機:現有的研究已經揭示了MLLMs在處理高誤導率數據時表現出顯著的不確定性。為了進一步理解這些威脅,并探索其背后的原因,研究團隊全面分析了不同MLLMs在誤導信息下的性能變化,旨在為未來的安全防護提供有價值的見解和方法。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建多模態不確定性基準(MUB),來評估不同類型誤導指令對MLLMs的影響。MUB包含了一系列的基礎清潔數據、因素修改和不同目標威脅,以全面評估模型在不同條件下的表現。研究團隊還提出了顯式和隱式誤導指令的生成方法,以更全面地評估模型的響應不確定性。
?? 實驗設計:在九個公開數據集上進行了實驗,包括多模態多選題和真假題任務。實驗設計了不同因素(如誤導指令的類型、強度和位置)的變化,以及不同類型的攻擊目標(如保護性、有害性、偏見性和中性內容),以全面評估模型對誤導信息的敏感性和抗干擾能力。實驗結果表明,所有開源和閉源MLLMs都高度易受誤導指令的影響,平均誤導率超過86%。通過混合顯式和隱式誤導數據對所有開源MLLMs進行微調,顯著降低了誤導率,同時保持了模型的泛化能力。

Multimodal Commonsense Knowledge Distillation for Visual Question Answering

?? 論文標題:Multimodal Commonsense Knowledge Distillation for Visual Question Answering
?? 論文作者:Shuo Yang, Siwen Luo, Soyeon Caren Han
?? 研究機構: University of Melbourne、University of Western Australia
?? 問題背景:現有的多模態大型語言模型(MLLMs)和視覺語言預訓練模型(VLPMs)在通用視覺問答(VQA)任務中表現出色。然而,這些模型在處理需要外部常識知識的VQA問題時存在困難,主要由于生成高質量提示的挑戰和微調的高計算成本。
?? 研究動機:為了克服現有模型在處理需要外部常識知識的VQA問題時的局限性,研究團隊提出了一種基于圖的多模態常識知識蒸餾框架。該框架通過構建統一的關系圖,將常識知識、視覺對象和問題通過圖卷積網絡(GCN)進行關聯學習,旨在提高模型在VQA任務中的性能,尤其是在需要外部常識知識的情況下。
?? 方法簡介:研究團隊提出了一種多模態教師-學生知識蒸餾框架,該框架通過構建一個統一的關系圖,將圖像、問題和常識知識圖中的對象實體整合在一起,并通過GCN顯式學習它們之間的關系。學習到的圖特征被傳遞給學生模型,用于最終的答案預測。該框架可以靈活地與任何預訓練的視覺和文本編碼器結合,以實現多樣化的特征提取。
?? 實驗設計:研究團隊在ScienceQA數據集上評估了所提出的框架。實驗設計了不同大小的基線模型(包括小型MLP、中型Transformer和大型VLPMs),并在這些模型中分別測試了是否集成所提出的圖基知識蒸餾框架。實驗結果表明,無論是在小型、中型還是大型模型中,集成該框架后,模型的性能都有顯著提升,特別是在需要外部常識知識的VQA任務中。

MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

?? 論文標題:MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
?? 論文作者:Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai
?? 研究機構: HiThink Research、Imperial College London、Beihang University、Nanjing University、Fudan University
?? 問題背景:近年來,多模態基準測試在通用領域的發展迅速,推動了多模態模型在通用任務上的進步。然而,金融領域具有獨特性,包括特有的圖形圖像(如K線圖、技術指標圖)和豐富的金融知識(如期貨、換手率)。因此,通用領域的基準測試往往無法有效評估多模態模型在金融領域的表現,也無法有效指導大型金融模型的快速發展。
?? 研究動機:為了促進大型金融多模態模型的發展,研究團隊提出了MME-Finance,這是一個雙語、開放性、實用導向的視覺問答(VQA)基準測試。MME-Finance旨在評估多模態模型在金融領域的感知、推理和認知能力,通過構建反映用戶實際使用需求的圖表、根據金融領域查詢偏好創建問題,并由具有10年以上金融行業經驗的專家進行標注,確保了基準測試的質量和專業性。
?? 方法簡介:研究團隊設計了一個多層次的開放性問答任務體系,涵蓋了從基本的視覺感知任務(如OCR)到復雜的認知任務(如提供投資建議)。為了確保MME-Finance的質量,團隊精心設計了標注流程,并邀請了金融行業的專家進行詳細驗證。此外,研究團隊還開發了一個定制的金融評估系統,首次在多模態評估過程中引入了視覺信息,以提高評估性能。
?? 實驗設計:研究團隊在MME-Finance上對19個主流的多模態大語言模型(MLLMs)進行了廣泛的評估,測試了它們在感知、推理和認知方面的能力。實驗結果表明,即使在通用基準測試中表現良好的模型,在MME-Finance上的表現也不盡如人意,尤其是在與金融相關的任務上,如K線圖和技術指標圖的處理。此外,研究還發現,MLLMs在處理移動攝影相關的問題時表現較差,而這類問題是金融問答中相對高頻的使用場景。

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

?? 論文標題:StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
?? 論文作者:Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun
?? 研究機構: Tsinghua University、Institute for AI Industry Research (AIR)、Beijing University of Posts and Telecommunications
?? 問題背景:多模態大語言模型(MLLMs)在視頻理解任務中表現出色,但大多數模型主要集中在離線視頻理解上,需要處理完所有視頻幀后才能進行查詢。這與人類實時觀看、聽、思考和響應流式輸入的能力存在顯著差距,突顯了當前MLLMs的局限性。
?? 研究動機:為了評估MLLMs在流式視頻理解方面的能力,研究團隊開發了StreamingBench,這是第一個全面評估MLLMs流式視頻理解能力的基準。StreamingBench旨在評估三個核心方面:實時視覺理解、多源理解、上下文理解。通過這一基準,研究團隊希望推動MLLMs在更接近人類水平的視頻理解與交互方面的發展。
?? 方法簡介:StreamingBench包含900個視頻和4,500個人工標注的問答對,涵蓋了八個不同的視頻類別,反映了廣泛的真實場景。每個視頻包含五個問題,分別在不同的時間點提出,以模擬連續的流式場景。這些問題被分為18個任務,主要分為三個類別:實時視覺理解、多源理解、上下文理解。
?? 實驗設計:研究團隊在StreamingBench上對13個開源和專有的MLLMs進行了實驗,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。實驗設計了不同任務,如實時視覺理解、多源理解、上下文理解等,以全面評估模型在流式視頻理解任務中的表現。實驗結果顯示,即使是性能最好的模型Gemini 1.5 Pro,其平均準確率也只有67.07%,遠低于人類水平。研究團隊進一步分析了模型在實時處理、上下文理解和主動輸出等方面的表現,揭示了當前模型的不足之處。

Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education

?? 論文標題:Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education
?? 論文作者:Anand Syamkumar, Nora Tseng, Kaycie Barron, Shanglin Yang, Shamya Karumbaiah, Rheeya Uppal, Junjie Hu
?? 研究機構: Stony Brook University, University of Wisconsin-Madison
?? 問題背景:大型語言模型(LLMs)在生成教育內容、提供教師反饋和減少評估工作量方面展現出巨大潛力。然而,現有的研究主要集中在單語環境,尤其是英語環境,對于雙語或多語環境的支持有限。雙語學習者在使用語言模型時面臨的問題,如語言切換(code-switching)和多語言處理能力不足,需要進一步研究。
?? 研究動機:盡管多語言大型語言模型(MLLMs)在處理單一語言任務時表現出色,但在處理雙語或多語任務時,尤其是在語言切換方面,表現不佳。研究團隊通過評估MLLMs在單語(英語、西班牙語)和雙語(Spanglish)學生寫作評估中的表現,旨在揭示這些模型在雙語環境中的偏見,并探索通過微調等技術提高其性能的方法。
?? 方法簡介:研究團隊構建了平行的英語、西班牙語和Spanglish數據集,用于評估MLLMs在不同語言環境下的表現。通過使用合成數據生成技術,研究團隊創建了包含科學和社會科學概念的問答對,并進行了人工評估以確保數據質量。實驗設計包括零樣本、少樣本提示和微調三種方法,以評估模型在不同條件下的性能。
?? 實驗設計:實驗分為三個部分:1) 零樣本基線實驗,評估MLLMs在英語、西班牙語和Spanglish中的原始性能;2) 提高Spanglish性能實驗,通過少樣本提示和微調來改進Spanglish任務的性能;3) 跨語言遷移實驗,評估在不同語言上微調后的模型在其他語言上的表現。實驗使用了Llama 3.1和Mistral NeMo兩個開源模型,并通過LoRA技術加速微調過程。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/912733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/912733.shtml
英文地址,請注明出處:http://en.pswp.cn/news/912733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【教程】Linux中限制用戶可以使用的GPU數量 | 附腳本

轉載請注明出處:小鋒學長生活大爆炸[xfxuezhagn.cn] 如果本文幫助到了你,歡迎[點贊、收藏、關注]哦~ 目錄 背景說明 設置方法 管理腳本 進階限制 恢復默認組 注意事項 背景說明 比較簡單的方式是使用group來管理權限,這種方式能限制哪些…

90.xilinx復位低電平(一般使用低電平復位)

Xilinx FPGA 中的寄存器(Flip-Flop)**確實支持異步復位**,但具體實現方式取決于你使用的設計方法(HDL 代碼風格或原語實例化)。以下是詳細說明: --- ### 1. **Xilinx 寄存器的復位特性** - **同步復位…

NVMe高速傳輸之擺脫XDMA設計10: DMA 控制單元設計

DMA 控制單元負責控制 DMA 傳輸事務, 該單元承擔了 DMA 事務到 NVMe 事務的轉換任務, 使用戶對數據傳輸事務的控制更加簡單快捷。 DMA 控制功能由 DMA寄存器組實現。 DMA 寄存器組包含 DMA 操作寄存器、 DMA 長度寄存器、 DMA 源目的地址寄存器和 DMA 狀…

如何設置電腦定時休眠?操作指南詳解

長時間運行電腦會導致硬件過熱,縮短其使用壽命。定時關機有助于讓硬件得到休息,降低因長時間高負荷工作導致損壞的風險。 它的界面簡潔直觀,功能卻十分實用,涵蓋了定時關機、重啟、注銷、休眠、待機以及鎖定等多種操作。 以設置“…

LeetCode[617]合并二叉樹

思路: 我們合并左右子樹,在遞歸左右子樹的時候,一定要保證左右子樹不為空,如果左子樹為空,那么直接返回右子樹就行了,即使右子樹為空。如果右子樹為空那么直接返回左子樹就行了,這樣判斷完就正常…

Redis 常用五大數據類型

1、Redis 關鍵字(Key) keys * 查看當前庫所有keyexists [key] 判斷某個key是否存在type [key] 查看當前key的數據類型del [key] 刪除指定的key數據unlink [key] 根據value選擇非阻塞刪除,僅將keys從keyspace元數據中刪除,真正的刪…

大語言模型(LLM)專業術語匯總

1. 訓練與部署 1.1 預訓練 專業:在海量無標注文本(如Common Crawl、Wikipedia)上通過自監督學習訓練基礎語言模型,學習通用語言表征(如GPT-3訓練數據達45TB)。通俗:AI的“通識教育階段”&…

【Java Swing 圖形界面編程】JList 列表組件 ① ( JList 組件簡介 | 核心作用 | 關鍵特性 | 基礎用法示例 )

文章目錄 一、JList 組件簡介1、JList 概念簡介2、JList 核心作用3、JList 關鍵特性 二、JList 組件基礎用法示例1、使用 String 數組構建列表項2、使用 Vector 集合構建列表項3、使用 DefaultListModel 構建列表項 一、JList 組件簡介 1、JList 概念簡介 基本概念 : JList 組件…

【小技巧】Python+PyCharm IDE 配置解釋器出錯,環境配置不完整或不兼容。(小智AI、MCP、聚合數據、實時新聞查詢、NBA賽事查詢)

報錯信息如下: [unsupported] Python 3.1 (mcp-calculator-main) (3) C:\Users(xsshu\AppData\Local\Programs\Python\Python313\python.exe [unsupported] Python 3.1 C:\Users\xsshu\AppData\Local\Programs\Python\Python311\python.exe 這條輸出顯示了兩個 Pyth…

Ragflow 前后端登錄邏輯

前端登錄邏輯 路由配置: /login 路由指向 /pages/login 組件。登錄表單使用 Ant Design 的 Form, Input, 和 Button 組件。 登錄表單處理: 使用 useLogin鉤子來處理登錄請求。密碼通過 RSA 加密后再發送到服務器。成功登錄后導航至 /knowledge 頁面。 …

基于圖神經網絡的ALS候選藥物預測模型設計與實現

基于圖神經網絡的ALS候選藥物預測模型設計與實現 一、任務背景與意義 肌萎縮側索硬化癥(ALS)是一種致命的神經退行性疾病,目前尚無有效治愈方法。傳統藥物發現流程耗時長、成本高,而人工智能技術為加速藥物發現提供了新途徑。本文設計并實現了一個基于圖神經網絡(GNN)的…

運維打鐵: 數據加密與備份恢復策略制定

文章目錄 思維導圖一、數據加密1. 加密算法選擇AES 加密示例(Python)RSA 加密示例(Python) 2. 密鑰管理3. 加密范圍 二、數據備份1. 備份類型全量備份增量備份差異備份 2. 備份頻率3. 備份存儲位置 三、數據恢復1. 恢復測試2. 恢復…

AIbase MCP服務庫上線:集成服務器、客戶端、案例教程等服務

在當今數字化時代,人工智能技術正以前所未有的速度發展,深刻地改變著我們的生活和工作方式。而要充分發揮AI的強大能力,離不開高效的工具和服務支持。今天,就讓我們來了解一下一個專注于MCP(Model Context Protocol&am…

QGIS+CesiumIon

前言 QGIS 3.44中,新增了3D 場景新增地球視圖模式,通過Cesium ion插件,支持谷歌全球傾斜模型的加載顯示。 目錄 1 CesiumIon插件安裝 2 加載谷歌全球傾斜模型 1、CesiumIon插件安裝 點擊菜單【Plugins】->【Manage and Install Plugins】…

TEXT Introduction

我們是誰 美國計算機奧林匹克競賽通過培訓、競賽和國際比賽來促進大學前的計算機學習。 數個教練將會組織、領導、陪伴代表美國參加國際性奧林匹克競賽的學生。 你可以在 USACO 官網了解更多。 USACO 的目標 USACO 的具體目標包括: 訓練美國的隊伍并且在下一屆奧…

Fluent許可服務器設置教程

Fluent作為一款廣泛使用的流體動力學模擬軟件,其高效的許可管理系統是確保順暢運行的關鍵。為了幫助您更好地掌握Fluent許可服務器的設置方法,本文將為您提供一份詳細的設置教程,讓您輕松配置,高效運行Fluent軟件。 一、Fluent許可…

vue3中實現高德地圖POI搜索(附源碼)

引言 上一篇文章詳細講解了vue3中實現高德地圖地址搜索自動提示(附源碼)🔗,本文將重點介紹POI搜索功能的實現。 1. 功能介紹 POI(Point of Interest) 搜索用于查找特定位置或區域內的興趣點,如餐館、商場、景點等。…

機器學習在計算機視覺中的應用

引言 計算機視覺(Computer Vision)是人工智能的重要分支,旨在讓計算機像人類一樣“看懂”圖像和視頻。近年來,隨著深度學習(Deep Learning)的快速發展,計算機視覺在多個領域取得了突破性進展。…

新手向:從零開始Node.js超詳細安裝、配置與使用指南

什么是Node.js? 簡單來說: Node.js 是一個在服務器端運行 JavaScript 的環境。 以前JavaScript只能做網頁特效,現在用它就能開發網站后臺、命令行工具甚至桌面應用! 第一步:安裝Node.js(多系統詳解&#x…

VR全景平臺的概念和用途

VR全景平臺:沉浸式體驗篇章 在數字化飛速發展的今天,VR全景平臺作為新興的技術應用平臺,逐漸走進我們的日常生活。那么,什么是VR全景平臺?眾趣科技是否有涉足這一領域?眾趣科技VR全景平臺又具備哪些獨特的…