多模態大語言模型arxiv論文略讀(154)

在這里插入圖片描述

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

?? 論文標題:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
?? 論文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang
?? 研究機構: Hefei University of Technology, University of Science and Technology of China, Hefei Comprehensive National Science Center
?? 問題背景:當前的知識編輯方法主要集中在大型語言模型(LLMs)上,旨在高效且成本效益地糾正不準確信息和更新過時信息。然而,隨著多模態大型語言模型(MLLMs)的興起,這些模型集成了文本和視覺信息,帶來了新的編輯復雜性。現有的多模態知識編輯方法主要關注文本導向的粗粒度場景,未能解決多模態環境下的獨特挑戰。
?? 研究動機:為了應對多模態知識編輯中的復雜挑戰,研究團隊提出了一種視覺導向的細粒度多模態知識編輯任務,旨在精確編輯圖像中的多個交互實體。研究團隊還引入了Fine-Grained Visual Knowledge Editing (FGVEdit) 基準,以評估這一任務。此外,研究團隊提出了Multimodal Scope Classifier-based Knowledge Editor (MSCKE) 框架,該框架通過結合視覺和文本信息,實現對特定實體的精確知識更新。
?? 方法簡介:MSCKE框架基于SERAC方法進行了改進,通過引入多模態范圍分類器(Multimodal Scope Classifier),結合視覺和文本信息,準確識別和更新與特定實體相關的知識。該框架包括四個主要組件:多模態編輯記憶(Multimodal Edit Memory)、多模態范圍分類器、基礎多模態模型(Base Multimodal Model)和反事實多模態模型(Counterfactual Multimodal Model)。在編輯過程中,MSCKE不會修改基礎模型的參數,而是將編輯示例存儲在多模態編輯記憶中。當接收到新輸入時,多模態范圍分類器會評估輸入與存儲的編輯示例的相關性,并決定是否調用編輯信息。
?? 實驗設計:研究團隊在FGVEdit基準上進行了廣泛的實驗,評估了MSCKE框架在細粒度視覺知識編輯任務中的表現。實驗設計了多個評估指標,包括特異性(Specificity)、可靠性(Reliability)、局部性(Locality)和泛化性(Generality),以全面評估模型的編輯性能。實驗結果表明,MSCKE框架在這些指標上均優于現有方法,展示了其在解決多模態知識編輯復雜挑戰方面的有效性。

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

?? 論文標題:Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving
?? 論文作者:Hao Zhou, Zhanning Gao, Maosheng Ye, Zhili Chen, Qifeng Chen, Tongyi Cao, Honggang Qi
?? 研究機構: UCAS、HKUST、DeepRoute.AI
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在自動駕駛的視覺問答(VQA)任務中面臨挑戰,尤其是在復雜交互和長尾場景的表示上。盡管CLIP等模型在視覺編碼器中表現出色,但它們在實例級結構和領域特定語義信息的表示上存在不足,導致在復雜駕駛場景中的表現不佳。
?? 研究動機:為了提高MLLMs在自動駕駛VQA任務中的表現,研究團隊提出了“提示的暗示”(Hints of Prompt, HoP)框架,通過引入三種增強提示(Affinity hint、Semantic hint、Question hint)來豐富視覺表示,增強模型對復雜駕駛場景的理解和響應能力。
?? 方法簡介:HoP框架通過Affinity hint捕捉實例級結構,通過Semantic hint引入領域特定的高層次語義信息,通過Question hint將視覺特征與問題上下文對齊,確保模型關注與問題相關的關鍵區域。這些提示通過一個簡單的Hint Fusion模塊融合,與視覺令牌結合,經過適配器處理后傳遞給大語言模型(LLM)生成答案。
?? 實驗設計:研究團隊在LingoQA、DRAMA和BDD-X三個數據集上進行了實驗,評估了HoP框架在不同任務(如物體識別、場景描述、駕駛推理等)中的表現。實驗設計了不同的提示類型和融合策略,以驗證每種提示對模型性能的貢獻,并探索了高效版本的HoP方法,通過輕量級頭部結構提取提示信息,減少計算負擔。
?? 實驗結果:實驗結果表明,HoP框架在所有關鍵指標上顯著優于現有方法,特別是在LingoQA數據集上,HoP取得了67.8的Lingo-Judge得分,刷新了該數據集的最新記錄。此外,HoP在DRAMA和BDD-X數據集上也表現出色,展示了其在不同難度場景下的魯棒性和有效性。

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

?? 論文標題:DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
?? 論文作者:Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen
?? 研究機構: 武漢大學計算機學院、中國科學院自動化研究所、Waytous、悉尼科技大學HAI中心、AAII計算機科學學院、牛津大學計算機科學系、TikTok、西安交通大學人工智能與機器人研究所
?? 問題背景:自動駕駛需要全面理解3D環境,以支持高層次任務,如運動預測、規劃和地圖構建。盡管在基于對象的識別任務中取得了巨大進展,但自動駕駛中的對象間空間關系推理仍被忽視,這對實現全面的3D場景理解至關重要。現有的多模態大語言模型(MLLMs)在處理這些復雜的空間關系方面存在局限性。
?? 研究動機:為了評估MLLMs在自動駕駛中的空間理解能力,研究團隊提出了DriveMLLM基準測試。該基準測試旨在評估MLLMs在處理絕對和相對空間關系任務中的表現,揭示當前模型的局限性,并推動更高級的MLLM空間推理方法的發展。
?? 方法簡介:研究團隊基于nuScenes數據集構建了DriveMLLM基準測試,該數據集包含880張前視攝像頭圖像和多樣化的自然語言問題。DriveMLLM引入了絕對空間推理和相對位置關系推理任務,以全面評估模型的空間理解能力。研究團隊還提出了新的評估指標,以更準確地衡量模型的性能。
?? 實驗設計:研究團隊在DriveMLLM基準測試上評估了多種最先進的MLLMs,包括GPT-4o、GPT-4o-mini、LLaVA-ov-7b、LLaVA-ov-72b、Qwen2-vl-7b、Qwen2-vl-72b和Gemini-1.5-flash。實驗設計了零樣本、單樣本和五樣本學習三種設置,以評估模型在不同條件下的表現。評估指標包括準確性、效率和綜合評分,以全面評估模型的空間理解能力和輸出格式的合規性。

AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations

?? 論文標題:AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
?? 論文作者:Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso
?? 研究機構: Georgia Institute of Technology, J.P. Morgan AI Research
?? 問題背景:當前的多模態網絡代理(Multimodal Web Agents)雖然在處理用戶指令和與圖形用戶界面(GUI)交互方面表現出色,但它們在未見過的網站和領域中的泛化能力有限,這限制了它們在企業特定和專有平臺上的應用。現有的方法主要依賴于大規模預訓練和微調,但這些方法成本高昂且效率低下。
?? 研究動機:為了提高多模態網絡代理在未見過的網站和領域中的適應能力,研究團隊提出了一種新的框架——AdaptAgent,該框架通過少量的人類演示(1-2個示例)來快速適應新的環境。研究旨在探索多模態網絡代理是否可以通過少量的人類演示來提高其在未見過的網站和領域中的任務成功率。
?? 方法簡介:AdaptAgent框架結合了上下文學習(In-Context Learning, ICL)和元學習(Meta-Learning)兩種方法。對于專有模型(如GPT-4o),通過在上下文中加入多模態人類演示來實現快速適應;對于開源模型(如CogAgent),則通過元學習來優化模型的初始參數,然后使用少量的人類演示進行微調,以實現快速適應。
?? 實驗設計:研究團隊在兩個廣泛使用的基準數據集——Mind2Web和VisualWebArena上進行了實驗。實驗設計了不同數量的演示示例(1個或2個),以評估模型在不同條件下的適應能力和任務成功率。實驗結果表明,使用少量的人類演示可以顯著提高任務成功率,特別是在未見過的網站和領域中。具體來說,AdaptAgent框架在Mind2Web和VisualWebArena上的任務成功率分別提高了3.36%到7.21%,相對提高了21.03%到65.75%。
?? 主要貢獻:

  • 提出了AdaptAgent框架,使最先進的多模態網絡代理能夠通過少量的人類演示快速適應新的網站和領域。
  • 通過在Mind2Web和VisualWebArena上的廣泛實驗,驗證了AdaptAgent框架的有效性,特別是在未見過的網站和領域中。
  • 進行了額外的分析,提供了關于多模態演示與文本演示的效果對比、元學習中不同數據選擇策略的影響以及少量示例數量對代理性能的影響的見解。

Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

?? 論文標題:Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs
?? 論文作者:Rui Cao, Yuming Jiang, Michael Schlichtkrull, Andreas Vlachos
?? 研究機構: University of Cambridge、Nanyang Technological University、Queen Mary University of London
?? 問題背景:多模態大語言模型(MLLMs)通過與人類偏好對齊,可以增強其可信度。然而,現有的方法在利用評估模型生成偏好數據時面臨挑戰,尤其是在處理MLLMs的長且復合的響應時,這些響應往往需要多樣的推理技能,而單一評估模型可能不具備這些技能。此外,大多數現有方法依賴于閉源模型作為評估者,這既昂貴又限制了透明度。
?? 研究動機:為了克服上述限制,研究團隊提出了DecompGen,一個可分解的框架,利用開源專家模型的集合來生成高質量的反饋。DecompGen通過將每個響應分解為原子驗證任務,并將每個任務分配給適當的專家模型,生成細粒度的評估。這些評估用于自動構建偏好數據集DGPref,以優化MLLMs的偏好學習,從而顯著提高其可信度。
?? 方法簡介:DecompGen框架包括兩個步驟:響應分解和專家模型執行。首先,給定一個響應,DecompGen會生成一個響應特定的布局,將響應分解為原子驗證任務(如對象存在驗證和空間關系驗證)。然后,根據布局動態組裝和執行專家模型,每個模型負責一個特定的原子驗證任務。通過專家模型的執行,生成細粒度的反饋,這些反饋用于構建偏好數據集DGPref。
?? 實驗設計:研究團隊在三個基準數據集上進行了實驗,包括ObjHal、MMHal和AMBER,這些數據集分別評估了對象幻覺、信息量和幻覺率等多個維度。實驗設計了不同的響應生成指令和偏好數據的分類方法,以全面評估MLLMs在偏好學習后的表現。實驗結果表明,使用DGPref進行偏好學習的MLLMs在減少幻覺的同時,保持了較高的信息量和覆蓋率,顯著提高了模型的可信度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88558.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88558.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88558.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別前言1. 庫的基本介紹1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 關系圖譜3. 核心區別對比3.1 性能對比3.2 功能對比4. 代碼示例對比4.1 基本文本提取PyMuPDFpypd…

制作 ext4 文件系統

按以下步驟操作可以將一個文件夾制作成 Android 可用的 ext4 格式的 img 文件:方法 1:使用標準 Linux 工具(推薦) 步驟 1:安裝必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 適…

Flink自定義函數

一、UDF 核心原理 Flink 自定義函數(UDF)是擴展 Table API/SQL 能力的核心機制,允許將自定義邏輯嵌入查詢。其設計遵循以下原則: 1. 函數類型體系類型輸入輸出關系核心用途標量函數(ScalarFunction)0~N 個標…

【AI學習】大模型微調實踐

參加了書生?浦語(InternLM)端側小模型論文分類微調練習打榜賽 具體的實踐教程在: https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折騰了十多天,各種嘗試,AB榜單終于進入了前十都,累死 …

ElementUI:高效優雅的Vue.js組件庫

Hi,我是布蘭妮甜 !在當今快節奏的前端開發領域,選擇一個功能強大、設計優雅且易于使用的UI組件庫至關重要。ElementUI作為基于Vue.js的知名組件庫,憑借其豐富的組件體系、一致的設計語言和出色的開發體驗,已成為眾多企…

Java Stream流介紹及使用指南

背景在Java 8之前,處理集合數據(如List, Set, Map)通常意味著編寫冗長的、以操作為中心的代碼:創建迭代器、使用for或while循環遍歷元素、在循環體內進行條件判斷和操作、收集結果。這種方式雖然有效,但不夠簡潔、可讀…

JDK 1.7 vs JDK 1.8

JDK版本比較 Java平臺的兩次重大飛躍:JDK 7的穩定優化與JDK 8的革命性創新引言:Java的進化之路Java作為企業級開發的支柱語言,其版本更新直接影響著全球數百萬開發者。JDK 1.7(2011年發布)和JDK 1.8(2014年…

張量與維度

3x4x5的張量: x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

智慧菜場系統(源碼+文檔+講解+演示)

引言 在數字化浪潮的推動下,傳統菜市場也在尋求創新與變革。智慧菜場系統作為一種新型的菜市場管理工具,通過數字化手段優化菜市場的全流程,提高運營效率,增強消費者體驗,提升市場管理質量。本文將詳細介紹智慧菜場系統…

【GESP】C++一級真題 luogu-B4355 [GESP202506 一級] 值日

GESP C一級,2025年6月真題,基礎運算和循環語句,難度★☆☆☆☆。 題目題解詳見:【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoder 【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoderGESP C一級…

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2(清華源)

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2(清華源) 文章目錄相關資料更改UTF8執行更新一鍵安裝ROS2驗證配置環境變量附錄:開發板快速上手:鏡像燒錄、串口shell、外設掛載、WiFi配置、SSH連接、文件交互(RAD…

【HDLBits習題 2】Circuit - Sequential Logic(4)More Circuits

1. Rule90&#xff08;Rule 90&#xff09;方法1&#xff1a;module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

基于mysqlfrm工具解析mysql數據結構文件frm表結構和數據庫版本信息

這里使用Linux系統上操作。win上搞了下 python報錯。所以在這里記錄一下推薦大家使用linux系統操作。 安裝mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

【C++ 深入解析 C++ 模板中的「依賴類型」】

深入解析 C 模板中的「依賴類型」 依賴類型是 C 模板編程中的核心概念&#xff0c;特指那些依賴于模板參數的類型。迭代器是依賴類型的常見例子&#xff0c;但遠不止于此。讓我們全面解析這個重要概念&#xff1a; 依賴類型的本質定義 依賴類型是&#xff1a; 在模板中定義直接…

Telnet遠程連接實驗(Cisco)

Telnet遠程連接實驗&#xff08;Cisco&#xff09; 拓撲圖一并實現DHCP服務、HTTP服務、FTP服務。 二層交換機配置&#xff1a; 交換機Switch0配置&#xff1a; vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…

C++:非類型模板參數,模板特化以及模板的分離編譯

目錄 一、前言 二、非類型模板參數 三、模板的特化 3.1 類模板特化 3.11 全特化 3.12 偏特化 3.2 函數模板特化 3.3 注意 四、模板的分離編譯 一、前言 前面的文章梳理了模板初階的一些用法&#xff0c;在后面梳理了STL的一些容器的用法后&#xff0c;下面將用到含有S…

【Qt 學習之路】Qt Android開發環境搭建:Ubuntu的Vmware虛擬機中的踩坑實錄

文章目錄1、簡介2、虛擬機內USB設備識別難題2.1、正確連接手機2.2、打開USB相關配置2.3、打開虛擬機中的手機設備3、Gradle下載速度緩慢之困3.1、下載 Gradle 鏡像3.2、安放鏡像位置3.3、修改項目中的gradle路徑1、簡介 許久未曾使用Qt進行Android開發&#xff0c;今日在Ubunt…

MySQL中使用group_concat遇到的問題及解決

在使用group_concat的過程中遇到個問題&#xff0c;這里記錄一下&#xff1a;在MySQL中有個配置參數group_concat_max_len&#xff0c;它會限制使用group_concat返回的最大字符串長度&#xff0c;默認是1024。 查詢group_concat_max_len大小&#xff1a; show variables like…

高性能小型爬蟲語言與代碼示例

高性能小型爬蟲現在有哪幾種新興語言可以選擇。我看到了很多關于爬蟲框架的信息&#xff0c;特別是使用Go語言和Node.js的框架。Go語言方面有Kaola1和Katana2這兩個框架。Kaola被描述為高性能的Go語言爬蟲框架&#xff0c;輕量級且強大&#xff0c;提供靈活配置選項。 Node.js…

【PTA數據結構 | C語言版】在順序表 list 中查找元素 x

本專欄持續輸出數據結構題目集&#xff0c;歡迎訂閱。 文章目錄題目代碼題目 請編寫程序&#xff0c;將 n 個整數存入順序表&#xff0c;對任一給定整數 x&#xff0c;查找其在順序表中的位置。 輸入格式&#xff1a; 輸入首先在第一行給出正整數 n&#xff08;≤10^4 &#…