多模態大語言模型arxiv論文略讀(七十九)

在這里插入圖片描述

AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning

?? 論文標題:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
?? 論文作者:Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
?? 研究機構: 香港科技大學(廣州)、北京工業大學、德雷塞爾大學、牛津大學
?? 問題背景:上下文學習(In-context Learning, ICL)在大規模語言模型(LLMs)中展現了顯著的能力,無需更新數十億參數即可在未見過的數據上獲得理想性能。然而,在多模態大規模語言模型(MLLMs)中,ICL的應用面臨兩個主要問題:(1) 大多數主要的MLLMs僅在單圖像數據集上訓練,無法處理額外的多模態演示;(2) 隨著演示數量的增加,數千個視覺標記對硬件資源造成巨大挑戰,并降低ICL性能。
?? 研究動機:研究團隊發現,MLLMs在生成過程中更關注語言模態,而非視覺模態。基于這一發現,研究團隊提出了一種新的框架AIM,通過將多模態演示中的圖像信息聚合到文本的潛在空間中,減少視覺標記的數量,從而提高MLLMs在多模態ICL中的效率和性能。
?? 方法簡介:AIM框架通過將多模態演示中的圖像信息聚合到文本的潛在空間中,生成融合的虛擬標記,以替代原始的圖像-文本對。這些融合的虛擬標記與文本長度相同,從而顯著減少了演示的長度。AIM可以在不改變查詢圖像和文本的情況下,將多圖像提示近似轉換為包含單個查詢圖像的提示,從而提高模型的性能。
?? 實驗設計:研究團隊在三個公開數據集上進行了實驗,包括圖像描述(Image Caption)、視覺問答(VQA)和仇恨言論檢測(Hateful Speech Detection)。實驗設計了不同因素(如圖像數量、圖像分辨率和文本長度)的變化,以及不同類型的評估任務(如開放性問題和封閉性問題),以全面評估AIM在多模態ICL中的表現。實驗結果表明,AIM在減少內存使用和提高推理吞吐量方面表現出色,同時在多個任務上取得了與基礎模型相當或更好的性能。

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

?? 論文標題:MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
?? 論文作者:Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
?? 研究機構: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
?? 問題背景:隨著大規模語言模型(LLMs)的快速發展,多模態大規模語言模型(MLLMs)在多種任務中展現了卓越的能力。然而,MLLMs在實際應用中面臨復雜的場景,容易受到潛在的惡意指令的影響,從而帶來安全風險。現有的評估基準雖然包含了一定的安全考慮,但往往缺乏全面性和嚴謹性,例如使用GPT-4V同時作為評估者和被評估模型,存在自我偏見的問題。
?? 研究動機:為了應對MLLMs在安全評估方面的不足,研究團隊開發了MLLMGUARD,一個多維度的安全評估套件,旨在為MLLMs提供全面的安全評估。MLLMGUARD不僅涵蓋了隱私、偏見、毒性、真實性和合法性五個重要安全維度,還通過引入對抗性樣本和高質量的人工標注,提高了評估的挑戰性和準確性。
?? 方法簡介:MLLMGUARD包括一個雙語(英語和中文)圖像-文本評估數據集、推理工具和一個輕量級評估器。數據集主要來源于社交媒體,通過紅隊技術(Red Teaming Techniques)和人工標注,確保數據的多樣性和挑戰性。輕量級評估器GUARDRANK通過預訓練語言模型(如LLaMA-2和Roberta-large)進行微調,實現了對MLLMs的自動化評估,顯著提高了評估的準確性和效率。
?? 實驗設計:研究團隊在13個先進的MLLMs上進行了評估,包括2個閉源模型和11個開源模型。評估涵蓋了隱私、偏見、毒性、真實性和合法性五個維度,每個維度下設多個子任務。實驗結果表明,盡管GPT-4V在多個維度上表現最佳,但MiniGPT-v2在某些方面(如真實性和合法性)的表現更為出色。此外,GUARDRANK在評估準確性上顯著優于GPT-4,證明了其在多模態模型安全評估中的有效性和可靠性。

Grounding Multimodal Large Language Models in Actions

?? 論文標題:Grounding Multimodal Large Language Models in Actions
?? 論文作者:Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
?? 研究機構: Apple, Georgia Tech, Mila
?? 問題背景:多模態大語言模型(MLLMs)在多個領域展示了廣泛的能力,尤其是在具身AI中。然而,這些模型在具身任務中的能力受限于其輸出空間(自然語言)與具身代理的動作空間之間的差距,特別是在連續動作空間中,低級控制器可能需要高度的精度。
?? 研究動機:為了克服MLLMs在具身任務中的局限性,研究團隊通過系統的方法研究了如何將MLLMs有效地與不同的具身體現及其動作空間結合,旨在提高模型在具身任務中的性能。
?? 方法簡介:研究團隊提出了一種統一的架構,通過動作空間適配器(Action Space Adapters, ASAs)來重新參數化MLLMs的輸出,使其能夠生成動作。研究包括了連續動作空間和離散動作空間的ASAs,通過學習的分詞策略和語義對齊策略來優化模型的性能。
?? 實驗設計:研究在五個不同的具身AI環境中進行了實驗,包括三個機器人連續控制環境和兩個離散動作環境,涵蓋了114個具身任務。實驗評估了不同ASAs在任務成功率、RL樣本效率等方面的表現,結果表明,對于連續動作空間,學習的分詞策略(Residual VQ)表現最佳;對于離散動作空間,語義對齊策略(Semantic Tokenization)表現最佳。

Multimodal Table Understanding

?? 論文標題:Multimodal Table Understanding
?? 論文作者:Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
?? 研究機構: 中國科學院信息工程研究所、中國科學院大學網絡空間安全學院、百度公司、北京師范大學人工智能學院
?? 問題背景:盡管基于大型語言模型(LLMs)的表格理解方法取得了顯著進展,但這些方法通常依賴于將表格轉換為特定的文本序列(如Markdown或HTML)作為模型輸入。然而,在某些現實場景中,獲取高質量的文本表格表示形式非常困難,而表格圖像則更為常見。因此,如何直接利用直觀的視覺信息來理解表格,成為開發更實用應用的關鍵和緊迫挑戰。
?? 研究動機:現有的表格理解方法,包括基于LLMs的方法,大多只能處理有限的任務,且需要將表格轉換為文本序列。這限制了表格理解技術在實際場景中的應用。為了克服這一限制,研究團隊提出了多模態表格理解問題,旨在使模型能夠基于表格圖像直接生成正確的響應,以應對各種表格相關請求。
?? 方法簡介:研究團隊構建了一個大規模的數據集MMTab,涵蓋了廣泛的表格圖像、指令和任務。基于此數據集,研究團隊開發了一個通用的多模態大型語言模型(MLLM)Table-LLaVA,該模型在23個基準測試中顯著優于最近的開源MLLM基線模型。
?? 實驗設計:實驗在三個公開數據集上進行,包括多模態表格理解任務。實驗設計了不同因素(如表格結構、樣式和領域)的變化,以及不同類型的任務(如表格問答、表格事實驗證和表格到文本生成),以全面評估模型的多模態表格理解能力。

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

?? 論文標題:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
?? 論文作者:Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
?? 研究機構: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種視覺-語言任務中表現出色,但其輸出主要局限于文本形式,限制了其在結構化或視覺信息表示上的能力。此外,現有的擴展MLLM輸出格式的方法未能完全滿足實際需求,如密集對象檢測、姿態估計和圖像生成等任務。
?? 研究動機:為了克服現有MLLMs的局限性,研究團隊開發了VisionLLM v2,這是一個端到端的通用多模態大模型,旨在統一視覺感知、理解和生成任務。該模型不僅擴展了MLLMs的應用范圍,還通過引入“超級鏈接”技術,實現了任務信息和梯度反饋在多任務解碼器之間的高效傳輸,避免了任務沖突。
?? 方法簡介:VisionLLM v2通過引入“超級鏈接”技術,將MLLM與特定任務解碼器連接起來。該技術包括路由令牌(Routing Token)和超級鏈接查詢(Super-Link Queries)兩部分。路由令牌用于觸發特定解碼器的選擇,而超級鏈接查詢則作為MLLM與任務解碼器之間的橋梁,確保任務信息的準確傳輸和梯度反饋。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,涵蓋了從視覺感知到視覺理解的各種任務,包括弱交互(如封閉集任務)和強交互(如視覺提示+語言提示)任務,以及常見領域和長尾領域(如醫療、遙感、工業)的任務。實驗結果表明,VisionLLM v2在各種標準基準測試中達到了與任務專用模型相當的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83693.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83693.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83693.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[Harmony]封裝一個可視化的數據持久化工具

1.添加權限 在module.json5文件中添加權限 // 聲明應用需要請求的權限列表 "requestPermissions": [{"name": "ohos.permission.DISTRIBUTED_DATASYNC", // 權限名稱:分布式數據同步權限"reason": "$string:distrib…

利用html制作簡歷網頁和求職信息網頁

前言 大家好,我是maybe。今天下午初步學習了html的基礎知識。做了兩個小網頁,一個網頁是簡歷網頁,一個網頁是求職信息填寫網頁。跟大家分享一波~ 說明:我不打算上傳圖片。所以如果有朋友按照我的代碼運行網頁,會出現一個沒有圖片…

Vue 3 實現后端 Excel 文件流導出功能(Blob 下載詳解)

💡 本文以告警信息導出為例,介紹 Vue 3 中如何通過 Axios 調用后端接口并處理文件流,實現 Excel 自動下載功能。 📑 目錄 一、前言 二、后端接口說明 三、前端實現思路 四、導出功能完整代碼 五、常見問題處理 六、效果展示 …

HarmonyOS AVPlayer 音頻播放器

鴻蒙文檔中心:使用AVPlayer播放視頻(ArkTS)文檔中心https://developer.huawei.com/consumer/cn/doc/harmonyos-guides/video-playback 這張圖描述的是 HarmonyOS AVPlayer 音頻播放器的狀態流轉過程,展示了 AVPlayer 在不同狀態之間的切換條件和關鍵操作…

Java面試場景:從音視頻到AI應用的技術探討

面試場景:音視頻與AI應用技術的碰撞 在某互聯網大廠的面試中,面試官王先生與求職者明哥展開了一場關于音視頻技術與AI應用的對話。 第一輪提問:音視頻場景 面試官:明哥,你能談談在音視頻場景中,Spring B…

【深度學習】殘差網絡(ResNet)

如果按照李沐老師書上來,學完 VGG 后還有 NiN 和 GoogLeNet 要學,但是這兩個我之前聽都沒聽過,而且我看到我導師有發過 ResNet 相關的論文,就想跳過它們直接看后面的內容。 現在看來這不算是不踏實,因為李沐老師說如果…

Vue3學習(組合式API——父、子組件間通信詳解)

目錄 一、組合式API下的父組件傳子組件。(自定義屬性) (1)基本思想。 (2)核心注意點。(defineProps) (3)傳遞簡單類型數據。 (4)傳遞對象類型數據。(v-bind"對象類型數據"…

W5500使用ioLibrary庫創建TCP客戶端

1、WIZnet全硬件TCP/IP協議棧 WIZnet全硬件TCP/IP協議棧,支持TCP,UDP,IPv4,ICMP,ARP,IGMP以及PPPoE協議。 以太網:支持BSD和WIZCHIP(W5500/W5300/W5200/W5100/W5100S)的SOCKET APIs驅動程序。 互聯網: DHCP客戶端 DNS客戶端 FTP客…

管理Oracle Data Guard的最佳實踐

Oracle Data Guard的中文名字叫數據衛士,顧名思義,它是生產庫的一道保障。所以管理Data Guard是DBA的一項重要工作之一,管理Data Guard時主要有以下幾個注意點需要引起重視。 備份庫的歸檔日志積壓 一般情況下,生產庫的歸檔日志是…

BootCDN介紹(Bootstrap主導的前端開源項目免費CDN加速服務)

文章目錄 BootCDN前端開源項目CDN加速服務全解析什么是BootCDN技術原理與架構CDN技術基礎BootCDN架構特點1. 全球分布式節點網絡2. 智能DNS解析系統3. 高效緩存管理機制4. 自動同步更新機制5. HTTPS和HTTP/2協議支持 BootCDN的核心優勢速度與穩定性開源免費資源豐富度技術規范遵…

2025 Java 微信小程序根據code獲取openid,二次code獲取手機號【工具類】拿來就用

一、controller調用 /*** 登錄** author jiaketao* since 2024-04-10*/ RestController RequestMapping("/login") public class LoginController {/*** 【小程序】登錄獲取session_key和openid** param code 前端傳code* return*/GetMapping("/getWXSessionKe…

軟件架構風格系列(3):管道 - 過濾器架構

文章目錄 前言一、從生活場景到架構原理,看懂管道 - 過濾器的核心邏輯(一)什么是管道 - 過濾器架構?(二)核心組件拆解 二、架構設計圖:一圖看懂管道 - 過濾器架構全貌三、Java 示例代碼&#xf…

【VIM】vim 常用命令

文章目錄 插入模式光標移動拷貝/粘貼/刪除/撤銷塊操作分屏代碼縮進命令組合使用其他PowerVim 前言:本文內容大部分摘抄自酷殼和博客園 ? – ? CoolShell – 陳皓 ? 博客園 – 易先訊 插入模式 a → 在光標后插入o → 在當前行后插入一個新行O → 在當前行前插…

polarctf-web-[簡單rce]

考點&#xff1a; (1)RCE(eval函數) (2)執行函數(passthru函數) (3)/頂級(根)目錄查看 (4)sort排序查看函數 題目來源&#xff1a;Polarctf-web-[簡單rce] 解題&#xff1a; 代碼審計 <?php/*?PolarD&N CTF?*/highlight_file(__FILE__);function no($txt){ # …

HarmonyOs開發之———使用HTTP訪問網絡資源

謝謝關注&#xff01;&#xff01; 前言&#xff1a;上一篇文章主要介紹HarmonyOs開發之———Video組件的使用:HarmonyOs開發之———Video組件的使用_華為 video標簽查看-CSDN博客 HarmonyOS 網絡開發入門&#xff1a;使用 HTTP 訪問網絡資源 HarmonyOS 作為新一代智能終端…

Vue 圖片預覽功能(含縮略圖)

眾所周知&#xff0c;常見的組件庫如Element、Ant Design&#xff0c;自帶的圖片預覽功能都沒有縮略圖&#xff0c;所以 需要單獨封裝一個圖片預覽的服務。 第三方庫&#xff1a;v-viewer 安裝&#xff1a; npm install v-viewer viewerjs 若使用報錯&#xff0c;可安裝指定…

手寫tomcat:基本功能實現(4)

邏輯架構 HTTP 請求與 Socket&#xff1a; 左側的 “HTTP 請求” 箭頭指向 “socket”&#xff0c;表示客戶端發送的 HTTP 請求通過 socket 傳輸到服務器。Socket 負責接收請求&#xff0c;并提取出其中的 請求路徑&#xff08;如 /first&#xff09;和 請求方法&#xff08;如…

jvm安全點(一)openjdk17 c++源碼垃圾回收安全點信號函數處理線程阻塞

1. 信號處理入口?? ??JVM_HANDLE_XXX_SIGNAL?? 是 JVM 處理信號的統一入口&#xff0c;負責處理 SIGSEGV、SIGBUS 等信號。??javaSignalHandler?? 是實際注冊到操作系統的信號處理函數&#xff0c;直接調用 JVM_HANDLE_XXX_SIGNAL。 ??2. 安全點輪詢頁的識別?? …

微信小程序:封裝表格組件并引用

一、效果 封裝表格組件,在父頁面中展示表格組件并顯示數據 二、表格組件 1、創建頁面 創建一個components文件夾,專門用于存儲組件的文件夾 創建Table表格組件 2、視圖層 (1)表頭數據 這里會從父組件中傳遞表頭數據,這里為columns,后續會講解數據由來 循環表頭數組,…

【FMC216】基于 VITA57.1 的 2 路 TLK2711 發送、2 路 TLK2711 接收 FMC 子卡模塊

產品概述 FMC216 是一款基于 VITA57.1 標準規范的 2 路 TLK2711 接收、2 路 TLK2711 發送 FMC 子卡模塊。該板卡支持 2 路 TLK2711 數據的收發&#xff0c;支持線速率 1.6Gbps&#xff0c;經過 TLK2711 高速串行收發器&#xff0c;可以將 1.6Gbps 的高速串行數據解串為 16 位并…