論文解讀 | AAAI'25 Cobra:多模態擴展的大型語言模型,以實現高效推理

點擊藍字

faf98c85fc104d08f0de5e93310e9f14.jpeg

關注我們

AI TIME歡迎每一位AI愛好者的加入!

圖片

點擊?閱讀原文?觀看作者講解回放!

個人信息

作者:趙晗,浙江大學-西湖大學聯合培養博士生

內容簡介

近年來,在各個領域應用多模態大語言模型(MLLMs)取得了顯著的成功。然而,作為許多下游任務的基礎模型,MLLMs通常包含著名的Transformer網絡,其計算復雜度呈二次方增長,效率較低。在本文中,我們介紹了一種基于狀態空間模型構建的多模態大規模語言模型Cobra,該模型在高效處理長序列方面表現出顯著潛力,并且在序列長度方面具有快速推理和線性可擴展性。具體而言,Cobra涉及用預訓練的Mamba語言模型替換基于Transformer的主干模型(例如LLaMA或Phi)。然后,我們通過實驗探索了有效對齊視覺和文本模態的策略,并將不同預訓練的Mamba模型變體與視覺編碼器進行整合。在多個多模態基準測試中的實驗表明:(i)Cobra的性能比目前最高效的現有方法(例如LLaVA Phi和MobileVLM v2)快3至4倍。此外,由于實現了線性序列建模,其性能得到了顯著提升。(ii)Cobra僅微調了少量參數(約占模型參數的48%),與LLaVA相比,整體性能顯著提升。

論文地址

https://arxiv.org/pdf/2403.14520

代碼鏈接

https://sites.google.com/view/cobravlm

Background

多模態大語言模型(MLLM)在眾多視覺場景理解任務,包括視覺問答任務上取得了顯著的成功。然而,基于Transformer的大型模型,如著名的LLaVa系列等,在處理視覺語言token時,其時間復雜度隨序列長度呈二次方增長。而且在推理過程中,實際空間占用也會隨著生成長度的增加而增加。因此,它在端側計算資源有限的場景,或者對實時性有較高要求的機器人操作任務中部署受到了限制。

先前Efficient MLLM領域的研究主要有兩種解決方案。一種是采用輕量級語言模型,另一種是對視覺token進行token reduction以縮短序列長度。如圖所示,右側的兩張圖,是比較典型的token reduction方案。一種是通過視覺特征做卷積操作進行下采樣來減少token數量,也就是LDP方案。第二種是Q-Former,通過cross-attention的方式減少token數量。這種做法雖然效果明顯,但LDP會導致有一定程度的信息損失,從而降低模型性能。Q-Former需要一個較為復雜的訓練流程,這無疑增加了整個模型訓練的難度。

65caec80f6e7251a56f89d582b69e9a1.png

在2023年末,隨著Mamba模型的提出,大語言模型的架構選擇中,除了Transformer也有更多的工作來關注這種線性復雜度O(n)類的架構模型。Mamba是基于SSM的一個框架,輸入1a75891ab03aad1749b374bc73d80ffb.png經過映射后得到一個data dependent的矩陣d387722411fd89c7909d4dfd9c8f292f.png90b9fcb6cf343b988ade57cecda93560.png以及將連續時間的參數進行離散化的補償參數4d66acda896cdbc8d4ebd6c659be1820.png。通過圖式(2)中的線性變換,最終將輸入序列a85b61d90bdb2c1beaa7864ba9456f43.png變換成一個輸出序列e6b997fae1d3dabf318f25d54685bba1.png

f89fad6a3b4be1df9be0eff0da629df4.png

Motivation

SSM結合了注意力機制類模型在訓練時并行處理序列的優點,以及在推理時保持生成速度和空間占用恒定的優點。因此,作者希望進一步擴展Mamba在語言建模方面的能力。通過直接將更高計算效率的語言模型backbone和視覺處理模塊結合,可以保持高性能的視覺理解能力,避免因模型參數減少或視覺token數量下降造成的性能損失。同時,由于模型對序列長度的時間復雜度是線性,可以保證更高的生成速度。

a6165c7fafa5f71eb7af7b76832e44cf.png

First RNN-Based MLLM

如下圖為Efficient MLLM領域的路線圖,本文在三月份出版,作為第一篇將線性復雜度的RNN序列模型引入該領域的文章,至今已被引用超過50次。

0b445f7a53479598ecc68601edebd3ab.png

Architecture

Corba的整體模型結構采用了類似層級的設計,通過視覺編碼器提取視覺特征,進行嵌入處理。此外,還通過自回歸執行指令來生成文本。在視覺編碼器中,本文采用了目前廣泛應用的一種方法,即Fused Vision Encoders。具體來說,它將DINOv2和SigLIP兩個模型輸出的特征在特征維度上進行融合,然后通過MLP Projector映射到語言embedding的維度,最后將整個序列輸入到Mamba架構的語言模型中。

11b83a54cdb6c4e790ea2f7110876916.png

Training Recipe

訓練方案:作者擴展了數據集,除了原始LLaVA v1.5的VQA數據集之外,還增加了兩個新的數據集,旨在提升模型的執行能力并減少視覺語言模型的幻覺。這兩個能力對模型性能至關重要。其次,在訓練過程中,作者直接對模型進行了兩個階段的指令調整,發現這種方式比先進行預訓練再進行調整的方式效果更好。

c819d88892847aa36eecb9b599597d73.png

Benchmarking-VQA

下圖展示的是Cobra模型和其他模型在Benchmark上的性能比較。可以看到,Cobra-3.5B模型在各種指標上基本與同量級的small scales模型相當,即激活參數在3B或以下的baseline中,Cobra模型性能均能達到第一或者第二位。在各個Benchmark中,Cobra-8B則是在所有baseline中超越了其他模型。

db9084a4276dee00cffe601c359439d0.png

Benchmarking-Grounding

本文也在COCO的三個數據集上對vision grounding任務進行了評估。結果顯示,Cobra-8B相較于LLaVa v1.5有顯著的性能提升。然而,Cobra-3.5B模型可能受限于模型容量,在此類任務上的表現稍弱。

59d10363e49bf38294f389cc1ed1944d.png

Benchmarking-Latency

Cobra系列模型在推理延遲方面有顯著提升。與其他高效基準模型相比,Cobra在大約3B參數的LLaVA-Phi、MobileVLM v2上,token生成速度大約快3到4倍。即使是8B的模型,其生成速度也高于之前提到的模型。

dbff77c4ac27a29dc26f5c8252948fa6.png

Ablation Studies

如下圖所示,本文對Cobra架構的各個階段進行了消融實驗。第一行以3.5B作為基準。第二行僅使用SigLIP作為單獨的視覺編碼器。在缺少另一個編碼器的情況下,對于需要精確空間感知的任務,如VSR——一個用于空物體空間關系判斷的Benchmark以及包括一些visual grounding任務,在這些任務上表現出了顯著的性能下降。因此,本文中最終選擇將兩個編碼器融合。

357437b1bc6cfc4367206590f9fc0b19.png

第三行是將MLP替換成VLM中使用的輕量化下采樣的projector。但卻發現,這種替換在大多數任務上導致了一定程度的性能下降。然而,減少視覺token并未加快模型的生成速度。因此,在考慮高效的架構時,過度追求視覺token數量的壓縮似乎并非必要。

第四行是將經過chat語料微調過的模型替換未經過微調的Base模型。其中的兩項任務,VizWiz和VSR有較大的性能下降。所以最終本文選擇的是通過直接使用經過chat語料微調后的模型。

最后兩行是關于訓練流程的分析。第五行代表模型僅僅進行了一個epoch的微調。第六行則是完全按照LLaVa的訓練方案,先進行一個epoch的pre-alignment,然后再進行微調。可以明顯看到,如果模型沒有經過充分的微調,會始終處于欠擬合的狀態。在所有任務上,特別是在visual grounding任務上,表現非常差。在這種情況下,作者發現,即使進行了pre-alignment,也可能損害模型的最終性能。

Additional Evaluation

此外,作者在Text-VQA的Benchmark中有一個有趣的發現。在先前的LLaVa測試中,其測試方法是將圖片先通過一個OCR系統對圖像進行文字識別,然后將所有識別出的文字結果作為一個額外的prompt輸入給大模型。從圖中可以看出這種提示方法對于LLaVa模型非常有效,引入OCR提示后,準確率相比沒有引入提示的情況下提升了約12%。

5d3049f284daeb52b07c3f65d7a29453.png

在遵循LLaVa的測試方法時,作者發現使用OCR提示后,Cobra模型的效果非但沒有提升,反而有所下降。深入分析后,作者發現LLaVa在測試中將OCR的結果置于整個問題描述之后。起初,本文采取相同的做法,但結果表明,這會導致性能普遍下降。然而,若讓Cobra這類RNN模型先看到這些提示再進行測試,其結果與LLaVa的測試相似,有明顯的提升。這一發現使作者意識到RNN模型對信息流輸入的順序極為敏感。因此,在整體輸入結構設計上,可能存在進一步優化的空間。在定量實驗結果之后,本文還展示了幾個典型的例子。

Examples

如下圖所示,Corba展示出比LLaVa v1.5更強大的空間理解和場景描述能力。左側是根據這個問題,LLaVa v1.5回答了一個錯誤的答案。而Cobra能夠正確分析兩個物體之間的位置關系。在右邊的場景中,Cobra-3.5B提供了更準確、更詳細的描述。

615d7096e136466f6d1d6b734fa3bc90.png

在這一示例中,模型能夠準確描述圖像左下角的部分,比如湖邊的碎石,而LLaVa v1.5則錯誤地將這些理解為湖邊的長椅,還有其他場景描述的錯誤。這證明了Cobra模型在場景細節描述上更加精準和詳盡。

1a0641bca7f7c581c89d61e7aedb9aa3.png

Conclusion

總結來說,本文提出了Cobra系列的兩個模型,3.5B和8B,它們成功地將多模態信息融合到Mamba類的語言模型中。不僅大幅度提升了MLLM的計算效率,而且與LLaVa等其他基于Transformer類的模型性能相仿,甚至達到了更高水平。

ed09a49f8e5e5cf9e734106309992c7b.png

Potential Implementation

對于基于線性復雜度的RNN類的多模態大語言模型,作者認為還可以從其他方向進行深入研究。例如,利用其高效處理長序列的能力,可以將Cobra擴展為具備視覺模態理解的模型。

55470ba27874374dfadcb15caebb5436.png

在zero-shot情況下,模型已經展現出從單張圖片到視頻輸入的泛化能力。如果在多樣本共同協作的情況下中進行微調訓練,將能進一步提升其視頻理解能力。

f115e8befa96169467c3389bc4c276b9.png

此外,Cobra還有望應用于機器人或自動駕駛等需要快速閉環反饋和精準決策的場景。圖中展示的RT-2是Google提出的操控機械臂完成抓取任務的視覺語言行為模型。該模型利用了大量云端GPU算力,但其動作指令的輸出頻率僅為1到3Hz,這對于高精度的機械臂抓取任務來說遠遠不足。然而,如果采用Cobra作為backbone或者其他高效的RNN模型,那么可以有效提升控制頻率。

fd3491e56eb394003903f3340b0167b7.png

本期文章由陳研整理

近期精彩文章推薦

561a268a3cbc419958adaebf06086dc3.jpeg

跨越邊界,大模型如何助推科技與社會的完美結合?

?關于AI TIME?

AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。

迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾700場活動,超800萬人次觀看。

?01c1e9901e90826a214636b502d8854b.png

我知道你?

在看

提出觀點,表達想法,歡迎?

留言

cb199e12ad5eadb150a20d9ee0e1b978.gif

點擊 閱讀原文?觀看作者講解回放!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896208.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896208.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896208.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ai-financial-agent - 為金融投資打造的AI代理

探索人工智能在投資研究中的應用。本項目僅用于**教育**目的,不用于真實交易或投資。 作者聲明: 本項目僅用于教育和研究目的。 不用于真實交易或投資不提供任何保證或擔保過去的表現并不代表未來的結果Creator 對經濟損失不承擔任何責任咨詢財務顧問…

Open WebUI選擇模型為空,解決辦法(for DeepSeek)

標簽: DeepSeek; Open WebUI; 問題:Open WebUI選擇模型為空,解決辦法 (for DeepSeek) 操作系統:Ubuntu 22 硬件:臺式電腦 Ubuntu 22系統,DeepSeek安裝成功&…

歐幾里得算法第二彈---計算多個數的最大公約數

如果要求多個數的 GCD,可以先求前兩個數的 GCD,然后用這個結果與下一個數求 GCD,依次類推。 為什么可以用前兩個數的 GCD 與下一個數繼續求 GCD,從而得到所有數的 GCD 呢?(之前我不知道,自己也沒…

掌握 ElasticSearch 組合查詢:Bool Query 詳解與實踐

掌握 ElasticSearch 組合查詢:Bool Query 詳解與實踐 一、引言 (Introduction)二、Bool 查詢基礎2.1 什么是 Bool 查詢?2.2 Bool 查詢的四種子句2.3 語法結構 三、Bool 查詢的四種子句詳解與示例3.1 must 子句3.2 filter 子句3.3 should 子句3.4 must_no…

【練習】【類似于子集問題】力扣491. 非遞減子序列/遞增子序列

題目 非遞減子序列 給你一個整數數組 nums ,找出并返回所有該數組中不同的遞增子序列,遞增子序列中 至少有兩個元素 。你可以按 任意順序 返回答案。 數組中可能含有重復元素,如出現兩個整數相等,也可以視作遞增序列的一種特殊情況…

本地部署AI模型 --- DeepSeek(二)---更新中

目錄 FAQ 1.Failed to load the model Exit code: 18446744072635812000 FAQ 1.Failed to load the model Exit code: 18446744072635812000 問題描述: 🥲 Failed to load the model Error loading model. (Exit code: 18446744072635812000). Unkn…

開源嵌入式實時操作系統uC/OS-II介紹

一、uC/OS-II的誕生:從開源實驗到行業標桿 背景與起源 uC/OS-II(Micro-Controller Operating System Version II)誕生于1992年,由嵌入式系統先驅Jean J. Labrosse開發。其前身uC/OS(1991年)最初作為教學工…

Starlink衛星動力學系統仿真建模第七講-衛星姿軌控系統(Attitude and Orbit Control System, AOCS)設計規范

以下是一份衛星姿軌控系統(Attitude and Orbit Control System, AOCS)設計規范的框架和核心內容示例,供參考: 衛星姿軌控系統(AOCS)設計規范 1. 總則 1.1 目的 本規范旨在規定衛星姿軌控系統的設計要求、…

C++之旅-C++11的深度剖析(1)

目錄 前言/背景 1.C11的發展歷史 2.列表初始化 2.1 C98傳統的{} 2.2 C11中的{} 2.3 C11中的std::initializer_list 3.右值引用 3.1 左值和右值 3.2 左值引用和右值引用 3.3 引用延長生命周期 3.4 左值和右值的參數匹配 結束語 前言/背景 隨著現代軟件開發的快速發展…

什么是手機9008模式?如何進入9008

之前給大家分享了一些有關手機刷機的知識,今天給大家講一講如果刷機過程中不慎變磚應該如何應對(當然了,希望大家都不會遇到)😂😄 在給手機 Root 或刷機時,線刷 9008 指的是利用 高通 9008 模式…

單機上使用docker搭建minio集群

單機上使用docker搭建minio集群 1.集群安裝1.1前提條件1.2步驟指南1.2.1安裝 Docker 和 Docker Compose(如果尚未安裝)1.2.2編寫docker-compose文件1.2.3啟動1.2.4訪問 2.使用2.1 mc客戶端安裝2.2創建一個連接2.3簡單使用下 這里在ubuntu上單機安裝一個m…

怎么在Github上readme文件里面怎么插入圖片?

環境: Github 問題描述: 怎么在Github上readme文件里面怎么插入圖片? https://github.com/latiaoge/AI-Sphere-Butler/tree/master 解決方案: 1.相對路徑引用 上傳圖片到倉庫 將圖片文件(如 .png/.jpg&#xff…

Elasticsearch除了用作查找以外,還能可以做什么?

前言 Elasticsearch用于實時數據分析、日志存儲、業務智能等。還有日志與監控、多租戶和安全性。以及應用場景包括日志分析、公共數據采集、全文搜索、事件數據、數據可視化。處理錯誤拼寫和支持變體,不過這些可能還是屬于搜索優化。企業搜索、日志管理、應用監控、…

AIGC(生成式AI)試用 22 -- 跟著清華教程學習 - DeepSeek:從入門到精通

目標: 跟著清華教程學習DeepSeek同樣的問題分別嘗試使用DeepSeek和文心一言進行提問嘗試使用輔助工具完成學習中遇到的問題 個人理解: - AI,AI思維,像人一樣思考,越來越像人?參考數據宏大,思考…

[Windows] 全國油價實時查詢,可具體到城市

[Windows] 全國油價實時查詢,可具體到城市 鏈接:https://pan.xunlei.com/s/VOJnS3aOPeBwGaSvS0O0E1hwA1?pwdx83j# 出于代碼練習的目的,調用公共免費api做的py程序,已經一鍵打包,雙擊啟動即可 使用:選擇…

【并發編程】線程池任務拋異常會怎么樣?

一、先說結論 得看線程池的實現,JUC 的線程池(ThreadPoolExecutor)的話 不會影響其他的線程若是 submit 方法,或者任務為 future 任務,異常只有在 get 的時候才會拋出若是 execute runnable 任務,異常就…

本地部署deepseek-r1 ollama+anythingllm

本期筆者帶給大家部署一個本地私有化知識庫,簡單明了,直接步入主題,需要讀者可以繼續關注支持一下啊! 目錄 背景步驟 一、環境準備二、Ollama環境部署三、AnythingLLM安裝 總結 開始下載應用: 操作系統&#xff1a…

JAVA-Exploit編寫(13-15)--JAVAFX-GUI檢測工具編寫實現

目錄 一,JAVAFX-GUI單個漏洞檢測編寫 1.1 綁定事件 1.2 Thinkphp5_Rce編寫 1.3 編寫利用類 1.4 Thinkphp2x_Rce編寫 1.5 單個漏洞檢測GUI工具完整代碼 二,JAVAFX-GUI單個漏洞批量檢測編寫 2.1 編寫利用反射類 2.2 批量檢測漏洞完整GUI工具代碼 三,JAVAFX-GUI…

mysql-Innodb記錄結構深度解析

Innodb記錄結構 InnoDB記錄結構深度解析一、InnoDB存儲基礎單元:頁(Page)二、行格式(Row Format) 三、核心行格式詳解1. Compact行格式結構組成: 2. Redundant行格式(兼容舊版本)核心…

Deepin(Linux)安裝MySQL指南

1.下載 地址:https://downloads.mysql.com/archives/community/ 2.將文件解壓到 /usr/local 目錄下 先cd到安裝文件所在目錄再解壓,本機是cd /home/lu01/Downloads sudo tar -xvJf mysql-9.2.0-linux-glibc2.28-x86_64.tar.xz -C /usr/local3.創建軟鏈…