【論文閱讀】Beyond Text: Frozen Large Language Models in Visual Signal Comprehension


本論文研究了能否利用一個“凍結”的LLM,直接理解視覺信號(即圖片),而不用在多模態數據集上進行微調。核心思想是把圖片看作一種“語言實體”,把圖片轉換成一組離散詞匯,這些詞匯來自LLM自己的詞表。為此,作者提出了Vision-to-Language Tokenizer(V2T Tokenizer),通過編碼器-解碼器、LLM詞表和CLIP模型的結合,把圖像轉化成一種“外語”。這樣編碼后,LLM不僅能夠理解視覺內容,還能做圖像去噪和修復,而且完全不用微調(只用凍結的LLM)。

Abstract

問題:關注如何讓LLM直接理解視覺信號(如圖像),不依賴于多模態數據集的微調。方法核心:

  • 將圖像看作語言實體,將圖像編碼為LLM詞表中的離散token(單詞)
  • 設計了Vision-to-Language Tokenizer(V2L Tokenizer):通過encoder-decoder架構、LLM詞表和CLIP模型將圖像翻譯成LLM可解釋token。
  • 轉換后,凍結的LLM不僅能做圖像理解類任務,還能做圖像去噪和修復任務(自回歸生成),全程無需fine-tuning。
  • 支持的任務包括分類、caption、VQA以及inpainting、outpainting、deblurring等去噪/修復任務。

V2L Tokenizer的主要流程。把圖像轉成一組可解釋的token(詞元),這些token直接來自LLM的詞表。LLM凍結后,它通過這些token就能理解視覺信號,能執行多模態相關任務(藍色標記部分),也能做圖像去噪修復類任務(橙色標記部分),而無需微調。


Introduction

背景
當前多模態模型如GPT、PaLM、LLaMA正從單一NLP任務向視覺-語言任務擴展。一般做法是:在語言模型基礎上增加視覺模塊。然后通過多模態數據集聯合訓練(fine-tuning),使視覺和語言latent space對齊。

局限性

  • 現有做法依賴大規模數據和計算資源。
  • 多模態對齊通常在latent特征空間層面,訓練成本高。

本論文貢獻

  • 輸入token空間對齊視覺和語言信息(不是特征空間),避免了多模態訓練/微調
  • 操作流程:
    1. 通過V2L Tokenizer把圖像轉為LLM詞表內的離散token(用encoder-quantizer-decoder架構)。
    2. 凍結LLM可直接接收、處理這些token,實現視覺理解、生成和恢復等任務。
  • 詞表擴展(bigrams/trigrams)方式提高了視覺到語言token的表達力。
  • 用CLIP篩選最具語義信息的組合token作為最終codebook,加強與視覺內容的語義對齊。
  • 采用in-context learning,無需LLM訓練,僅靠prompt即可做zero-shot視覺任務。


Method

3.1 Problem Formulation and Overview

  • 圖像作為“外語”:設定LLM詞表為T={t1, t2, ..., tN}。目標是將圖像編碼為K個LLM詞表內的token(屬于T)。
  • 實現:V2L Tokenizer將圖像編碼為Kg個全局token(語義類任務,如分類、caption、VQA等)和Kl個局部token(細節類任務,如denoising、patch level編輯等)。K總數=Kg+Kl。
  • 使用:將(任務說明+in-context學習樣本+全局或局部token)一起輸入LLM,實現各種自回歸視覺任務。

3.2 Vision-to-Language Tokenizer

整體架構

  • 采用encoder-quantizer-decoder結構。
  • 兩個獨立量化器:全局量化器(對應全局codebook),局部量化器(對應局部codebook)。
Global Codebook
  • LLM詞表為一組subword token(如BPE/SentencePiece)。
  • 問題:單詞token通常語義有限。
  • 策略:詞表擴展為bigrams/trigrams,提升語義表達力。但組合詞可能語義雜亂(如符號)。
  • 解決:用CLIP計算每個圖片與所有擴展token的相似性,選top-5最相關token。聚合全圖片的top-5組合,形成最終全局codebook。
Local Codebook
  • 用于局部patch編碼細節,直接用LLM原始詞表,無需擴展。
Embedding表示
  • global/local codebook分別通過CLIP text-encoder轉化為embedding:LLM embedding(local)、E-LLM embedding(global)。
  • 增設用戶可訓練的線性投影器,實現語義空間與視覺空間對齊。
Encoder
  • 包括可訓練CNN encoder和凍結CLIP-vision-encoder。
  • CNN encoder:類似VQ-GAN,提取local特征,空間downsample rate為8。
  • CLIP-vision-encoder:提取global語義特征。
  • 空間特征F∈Rh×w×dl,global特征f∈Rdg。
Quantizer
  • local quantizer(patch級):對每個F(i,j),選距離最近的局部codebook embedding,獲得Kl個token。
  • global quantizer:對global特征f,選最近的全局codebook embedding,獲得Kg個token。
  • 兩類embedding全程凍結。
Decoder
  • 基于VQ-GAN解碼器結構,stacked transposed卷積+自注意力層+cross-attention層(輸入f,空間信息F為query,f為key),實現全局信息對局部還原的輔助重建。
Loss
  • 僅優化編碼器、解碼器、投影層。LLM/E-LLM embedding/vocab及CLIP模型全程凍結。
  • 損失包括LVQ、感知損失LPerceptual和GAN損失LGAN,各權重λ1=1.0, λ2=0.1。
  • 具體損失計算參考VQ-GAN。

3.3 Visual Signal Comprehension

  • 圖像處理后得到全局token Tg和局部token Tl(flatten后Kl=hw)。
  • 結合任務prompt、樣例和token,一起輸入LLM即可實現多樣視覺任務。
  • 具體任務prompt設計:
    • N-way K-shot分類:[任務說明,樣例:“Input:Tg, output:類別”],最后輸入待測Tg,LLM輸出類別。
    • Image Caption:[提示,樣例:“Input:Tg, output:caption”],測樣輸入Tg,LLM自回歸生成caption,遇到句號停止。
    • VQA:[說明+樣例:“Condition:Tg. Question:Q. Answer:A”],測樣輸入Tg和問題,LLM輸出答案。
    • Image Denoising:參考SPAE,補全、去模糊、outpainting等均設計相應prompt,輸入token與要求,輸出重構token。

(a) Inpainting/Outpainting

  1. 提取local tokens:給定一張圖片,首先用V2L Tokenizer提取它的局部token(記為Tl),每個token對應圖片的一個小塊。

  2. 生成token變體

    • 按照SPAE的做法,基于Tl生成10份變體(記為{T??}1????)。

    • 每份變體都是把Tl里的部分token隨機換成LLM詞表里的其它token,形成不同程度“污染”的版本。

    • 替換比例按 [23%, 50%; 3%]生成,從23%到50%之間每次遞增3%,形成不同難度的樣本。

  3. 應用掩碼

    • 對于inpainting任務,在Tl的中心加一個8×8掩碼區域(即中間小塊都遮住,需要去恢復)。

    • 對于outpainting,則在圖片底部加一個8×16掩碼區域(需要補全圖片下方)。

  4. 預測被遮蓋token

    • 目標是一次預測m個被掩碼的token,利用它們前面的n個token信息。

    • Prompt結構為:[學習新語言,按示例推測后面的m個token。{Input: T??[n], output: T??[m]}1????. Input: Tl[n], output:]

    • 意思是:有10個樣例,每個輸入是前n個token,輸出是接下來的m個token。

    • 實際推理時,LLM先用n個未被掩碼token,連續生成m個被掩碼token;每次預測完成后,把新生成的token補上,繼續預測下一個m個,直到所有被遮蓋token都恢復出來。

  5. 拼接token還原圖片

    • 最后把生成的token(恢復的掩碼區域)和剩下未被遮蓋的token一起拼成完整token map,然后送入解碼器還原圖片。


(b) Deblurring(去模糊)、Shift/Rotation Restoration

  1. 任務原理相似:Deblurring、Shift和Rotation恢復原理都類似,也是“輸入一部分token,預測剩下的token”。

  2. prompt結構差別

    • prompt結構是:[學習新語言,按示例推測后面的m個token。{Input: T??[n + m], output: T??[m]}1????. Input: Tl[n + m], output:]

    • 這里,輸入是n+m個token,預測的還是m個token。

    • T?是模糊/位移/旋轉過的圖片對應的token序列;T??表示經過隨機token替換后的版本。T??也對應原圖的random變體。

    • 默認n=16, m=2,即每次輸入16+2個token預測2個目標token。

  • 關鍵思路:用局部token表示圖片,把一部分設為掩碼/異常/模糊等狀態,然后通過預設“few-shot prompt”(即帶10個有答案的示例,樣例都經過隨機擾動),讓凍結的LLM逐步恢復被遮蓋或污染的token,再用解碼器還原整圖。

  • 這樣就實現了不用微調,僅靠文本推理能力恢復(修補、補全、去模糊等)損壞圖片的效果。

4. Experiments?

4.1 Settings
  • 采用了LLaMA2作為LLM,有三種參數規模版本,分別為7B(70億)、13B(130億)、70B(700億),詞表為32,000個詞元。
  • 局部碼本(local codebook)用的是LLaMA2原始詞表,global codebook擴展并過濾后規模是11,908。
  • CLIP模型用的是ViT-L/14結構。
  • 圖片統一resize成128×128像素,然后用V2L Tokenizer編碼成16×16的token map。
  • 訓練數據用的是ImageNet-1K,共訓練100個epoch,使用32張NVIDIA V100顯卡進行訓練。
  • 優化器選Adam,初始學習率5e-4,前5個epoch線性升溫,然后采用半周期余弦衰減。
4.2 Image Comprehension

Few-Shot Classification(小樣本分類)

  • 實驗在Mini-ImageNet的2-way和5-way分類基準上做圖像理解。
  • 所有樣本和測試圖像都用V2L Tokenizer轉成Kg個global token。
  • 按照3.3節和圖3設計prompt輸入LLM做分類預測,LLM輸出文本形式的類別(必須所有token跟類別名完全吻合才算正確)。
  • 在表1比較了不同LLaMA2版本(7B/13B/70B)、以及同行的LQAE[25]、SPAE[54]、和另一個基線方法。
  • 影響分類精度的因素有:(1)分類類別N、(2)每類樣本K、(3)任務描述、(4)few-shot樣本重復次數。
  • 主要發現:①本方法在各種場景下都超過了SPAE(盡管用更小的LLM和更精簡的詞表);②代表圖片的token數量越多,性能越高,這是因為詞表擴展使得可選語義token更豐富。

Image Caption & Visual Question Answering

  • 按SPAE的流程,從COCO Caption和VQA數據集中隨機挑選10個樣本做in-context示例,默認每圖用21個global token表示。
  • 圖5展示了一些可視化結果,還有更多結果在補充材料里。

Semantic Interpretation

  • 圖6可視化了6張圖像各自得分最高的4個global token,可以看出詞表擴展明顯豐富了語義選擇空間(如bigrams、trigrams)。
  • 表2則用CLIP分數和CLIP-R(相對分數)評價global token的語義質量,和SPAE對比,結果顯示本方法雖然詞表更小但語義質量更優。

4.3 Image Reconstruction and Denoising

Reconstruction Evaluation(

  • V2L Tokenizer把圖像編碼成LLM詞表上的local token,這些token要能充分表達圖像信息以便解碼器重建原圖或去除污染。
  • 用FID、LPIPS、PSNR三種指標評估重建質量,結果見表3。
  • 比較了兩種配置:①用VQ-GAN的解碼器不加global token;②用論文提出的帶global token解碼器(默認為section3.2配置)。
  • 本方法在所有指標上都優于SPAE。

Image Denoising

  • 介紹了prompt設置如何復原被污染(破壞)的圖片,包括修補、擴展、去模糊、位移、旋轉等任務,如圖4所示。
  • 表4分析了兩大影響因素:①圖片tokenizer編碼能力;②LLM預測local tokens能力(以VQ-GAN、LQAE、SPAE為對比方法)。
  • 隨機挑選5000張ImageNet驗證集圖片做評測,指標為FID和LPIPS。
  • V2L Tokenizer在五類任務上幾乎所有指標都優于對比方法,主要原因是圖片特征能更好地和LLM token空間對齊。

Masked Image Restoration

  • 在ImageNet驗證集圖片上,先用V2L Tokenizer獲取global和local token,然后隨機把30% local token做掩碼(遮蓋)。
  • 用LoRA微調過的LLaMa-2 7B模型來預測這些掩碼token(具體微調方法見補充材料)。
  • 把預測的token與未被掩碼的token聯合輸入解碼器進行重建,定性結果見圖8。
  • 圖中“input”是把未掩碼token拼實際像素,掩碼部分設為0送入解碼器。

Conclusion

  • 把圖片視作“外語”,提出了V2L Tokenizer,將連續視覺信號映射到LLM的token空間,使凍結的LLM也能不經多模態微調理解視覺信息。
  • V2L Tokenizer能生成全局和局部token:全局token通過詞表擴展做語義表達,支持識別、描述和問答任務;局部token則用于提取圖片細節,實現去噪、修復等任務

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/923634.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/923634.shtml
英文地址,請注明出處:http://en.pswp.cn/news/923634.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

The Oxford-IIIT寵物圖像識別數據集(753M)

0、引言博主研究生期間做的是人工智能領域相關的深度學習模型研究,早期還沒定題的時候調研了大量方向。眾所周知,模型性能的好壞很大程度上依賴于數據集,因此我當時也接觸了大量數據集,這陣子將這些數據集匯總整理了一下&#xff…

jdbc DAO封裝及BaseDAO工具類

DAO概念 DAO:Data Access Object,數據訪問對象。 Java是面向對象語言,數據在Java中通常以對象的形式存在。一張表對應一個實體類,一張表的操作對應一個DAO對象! 在Java操作數據庫時,我們會將對同一張表的增…

大模型應用開發2-SpringAI實戰

SpringAI整合了大多數大模型,而且對于大模型開發的三種技術架構都有比較好的封裝和支持,開發起來非常方便。不同的模型能夠接收的輸入類型、輸出類型不一定相同。SpringAI根據模型的輸入和輸出類型不同對模型進行了分類: 大模型應用開發大多…

TDengine 時序函數 DIFF 用戶手冊

DIFF 函數用戶手冊 函數概述 DIFF 函數用于計算數據列中相鄰兩行數據的差值,通常用于分析數據的變化趨勢和增量。該函數特別適用于監控智能電表數據的變化模式。 語法 SELECT DIFF(column_name [, ignore_negative]) FROM table_name;參數說明 column_name: 數…

清除gradle緩存的某個依賴

要清除 Gradle 緩存中的某個特定依賴&#xff0c;可以按照以下步驟操作&#xff1a;找到依賴在緩存中的路徑 Gradle 緩存的默認位置&#xff1a; Windows: C:\Users\<用戶名>\.gradle\caches\modules-2\files-2.1 macOS/Linux: ~/.gradle/caches/modules-2/files-2.1 路徑…

機器人控制器開發(驅動層——伺服驅動canopen的sdo和pdo)

文章總覽 一、核心區別&#xff1a;一句話概括 ? ??SDO&#xff08;服務數據對象&#xff09;??&#xff1a;像 ??“問詢/設置”??。用于??點對點、非周期??的參數配置和讀取。例如&#xff0c;設置電機增益、讀取當前位置等。??速度慢&#xff0c;但確保數據準…

返利APP排行榜數據實時更新:基于 WebSocket 與 Redis 的高并發數據推送技術

返利APP排行榜數據實時更新&#xff1a;基于 WebSocket 與 Redis 的高并發數據推送技術 大家好&#xff0c;我是阿可&#xff0c;微賺淘客系統及省賺客APP創始人&#xff0c;是個冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 在返利APP運營中&#xff0c;用戶對排…

[論文閱讀] 人工智能 + 軟件工程 | 告別冗余HTML與高算力消耗:EfficientUICoder如何破解UI2Code的token難題

告別冗余HTML與高算力消耗&#xff1a;EfficientUICoder如何破解UI2Code的token難題 論文信息信息類別具體內容論文原標題EfficientUICoder: A Dual-Modal Token Compression Framework for UI-to-Code Generation with Multimodal Large Language Models論文鏈接https://arxiv…

【STM32項目開源】STM32單片機智能語音風扇控制系統

目錄 一、設計背景和意義 1.1設計背景&#xff1a; 1.2設計意義&#xff1a; 二、實物展示 三、硬件功能介紹 2.1 硬件清單&#xff1a; 2.2 功能介紹&#xff1a; 四、軟件設計流程圖 五、硬件PCB展示 六、軟件主函序展示 七、單片機實物資料 資料獲取 查看主頁介…

git clone vllm

這個錯誤不是 vLLM 本身的問題&#xff0c;而是 pip 在 clone GitHub 倉庫時失敗了&#xff1a; error: RPC failed; curl 16 Error in the HTTP2 framing layer fatal: expected flush after ref listing根因通常是&#xff1a; 網絡問題&#xff08;訪問 GitHub 被中斷 / 代理…

光譜相機的新興領域應用

光譜相機在?新興領域?的應用正快速拓展&#xff0c;結合?AI、納米技術、量子傳感?等前沿科技&#xff0c;突破傳統檢測極限。以下是六大最具潛力的新興應用方向及技術突破點&#xff1a;?1. 元宇宙與數字孿生??應用場景?&#xff1a;?虛擬材質建模?&#xff1a;通過高…

深入理解數據結構之復雜度

文章目錄1.數據結構前言1.1 數據結構1.2 算法2.算法效率2.1 復雜度的概念2.2 復雜度的重要性3.1 大O的漸進表式法3.2 時間復雜度計算示例3.2.1 示例13.2.2 示例23.2.3 示例33.2.4 示例43.2.5 示例53.2.6 示例63.2.7 示例74.空間復雜度4.1 空間復雜度計算示例4.1.1 示例14.1.2 示…

【Vue3】10-編寫vue項目時,ref的應用(2)

合集篇&#xff1a; 1.【Vue3】創建并運行一個簡易的Vue3項目 2.【Vue3】編寫vue實現一個簡單效果&#xff0c;并使用setup糖簡化代碼 目錄refref 定義對象類型的響應式數據1. 概念理解a. 概念b. 分析2. 代碼實操代碼場景步驟一&#xff1a;導入ref步驟二&#xff1a;修改數據形…

clickhouse 中SUM(CASE WHEN ...) 返回什么類型?

文章目錄clickhouse 中SUM(CASE WHEN ...) 返回什么類型&#xff1f;CASE WHENSUM(CASE WHEN ...) 返回什么類型&#xff1f;clickhouse 中SUM(CASE WHEN …) 返回什么類型&#xff1f; CASE WHEN ClickHouse中的CASE WHEN用法與SQL標準中的用法基本相同&#xff0c;用于實現…

【算法】C語言多組輸入輸出模板

在 C語言 里&#xff0c;“多組輸入輸出”是很多在線評測系統&#xff08;OJ&#xff09;常見的模式&#xff0c;通常有兩種情況&#xff1a;1. 輸入到文件結束&#xff08;EOF&#xff09;比如題目沒有告訴有多少組數據&#xff0c;就需要一直讀直到輸入結束。#include <st…

【Ubuntu】sudo apt update出現E :倉庫***沒有Release文件

【Ubuntu】sudo apt update出現E &#xff1a;倉庫***沒有Release文件 1 問題描述 在執行sudo apt update更新一下軟件包時出現了如下報錯 E: 倉庫***沒有Release 文件。 N: 無法安全地用該源進行更新&#xff0c;所以默認禁用該源。 N:參見apt-secure&#xff08;8&#xf…

全球后量子遷移進展:區域特色與產業落地差異

一、量子威脅具象化&#xff1a;從技術風險到產業沖擊量子計算對傳統密碼體系的威脅已從理論走向現實&#xff0c;其破壞性不僅體現在算法破解效率的飛躍&#xff0c;更滲透到數據全生命周期的安全防護中。以金融領域為例&#xff0c;2024 年國際安全機構模擬實驗顯示&#xff…

貪心算法應用:決策樹(ID3/C4.5)詳解

Java中的貪心算法應用&#xff1a;決策樹&#xff08;ID3/C4.5&#xff09;詳解 決策樹是一種常用的機器學習算法&#xff0c;它通過遞歸地將數據集分割成更小的子集來構建樹形結構。ID3和C4.5是兩種經典的決策樹算法&#xff0c;它們都使用了貪心算法來選擇最優的特征進行分割…

華為任旭東:開源協作,激發創新,共創智能世界 | GOSIM HANGZHOU 2025

GOSIM HANGZHOU 2025峰會盛大開幕&#xff0c;華為首席開源聯絡官、CNCF基金會董事任旭東以《開源協作&#xff0c;激發創新&#xff0c;共創智能世界》為題發表Keynote演講。顛覆性技術到工業應用的轉換時間越來越短&#xff0c;AI技術正在推動傳統軟件產業的演進&#xff0c;…

本地部署 GPS 跟蹤系統 Traccar 并實現外部訪問

Traccar 是一款集成了強大的 java 后端服務的 GPS 跟蹤系統 。它支持在多種設備使用&#xff0c;在物流運輸、資產管理和個人安全等領域應用。本文將詳細的介紹如何利用 Docker 在本地部署 Traccar 并結合路由俠實現外網訪問本地部署的 Traccar 。 第一步&#xff0c;本地部署…