[2025CVPR-圖象分類方向]SPARC:用于視覺語言模型中零樣本多標簽識別的分數提示和自適應融合

1. ?背景與問題定義?

  • 視覺語言模型(如CLIP)在單標簽識別中表現出色,但在零樣本多標簽識別(MLR)任務中表現不佳。MLR要求模型識別圖像中多個對象(例如,圖像包含“貓”和“沙發”),而無需任何特定訓練數據或微調。
  • 現有方法依賴于提示調優(prompt tuning)或架構修改,這限制了其零樣本適用性。VLMs的分數存在圖像級偏差(image-level bias,即同一圖像在不同提示下分數變化)和提示級偏差(prompt-level bias,即同一提示在不同圖像下分數變化),這些偏差導致MLR性能下降,尤其是在基于平均精度均值(mAP)的排名任務中。
  • 核心挑戰包括:VLMs對復合提示(如“貓和沙發”)表現出“OR-like”行為(即高分數可能僅因一個對象存在),而非理想的“AND-like”行為(即僅當所有對象同時存在時高分數)。

?

2. ?核心貢獻?

SPARC的核心創新包括兩個主要部分:

  • ?分數標準化(Score Normalization)??:研究發現,VLM分數受圖像級和提示級偏差影響,導致mAP顯著下降。簡單標準化(即減去平均值并除以標準差)能有效去除這些偏差。例如:
    • ?圖像級標準化?:針對單個圖像,對所有提示分數進行歸一化,消除圖像特定偏差。
    • ?提示級標準化?:針對單個提示,對所有圖像分數進行歸一化,消除提示特定偏差。
      實驗證明,僅標準化就能提升mAP 6-10%在COCO、VOC和NUSWIDE數據集上。標準化后,分數更可靠,便于比較和融合。

?

復合提示與自適應融合(Compound Prompts and Adaptive Fusion)??:

  • ?復合提示生成?:基于現實對象組合(如“貓和沙發”)創建提示,利用上下文關聯增強檢測。提示包括成對(“A and B”)和三元組(“A, B, and C”)形式,并通過大語言模型(LLM)生成自然句子。提示選擇使用粗略共現概率(例如,過濾掉低概率組合),平均每類生成≤20個提示。
  • ?自適應融合?:研究發現,最大復合分數(如最高排名的提示分數)常因“OR-like”行為導致假陽性(即高分數可能僅因一個對象存在)。相反,第二高分數更可靠,因它捕捉對象組合的“AND-like”行為(即僅當所有對象存在時高分數)。SPARC引入基于主成分分析(PCA)的自適應融合:
    • 提取復合分數的順序統計量(如第k高分數)。
    • 計算最大化方差方向(即第一主成分)作為權重,融合順序統計量和單例提示分數。
    • 最終分數通過合并原始單例分數和融合分數獲得。

?

3. ?方法細節?

SPARC算法(Algorithm 1)分為三步:

  • ?輸入?:圖像集和類名。
  • ?步驟?:
    1. ?生成復合提示?:使用類名創建復合提示,基于共現概率過濾(例如,閾值τ?=0.05用于成對提示)。
    2. ?獲取分數并標準化?:查詢VLM獲取單例提示分數和復合提示分數,然后應用圖像級和提示級標準化(公式1-2)。
    3. ?自適應融合?:對每類計算順序統計量,使用PCA融合(公式3-5),例如,最終分數ζ?? = s?? + 融合分數。
  • ?噪聲模型?:VLMs分數可建模為s??? = θ?? · f(y??, y??) + θ?? + ε,其中f函數顯示“OR-like”行為(高分數因單對象)和“AND-like”行為(高分數因所有對象)。標準化有效處理θ??和θ??偏差,而融合減輕f函數的歧義。

4. ?實驗驗證?

實驗在三個數據集(COCO、VOC、NUSWIDE)和九個CLIP骨干(如ViT-L/14、RN50)上進行:

  • ?基準比較?:SPARC相比Vanilla ZSCLIP(單例提示),平均mAP提升12.6%(COCO)、8.8%(VOC)、7.9%(NUSWIDE)。改進一致,所有骨干提升6-15%。
  • ?互補性?:SPARC與現有方法(如TagCLIP、TaI-DPT)集成,進一步提升mAP(平均1.6-1.7%)。例如,在TagCLIP上集成后mAP從81.3%升至82.9%。
  • ?消融實驗?:
    • ?標準化模塊?:單獨標準化提升單例提示mAP 7.7%;與復合提示結合提升8.6%。
    • ?融合策略?:自適應融合優于固定策略(如k-th最高分數或平均值)。第二高分數比最高分數更可靠,因最高分數易受假陽性影響。

?

5. ?結論與意義?

  • SPARC是一種完全零樣本方法,無需訓練數據或VLM內部訪問,通過系統性提示設計和分數解釋提升MLR性能。關鍵發現包括:標準化有效去除偏差;復合提示的第二高分數優于最大分數;自適應融合優化排名。
  • 該方法揭示了VLM評分行為的新見解(如“OR/AND”歧義),并為零樣本MLR提供可擴展框架。SPARC互補現有方法,代碼公開于GitHub。
  • 總體意義:SPARC展示了通過分數分析而非架構修改實現魯棒MLR的潛力,適用于機器人、醫學影像等零樣本場景。

總結而言,SPARC通過標準化和自適應融合解決了VLMs在零樣本MLR中的核心偏差問題,顯著提升mAP,同時保持模型無關和數據集獨立特性。

論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Miller_SPARC_Score_Prompting_and_Adaptive_Fusion_for_Zero-Shot_Multi-Label_Recognition_CVPR_2025_paper.pdf

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/93528.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/93528.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/93528.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2025創始人IP如何破局?

內容持續更新卻無人點贊,課程精心打磨卻無人報名,直播賣力講解卻無人停留 —— 明明有內容、有經驗、有成果,卻始終難以打動用戶。問題的核心,或許在于你尚未打造出真正的 “創始人IP”。?一、創始人IP:不止標簽&…

告別配置混亂!Spring Boot 中 Properties 與 YAML 的深度解析與最佳實踐

一、Spring配置文件 1.1、什么是Spring配置 Spring配置指的是在Spring框架中定義和管理應用程序組件(如Bean)及其依賴關系的過程 作用: 配置文件主要用于解決硬編碼問題,它將可能變更的信息集中存放。程序啟動時,會從…

無人機噴灑系統技術要點與難點解析

一、 模塊運行方式1. 任務規劃與加載模塊:輸入:農田邊界、障礙物信息、作物類型、病蟲害信息、所需噴灑量、天氣條件。運行:利用地面站軟件或移動APP,規劃最優飛行路徑,設定飛行高度、速度、噴灑參數、作業區域。將規…

mongodb源代碼分析createCollection命令創建Collection流程分析

MongoDB 提供兩種方式創建集合:隱式創建 和 顯式創建。方式 1:隱式創建(推薦)當你向不存在的集合中插入文檔時,MongoDB 會自動創建該集合。示例在 db中隱式創建 users 集合:javascriptdb.users.insertOne({…

c++注意點(13)----設計模式(抽象工廠)

創建型模式抽象工廠模式(Abstract Factory Pattern)是一種創建型設計模式,它提供一個接口,用于創建一系列相關或相互依賴的對象,而無需指定它們具體的類。簡單說,它就像一個 "超級工廠"&#xff…

【大語言模型入門】—— Transformer 如何工作:Transformer 架構的詳細探索

Transformer 如何工作:Transformer 架構的詳細探索Transformer 如何工作:Transformer 架構的詳細探索什么是 Transformer?什么是 Transformer 模型?歷史背景從 RNN 模型(如 LSTM)到 Transformer 模型在 NLP…

iOS安全和逆向系列教程 第20篇:Objective-C運行時機制深度解析與Hook技術

iOS安全和逆向系列教程 第20篇:Objective-C運行時機制深度解析與Hook技術 引言 在上一篇文章中,我們深入學習了ARM64匯編語言的基礎知識,掌握了從寄存器操作到指令分析的完整技能體系。現在,我們將把這些底層知識與iOS應用的高層邏輯聯系起來,深入探討Objective-C運行時…

IDEA中全局搜索快捷鍵Ctrl+Shift+F為何失靈?探尋原因與修復指南

在軟件開發中,高效地查找和管理代碼是提升生產力的關鍵。IntelliJ IDEA,作為一款功能強大的集成開發環境(IDE),提供了豐富的搜索功能,幫助開發者迅速定位代碼、資源、甚至是IDE功能本身。 在 IntelliJ IDE…

【學習筆記】Lean4 定理證明 ing

文章目錄概述Lean4 定理證明初探示例:證明 1 1 2示例:證明 2 * (x y) 2 * x 2 * yLean4 定理證明基礎命題與定理命題(Proposition)定理(Theorem)量詞策略概述 Lean證明是指在Lean環境中,通…

墨者:SQL注入漏洞測試(HTTP頭注入)

墨者學院:SQL注入漏洞測試(HTTP頭注入)🚀 1. 什么是HTTP頭注入?🔍 HTTP頭注入是指攻擊者通過篡改HTTP請求頭部的字段(如User-Agent、Referer、Cookie、Host等),將惡意SQL代碼插入到后端數據庫查…

linux_前臺,后臺進程

*在用戶訪問端口時,操作系統會形成對應的session,在其的內部進一步形成bash等進程 *一個會話只有一個前臺進程,可以有多個后臺進程,前臺與后臺進程的區別在于誰擁有鍵盤的使用權*前臺與后臺進程都可以訪問顯示器但是后臺無法訪問標準輸入獲取…

spring data mongodb 入門使用手冊

<!--pom.xml引入依賴--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency>文檔映射類Student.java import lombok.Data; import lombok.NoArgsCons…

Fastjson2常用操作大全:對象、字符串、集合、數組、Map與JSON互轉實戰

高性能&#xff1a; 核心解析器和生成器經過深度優化&#xff0c;性能遠超許多同類庫。 功能豐富&#xff1a; 支持標準JSON、JSONPath查詢、泛型處理、日期格式化、自定義序列化/反序列化等。 易用性&#xff1a; API 設計簡潔直觀&#xff0c;JSON 工具類提供了最常用的 toJS…

大模型——字節Coze重磅開源!Dify何去何從

大模型——字節Coze重磅開源!Dify何去何從 想必很多人盼了很久,就在昨晚,字節Coze終于開源了!Coze Studio 是字節跳動新一代 AI Agent 開發平臺扣子(Coze)的開源版本。 提供 AI Agent 開發所需的全部核心技術:Prompt、RAG、Plugin、Workflow,使得開發者可以聚焦創造 A…

NaVid——基于單目RGB捕獲的視頻讓VLM規劃「連續環境中VLN」的下一步:無需地圖/里程計/深度信息(含MP3D/R2R/RxR,及VLN-CE的詳解)

前言 因為我司「七月在線」準備于25年7月底復現下NaVILA&#xff0c;而在研究NaVILA的過程中&#xff0c;注意到了這個NaVid 雖然NaVid目前已經不是VLN sota了&#xff0c;但其首次展示了VLM在無需地圖、里程計或深度輸入的情況下&#xff0c;能夠實現優秀的導航性能且對后來…

【Vue2】結合chrome與element-ui的網頁端條碼打印

所有文章都是免費查看的&#xff0c;如果有無法查看的情況&#xff0c;煩請聯系我修改哈~ 序言 為什么要做這個呢&#xff1f;因為所需要的條碼打印功能比較簡單&#xff0c;符合需要即可&#xff0c;但是呢網上查看了發現并沒有合適的開源項&#xff0c;其他成熟的軟件收費又超…

循環神經網絡——動手學深度學習7

環境&#xff1a;PyCharm python3.8 &#x1f449;【循環神經網絡】(recurrent neural network&#xff0c;RNN) RNN通過 引入狀態變量存儲過去的信息和當前的輸入&#xff0c;從而可以確定當前的輸出。狀態變量捕捉序列的時序依賴&#xff0c;是處理文本、時間序列等數據的…

Java面試寶典:MySQL8新特性底層原理

一、降序索引的革新 1.1 降序索引的核心概念 MySQL 8.0 實現了真正的降序索引(Descending Index) 支持,這是數據庫引擎層面的重大改進: 存儲引擎支持:僅 InnoDB 存儲引擎支持降序索引,且僅適用于 B+Tree 索引結構 語法顯式聲明:通過 DESC 關鍵字顯式指定字段的排序方向…

前端-html+CSS基礎到高級(三)html基礎和開發工具

一、html語法規范什么是注釋?在同學上課學習時&#xff0c;我們會在書本段落間記錄內容的注解&#xff0c;方便下次看到此處理解。問題&#xff1a;我們在書本段落間記錄下的注解是為了給誰看的&#xff1f; 下次的閱讀課本者&#xff08;自己&#xff09;。程序員在寫代碼時也…

-Dspring.output.ansi.enabled=ALWAYS 設置彩色日志不生效

-Dspring.output.ansi.enabledALWAYS 設置彩色日志不生效 問題原因&#xff1a;使用的自定義的 logback-spring.xml日志需要改一下 <?xml version"1.0" encoding"UTF-8"?> <configuration><appender name"STDOUT" class"c…