【視覺提示學習】3.28閱讀隨想

2109.01134

CoOp通過可學習的向量來建模提示的上下文詞匯,這些向量可以用隨機值或預訓練的詞嵌入進行初始化(見圖2)。我們提供了兩種實現方式,以處理不同性質的任務:一種是基于統一上下文(unified context),它與所有類別共享相同的上下文,并且在大多數類別上表現良好;另一種是基于類別特定上下文(class-specific context),它為每個類別學習一組特定的上下文標記,并且發現在某些細粒度類別上更為合適。在訓練過程中,我們只需通過最小化與可學習上下文向量相關的交叉熵損失來優化預測誤差,同時保持整個預訓練參數固定不變。梯度可以通過文本編碼器反向傳播,利用參數中編碼的豐富知識來學習與任務相關的上下文。

【主線無關的記錄】1.微小的措辭變化可能會對性能產生巨大影響。例如,對于Caltech101(見圖1(a),第二個提示與第三個提示),在類別標記前加上“a”可以帶來超過5%的準確率提升。其中添加與任務相關的上下文可以帶來顯著改進。調整句子結構可以帶來進一步的改進。2.Jiang et al.(2020)提出通過文本挖掘和釋義生成候選提示,并識別出能夠獲得最高訓練準確率的最優提示。Shin et al.(2020)引入了一種基于梯度的方法,通過搜索在標簽似然中梯度變化最大的標記來優化提示。與這些方法最相關的是連續提示學習方法(Zhong et al., 2021; Li and Liang, 2021; Lester et al., 2021),這些方法在詞嵌入空間中優化連續向量。與搜索離散標記的方法相比,這種方法的缺點是缺乏一種清晰的方式來可視化所學習向量對應的“詞匯”。3.CLIP首先將每個標記(包括標點符號)轉換為小寫的字節對編碼(BPE)表示(Sennrich et al., 2016),這本質上是一個唯一的數字ID。CLIP的詞匯量為49,152。為了便于小批量處理,每個文本序列都被[SOS]和[EOS]標記包圍,并限制在固定長度77以內。之后,這些ID被映射到512維的詞嵌入向量,然后傳遞給Transformer。最后,[EOS]標記位置的特征經過層歸一化,并通過一個線性投影層進一步處理。CLIP的訓練目標是將圖像和文本的兩個嵌入空間對齊。具體而言,學習目標被公式化為對比損失。給定一批圖像-文本對,CLIP最大化匹配對之間的余弦相似度,同時最小化所有其他不匹配對之間的余弦相似度。

2211.10277

TaskRes保持VLMs的原始分類器權重不變,并通過調整一組與先驗無關的參數作為原始權重的殘差來獲得目標任務的新分類器,這使得先驗知識得以可靠地保留,同時能夠靈活地探索特定于任務的知識。它直接在基于文本的分類器上進行操作,并明確地將預訓練模型的舊知識和目標任務的新知識解耦。其原理是,解耦使得從VLMs更好地繼承舊知識,并且更靈活地探索特定于任務的知識,即所學習到的關于任務的知識與舊知識無關。具體而言,TaskRes保持原始分類器權重不變,并引入一組與先驗無關的參數,這些參數被添加到權重中。這些可調整的參數,針對目標任務進行調整,因此被稱為“任務殘差”。

其實感覺和殘差沒什么關系 殘差是x+f(x) 然而這個方法里面新加的x與經過文本編碼器的向量無關,而是一個新加的和encoder毫無關系的參數,和CoOp的主要差別可能主要在一個訓練要經過文本encoder的所有的層,而一個不用。

【主線無關的記錄】1.原則上,VLMs所學習到的良好知識結構在轉移到數據有限的下游任務時應該被適當地繼承。然而,現有的大多數高效遷移學習(ETL)方法,如提示調整(PT)和適配器風格調整(AT),要么破壞了先驗知識,要么對先驗知識存在過度偏差。2.ETL的核心是:(i)適當繼承VLMs所學習到的良好知識結構,這些結構已經具有可遷移性;(ii)在數據有限的情況下,有效地探索特定于任務的知識。然而,現有的大多數ETL方法,如提示調整(PT)和適配器風格調整(AT),要么破壞了VLMs的先驗知識,要么以不恰當/不充分的方式學習任務的新知識。例如,CoOp(圖2(b))提出了學習連續提示以合成一個全新的分類器,而不是使用預訓練的基于文本的分類器,這不可避免地導致了先前知識的丟失。相比之下,CLIP-Adapter保留了預訓練的分類器,但在學習新任務時對先驗知識存在過度偏差,即它將預訓練的分類器權重轉換為特定于任務的權重(如圖2(c)所示)。這導致了對新知識探索的不足,從而導致了較低的準確率(如圖1所示)。【clipadpter沒看過還】

[2203.05557] Conditional Prompt Learning for Vision-Language Models

這篇的baseline也是CoOp,在我們的研究中,我們發現CoOp的一個關鍵問題是:所學習的上下文無法推廣到同一數據集內更廣泛的未見類別,表明CoOp對訓練中觀察到的基礎類別存在過擬合。為了解決這一問題,我們提出了條件上下文優化(CoCoOp),它通過進一步學習一個輕量級神經網絡來為每張圖像生成一個輸入條件化的標記(向量),從而擴展了CoOp。與CoOp的靜態提示相比,我們的動態提示能夠適應每個實例,因此對類別變化不那么敏感。

我感覺這篇文章提到的CoOp無法推廣到同一數據集的未見類別(甚至比zeroshot還差原因就是 “加入這個模塊破壞了已有的良好表示空間”)

【主線無關的記錄】1.在傳統的監督學習中,標簽是離散化的,每個類別都與一個隨機初始化的權重向量相關聯,該向量被學習以最小化與包含相同類別的圖像之間的距離。【一開始沒太看懂 傳統的監督學習學的是交叉熵損失 但是標簽是隨機初始化的 并無實際意義 所以可以理解為學習同類差異最小 異類差異最大?】2.為了適應像CLIP這樣的網絡規模數據,視覺-語言模型被設計為具有高容量,這意味著模型的大小通常會非常龐大,通常有數億甚至數十億的參數。因此,像深度學習研究中經常采用的那樣對整個模型進行微調是不切實際的,甚至可能破壞已經學習到的良好表示空間。3.一個更安全的方法是通過添加一些對任務有意義的上下文來調整提示,例如對于上述提到的寵物數據集,“一種寵物”,這已被發現可以有效提高性能。然而,提示工程極其耗時且效率低下,因為它必須基于試錯法進行,并且也不能保證找到最優的提示。為了自動化提示工程,...

[2212.10846] From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

大型語言模型(LLMs)在新語言任務上展現了出色的零樣本泛化能力。然而,將LLMs有效應用于零樣本視覺問答(VQA)任務仍然面臨挑戰,主要是由于LLMs與VQA任務之間存在模態斷層和任務斷層端到端的多模態數據訓練可能彌合這些斷層,但這種方法不夠靈活且計算成本高昂。為解決這一問題,我們提出了Img2LLM,這是一個即插即用模塊,能夠為LLMs提供提示,使其無需端到端訓練即可執行零樣本VQA任務。我們開發了與LLM無關的模型,將圖像內容描述為示例問題-答案對,這些對被證明是有效的LLM提示。Img2LLM具有以下優勢:1)其性能與依賴端到端訓練的方法相當甚至更好。例如,我們在VQAv2上超越了Flamingo [3] 5.6%。在具有挑戰性的A-OKVQA數據集上,我們的方法比少樣本方法高出20%。2)它能夠靈活地與各種LLMs對接以執行VQA任務。3)它消除了使用端到端微調專門化LLMs的需要,從而降低了成本。

以前模態斷層的解決方案主要是 把圖片轉換成語言 任務斷層的解決方案是 給一定的實例。

本文主要是針對端到端的訓練大模型耗時耗力而設計了一個即插即用的模塊,pipeline如下:1.給定圖片與問題2.根據問題,使用BLIP模型的圖像引導文本編碼器(ITE)和GradCAM技術,找到與問題最相關的圖像區域,把這些有關的區域打成patch 并依據圖像塊生成標題并過濾掉質量不高的標題,保留與問題相關的、有意義的標題。 3.從生成的標題中提取可能作為答案的詞匯,比如名詞(“風力渦輪機”)、動詞(“旋轉”)等。為每個答案候選生成一個問題,可以使用模板(比如“這張圖片中有什么在旋轉?”)或者通過神經網絡生成更自然的問題。將生成的問題和對應的答案組合成問題-答案對,這些對將作為LLM(大型語言模型)的提示,幫助它理解圖像內容和任務要求。4.用這些生成好的問題答案對去做實例提示,然后回答最初的問題。

感受是:多模態似乎經常根據圖片生成描述性語句 然后根據描述性語句去生成問題。&&這個pipeline有點反直覺,效果蠻好的。

【主線無關的記錄】1.VQA的核心目標是讓機器能夠根據給定的圖像內容回答與該圖像相關的問題,這些問題通常以自然語言的形式提出。VQA任務旨在模擬人類在觀察圖像時能夠自然地理解和回答問題的能力。

2210.01115

本文目的還是去解決clip在訓練數據上過擬合嚴重,在同一領域未見類別上測試時準確率大幅下降的問題。

為了緩解基礎類別過擬合,本文基于以下觀察提出解決方案:由于提示學習提高了基礎類別的準確率,但提示工程在新類別上表現更好,因此我們提出通過添加文本到文本的交叉熵損失函數來學習軟提示,使其在嵌入空間中接近文本提示,從而利用文本編碼器捕獲的內在信息。這種新提出的文本到文本損失函數首次實現了僅通過語言優化來適應V&L模型,這與以往僅捕捉視覺與語言交互的軟提示學習方法形成對比。

【主線無關的記錄】1.CoOp的一個主要限制是泛化能力弱:學習到的提示過擬合基礎類別,在新類別上表現不佳。為了緩解這一問題,CoCoOp提出了一種動態版本的CoOp,其中一個小網絡被訓練用來從輸入圖像中產生一個視覺特征,該特征被添加到學習到的提示中,從而使它們具有輸入特定性(即動態)。ProDA采用概率方法,通過在文本編碼器的輸出處對提示的分布建模為多元高斯分布。在推理過程中使用估計的均值。最后,UPL使用CLIP為目標數據集生成偽標簽,然后通過自訓練學習軟提示。最后,ProGrad旨在通過鼓勵模型“記住”CLIP的零樣本預測來適應每個目標域,使用CLIP的logits和模型的logits之間的KL視覺-文本損失(即他們使用視覺特征更新權重,方向與CLIP梯度垂直)。與之相比,我們的損失是一個純粹的文本到文本損失,進一步允許引入虛擬類別。與ProGrad不同,我們在新類別上超過了CLIP。

先看ProDA和ProGrad。未完待續

2303.13283

2205.03340?ProDA

【主線無關的記錄】1.VLMs [17, 31] 使用手工設計的提示模板來構建類別描述。一個默認的提示是“一張{類別}的照片”,在通用目標識別(例如ImageNet [7] 和 STL-10 [6])上效果良好。然而,在處理細粒度目標識別時,它很難處理。在花卉數據集(Oxford Flowers 102 [28])上,更好的提示選擇是“一張{類別}的照片,一種花卉。” [31]。2.另一個挑戰來自于視覺內容的多樣性。由于姿勢、變形和光照條件等固有因素,類別內各種示例之間存在顯著的多樣性 [44]。這種類內方差阻止了一個提示足以描述視覺變化。提示需要多樣化且富有信息量,以便能夠處理視覺表示的變化。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/73952.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/73952.shtml
英文地址,請注明出處:http://en.pswp.cn/web/73952.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機求職面試中高頻出現的經典題目分類整理

以下為計算機求職面試中高頻出現的經典題目分類整理,涵蓋技術核心與深度考察方向,答案要點已附解析思路: 一、數據結構與算法 鏈表操作 題目:反轉鏈表(迭代/遞歸實現)考察點:指針操作、遞歸思維…

uniapp選擇文件使用formData格式提交數據

1. Vue實現 在vue項目中,我們有個文件,和一些其他字段數據需要提交的時候,我們都是使用axios 設置請求頭中的Content-Type: multipart/form-data,然后new FormData的方式來進行提交。方式如下: const sendRequest = () => {const formData = new FormData()formData…

BeanDefinition和Beanfactory實現一個簡單的bean容器

目錄 什么是 Springbean 容器 設計思路 圖解 參考文章 開源地址 BeanDefinition 類 BeanFactory 類 測試類 什么是 Springbean 容器 Spring 包含并管理應用對象的配置和生命周期,在這個意義上它是一種用于承載對象的容器,你可以配置你的每個 Bea…

AI Agent開發大全第十四課-零售智能導購智能體的RAG開發理論部分

開篇 經過前面的一些課程,我們手上已經積累了各種LLM的API調用、向量庫的建立和使用、embedding算法的意義和基本使用。 這已經為我們具備了開發一個基本的問答類RAG的開發必需要素了。下面我們會來講一個基本問答類場景的RAG,零售中的“智能導購”場景。 智能導購 大家先…

向字符串添加空格

給你一個下標從 0 開始的字符串 s ,以及一個下標從 0 開始的整數數組 spaces 。 數組 spaces 描述原字符串中需要添加空格的下標。每個空格都應該插入到給定索引處的字符值 之前 。 例如,s "EnjoyYourCoffee" 且 spaces [5, 9] &#xff0…

百人會上的蔚小理與「來的剛剛好」的雷軍

這就是2025百人會上的蔚小理,努力的李斌、宣揚飛行汽車的何小鵬與大講開源的李想。那么小米汽車的模式是什么呢?站在蔚小理的肩上。 這就是2025百人會上的蔚小理,努力的李斌、宣揚飛行汽車的何小鵬與大講開源的李想。那么小米汽車的模式是什么…

解鎖Nginx路由器匹配規則

引言 Nginx 無疑是一款備受矚目的明星產品。它以其高性能、高可靠性以及出色的并發處理能力,在眾多 Web 服務器和反向代理服務器中脫穎而出 ,廣泛應用于各類網站和應用程序中。據統計,超過 30% 的網站都在使用 Nginx 作為其 Web 服務器&…

傳統策略梯度方法的弊端與PPO的改進:穩定性與樣本效率的提升

為什么傳統策略梯度方法(如REINFORCE算法)在訓練過程中存在不穩定性和樣本效率低下的問題 1. 傳統策略梯度方法的基本公式 傳統策略梯度方法的目標是最大化累積獎勵的期望值。具體來說,優化目標可以表示為: max ? θ J ( θ )…

Qwt入門

Qwt(Qt Widgets for Technical Applications)是一個用于科學、工程和技術應用的 Qt 控件庫,提供曲線圖、儀表盤、刻度尺等專業可視化組件。 1. 安裝與配置 1.1 安裝方式 源碼編譯(推薦): git clone https://github.com/qwt/qwt.git cd qwt qmake qwt.pro # 生成 Makef…

軟考《信息系統運行管理員》- 6.1 信息系統安全概述

信息系統安全的概念 信息系統安全是指保障計算機及其相關設備、設施(含網絡)的安全,運行環境的安全, 信息的安全,實現信息系統的正常運行。 信息系統安全包括實體安全、運行安全、信息安全和 人員安全等幾個部分。 影響信息系統安全的因素…

Canvas實現旋轉太極八卦圖

Canvas實現旋轉太極八卦圖 項目簡介 這是一個使用HTML5 Canvas技術實現的動態太極八卦圖,包含了旋轉動畫和鼠標交互功能。項目展示了中國傳統文化元素與現代Web技術的結合。 主要特點 動態旋轉的太極圖八卦符號的完整展示鼠標懸停暫停動畫流暢的動畫效果 技術實…

機器學習、深度學習和神經網絡

機器學習、深度學習和神經網絡 術語及相關概念 在深入了解人工智能(AI)的工作原理以及它的各種應用之前,讓我們先區分一下與AI密切相關的一些術語和概念:人工智能、機器學習、深度學習和神經網絡。這些術語有時會被交替使用&#…

打造高性能中文RAG系統:多輪對話與語義檢索的完美結合

目錄 1、引言 2、RAG系統的核心架構 3、對話理解:超越單輪問答 3.1、指代消解技術 3.2、話題跟蹤與記憶 4、混合檢索策略:兼顧精確與廣泛 4.1、向量檢索 關鍵詞檢索 4.2、重排序機制 5、性能優化:應對大規模文檔 5.1、向量量化技術…

人工智能助力數字化轉型:生成式人工智能(GAI)認證開啟新篇章

在數字化浪潮席卷全球的今天,企業正面臨著前所未有的轉型壓力與機遇。數字化轉型,這一曾經被視為“選擇題”的戰略議題,如今已演變為關乎企業生存與發展的“必答題”。在這場深刻的變革中,人工智能(AI)作為…

Windows 圖形顯示驅動開發-WDDM 2.4功能-GPU 半虛擬化(十二)

DxgkDdiQueryAdapterInfo 更新 DXGKARG_QUERYADAPTERINFO 結構已更新,以包括以下字段以支持半虛擬化: 添加了 Flags 成員,允許 Dxgkrnl 指示以下內容: 它將 VirtualMachineData 設置為指示調用來自 VM。它將 SecureVirtualMach…

iOS審核被拒:Missing privacy manifest 第三方庫添加隱私聲明文件

問題: iOS提交APP審核被拒,蘋果開發者網頁顯示二進制錯誤,收到的郵件顯示的詳細信息如下圖: 分析: 從上面信息能看出第三方SDK庫必須要包含一個隱私文件,去第三方庫更新版本。 幾經查詢資料得知,蘋果在…

馬達加斯加企鵝字幕

Antarctica 南極洲 An inhospitable wasteland 一個荒涼的不毛之地 But even here 但即使在這里 on the Earth’s frozen bottom 地球另一端的冰天雪地里 we find life 也有生命存在 And not just any life 不是別的什么生物 Penguins 而是企鵝 Joyous, frolicking 快樂的 頑皮…

愛因斯坦求和 torch

目錄 向量點積 矩陣乘法 矩陣轉置 向量轉換相機坐標系 在 Python 的科學計算庫(如 NumPy)中,einsum 是一個強大的函數,它可以簡潔地表示各種張量運算。下面是幾個不同類型的使用示例: 向量點積 向量點積是兩個向量…

FPGA調試筆記

XILINX SSTL屬性電平報錯 錯誤如下: [DRC BIVRU-1] Bank IO standard Vref utilization: Bank 33 contains ports that use a reference voltage. In order to use such standards in a bank that is not configured to use INTERNAL_VREF, the banks VREF pin mu…

一區嚴選!挑戰5天一篇脂質體組學 DAY1-5

Day 1! 前期已經成功挑戰了很多期NHANES啦!打算來試試孟德爾隨機化領域~ 隨著孟德爾隨機化研究的普及,現在孟德爾發文的難度越來越高,簡單的雙樣本想被接收更是難上加難,那么如何破除這個困境,這次我打算…