CVPR2024遷移學習《Unified Language-driven Zero-shot Domain Adaptation》

摘要

本文提出了一個名為 Unified Language-driven Zero-shot Domain Adaptation(ULDA)的新任務設置,旨在使單一模型能夠適應多種目標領域,而無需明確的領域標識(domain-ID)知識。現有語言驅動的零樣本領域適應任務存在限制,例如需要領域ID和領域特定模型,這限制了模型的靈活性和可擴展性。為了解決這些問題,作者提出了一個包含三個組件的新框架:層次上下文對齊(Hierarchical Context Alignment, HCA)、領域一致表示學習(Domain Consistent Representation Learning, DCRL)和文本驅動校正器(Text-Driven Rectifier, TDR)。這些組件協同工作,分別在多個視覺層面上對齊模擬特征與目標文本、保留不同區域表示之間的語義相關性以及校正模擬特征與真實目標視覺特征之間的偏差。大量實證評估表明,該框架在兩種設置中均取得了具有競爭力的性能,甚至超越了需要領域ID的模型,展現了其優越性和泛化能力。該方法不僅有效,而且在推理時不會引入額外的計算成本,具有實用性和效率。

Introduction

擬解決的問題:

  • 領域適應中的靈活性和可擴展性問題:現有方法需要領域ID來選擇領域特定的模型,這限制了模型在實際應用中的靈活性和可擴展性。例如,在“雨中駕駛”和“雪中駕駛”兩種任務領域中,需要分別訓練兩個獨立的模型來適應這些領域。
  • 缺乏目標領域數據時的模型適應性問題:在實際應用中,由于隱私問題或數據稀缺性,可能無法直接訪問目標領域的圖像數據。因此,需要開發一種能夠在沒有目標領域圖像的情況下,僅通過文本描述來適應目標領域的模型。

如下圖所示。我們提出的統一語言驅動的領域適應(ULDA)任務側重于現實世界的實際場景。在訓練階段,ULDA不允許訪問目標域的圖像,只提供源域圖像和文本描述。在測試期間,ULDA需要一個單一的模型來適應不同的目標域,而不是像以前的方法那樣使用特定于域的頭。

創新之處

提出了一種新的任務設置ULDA:與現有方法不同,ULDA要求單個模型能夠適應多種目標領域,而無需在測試時提供領域ID,這更符合實際應用場景。

設計了一個包含三個關鍵組件的新框架

  • 層次上下文對齊(HCA):通過在場景級別、區域級別和像素級別對齊特征與文本嵌入,解決了全局對齊可能導致的語義損失問題。
  • 領域一致表示學習(DCRL):通過保留不同類別在不同領域中的語義相關性,確保了模型在不同領域之間的結構一致性。
  • 文本驅動校正器(TDR):通過利用文本嵌入來校正模擬特征,減少了模擬特征與真實目標特征之間的偏差,提高了模型的泛化能力。

在推理階段不引入額外計算成本:該方法在保持有效性的同時,確保了模型在實際應用中的實用性和效率。

Preliminary

P?DA 是一種用于計算機視覺中零樣本領域適應(Zero-shot Domain Adaptation, ZSDA)的范式。它通過僅利用目標領域的自然語言描述,而無需目標領域的圖像數據來訓練模型,從而實現從源領域到目標領域的適應。P?DA 的核心思想是利用預訓練的 CLIP 編碼器來優化源特征的轉換,并將其與目標領域的文本嵌入對齊。

P?DA 的訓練過程分為兩個階段:

第一階段:模擬目標特征(Simulating Target Features)

  • Prompt-driven Instance Normalization (PIN):P?DA 引入了 PIN 操作,通過可學習的變量 μ 和 σ,這些變量由目標領域的文本提示引導,來模擬目標領域的知識。具體公式如下:

其中,fs? 是源域特征,μ(fs?) 和 σ(fs?) 分別是源特征的均值和標準差。

對齊目標文本嵌入:為了確保從源域到目標域的適當轉換,需要通過以下損失函數促進 fs→tPIN? 與 CLIP 文本嵌入 TrgEmb 之間的相似性:

??其中,\overline{f}_{s\rightarrow t}是通過 Prompt-driven Instance Normalization (PIN) 轉換后的全局特征,TrgEmb 是目標文本嵌入。

第二階段:微調分割頭(Fine-tuning the Segmentation Head)

在第一階段獲得模擬特征后,P?DA 對預訓練的分割頭進行微調,使模型能夠更好地適應目標領域的下游任務。這一階段的訓練由分割預測與真實掩碼之間的交叉熵損失監督。

方法

提出了一種名為 Unified Language-driven Zero-shot Domain Adaptation (ULDA) 的新方法,旨在使單一模型能夠適應多種目標領域,而無需明確的領域標識(domain-ID)。該方法的核心在于通過語言驅動的方式,僅利用源域數據和目標域的文本描述,來實現對目標域的有效適應。ULDA框架包含三個關鍵組件:層次上下文對齊(HCA)領域一致表示學習(DCRL)文本驅動校正器(TDR)。這些組件協同工作,分別從特征對齊、語義一致性保持和特征校正三個方面提升模型的泛化能力和適應性。

1. 層次上下文對齊(Hierarchical Context Alignment, HCA)

Vanilla scene-text 對齊會導致語義丟失。P?DA 通過等式直接將池化特征 fs→t 與文本嵌入 TrgEmb 對齊,在場景級別實現了視覺語言對齊。然而,模型僅通過調整全局上下文以適應目標域來實現與目標域的良好對齊具有挑戰性,因為在將場景中不同對象的特征對齊到單個共享目標域嵌入時這可能會導致潛在的語義損失,從而導致偏離它們各自的真實語義分布。為了緩解這個問題,我們提出了一種分層上下文對齊 (HCA) 策略,該策略可以在多個級別上對特征\overline{f}_{s\rightarrow t}進行復雜的對齊,包括 1) 整個場景,2) 場景中的區域,以及 3) 場景中的像素

1.1 場景級別對齊

HCA 的第一個層次是場景級別對齊,目標是將全局特征與目標文本嵌入對齊。具體來說,通過以下公式實現:

?其中,\overline{f}_{s\rightarrow t}是通過 Prompt-driven Instance Normalization (PIN) 轉換后的全局特征,TrgEmb 是目標文本嵌入。該損失函數通過最大化全局特征與文本嵌入的相似性,使模型能夠適應目標域的整體語義。

1.2 區域級別對齊

區域級別對齊的目標是保留不同類別在場景中的獨特語義特征。具體步驟如下:

1.利用類別名稱和目標域描述生成細粒度的文本嵌入T\in \mathbb{R}^{n\times d},其中 n 是類別數量,d 是嵌入維度。

2.將圖像特征圖f_{s\rightarrow t}\in \mathbb{R}^{HW\times d}與類別標簽y\in \mathbb{R}^{HW}轉換為二值掩碼y^{*}\in \mathbb{R}^{n\times HW}

3.通過掩碼平均池化(Masked Average Pooling, MAP)計算每個類別的區域原型C\in \mathbb{R}^{n\times HW}

    4.計算區域原型 C 與文本嵌入 T 之間的相似性矩陣S\in \mathbb{R}^{n\times n}

    5.通過以下公式優化區域對齊損失:

    ?1.3 像素級別對齊

    像素級別對齊進一步細化特征與文本嵌入之間的對齊,目標是使每個像素的特征更接近目標域的語義。具體步驟如下:

    1.計算每個像素的類別概率P\in \mathbb{R}^{HW\times d}

    2.使用像素級標簽y\in \mathbb{R}^{HW}計算交叉熵損失:

    1.4 總體損失

    HCA 的總體損失函數為:

    ?2. 領域一致表示學習(Domain Consistent Representation Learning, DCRL)

    DCRL 的目標是確保不同領域之間的語義相關性保持一致。例如,“雪中的公共汽車”、“雨中的公共汽車”和“夜間的公共汽車”的文本嵌入可能與“雪”、“雨”和“夜”背景下的視覺對應物相比可能具有不同的相關性。具體來說,對于 m 個目標領域中的 n 個類別,分別計算每個領域的類別原型C\in \mathbb{R}^{n\times d}和文本嵌入T\in \mathbb{R}^{n\times d},并將它們組合成擴展的原型矩陣\widetilde{C}\in \mathbb{R}^{mn\times d}\widetilde{T}\in \mathbb{R}^{mn\times d}。然后,通過以下公式優化領域一致性損失:

    ?該損失函數通過最小化不同領域中類別原型與文本嵌入之間的相關性差異,確保模型在不同領域之間保持一致的語義表示。

    3. 文本驅動校正器(Text-Driven Rectifier, TDR)

    在第二階段微調時,模型利用模擬的目標域特征來微調分割頭,使模型能夠有效地適應目標域。然而,模擬特征與實際目標域特征之間可能存在差異。考慮這些差異至關重要,因為直接使用模擬特征可能會導致分割頭與真實目標分布的偏差,從而在調整后產生更差的分割性能。

    因此,我們建議通過利用 CLIP 獲得的文本嵌入來解決這個問題,這些嵌入實際上類似于真實目標域中的分布。通過采用這些文本嵌入作為先驗,我們可以糾正模擬過程,從而鼓勵模擬特征與目標特征更緊密地對齊。糾正有利于適應。具體來說,TDR 的目標是校正模擬特征與真實目標特征之間的偏差。具體來說,在模型的第二階段(微調階段),通過以下公式對模擬特征進行校正:

    其中,\widetilde{\mu}\widetilde{\sigma }是通過文本嵌入經過線性層得到的目標特征的均值和標準差,β 是一個可學習的校正因子,用于控制校正的程度。通過這種方式,TDR 使模擬特征更接近真實目標特征,從而提高模型的泛化能力。?

    4.總結

    訓練過程:

    1. Stage-1:通過 PIN 生成模擬特征,并使用 HCA 和 DCRL 進行對齊。
    2. Stage-2:通過 TDR 校正模擬特征,并微調分割頭以優化分割任務的性能。

    推理過程: 對目標域圖像進行特征提取、模擬特征生成、文本驅動校正和分割預測。

    結論

    • ULDA框架的有效性:通過在多種目標領域上的實驗驗證,ULDA框架在零樣本領域適應任務中取得了具有競爭力的性能,甚至在某些情況下超越了需要領域ID的方法,證明了其在實際應用中的可行性和優越性。

    • 方法的實用性:ULDA方法在推理階段不引入額外的計算成本,保持了模型的實用性和效率,使其更適合于實際的領域適應任務。

    • 對領域適應任務的推動:ULDA的提出為領域適應任務提供了一種新的思路,即通過文本描述來適應目標領域,而無需直接訪問目標領域的圖像數據,這為解決實際應用中的數據稀缺問題提供了一種有效的解決方案。

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/bicheng/85184.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85184.shtml
    英文地址,請注明出處:http://en.pswp.cn/bicheng/85184.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    AI安全風險監測平臺:全周期防護體系構建

    AI安全風險監測平臺通過構建全生命周期防護體系,實現對人工智能系統研發、部署、運行、迭代各階段的安全風險動態監測。該平臺融合算法審計、行為分析、合規驗證等核心能力,建立覆蓋模型安全、數據安全、應用安全的立體防御網絡,為智能系統提…

    數據集-目標檢測系列- 杯子 數據集 bottle >> DataBall

    數據集-目標檢測系列- 杯子 數據集 bottle >> DataBall 貴在堅持! * 相關項目 1)數據集可視化項目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s/overview 2)數據集訓練、推理相關…

    視頻點播web端AI智能大綱(自動生成視頻內容大綱)的代碼與演示

    通過AI技術將視頻課程自動生成結構化大綱和摘要,支持PPT教學視頻、企業內訓等場景應用。核心功能包括:自動匹配視頻知識點生成文本大綱、快速內容定位、降低課程制作成本。系統采用模塊化架構,包含Vue2.7前端組件、JS邏輯庫和演示項目&#x…

    Linux: errno: EINPROGRESS-115

    在connect接口的使用說明里,有這個錯誤:EINPROGRESS。 The socket is nonblocking and the connection cannot be completed immediately. It is possible to select(2) or poll(2) for completion by selecting the socket for writing. After select(2…

    Node.js特訓專欄-基礎篇:3. Node.js內置模塊的使用

    🔥 歡迎來到 Node.js 實戰專欄!在這里,每一行代碼都是解鎖高性能應用的鑰匙,讓我們一起開啟 Node.js 的奇妙開發之旅! Node.js 特訓專欄主頁 Node.js內置模塊:強大功能的基石 在Node.js的世界里&#xff…

    基于MATLAB實現的Capon、MUSIC、ESPRIT和PM算法進行DOA

    使用Capon、MUSIC、ESPRIT和PM多種算法進行doa估計,通過譜峰搜索函數估計到達角,并使用蒙特卡洛方法估計各算法的RMSE。(可能計算時間較長,如需節省時間可以減小蒙特卡洛次數) PM.m , 574 RMSE.m , 274 TLS_ESPRIT.m …

    某網站極驗4滑塊驗證碼逆向分析

    文章目錄 1. 寫在前面2. 接口分析3. w逆向分析4. JSON參數分析5. 距離識別6. RSA純算還原7. AES純算還原【??作者主頁】:吳秋霖 【??作者介紹】:擅長爬蟲與JS加密逆向分析!Python領域優質創作者、CSDN博客專家、阿里云博客專家、華為云享專家。一路走來長期堅守并致力于…

    深入理解 C++ inline:三大語法特性 + 七大高頻考點全解析

    一、什么是內聯函數 編譯器嘗試將 inline 函數的代碼直接插入調用處(類似宏展開),避免函數調用的壓棧、跳轉、返回等額外開銷。適用于短小頻繁調用的函數:如簡單的 getter/setter、數學運算等。inline 只是 建議,編譯…

    Flink 與 Hive 深度集成

    引言 在大數據生態中,Flink 的流批一體化處理能力與 Hive 的數據存儲分析優勢結合,通過 Flink Connector for Hive 實現無縫對接,能顯著提升數據處理效率。本文將系統解析 Flink 與 Hive 集成的核心操作,涵蓋配置、讀寫、優化全流…

    Axios面試常見問題詳解

    axios面試常問題目及其詳解 以下是前端面試中關于 Axios 的常見問題及詳細解答,涵蓋核心原理、實戰場景和進階優化,幫助你在面試中清晰展示技術深度。 1. Axios 是什么?它與原生 Fetch API 有何區別? 回答要點: Axi…

    14.2 《3小時從零搭建企業級LLaMA3語言助手:GitHub配置+私有化模型集成全實戰》

    3小時從零搭建企業級LLaMA3語言助手:GitHub配置私有化模型集成全實戰 關鍵詞:GitHub 倉庫配置, 項目初始化, 目錄結構設計, 私有化模型集成, 開發環境標準化 Fork 并配置 GitHub 項目倉庫 本節將手把手完成 LanguageMentor 項目的倉庫克隆、環境配置和…

    生物制藥自動化升級:Modbus TCP與Ethernet/IP協議轉換實踐

    為優化生物制藥生產流程,我司計劃將現有的Allen-Bradley PLC控制系統與新型生物反應器進行集成。由于兩者采用不同的通信協議(AB PLC使用Modbus TCP,而生物反應器支持Ethernet/IP),直接通信存在障礙。為此通過穩聯技術…

    商業云手機核心優缺點分析

    商業云手機核心優缺點分析,綜合技術性能、成本效率及場景適配性等多維度對比: 核心優勢? 成本革命? 硬件零投入?:免除實體手機采購(旗艦機均價6000元),企業百臺規模可省60萬 CAPEX。 彈性計費?&…

    Windows 遠程桌面添加 SSL 證書指南

    Windows 遠程桌面添加 SSL 證書指南 🧾 準備工作🔐 第一步:使用 Certbot 申請 SSL 證書📦 第二步:生成 PFX 格式證書文件📁 第三步:導入證書到 Windows 證書管理器🔒 第四步&#xf…

    項目實訓技術實現——核心關鍵:基于二叉分割的布局生成算法

    核心關鍵:基于二叉分割的布局生成算法 上一篇針對llava這種為每個元素分別預測每個元素的框的方法進行了分析,已經證實這條路難以行得通。因此,我們考慮直接按照板塊劃分整個背景布局,然后在板塊內,進一步劃分出我們需…

    uniapp 配置devserver代理

    在uniapp項目中配置devserver代理,需要先檢查用的vue版本。 vue3不能在manifest.json配置代理。 1.先檢查項目用的vue版本 找到manifest.json文件查看vue的版本。 2.vue2在manifest.json內配置 "h5" : { "devServer": { …

    移動端 WebView 頁面性能調試實戰:WebDebugX等工具協同與優化

    隨著移動互聯網的發展,越來越多的應用開始使用 WebView 加載網頁內容。然而,這種方式雖然能快速實現跨平臺開發,但也帶來了很多性能瓶頸,尤其是在移動端設備上。WebView 本身的性能限制、頁面加載慢、JS 執行阻塞等問題時常成為開…

    臨時文件夾大量0字節xml問題排查

    某天偶然打開我的c:\users\我的用戶名\AppData\Local\Temp 目錄,發現有很多0字節的.xml文件,你刪除以后一會還會大量產生,如下圖: 下載了ProcessMonitor,記錄了一會日志,查找*.xml發現是資源管理器在創建這…

    突破微小目標檢測瓶頸:智能無人機在藍莓產量估算中的解決方案

    【導讀】 本文提出了一種使用搭載計算機視覺的智能無人機估算藍莓產量的方法。系統利用兩個YOLO模型:一個檢測灌木叢,另一個檢測漿果。它們協同工作,智能控制無人機位置和角度,安全獲取灌木近景圖,實現精準的漿果計數…

    API 管理系統實踐指南:監控、安全、性能全覆蓋

    在數字化轉型和云原生架構全面普及的當下,API(應用編程接口) 已成為現代技術和業務架構的核心基石。從移動應用到智能硬件,從企業后端系統到 AI 模型調用,幾乎所有系統都在通過 API 實現互聯互通。API 這個詞聽起來有點…