Infusing fine-grained visual knowledge to Vision-Language Models

Authors: Nikolaos-Antonios Ypsilantis, Kaifeng Chen, André Araujo, Ond?ej Chum

Deep-Dive Summary:

視覺-語言模型中注入細粒度視覺知識

摘要

大規模對比預訓練產生了強大的視覺-語言模型（VLMs），這些模型能夠生成對多種視覺和多模態任務有效的表示（嵌入）。然而，這些預訓練的嵌入對于細粒度的開放集視覺檢索仍然不夠理想，在這一領域中，當前最先進的結果需要使用帶標注的領域特定樣本對視覺編碼器進行微調。單純地進行這種微調通常會導致災難性遺忘，嚴重削弱模型的通用視覺和跨模態能力。

在本文中，我們提出了一種明確設計的微調方法，旨在在細粒度領域適應和保留預訓練VLM廣泛多模態知識之間實現最佳平衡。受到持續學習文獻的啟發，我們系統地分析了旨在知識保留的標準正則化技術，并提出了一種高效且有效的組合策略。此外，我們還解決了驗證集設計和超參數調整這些常被忽視但至關重要的方面，以確保跨數據集和預訓練模型的可重復性和穩健泛化能力。我們在細粒度和粗粒度的圖像-圖像和圖像-文本檢索基準上廣泛評估了我們的方法。我們的方法始終取得了強勁的結果，特別是在微調過程中不使用任何文本數據或原始文本編碼器的情況下，仍然保留了視覺-文本對齊。代碼和模型檢查點：https://github.com/nikosips/infusing。

1. 引言

視覺與語言模型（Vision-and-Language Models, VLMs），如 CLIP [23]、SigLIP [40] 和 TIPS [14]，通過在大規模圖像-文本對數據集上進行預訓練，在各種視覺和多模態任務中展現出了卓越的性能。這些模型學習到了豐富的通用多模態嵌入，使得通過基于嵌入的相似性搜索實現有效的跨模態和視覺檢索成為可能。因此，VLMs 已成為眾多應用領域的基礎工具，涵蓋從通用圖像檢索到特定領域的專業應用。

Figure 1. Performance change () between the pretrained model to the fine-tuned model (SigLIP ViT-Base/16, SOP fine-tuning). Our fine-tuning recipe effectively mitigates out-of-domain knowledge forgetting and retains the visual alignment with the textual encoder of the VLM, without sacrificing in-domain specialization.

一個關鍵的特定應用領域是細粒度開放集視覺檢索。這類任務包括服裝檢索 [26]、食物識別 [19] 和物種識別 [29] 等，模型需要在視覺上相似但語義上不同的類別之間進行區分。在這些情況下，通常僅使用 VLM 的視覺編碼器，將其用于離線索引大規模圖像數據庫，并在推理時處理基于圖像的查詢。為了提高效果，視覺編碼器通常使用專家標注的細粒度數據集進行訓練，但部署時需要對未見過的類別執行檢索，因此稱為開放集。

雖然預訓練的 VLM 視覺編碼器在通用視覺理解方面代表了當前最先進的技術 [14, 15, 28, 40]，但在未經領域特定微調的情況下，它們在細粒度識別任務上的表現并非最優 [37]。當前的最佳實踐 [7, 22, 24, 30, 37, 38] 涉及使用領域特定的標注數據對視覺編碼器進行微調，顯著提升目標領域內的性能。然而，這種方法存在顯著的局限性。首先，在領域特定數據上進行微調通常會削弱模型的通用能力，降低其在領域外視覺任務上的表現，并減少跨模態對齊能力（見圖 1）。其次，通用能力的下降迫使從業者為不同任務維護多個專業化模型，增加了計算開銷、存儲需求和操作復雜性。

在本文中，我們提出了一種專門設計用于解決這些挑戰的微調策略。我們的主要目標是將細粒度視覺知識“注入”到 VLM 中，即在不犧牲其原始通用視覺理解和跨模態檢索性能的前提下，增強 VLM 在特定視覺領域上的細粒度識別能力。受到持續學習技術的啟發，我們采用了兩種互補的正則化方法：針對預訓練模型的參數空間正則化，以及通過預訓練表示蒸餾的嵌入空間正則化。雖然這些技術在持續學習文獻中分別有先例，但我們的工作專門探索了它們在細粒度視覺檢索上下文中的整合和行為。我們提供了關于如何有效結合這些正則化技術的實證見解，構建了一個強大的微調框架，在細粒度領域專業化和更廣泛的多模態表示質量之間保持了良好的平衡。

此外，我們還解決了現有文獻中的方法論缺陷，特別是忽視了在微調過程中準確預測領域內和領域外泛化性能所必需的驗證策略。我們提出了一個嚴格的驗證框架，利用特定的驗證集以透明可靠地評估這兩個性能方面。我們的驗證方法確保了穩健的超參數調整，促進了我們方法更廣泛的適用性和可重復性。

我們的貢獻總結如下：

我們對持續學習中廣泛使用的兩種不同類型的正則化損失進行了分析，研究了它們在細粒度開放集視覺檢索設置中保留預訓練模型知識時的適用性。
我們提出了一種微調方法，用于在顯著提升 VLM 細粒度開放集視覺檢索性能的同時，保留通用多模態能力，解決了一個重要但未被探索的問題（見圖 1）。
我們提供了一個透明的驗證集設計，明確旨在可靠地預測領域內專業化和領域外泛化能力。
我們在大規模、真實的數據庫上進行了廣泛的實證評估，展示了我們方法在圖像單模和圖像-文本檢索任務中的有效性和魯棒性，突出了其實用價值和泛化能力。

2. 相關工作

以下是對論文中“相關工作”部分的中文總結，保留了原文中可能的圖像部分（如果有的話）在適當位置的原始格式。

2.1 預訓練視覺編碼器的微調與災難性遺忘

在將預訓練的視覺編碼器（如視覺語言模型（VLMs）中的視覺變換器（ViTs））適應下游任務時，標準方法是進行全模型微調。全模型微調通常在結合檢索或細粒度識別任務的度量學習目標時，能在域內取得最佳性能。然而，這常常導致災難性遺忘，即在預訓練過程中學習到的通用視覺特征被侵蝕，模型過度特化于微調任務。

為了緩解遺忘問題，部分微調策略被提出，例如凍結早期層、應用逐層學習率衰減，或僅更新特定參數（如前饋網絡（FFN）或注意力子層）。這些方法減少了表示漂移，但如果限制過多可能犧牲任務性能，并引入大量額外超參數。參數高效微調（PEFT）方法，如視覺提示調優（VPT）、適配器（Adapters）和低秩適應（LoRA），通過引入最小的可訓練參數，試圖最小化預訓練模型能力的遺忘。

與本文工作最相關的是正則化方法，與持續學習子領域密切相關。這些方法通過約束與預訓練模型參數或嵌入的偏差來防止遺忘。LDIFS 和 L2-SP 通過顯式損失函數約束微調后的特征或權重，使其接近預訓練模型。本文采用了這兩種方法，并結合細粒度表示學習損失進行研究。與先前工作不同，本文發現僅對預訓練參數進行正則化不足以保留模型的通用能力；與 LDIFS 不同，本文在與微調數據集域無關的通用數據上進行嵌入正則化，且僅對最后一層的嵌入進行正則化，以適應更大規模的設置。

此外，本文評估了兩種更現代的視覺語言模型（SigLIP 和 TIPS），而非 CLIP 模型，且在訓練過程中不依賴文本編碼器或文本數據。基于錨點的魯棒微調（ARF）通過從外部通用數據集檢索相關示例并豐富微調過程，展示了改進的分布外（OOD）魯棒性，但本文發現使用與微調域無關的數據是更優選擇。

2.2 權重插值方法

權重插值方法（如 WiSE-FT）通過事后混合預訓練和微調模型的權重，平衡任務特化與原始能力的保留。然而，這需要維護多組權重，且假設插值不會顯著損害任一目標。本文與 WiSE-FT 進行了比較，并顯示其在整體能力上遜于本文方法。

2.3 細粒度表示學習

細粒度表示學習通常被建模為開放集檢索，即在細粒度域（如汽車型號、蘑菇種類等）的類上訓練模型，然后在同一視覺域的不同類上測試。先前工作通過開發更好的架構、損失函數或樣本挖掘策略，專注于最大化域內性能，但未評估微調過程對預訓練知識的影響。

最近的持續學習研究包括細粒度數據集的評估，但主要以零樣本分類方式進行。本文考慮更大規模、更現實的數據集（如 iNaturalist、Food2k 等），并在開放集場景中進行評估。對于文本-圖像能力的保留評估，本文使用更現實的圖像-文本評估數據集（如 Flickr30k 和 COCO），而非僅評估視覺語言模型的零樣本性能。

2.4 泛化與驗證集選擇

驗證集的選擇對預測模型最終測試性能至關重要，尤其是在優化域內性能和通用知識保留這兩個對立目標時。先前工作要么使用域內數據作為驗證集，無法同時有效優化兩個目標，要么未明確說明權衡權重是在域內還是域外數據上調整的。本文致力于提供選擇具有上述特性的驗證集的合適方法，并提出如何選擇混合權重的簡化流程。

3. 視覺語言模型的微調

在這一部分中，我們提出了一種專門設計的微調流程，旨在將預訓練的圖像嵌入適應到細粒度視覺領域，同時盡可能保留預訓練視覺語言模型（VLM）中的知識。我們深入分析了兩種不同的正則化方法，并開發了一種結合損失函數，融合了它們的互補優勢。此外，我們強調了基于原則的超參數調整和驗證的必要性，以通過合理的方法實現最佳性能。

3.1 預備知識

圖像嵌入由視覺語言基礎模型的視覺編碼器產生（通常實現為視覺變換器 ViT），我們將其稱為“骨干網絡”。在本研究中，圖像嵌入對應于標準 ViT 架構的 [CLS] 令牌；然而，也可以選擇其他嵌入和骨干架構。設 $fθ:X→RDf_\theta : X \rightarrow \mathbb{R}^D$ 表示視覺變換器輸出的 $l_2$ 歸一化嵌入，它將輸入圖像 $\in X$ 映射到 [CLS] 令牌 $fθ∈RDf_\theta \in \mathbb{R}^D$ 。為了符號簡潔，如果網絡參數 $θ\theta$ 從上下文中可以明確，我們將使用 $f (x)$ 。值得注意的是，我們的微調流程僅利用視覺編碼器，完全排除了文本編碼器。我們的方法的示意圖如圖 2 所示。待微調的模型（橙色，頂部）

模型初始化為預訓練 VLM 的視覺編碼器參數，生成的嵌入將同時獲取新呈現領域的細粒度知識，并保留凍結編碼器嵌入中集中的通用知識。

3.2 基于類別監督的領域學習

為了將預訓練嵌入適應到手頭的細粒度領域，我們采用了基于分類的表示學習方法。具體來說，給定標注的細粒度數據（圖像-標簽對），通過在嵌入之上附加一個余弦分類器 [39]，并通過嵌入反向傳播常用的歸一化交叉熵損失 [39]，實現嵌入的微調。損失函數定義為：

$Ldomain=?1B∑j=1Byjlog?(y^j)=?1B∑j=1Blog?(exp?(pyj?fθ(xj))∑k=1Kexp?(pk?fθ(xj))).\begin{array}{l} {\mathcal{L}_{\mathrm{domain}}=-\frac{1}{B}\sum_{j=1}^{B}y_{j}\log(\hat{y}_{j})}\\ {\displaystyle=-\frac{1}{B}\sum_{j=1}^{B}\log\left(\frac{\exp\left(p_{y_{j}}^{\top}f_{\theta}(x_{j})\right)}{\sum_{k=1}^{K}\exp\left(p_{k}^{\top}f_{\theta}(x_{j})\right)}\right)} \end{array}.$

其中， $B$ 是批次大小， $y_j$ 是樣本 $j$ 的獨熱真實標簽向量， $y^j\hat{y}_j$ 是分類器為樣本 $j$ 產生的經過 softmax 處理的預測概率向量， $K$ 是類別數量， $p_k$ 表示類別 $k$ 的 $l_2$ 歸一化可學習分類器原型。類別數量 $K$ 由手頭細粒度領域的訓練集定義；然而，請注意，此分類器在測試時被丟棄，因為測試類別是未知的，即檢索任務是開放集的。

3.3. 針對預訓練知識的正則化

分類損失確保模型學習到其正在進行微調的細粒度領域的具體特征。然而，通過改變模型嵌入以區分訓練類別，預訓練視覺語言模型（VLM）中編碼的知識會被抹去。為了緩解這種影響，我們引入了兩種正則化方法的組合，試圖保留預訓練模型的多模態空間語義的嵌入結構。

參數正則化：這種損失與輸入樣本無關，它將微調網絡的內部參數推向預訓練網絡的參數 $θpre\theta_{\mathrm{pre}}$ 。在文獻[34]中提出的 L2-SP 正則化定義為：

$LPTetr.params=1N∑i=1N∣∣θft(i)?θpre(i)∣∣22,\mathcal{L}_{\mathrm{PTetr.params}}=\frac{1}{N}\sum_{i=1}^{N}\left|\left|\theta_{\mathrm{ft}}^{(i)}-\theta_{\mathrm{pre}}^{(i)}\right|\right|_{2}^{2},$

其中 $N$ 表示網絡參數的索引。

嵌入正則化：為了明確限制嵌入漂移，我們采用了受 LDIFS [20] 啟發的正則化方法，該方法將預訓練網絡的主干嵌入（目標嵌入）蒸餾到正在微調的網絡的主干嵌入中：

$LPIetrembed.=1B∑j=1B∣∣fθft(xj)?fθpr(xj)∣∣22,{\mathcal{L}}_{\mathrm{PIetrembed.}}=\frac{1}{B}\sum_{j=1}^{B}\left|\right|f_{\theta_{\mathrm{ft}}}(x_{j})-f_{\theta_{\mathrm{pr}}}(x_{j})\left|\right|_{2}^{2},$

其中 $B$ 是批次大小， $j$ 表示批次中樣本的索引。在我們的方法中，此損失僅應用于與 geNet [25] 無關的外部通用數據集的圖像，因為該數據集易于訪問且廣泛使用。ImageNet 的批次以輪詢方式輸入，與正在微調的領域批次交替進行。實際上，在訓練期間不會通過預訓練（凍結）的視覺編碼器進行前向傳播以產生蒸餾目標；相反，嵌入在訓練前一次性離線提取，從而節省計算資源和時間。

目標函數：最終的損失函數是三種損失的加權組合：

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

在接下來的章節中，我們將對兩種正則化損失提供直觀的解釋，并提出設置權重 $XembX_{\mathrm{emb}}$ 和 $XoX_{\mathrm{o}}$ 的方法。

3.4 正則化功能

為了闡述我們提出的微調方法，我們首先獨立評估每個正則化項，以展示它們對域內適應和域外泛化的各自影響。我們以在 SOP [26] 數據集（在線產品圖像域）上進行微調，并以 Food2k [19]（食品圖像域）作為域外評估的運行示例，參見圖 3。請注意，域外數據的值在訓練過程中從未被使用或獲得——這里僅作為說明示例，以證明我們引入的微調技術的合理性。

參數正則化：在這一段中，我們研究了損失函數（公式 4）中權重 $X_o$ 的影響，同時設置 $X_{emb} = 0$ 。圖 3（頂部面板）展示了不同參數正則化損失權重的影響。使用最小的或無正則化進行微調會迅速提高域內性能，但最終會導致過擬合，這一點通過 SOP 驗證集性能的后續下降得以體現。引入適度的參數正則化（例如，權重 $10^4$ ）可以有效遏制這種過擬合，從而在整個訓練過程中保持更穩定的域內準確率。然而，隨著正則化強度的進一步增加，對細粒度域的適應受到越來越大的限制。從域外角度看（圖 3，頂部面板，右側面板），僅靠參數正則化不足以在不相關域上保持性能：無論正則化強度如何（除非強度大到網絡完全不適應），嵌入分布仍然可能偏離預訓練的分布。這導致域外準確率迅速下降，凸顯了僅約束網絡參數的局限性。這與之前工作 [20] 的結論形成對比，在之前的工作中，參數正則化似乎是有效的。我們推測這與微調任務的不同性質有關。

嵌入正則化：與參數正則化相反，嵌入正則化明確限制了學習表示與預訓練嵌入的漂移，但也帶來了自身的權衡。如圖 3（底部面板，右側面板）所示，足夠強的嵌入正則化幾乎可以將域外性能凍結在初始值，有效防止災難性遺忘。然而，這以降低對細粒度域的適應為代價：增加嵌入損失權重始終會降低域內性能（底部面板，左側面板）。

3.5. 聯合驗證的損失權重

在最終的損失函數（公式4）中，結合了三種損失。我們的微調流程的有效性在于域適應和知識保留之間的平衡。這種平衡通過分配給參數和嵌入正則化項的權重（ $X_e$ , $X_{emb}$ ）來控制。實際上，這些超參數對域內和域外性能都有顯著影響，需要仔細調整。如果僅使用域內驗證進行模型選擇或提前停止，得到的模型可能會表現出強烈的適應性但對預訓練知識的保留較差，反之亦然。為了解決這個問題，我們采用了具有雙重成分的驗證策略：

對于域內成分，使用細粒度數據集的標準驗證集，測量相關的檢索指標。
對于域外成分，保留一個大型通用數據集的子集，在我們的案例中是ImageNet訓練集的一個保留部分，并使用相同的指標來監控性能。

在訓練過程中，最終的驗證分數計算為域內和域外指標的平均值。這一綜合指標用于超參數調整（選擇正則化損失的最佳權重）和提前停止。通過優化平均值而不僅僅是微調域，我們明確鼓勵模型在適應新域和保留通用預訓練知識之間取得平衡。這種驗證協議對于實現可靠和可重復的結果至關重要。如果沒有域外驗證集，選擇的模型可能會過擬合到微調域，失去大部分泛化能力，這是先前工作中常常被忽視的一個限制。

4. 實驗

在本節中，我們進行了徹底的實驗評估，以評估所提出的微調流程的好處，重點是兩種正則化技術在不同域中的有效性。

4.1 實驗設置

數據集與評估協議
我們在多個細粒度視覺領域對我們的方法進行了評估，以確保其通用性和魯棒性。具體來說，我們選擇了以下五個開放集細粒度圖像檢索數據集作為目標領域進行微調：

斯坦福在線產品數據集（Stanford Online Products, SOP）[26]（產品領域）
InShop [18]（服裝領域）
斯坦福 Cars196 [16]（汽車領域）
iNaturalist 2018 [29]（自然世界領域）
Food2k [19]（食品領域）

為保持一致性，我們采用了通用嵌入數據集（Universal Embeddings Dataset, UnED）[37]的數據劃分。每個評估測試集被分為查詢集和索引集，用于開放集最近鄰檢索。

為了嚴格評估模型對通用預訓練知識的保留，我們構建了一個基準測試，其中模型在一個目標領域上進行微調，并在其他所有細粒度領域以及較粗粒度的 ImageNet 領域上進行評估，通過對其未見測試集的評估（采用留一法檢索設置）。此外，為了評估模型原始視覺-語言對齊能力的保留，我們在 COCO [4] 和 Flickr30k [36] 測試集上執行跨模態檢索（圖像到文本和文本到圖像），始終保持文本編碼器凍結。

評估指標
對于所有純圖像檢索任務，我們報告 mAP@20。對于文本-圖像檢索任務，按照既定慣例報告 Recall@1 (R@1)。文本嵌入始終由原始的、凍結的文本編碼器生成，來自相應的視覺-語言模型（VLM）骨干網絡。為了總結性能，我們計算了以下三個聚合指標：

圖像-圖像領域內（In-Domain）：在微調領域的測試集（未見類別，圖像-圖像檢索）上的 mAP@20。
圖像-圖像領域外（Out-of-Domain, O-o-D）平均值：在其他細粒度數據集和 ImageNet 上的平均 mAP@20（圖像-圖像檢索）。
文本-圖像領域外（Out-of-Domain, O-o-D）平均值：在所有四種文本-圖像檢索設置（2個數據集，兩個方向）上的平均 R@1。
領域內-領域外平均值（In-Out Avg.）：領域內得分和總體領域外得分的簡單平均，提供了一個綜合的適應性和泛化能力衡量指標。

預訓練模型
我們在兩個廣泛采用的視覺-語言基礎模型上評估了我們的方法，即 SigLIP [40] 和 TIPS [14]。選擇這些骨干網絡是因為它們在多模態學習任務中表現出色且多樣化，確保我們的研究結果不局限于單一預訓練模型。

Table 1. Performance comparison of our method against standard fine-tuning, for different combinations of fine-tuning datasets and pre-trainings. The backbone used for all experiments is ViT-Base/16. The performance difference () to the pretrained model is reported next to the absolute performance.

基線與競爭方法
為了評估我們方法的有效性，我們將其與幾種基線和競爭方法進行了比較：

標準微調（Standard）：僅使用分類損失（公式 1）進行無約束適應，如 [37] 所述。
L2-SP [34]：僅使用參數正則化損失（ $λemb=0\lambda_{emb} = 0$ ）。
WISE-FT [31]：在預訓練模型和獨立微調模型之間進行參數平均。
（我們的）LDIFS 變體 [20]：僅應用嵌入正則化損失（ $λ0=0\lambda_0 = 0$ ），類似于 LDIFS（為公平起見，排除中間層）。

需要注意的是，為了更好地比較，（我們的）LDIFS 變體使用我們提出的復合驗證集來選擇嵌入正則化損失的權重，而不是像原始工作中那樣僅使用領域內驗證。在這種情況下，它甚至無法啟用正則化損失，因為權重為 0 會最大化領域內性能。這一調整導致領域外結果更強，如第 3.5 節所述。值得強調的是，據我們所知，以前的工作沒有系統地解決正則化權重選擇 [41] 的挑戰，也沒有在模型選擇中明確使用領域外驗證 [20]。

實現細節
所有實驗均使用批量大小為 128，骨干網絡的學習率為 $10^{-5}$ ，分類器原型學習率為 $10^{-3}$ 。原型初始化為訓練樣本的嵌入，其表示最接近于類均值嵌入，由預訓練網絡計算。微調和評估均使用 $224 \times 224$ 的圖像分辨率，并采用 ViT-Base 骨干網絡，補丁大小為 16。上述超參數遵循先前工作 [37]，未進一步調整，因為它們不是我們貢獻的核心。對于 TIPS 視覺編碼器，我們使用其兩個 CLS 令牌中的第一個。盡管 TIPS 以補丁大小為 14 進行預訓練，但為保持實驗一致性，我們使用 16；如果使用與其預訓練設置匹配的默認補丁大小，可能會獲得更好的性能。

其余超參數通過我們提出的驗證協議進行網格搜索選擇： $λemb∈{102,103,104,105}\lambda_{emb} \in \{10^2, 10^3, 10^4, 10^5\}$ 和 $λ∈{103,104,105,106}\lambda \in \{10^3, 10^4, 10^5, 10^6\}$ 。我們的實現基于 Scenic 框架 [5]，使用 JAX [1] 和 Flax [10]，所有實驗均在 Google Cloud TPU v2 和 v3 硬件 [21] 上進行。

4.2 結果

除非另有說明，每次實驗的最佳正則化權重對 ( $X_{emb}, X_e$ ) 都是通過在第 3.5 節描述的復合驗證指標上進行網格搜索選出的。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

與標準微調的比較：表 1 總結了我們的方法與標準（無正則化）微調在 SigLIP 和 TIPS 預訓練模型以及所有五個細粒度數據集上的結果對比。我們的方法在域內適應和域外泛化之間始終保持了良好的平衡。與標準微調不同，標準微調雖然能快速特化，但會導致災難性遺忘，而我們的方法在微調過程中即使不使用文本數據或文本編碼器，也能保留模型原始的泛化能力和視覺-語言對齊能力。值得注意的是，最佳正則化權重因預訓練和目標數據集而異，這強調了原則性超參數選擇的重要性，與早期使用固定或統一設置的工作 [20, 41] 形成對比。

與其他基線的比較：表 2 提供了在 SigLIP ViT-Base/16 上對 SOP 數據集進行微調時與所有基線的直接比較。結果顯示了不同的行為：無約束模型在域內性能上達到了最佳，但域外知識退化嚴重。L2-SP（僅參數正則化）在域內性能上略有下降，但對域外性能的保留沒有顯著作用。LDIFS（嵌入正則化）使用域內目標時，域外分數略有提升，但由于嵌入目標來自正在特化的相同數據，域內適應受到顯著限制。使用外部圖像替換域內圖像進行嵌入正則化（LDIFS 使用通用樣本）通過提供更廣泛的預訓練嵌入空間覆蓋，同時提升了域內和域外性能。WISE-FT（參數平均）保留了良好的域外泛化能力，但犧牲了域內特化能力。我們的方法在保持新域上的穩健性能的同時，沒有顯著損失泛化能力，實現了最佳權衡。

外部數據集選擇：我們進一步分析了用于嵌入正則化的外部數據集的影響。使用在 SOP 上微調的 SigLIP ViT-Base/16，選擇了 LAION 的一個子集（與 ImageNet 大小大致相同）作為外部數據集進行正則化，結果如表 3 所示。需要注意的是，本實驗使用的驗證集是我們的方法中以 ImageNet 作為域外成分的復合驗證集。原因在于 LAION 沒有類級別標簽，因此無法在其上計算檢索指標。結果支持我們選擇 ImageNet 的理由：它提供了通用視覺概念的全面覆蓋，作為在適應過程中保留預訓練能力的有效錨點。其他數據集也是可能的，但 ImageNet 的可訪問性和多樣性使其特別適合此目的。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

5. 結論

在這項工作中，我們開發了一種針對大型視覺-語言基礎模型的魯棒微調方法，該方法在細粒度視覺領域顯著提高了性能，同時保留了在大規模多模態預訓練過程中獲得的豐富通用知識。我們同時使用了兩種具有不同功能和影響的正則化技術，并對每種正則化技術進行了分析和直觀的解釋。此外，通過引入嚴格的驗證策略，我們解決了先前工作中存在的方法論差距。該策略明確評估了領域內專業化和領域外泛化性能，確保超參數調整和提前停止決策是有原則且可重復的。

Original Abstract: Large-scale contrastive pre-training produces powerful Vision-and-Language
Models (VLMs) capable of generating representations (embeddings) effective for
a wide variety of visual and multimodal tasks. However, these pretrained
embeddings remain suboptimal for fine-grained open-set visual retrieval, where
state-of-the-art results require fine-tuning the vision encoder using annotated
domain-specific samples. Naively performing such fine-tuning typically leads to
catastrophic forgetting, severely diminishing the model’s general-purpose
visual and cross-modal capabilities.
In this work, we propose a fine-tuning method explicitly designed to achieve
optimal balance between fine-grained domain adaptation and retention of the
pretrained VLM’s broad multimodal knowledge. Drawing inspiration from continual
learning literature, we systematically analyze standard regularization
techniques aimed at knowledge retention and propose an efficient and effective
combination strategy. Additionally, we address the commonly overlooked yet
critical aspects of validation set design and hyperparameter tuning to ensure
reproducibility and robust generalization across datasets and pretrained
models. We extensively evaluate our method on both fine-grained and
coarse-grained image-image and image-text retrieval benchmarks. Our approach
consistently achieves strong results, notably retaining the visual-text
alignment without utilizing any text data or the original text encoder during
fine-tuning. Code and model checkpoints: https://github.com/nikosips/infusing .