JAFAR Jack up Any Feature at Any Resolution

GitHub
PaPer

JAFAR: Jack up Any Feature at Any Resolution

摘要

基礎視覺編碼器已成為各種密集視覺任務的核心組件。然而，它們的低分辨率空間特征輸出需要特征上采樣以產生下游任務所需的高分辨率模式。在這項工作中，我們介紹了 JAFAR——一種輕量級且靈活的特征上采樣器，它增強了來自任何基礎視覺編碼器的視覺特征的空間分辨率到任意目標分辨率。JAFAR 采用了一種基于注意力機制的模塊設計，旨在促進從低級圖像特征中提取的高分辨率查詢與通過空間特征變換 (SFT) 調制的語義豐富的低分辨率鍵之間的語義對齊。值得注意的是，盡管沒有高分辨率監督，我們證明了在低上采樣比率和分辨率下學習能夠顯著推廣到更高的輸出尺度。大量實驗表明，JAFAR 有效地恢復了細粒度的空間細節，并在一系列下游任務中持續優于現有的特征上采樣方法。

項目頁面：PaulCouairon/JAFAR: Official code for “JAFAR: Jack up Any Feature at Any Resolution”

1 引言

無論是通過語言監督[1, 2, 3, 4, 5]還是純視覺數據[6, 7, 8]訓練的基礎視覺編碼器，都已成為現代計算機視覺管道的核心組件。視覺-語言模型在需要泛化的任務中表現出色，例如零樣本分類和開放詞匯分割[9, 10]。相比之下，專注于視覺結構的僅圖像模型通常在需要細粒度空間推理的密集預測任務中表現更優，包括語義分割、深度估計、對象發現和點跟蹤[11, 12, 13]。

為了處理高分辨率輸入和大規模訓練，基礎視覺編碼器通常會激烈地降采樣空間信息——因子為 14×至 16×——產生語義豐富但空間粗糙的特征圖。這種壓縮引入了一個瓶頸，影響了需要像素級精度的下游任務。因此，下游管道[14, 15, 11, 16, 17]通常依賴于插值或專門設計的模塊[18, 19]來生成高分辨率輸出。

幾種策略已被探索以克服這個瓶頸，但每種策略在效率和輸出質量之間都有權衡。一個直接的解決方案是應用無訓練的插值方法，如雙線性上采樣。雖然計算效率高，但這些直接插值——僅依賴于低分辨率特征圖——未能利用原始高分辨率圖像中的信息，往往導致模糊的輸出。另一種方法是在編碼之前上采樣輸入圖像以增加特征分辨率。然而，這種方法由于自注意力的二次復雜度（在基礎模型中常見）而顯著增加了計算成本，并可能在特征圖中引入偽影，最終降低性能[20, 21]。

針對特定下游任務，[22, 23, 24, 25, 26]使用任務特定標簽的高分辨率監督學習特征上采樣器。雖然通常較輕量，但這些上采樣器依賴于與終端應用相關的標記數據，這限制了它們的泛化能力，并可能導致學習的特征偏向優化任務特定損失。為了解決這個問題，最近的方法如 LiFT[27]和 FeatUp[28]采用了任務無關的訓練目標。LiFT 通過回歸從兩倍輸入分辨率的圖像中提取的特征圖進行訓練以執行 2×上采樣。然而，其基于卷積的架構受限于固定的 2×縮放，限制了其對于任意輸出分辨率的靈活性。相比之下，FeatUp 使用增強視圖和自我重建來支持更高的上采樣比率。然而，其聯合雙邊上采樣 (JBU) 變體存在過平滑的輸出，而其隱式變體則需要為每個圖像訓練上采樣器，使其在實際場景中不切實際。

在本文中，我們介紹了一種特征上采樣器，旨在滿足以下標準：(i) 任務無關的訓練目標，(ii) 支持任意輸出分辨率，(iii) 兼容任何視覺編碼器，以及 (iv) 推理時最小的計算開銷。為了實現任意目標分辨率的上采樣，我們將我們的方法表述為使用交叉注意力塊的全局插值機制。這種基于注意力的方法的成功關鍵在于查詢和鍵之間強大的語義對齊。在 JAFAR 中，我們非對稱地構建這些表示（見圖 2）：查詢保留了高分辨率的低級細節，如顏色和紋理，而鍵則是結合高層語義和空間線索的混合特征。我們發現，用低級信息豐富鍵顯著提高了查詢-鍵對齊并增強了對未見輸出分辨率的泛化。

此外，我們提出了一種類似于[27]的簡單訓練目標，但不受固定上采樣因子的限制。值得注意的是，我們發現，在低上采樣因子和低分辨率下進行訓練（例如，8 × 8→ 32 × 32）足以有效推廣到更大的尺度（例如，32 × 32→ 448 × 448），同時保持較低的內存需求，而不像直接在更高分辨率和因子下進行訓練。我們的貢獻可以總結如下：

我們引入了 JAFAR，這是一種新穎的輕量級基于注意力的特征上采樣器，自然支持任意分辨率的上采樣。它明確促進了從低級圖像特征中提取的高分辨率查詢與語義豐富的低分辨率鍵之間的空間對齊。
我們通過從相同的輸入特征計算查詢和鍵，并通過空間特征調制注入編碼器深層特征中的語義信息來強制這種對齊。這種設計實現了空間細節和語義上下文的精確融合，而無需依賴外部監督。
我們提出了一種高度高效的、任務無關的訓練目標，不需要高分辨率的監督信號。令人驚訝的是，我們展示了在低分辨率和低上采樣比下進行訓練能夠穩健地推廣到顯著更高的輸出尺度。
我們證明了我們的架構和訓練目標的結合在各種下游任務中產生了顯著的性能提升。當作為即插即用模塊使用時，JAFAR 一致地大幅優于現有的上采樣方法。

2 相關工作

特征上采樣的目標是增加深度網絡中間特征圖的空間分辨率——類似于圖像上采樣，但在潛在空間中進行。這一過程對于需要精細空間細節的密集預測任務（如分割和深度估計）至關重要。傳統的插值技術，如雙線性、樣條或 Lanczos [29, 30, 31, 32]提供了簡單而高效的基線，但不適應底層內容。最近的神經方法通過從數據中學習重建高分辨率特征改進了靜態方法。這些方法分為兩類：任務相關，使用下游標簽監督訓練；任務無關，獨立于終端任務訓練。例如，CARAFE [22] 和 DySample[24] 預測內容感知核或動態采樣位置。SAPA[23] 和 ReSFU[25] 利用基于相似性的方法來細化空間語義。然而，任務特定的標簽依賴性限制了泛化能力。最近的任務無關方法如 LiFT[27] 和 FeatUp[28] 去除了這種依賴性。LiFT 引入了一個經過簡單固定尺度訓練的 CNN 模塊，而 FeatUp 依賴于復雜的多損失目標，使得在實踐中難以調整訓練。此外，它需要訓練一個上采樣器和一個下采樣器，增加了不必要的計算開銷。值得注意的是，它的最佳性能是通過逐圖像優化實現的，進一步限制了其實用性。相比之下，JAFAR 提供了一個可擴展的任務無關框架，可以在不同分辨率間泛化，而不需要復雜的流水線或逐圖像優化，即使在低分辨率下訓練小上采樣因子時也表現出色。

2.1 上采樣模塊架構設計

上采樣模塊架構從固定尺度解碼器到連續分辨率預測器各不相同。LiFT[27] 依賴于一個輕量級的 CNN 模塊，訓練用于固定因子的上采樣，使進一步縮放依賴于迭代使用，這會導致性能下降或額外的插值步驟。FeatUp[28] 引入了兩種架構變體：快速聯合雙邊上采樣器 (JBU) 和更準確的隱式網絡，允許連續查詢。雖然隱式模型產生了更好的結果，但由于逐圖像優化，它在推理延遲方面存在顯著問題。JBU 另一方面，通過堆疊多個 ×2 階段來實現更高的上采樣比，以換取表達性換取可擴展性。基于注意力的設計，如 SAPA[23] 和 ReSFU[25]，通過建模跨尺度特征之間的親和力提供增加的靈活性。這些方法利用空間相似性來重建高分辨率地圖。JAFAR 的創新之處在于統一了低分辨率和高分辨率流：它使用共享的低級特征對齊高分辨率查詢和低分辨率鍵，同時通過附加的語義提示豐富表示。這種設計即使在大的上采樣比下也能保持空間對齊和表達性，為特征重建提供了一個強大且可擴展的架構。

2.2 語義指導和特征調制

特征調制技術通過條件信息調節特征，從而實現空間或語義引導的轉換。早期形式如條件批歸一化[33]、AdaIN[34]和 FiLM[35]按通道應用學習的比例 (γ) 和移位 (β) 參數，由全局條件信號派生而來。這些方法在涉及全局轉換的任務（如風格遷移或分類）中效果良好。然而，它們的空間不變性限制了需要空間敏感性的任務的表達性。SPADE[36]和 SFT[37]通過計算γ和β作為全分辨率映射來解決這一限制，該映射基于密集輸入（如分割掩碼）進行條件設置。這種空間適應性通過允許每個特征位置被唯一調制來提高表達性。此外，這種形式的調制可以解釋為參數化的、學習的特征通道重組，類似于 1×1 卷積，但由于空間特異性而更強大。在 JAFAR 中，調制不僅用于移動特征分布，還通過將高分辨率語義直接注入上采樣管道來實現語義豐富的重建。這允許更豐富的特征線性組合，在測試時不依賴逐像素優化的情況下提高泛化能力和空間表達性[28]。

3 JAFAR

JAFAR 是一種特征上采樣器，使用輸入圖像作為高分辨率指導來重建密集特征圖。為了支持任意目標分辨率的上采樣，我們將該方法表述為基于交叉注意力的全局插值機制。這種基于注意力的方法的有效性取決于查詢 Q 和鍵 K 之間的強語義對齊。在 JAFAR 中，我們非對稱地構建查詢和鍵表示。查詢保留了高分辨率的低級細節，如顏色和紋理，而鍵則設計為結合高層語義和低級空間線索的混合表示。我們發現，用低級信息豐富鍵顯著提高了查詢-鍵對齊并增強了對未見輸出分辨率的泛化。

3.1 架構

總體流程如圖 2 所示。JAFAR 接收高分辨率圖像 $I∈R^{3×H×W}$ 和低分辨率特征圖 $Flr= f (I) ∈ R^{C×h_k×w_k}$ 作為輸入，后者是從凍結的視覺編碼器 $f$ 中提取的。圖像 $I$ 首先被投影到高維空間，并通過輕量級編碼器 Eθ處理，以獲得中間表示 $I_E= E_θ(I) ∈ R^{d×H×W}$ ，并進一步豐富 RoPE 位置嵌入[38]。

3.1.2 RoPE

查詢特征 $Q∈R^{d×h_q×w_q}$ 是通過將圖像表示 IE 傳遞給一個小的查詢編碼器生成的 IQ，然后進行自適應平均池化以達到目標分辨率 $h_q×w_q)$ 。鍵特征 $K∈R{d×h_k×w_k}$ 類似地通過編碼 IE 到 IK 并通過下采樣以匹配語義特征 $F_{lr}$ 的空間分辨率獲得。這些語義特征提供調制參數，將高層信息注入到鍵中。交叉注意力機制然后使查詢 $Q$ 關注鍵 $K$ ，通過計算注意力圖：
$A=\mathrm{Softmax}\left(\frac{Q\cdot K^\top}{\sqrt{d}}\right),$
然后使用此注意力圖插值低分辨率特征圖 Flr 并生成上采樣輸出特征 $\hat{F}_{HR}=\bar{A\cdot F_{lr}}\in\mathbb{R}^{C\times h_{q}\times w_{q}}$ 。生成的表示保留了細粒度的空間細節，同時與輸入圖像保持語義一致性。我們在下面詳細描述架構的主要組件。

3.1.3 查詢分支

直接對齊高分辨率、低級查詢與高級語義鍵通常會導致弱或噪聲注意力，因為抽象級別的差異限制了有意義的交互。為克服這一挑戰，我們在訓練期間應用自適應平均池化來下采樣中間表示 IQ 并生成查詢特征 Q。這一操作僅在訓練期間進行，減少了查詢的空間分辨率，同時將局部上下文聚合到區域級描述符中。結果，下采樣的查詢與鍵更加語義對齊，不易受像素級噪聲的影響，并且由于令牌數量減少而計算更高效。這些效果共同使查詢下采樣成為彌合細粒度視覺細節與抽象語義表示之間差距的有效策略，促進更穩定和可擴展的跨尺度注意力。重要的是，由于下采樣僅在訓練期間應用，模型在推理期間保持生成高分辨率輸出的能力。

3.1.4 鍵分支

僅依賴視覺編碼器的低分辨率特征來構建鍵，會導致泛化能力差和明顯的偽影，這主要是由于這些粗糙特征與精細查詢之間存在抽象差距。如第 4 節所示，這種不匹配會導致跨分辨率對齊不一致。為了解決這個問題，我們構建了混合鍵表示，這些表示在保留與查詢的結構對齊的同時，融入了視覺編碼器的豐富語義。

具體來說，我們對中間表示 $I_E$ 進行編碼以生成 $I_K$ ，然后將其下采樣，使其空間分辨率與編碼器特征圖匹配，從而生成初步鍵 $\tilde{K}$ 。進一步地，我們通過一種受文獻 [36, 37] 啟發的空間語義特征調制方法，利用編碼器特征圖 $F_{lr} \in \mathbb{R}^{C \times h_k \times w_k}$ 對這些鍵進行調制：
$\gamma_F \cdot \tilde{K} + \beta_F,$

其中， $\gamma_F, \beta_F \in \mathbb{R}^{d \times h_k \times w_k}$ 是通過從 $F_{lr}$ 進行線性投影獲得的空間變化參數。這種自適應的、逐特征的調制使鍵富含局部語義上下文，從而增強空間和語義對齊，支持跨分辨率的更忠實、更可泛化的上采樣。

在這個公式中， $K$ 表示最終的鍵，通過將初步鍵 $\tilde{K}$ 與從 $F_{lr}$ 中獲得的空間變化參數 $\gamma_F$ 和 $\beta_F$ 結合來生成。這種調制方式使鍵能夠更好地與查詢對齊，同時保留視覺編碼器的語義豐富性。

3.1.4 基于相似度的上采樣

為了執行上采樣，我們采用了一種簡化的注意力機制，其中注意力權重是通過查詢和語義調制的鍵之間的縮放點積計算得出的。關鍵在于，查詢和鍵都已通過 RoPE [38] 添加了相對位置嵌入，這引入了一種歸納偏置，能夠捕捉查詢和鍵之間的空間關系。這種位置編碼使得我們可以完全跳過為每個查詢任意選擇鄰近鍵這一步驟，而這在以往的基于相似度的方法（如 [23, 25]）中是一種常見的啟發式操作。沒有這種位置定位的話，注意力機制將缺乏空間感知能力，并且在泛化到未見過的分辨率時表現不佳。在實際操作中，我們使用多個注意力頭以增強表達能力，并在應用 $so f t ma x$ 后對各個頭產生的注意力權重進行平均。得到的注意力圖 $A$ 隨后通過簡單的矩陣乘法對低分辨率編碼器特征 $F_{lr}$ 進行插值： $\hat{F}_{HR} = A \cdot F_{lr}$ 。通過避免使用學習到的值投影，我們保留了原始特征內容，并實現了一種與分辨率無關的設計，使其能夠可靠地跨尺度泛化。

3.2 訓練流程

在沒有地面實況監督的情況下學習上采樣高分辨率特征提出了一個自然的挑戰：當只有低分辨率特征可用時（例如 448 × 448），模型如何學習生成銳利的高分辨率特征？得益于 JAFAR 的架構設計，該模型可以通過簡單的低目標分辨率目標進行訓練，而不需要原始圖像尺寸的監督，但仍能在推理時有效泛化到更高的上采樣比。

3.2.1 多分辨率視圖訓練

為此，我們引入了一種完全無需標注的訓練方案，該方案僅依賴于同一圖像的多分辨率視圖，這些視圖可通過標準下采樣輕松獲得。給定一張高分辨率圖像 $I_{HR} \in \mathbb{R}^{3×H×W}$ ，我們使用隨機選取的下采樣因子 $\delta \in [2, 4]$ ，生成一個下采樣版本 $I_{LR} \in \mathbb{R}^{3×\left\lfloor \frac{H}{\delta} \right\rfloor×\left\lfloor \frac{W}{\delta} \right\rfloor}$ 。將這兩張圖像分別輸入到凍結的視覺編碼器 $f$ 中，生成兩個特征圖： $F_{hr} = f (I_{HR}) \in \mathbb{R}^{C×h×w}$ 和 $F_{lr} = f (I_{LR}) \in \mathbb{R}^{C×\left\lfloor \frac{h}{\delta} \right\rfloor×\left\lfloor \frac{w}{\delta} \right\rfloor}$ 。接著，JAFAR 以 $I_{HR}$ 和 $F_{lr}$ 作為輸入，預測一個上采樣的特征圖 $\hat{F}_{hr}$ 。預測輸出與目標 $F_{hr}$ 之間的對齊通過一個簡單的對齊損失函數實現，該函數結合了余弦相似度和 L 2 距離：

$\mathcal{L}(\hat{F}_{hr}, F_{hr}) = 1 - \cos (\hat{F}_{hr}, F_{hr}) + \|\hat{F}_{hr} - F_{hr}\|_2.$

其中，損失函數 $\mathcal{L}$ 由兩部分組成：第一部分是 1 減去 $\hat{F}_{hr}$ 和 $F_{hr}$ 的余弦相似度，第二部分是 $\hat{F}_{hr}$ 和 $F_{hr}$ 的 L 2 距離。

3.2.2與 LiFT 的不同之處

雖然我們的訓練目標與 LiFT 相似，但我們的方法顯示出顯著更強的能力，如表 1 和表 2 所示。LiFT 依賴于基于 CNN 的架構，并在兩個預定義的分辨率下進行固定 2×上采樣訓練。因此，它在沒有額外啟發式方法（如迭代上采樣或雙線性回退）的情況下難以外推。相比之下，JAFAR 保持了分辨率無關的設計，使用類似的簡單訓練設置就能泛化到更高的上采樣因子。

4 實驗

4.1 實驗設置

在我們的實驗中，我們在單個 NVIDIA A 100 上使用 AdamW 優化器[39]對 ImageNet 訓練集進行了 100 K 步的訓練，學習率為 2e?4，批量大小為 4。輸入到基礎視覺編碼器的圖像被調整為 448 × 448，根據編碼器的補丁大小（14 或 16），生成大小為 32 × 32 或 28 × 28 的高分辨率目標特征圖 Fhr。為了提高訓練效率，輸入到 JAFAR 的指導圖像被下采樣到 224 × 224。

4.2 定性比較

為了定性評估各種基線產生的上采樣特征圖，我們將所有特征投影到一個共享的 3 維 PCA 基礎上，將它們映射到一個公共的 RGB 空間。如圖 3 和圖 5 所示，由于視覺編碼器補丁大小施加的空間壓縮，低分辨率特征揭示了大塊區域，這些區域捕獲了語義內容，但未能保留精細的圖像幾何、對象邊界或形狀細節。雙線性上采樣在不考慮圖像內容的情況下插值特征，產生模糊的輸出特征圖，保留了位置嵌入偽影而沒有添加有意義的細節。雖然 Large-Image 和 Strided 等方法保留了清晰度，但它們的輸出比 JAFAR 的噪聲更大且不夠連貫。此外，它們計算要求更高，因為它們需要視覺編碼器處理更多的補丁（見表 10）。JAFAR 在所有基線中顯示出明顯的定性優勢，始終生成準確捕捉圖像結構的銳利特征。它也是唯一一個有效抑制低分辨率特征中位置嵌入偽影的任務無關方法。

4.3 下游任務的轉移

由于上采樣特征預計能為下游任務提供更豐富的信號，我們在兩個基準上評估其有效性：線性探測語義分割和深度估計，使用 DINOv 2 ViT-S/14 作為基礎視覺編碼器。對于 Large-Image 和 Strided 基線，上采樣在編碼器的前向傳遞過程中進行，并隨后進行雙線性插值以達到目標輸出分辨率。對于任務無關的上采樣器如 LiFT、FeatUp 和 JAFAR，我們在相應的主干網上預訓練上采樣模塊，然后將其凍結并在特征提取后應用。線性探測器獨立于上采樣器進行訓練。對于任務相關的
方法——包括 CARAFE、SAPA、ReSFu 和 DySample——我們聯合訓練上采樣器和線性探測器在每個數據集和任務上。除 Large-Image 外的所有實驗均使用分辨率為 448 × 448 的輸入圖像，目標標簽在同一分辨率下。

4.3.1 語義分割

對于語義分割，我們訓練了一個線性投影頭，使用跨多個基準數據集（COCO-Stuff[40]（27 類）、ADE 20 K [41]（150 類）、Pascal VOC[42]（21 類，包括背景）和 Cityscapes[43]（27 類））的交叉熵損失來預測粗略類別標簽。在線性層上，COCO-Stuff 訓練 5 個周期，其余數據集訓練 20 個周期，批量大小為 4。在各自的驗證集上使用平均交并比 (mIoU) 和像素級準確率評估性能。

表 1：下游任務的線性探測。JAFAR 在所有分割基準測試中持續優于其他基線，同時在未經優化特定下游任務的情況下達到了競爭性的深度指標。

如表 1 所示，JAFAR 在所有四個語義分割基準測試中，無論 mIoU 還是準確率都持續取得最高性能。平均而言，JAFAR 在所有數據集中比下一個最佳方法提升了+1.63 mIoU。與 FeatUp 相比，JAFAR 取得了平均+2.78 mIoU 的增益，對應+4.8%的增長，在 Cityscapes 上達到了+5.41 mIoU（+9.7%）的峰值改進。圖 4 顯示了線性探測分割結果。

4.3.2 深度估計

在深度估計方面，我們遵循 [28] 中的方法，并使用由最先進的 Depth Anything V 2 網絡 [16] 生成的偽標簽進行訓練。

我們報告了單目深度估計文獻中的兩個標準指標：均方根誤差（RMSE）和 $\delta_1 < 1.25$ 。其中， $\delta_1$ 指標衡量的是預測深度 $y$ 在真實深度 $y^*$ 的 25% 范圍內的像素所占的百分比，正式定義為：
$\delta_1 = \max \left ( \frac{y}{y^*}, \frac{y^*}{y} \right) < 1.25$

我們在 COCO 訓練集上使用大小為 4 的批次對線性探測器進行了 5 個周期的訓練。盡管 JAFAR 并未專門針對這一特定任務進行訓練，但我們觀察到它仍能獲得具有競爭力的分數，在基線方法中排名第二。

值得注意的是，JAFAR 的表現超過了 FeatUp 和 LiFT，同時還超越了幾乎所有任務專用方法，除了 ReSFU 外。圖 4 展示了線性探測器的深度估計結果。

4.3.3 類激活圖的可信度

按照[28]的方法，我們的方法可以無縫集成到諸如類激活圖 (CAMs) 之類的可解釋性工具中。盡管有最近的進展，CAMs 仍然受到標準視覺編碼器產生的低分辨率特征圖的基本限制，這阻礙了它們定位細粒度細節的能力。通過上采樣特征，我們的方法產生了更清晰和更有信息的解釋。為了評估生成的 CAMs 的質量，我們采用了文獻中的標準評估指標：平均下降 (A.D)、平均增加 (A.I)、平均增益 (A.G)、一致性 (Coh.) 和復雜度 (Cplx.)。

4.3.4 視覺比較

圖 4：下游任務上采樣器輸出的視覺比較。JAFAR 上采樣的特征產生更清晰的輸出，更準確地與物體邊界對齊，分別在類激活圖、語義分割和深度估計中。?

具體來說，A.D、A.I 和A.G 衡量分類器輸出對輸入中最突出區域的敏感程度——有效的 CAM 應突出那些在被遮蔽時會導致分類置信度顯著變化的區域。由于每個指標僅捕捉 CAM 質量的一個單一方面，我們也報告了 ADCC 評分——一種在[44]中提出的綜合指標，提供了更全面的評估。補充材料 B 中提供了更多細節。如圖 4 所示，JAFAR 生成的 CAM 比所有基線更清晰、更語義準確。雖然訓練免費方法無法幫助恢復重要區域，但任務相關方法通常會產生模糊和不太精確的地圖。定量結果進一步支持這一點，JAFAR 在綜合 ADCC 指標上得分最高——比第二好的方法高出 8 分，相對提高了 12.5%。

4.3.5 零樣本開放詞匯分割

我們進一步在零樣本開放詞匯分割任務上評估我們的方法，遵循[9]中的設置，其中數據集的類標簽作為文本輸入，預測通過選擇相似度得分最高的類 (argmax) 進行。使用 CLIP-ViT-B/16 骨干網，這種方法完全是無訓練的，因為它不需要學習探測頭。結果顯示，JAFAR 顯著優于所有基線，特別是在 Pascal VOC 上。盡管 ADE 20 K 難度增加，包含 150 個類，我們的方法在 mIoU 和準確性上仍取得最高性能。我們僅在任務無關的基線中報告 FeatUp，因為它是第二好的表現方法。

4.3.6 鳥瞰分割

最后，我們研究了我們的上采樣器在復雜訓練管道中的影響。該任務以幾個攝像頭拍攝的圖像作為輸入，并輸出鳥瞰圖 (BeV) 分割圖。在我們的設置中，我們使用了凍結的 DINOv 2[7]骨干網，并訓練了其余的架構——即上采樣器、BeV 編碼器和分割頭。這項任務特別具有挑戰性，因為模型必須學會將特征從圖像平面映射到 BeV 平面。為確保公平比較，我們還訓練了沒有上采樣器的架構，使用低分辨率輸入圖像 (496×224)。我們采用了 PointBeV[46]的優化超參數，調整批量大小為 1 并訓練 100 個 epoch。我們的結果顯示，使用上采樣器一致地提高了預測，無論采用哪種架構——SimpleBev[45]、PointBeV[46]或 BevFormer[47]。值得注意的是，使用 JAFAR 作為上采樣器時性能顯著提高，mIoU 增益高達+5 點。

4.3.7 消融實驗

為了評估從共享圖像編碼中派生查詢和鍵的好處，我們在表 5 中比較了幾種鍵生成策略。在線性投影基線中，鍵是通過對視覺編碼器的低分辨率特征 Flr 應用簡單線性層獲得的，而不使用圖像編碼。在拼接基線中，我們用 Flr 和初步鍵 K?的直接拼接替換調制塊。通過特征調制注入語義信息對于生成高質量特征和實現強查詢-鍵對齊至關重要。相比之下，線性投影基線顯示了顯著的性能下降，SFT 持續優于拼接方法。增加注意力頭的數量最多到 4 個進一步增強了性能，通過平均后的 softmax 分數生成更魯棒的上采樣核。然而，超過這一點，收益反轉：每個頭的維度變得太低，無法支持有效的對齊，同時計算成本增加，最終降低了輸出質量。

5 結論

我們介紹了 JAFAR，這是一種輕量級、基于注意力的特征上采樣器，設計有簡單的訓練目標。它可以將任何基礎視覺編碼器的特征上采樣到任意輸出分辨率——而不需要原始圖像尺寸的監督或下游任務的注釋。盡管任務無關，JAFAR 在各種下游任務中優于之前的最先進上采樣器，盡管它沒有針對這些任務進行專門訓練。這項工作為統一的特征上采樣器奠定了基礎，可以為密集視覺任務啟用更高效的架構。目前，該方法需要為每個主干網訓練一個單獨的上采樣器。未來的工作將集中在使 JAFAR 在推理時與主干網無關，并進一步減少特征級偽影以生成更清晰的輸出。