論文地址:https://arxiv.org/pdf/2503.18123v1
代碼地址:https://github.com/SanderGielisse/MWT
關注UP CV縫合怪,分享最計算機視覺新即插即用模塊,并提供配套的論文資料與代碼。
https://space.bilibili.com/473764881
摘要
本研究提出了一種端到端的策略,用于初始化SIREN,并結合學習到的學習率方案,以產生能夠提高分類準確率的表征。本研究表明,一個簡單的、直接的Transformer模型應用于元學習的SIREN,無需引入顯式的對稱等變性,也能優于當前最先進的方法。在CIFAR-10 SIREN分類任務中,本研究在不使用數據增強的情況下,將最先進的性能從38.8%提高到59.6%,在使用數據增強的情況下,從63.4%提高到64.7%。本研究證明了在高分辨率Imagenette數據集上的可擴展性,實現了合理的重建質量和60.8%的分類準確率,并且首次在完整的ImageNet-1K數據集上進行了INR分類,實現了23.6%的SIREN分類性能。據本研究所知,沒有其他SIREN分類方法能夠在任何高分辨率圖像數據集上建立分類基線。
引言
本研究主要關注如何將隱式神經表示(INR)應用于分類任務。INR作為一種將復雜連續信號編碼到神經網絡參數中的方法,在信號重建方面表現出色。然而,直接將INR應用于分類等下游任務并非易事,因為參數中固有的對稱性帶來了挑戰。目前的研究主要集中在設計對這些對稱性具有等變性的架構,但基于INR的分類性能仍然顯著低于基于像素的方法,如卷積神經網絡(CNN)。
為了解決這個問題,本研究提出了一種端到端的策略,用于初始化SIREN(一種常用的INR模型),并結合學習到的學習率方案,以產生能夠提高分類精度的表示。研究表明,一個簡單的Transformer模型應用于元學習的SIREN,在沒有明確引入對稱等變性的情況下,也能勝過當前最優的方法。在CIFAR-10 SIREN分類任務中,本研究在沒有數據增強的情況下將當前最優結果從38.8%提高到59.6%,在使用數據增強的情況下從63.4%提高到64.7%。
此外,本研究還在高分辨率的Imagenette數據集上展示了方法的可擴展性,實現了合理的重建質量和60.8%的分類精度,并且首次在完整的ImageNet-1K數據集上進行了INR分類,實現了23.6%的SIREN分類性能。據本研究的了解,目前還沒有其他SIREN分類方法能夠在任何高分辨率圖像數據集上建立分類基線。
使用基于MLP的隱式神經表示(INR)具有兩個主要優點。首先,與基于固定分辨率像素網格的表示不同,模型在圖像空間中的容量不一定是均勻分布的。其次,用作輸入的信號不需要是等距像素網格,信號的任何觀測子集都可以用來訓練模型。不幸的是,雖然INR在用于高分辨率重建方面非常有效,但是直接使用這些隱式表示進行下游任務(例如分類)仍然具有挑戰性,因為它需要對參數進行推理。
為了對參數執行諸如分類之類的下游任務,需要一個額外的模型,該模型將作為輸入。這涉及到構建一個模型架構,該架構可以將另一個架構的權重作為其輸入進行處理。然而,可能包含許多對稱性。例如,在MLP的情況下,重新排序節點及其關聯的權重會引入置換對稱性;也就是說,權重的一種不同排列對應于完全相同的函數。類似地,尺度對稱性允許以一種導致相同函數的方式縮放參數,即使已經改變。
一個解決這些對稱性的方法是重新對齊權重,以便所有對稱性都映射到同一個網絡。不幸的是,這種對齊問題是難處理的。另一種解決方案是設計下游架構,使其對的對稱性具有等變性,從而有效地繞過對齊問題。因此,許多最近的工作都采用了這種等變設計方法來設計下游架構。然而,這些方法的性能仍然落后于基于像素的分類方法。一個可能的原因是,對于下游模型而言,基于RGB像素的表示比另一個神經網絡的權重更容易解釋。可能是INR的權重缺乏足夠的“結構”,這使得下游模型難以識別有用的圖像特征。次優性能的原因是缺乏結構這一說法得到了研究的支持,他們發現,為所有圖像使用相同的共享INR初始化,然后通過為每個特定圖像INR更新共享初始化來生成特定于圖像的INR,可以提高分類結果。這種共享初始化可能通過選擇一個固定的參考點來避免對稱性。
論文創新點
本研究提出了一個端到端的隱式神經表示(INR)分類框架,專注于提升基于SIREN的圖像分類精度。該框架主要有以下幾個創新點:
-
🚀 元學習初始化策略: 🚀
- 本研究開發了一種新穎的元學習初始化策略,用于SIREN網絡。
- 該策略通過聯合優化SIREN的初始化參數和一個元學習的學習率方案,使得SIREN能夠更快地適應不同的圖像,并且得到的參數結構更利于分類。
- 傳統的INR分類方法通常分兩步進行:首先將圖像轉換為INR表示,然后獨立地訓練分類器。而本研究將INR擬合過程融入到分類器的訓練循環中,通過反向傳播優化INR的結構,實現了端到端的訓練,使得分類損失能夠直接影響INR的權重結構,從而提高了分類性能。
-
?? 計算效率優化: ??
- 本研究注重計算效率,使得高分辨率圖像的INR分類成為可能。
- 通過采用快速收斂的方法,本研究能夠在訓練中使用圖像空間中的數據增強,進一步提升性能。
- 此外,本研究還探索了一種計算高效的變體,即在每個步驟中僅對圖像像素的子集進行SIREN學習。這種方法在不顯著降低重建質量或分類精度的前提下,進一步降低了計算成本。
-
💡 簡化分類器設計: 💡
- 本研究采用了一個簡單而直接的Transformer模型作為分類器,直接應用于元學習得到的SIREN表示。
- 與以往需要設計復雜的、對權重對稱性具有等變性的分類器不同,本研究表明,通過對MLP參數施加結構約束,可以避免顯式地對分類器中的等變性進行建模,從而可以使用標準的分類器并獲得良好的性能。
-
? 顯著提升分類性能: ?
- 本研究在多個數據集上取得了顯著的性能提升。
- 例如,在CIFAR-10數據集上,在沒有數據增強的情況下,將當前最優的分類精度從38.8%提高到59.6%,在使用數據增強的情況下,從63.4%提高到64.7%。
- 更重要的是,本研究首次在高分辨率圖像數據集上建立了SIREN分類的基線,在Imagenette數據集上實現了60.8%的分類精度,在ImageNet-1K數據集上實現了23.6%的分類精度。
-
🔍 全面的消融研究: 🔍
- 本研究對所提出的元學習和基于Transformer的方法的關鍵組成部分進行了詳細的消融研究,分析了元初始化、學習率方案和Transformer架構選擇對重建和分類性能的影響。
- 這些研究揭示了各個組件對整體性能的貢獻,并為進一步優化INR分類方法提供了指導。
- 例如,研究發現分類器對元學習的影響(wcls)需要在重建質量和分類性能之間取得平衡。
論文實驗