【CVPR2025】計算機視覺|SIREN: 元學習賦能!突破INR高分辨率圖像分類難題

圖片
論文地址:https://arxiv.org/pdf/2503.18123v1
代碼地址:https://github.com/SanderGielisse/MWT


關注UP CV縫合怪,分享最計算機視覺新即插即用模塊,并提供配套的論文資料與代碼。
https://space.bilibili.com/473764881
圖片

摘要

本研究提出了一種端到端的策略,用于初始化SIREN,并結合學習到的學習率方案,以產生能夠提高分類準確率的表征。本研究表明,一個簡單的、直接的Transformer模型應用于元學習的SIREN,無需引入顯式的對稱等變性,也能優于當前最先進的方法。在CIFAR-10 SIREN分類任務中,本研究在不使用數據增強的情況下,將最先進的性能從38.8%提高到59.6%,在使用數據增強的情況下,從63.4%提高到64.7%。本研究證明了在高分辨率Imagenette數據集上的可擴展性,實現了合理的重建質量和60.8%的分類準確率,并且首次在完整的ImageNet-1K數據集上進行了INR分類,實現了23.6%的SIREN分類性能。據本研究所知,沒有其他SIREN分類方法能夠在任何高分辨率圖像數據集上建立分類基線
圖片

引言

本研究主要關注如何將隱式神經表示(INR)應用于分類任務。INR作為一種將復雜連續信號編碼到神經網絡參數中的方法,在信號重建方面表現出色。然而,直接將INR應用于分類等下游任務并非易事,因為參數中固有的對稱性帶來了挑戰。目前的研究主要集中在設計對這些對稱性具有等變性的架構,但基于INR的分類性能仍然顯著低于基于像素的方法,如卷積神經網絡(CNN)。

為了解決這個問題,本研究提出了一種端到端的策略,用于初始化SIREN(一種常用的INR模型),并結合學習到的學習率方案,以產生能夠提高分類精度的表示。研究表明,一個簡單的Transformer模型應用于元學習的SIREN,在沒有明確引入對稱等變性的情況下,也能勝過當前最優的方法。在CIFAR-10 SIREN分類任務中,本研究在沒有數據增強的情況下將當前最優結果從38.8%提高到59.6%,在使用數據增強的情況下從63.4%提高到64.7%

此外,本研究還在高分辨率的Imagenette數據集上展示了方法的可擴展性,實現了合理的重建質量和60.8%的分類精度,并且首次在完整的ImageNet-1K數據集上進行了INR分類,實現了23.6%的SIREN分類性能。據本研究的了解,目前還沒有其他SIREN分類方法能夠在任何高分辨率圖像數據集上建立分類基線。

使用基于MLP的隱式神經表示(INR)具有兩個主要優點。首先,與基于固定分辨率像素網格的表示不同,模型在圖像空間中的容量不一定是均勻分布的。其次,用作輸入的信號不需要是等距像素網格,信號的任何觀測子集都可以用來訓練模型。不幸的是,雖然INR在用于高分辨率重建方面非常有效,但是直接使用這些隱式表示進行下游任務(例如分類)仍然具有挑戰性,因為它需要對參數進行推理。

為了對參數執行諸如分類之類的下游任務,需要一個額外的模型,該模型將作為輸入。這涉及到構建一個模型架構,該架構可以將另一個架構的權重作為其輸入進行處理。然而,可能包含許多對稱性。例如,在MLP的情況下,重新排序節點及其關聯的權重會引入置換對稱性;也就是說,權重的一種不同排列對應于完全相同的函數。類似地,尺度對稱性允許以一種導致相同函數的方式縮放參數,即使已經改變。

一個解決這些對稱性的方法是重新對齊權重,以便所有對稱性都映射到同一個網絡。不幸的是,這種對齊問題是難處理的。另一種解決方案是設計下游架構,使其對的對稱性具有等變性,從而有效地繞過對齊問題。因此,許多最近的工作都采用了這種等變設計方法來設計下游架構。然而,這些方法的性能仍然落后于基于像素的分類方法。一個可能的原因是,對于下游模型而言,基于RGB像素的表示比另一個神經網絡的權重更容易解釋。可能是INR的權重缺乏足夠的“結構”,這使得下游模型難以識別有用的圖像特征。次優性能的原因是缺乏結構這一說法得到了研究的支持,他們發現,為所有圖像使用相同的共享INR初始化,然后通過為每個特定圖像INR更新共享初始化來生成特定于圖像的INR,可以提高分類結果。這種共享初始化可能通過選擇一個固定的參考點來避免對稱性。

論文創新點

本研究提出了一個端到端的隱式神經表示(INR)分類框架,專注于提升基于SIREN的圖像分類精度。該框架主要有以下幾個創新點:

  1. 🚀 元學習初始化策略: 🚀

    • 本研究開發了一種新穎的元學習初始化策略,用于SIREN網絡。
    • 該策略通過聯合優化SIREN的初始化參數和一個元學習的學習率方案,使得SIREN能夠更快地適應不同的圖像,并且得到的參數結構更利于分類。
    • 傳統的INR分類方法通常分兩步進行:首先將圖像轉換為INR表示,然后獨立地訓練分類器。而本研究將INR擬合過程融入到分類器的訓練循環中,通過反向傳播優化INR的結構,實現了端到端的訓練,使得分類損失能夠直接影響INR的權重結構,從而提高了分類性能。
  2. ?? 計算效率優化: ??

    • 本研究注重計算效率,使得高分辨率圖像的INR分類成為可能。
    • 通過采用快速收斂的方法,本研究能夠在訓練中使用圖像空間中的數據增強,進一步提升性能。
    • 此外,本研究還探索了一種計算高效的變體,即在每個步驟中僅對圖像像素的子集進行SIREN學習。這種方法在不顯著降低重建質量或分類精度的前提下,進一步降低了計算成本。
  3. 💡 簡化分類器設計: 💡

    • 本研究采用了一個簡單而直接的Transformer模型作為分類器,直接應用于元學習得到的SIREN表示。
    • 與以往需要設計復雜的、對權重對稱性具有等變性的分類器不同,本研究表明,通過對MLP參數施加結構約束,可以避免顯式地對分類器中的等變性進行建模,從而可以使用標準的分類器并獲得良好的性能。
  4. ? 顯著提升分類性能: ?

    • 本研究在多個數據集上取得了顯著的性能提升。
    • 例如,在CIFAR-10數據集上,在沒有數據增強的情況下,將當前最優的分類精度從38.8%提高到59.6%,在使用數據增強的情況下,從63.4%提高到64.7%。
    • 更重要的是,本研究首次在高分辨率圖像數據集上建立了SIREN分類的基線,在Imagenette數據集上實現了60.8%的分類精度,在ImageNet-1K數據集上實現了23.6%的分類精度。
  5. 🔍 全面的消融研究: 🔍

    • 本研究對所提出的元學習和基于Transformer的方法的關鍵組成部分進行了詳細的消融研究,分析了元初始化、學習率方案和Transformer架構選擇對重建和分類性能的影響。
    • 這些研究揭示了各個組件對整體性能的貢獻,并為進一步優化INR分類方法提供了指導。
    • 例如,研究發現分類器對元學習的影響(wcls)需要在重建質量和分類性能之間取得平衡。

論文實驗

圖片
圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/914129.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/914129.shtml
英文地址,請注明出處:http://en.pswp.cn/news/914129.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

牛客周賽 Round 99

賽時成績如下&#xff1a;A. Round 99題目描述 對于給定的五位整數&#xff0c;檢查其中是否含有數字 99&#xff1b;換句話說&#xff0c;檢查是否存在相鄰的兩個數位&#xff0c;其值均為 。解題思路&#xff1a; 檢查相鄰的兩個數字是否均為9#include <bits/stdc.h> u…

從0到1搭建個人技術博客:用GitHub Pages+Hexo實現

一、為什么要搭建個人技術博客&#xff1f; 在技術圈&#xff0c;擁有個人博客的好處不言而喻&#xff1a; 簡歷加分項&#xff1a;面試官更青睞有技術沉淀的候選人知識系統化&#xff1a;輸出倒逼輸入&#xff0c;加深技術理解人脈拓展&#xff1a;吸引同行關注&#xff0c;…

Ubuntu22.04 設置顯示存在雙屏卻無法雙屏顯示

文章目錄一、背景描述二、解決方法一、背景描述 回到工位后&#xff0c;發現昨天離開時還可正常顯示的雙屏&#xff0c;今早ubuntu22.04 的設置界面顯示有雙屏&#xff0c;但外接的顯示屏無法正常顯示。 首先&#xff0c;查看當前圖像處理顯卡是否為N卡&#xff0c;沒錯&#…

高亞科技簽約奕源金屬,助力打造高效智能化采購管理體系

深圳市奕源金屬制品有限公司近日&#xff0c;國內企業管理軟件服務商高亞科技與深圳市奕源金屬制品有限公司&#xff08;以下簡稱“奕源金屬”&#xff09;正式簽約&#xff0c;雙方將基于高亞科技自主研發的8Manage SRM采購管理系統&#xff0c;共同推動奕源金屬采購管理的數字…

數據結構之map

map的基本介紹我們常常把map稱之為映射&#xff0c;就是將一個元素&#xff08;通常稱之為key鍵&#xff09;與一個相對應的值&#xff08;通常稱之為value&#xff09;關聯起來&#xff0c;比如說一個學生的名字&#xff08;key&#xff09;有與之對應的成績&#xff08;value…

vue3 canvas 選擇器 Canvas 增加頁面性能

文章目錄Vue3 選擇器 Canvas 增加頁面性能基于Vue3 Composition API和Canvas實現的交互式選擇器&#xff0c;支持PC端和移動端的拖動選擇、多選取消選擇功能vue3組件封裝html代碼Vue3 選擇器 Canvas 增加頁面性能 基于Vue3 Composition API和Canvas實現的交互式選擇器&#xf…

Python 實戰:打造多文件批量重命名工具

引言在實際運維、測試、數據分析、開發流程中&#xff0c;我們經常會處理成百上千條命令操作&#xff0c;例如&#xff1a;各種腳本任務&#xff08;啟動、備份、重啟、日志查看&#xff09;數據處理流程&#xff08;爬取 → 清洗 → 統計 → 可視化&#xff09;配置自動化&…

設計模式筆記_結構型_代理模式

1. 代理模式介紹代理模式是一種結構型設計模式&#xff0c;它允許你提供一個代理對象來控制對另一個對象的訪問。代理對象通常在客戶端和目標對象之間起到中介作用&#xff0c;能夠在不改變目標對象的前提下增加額外的功能操作&#xff0c;比如延遲初始化、訪問控制、日志記錄等…

C語言<數據結構-單鏈表>(收尾)

上篇博客我將基礎的尾插、尾刪、頭插、頭刪逐一講解了&#xff0c;這篇博客將對上篇博客進行收尾&#xff0c;講一下指定位置操作增刪以及查找這幾個函數&#xff0c;其實大同小異&#xff1a;一.查找函數&#xff1a;查找函數其實就是一個簡單的循環遍歷&#xff0c;所以不加以…

十年架構心路:從單機到云原生的分布式系統演進史

十年架構心路&#xff1a;從單機到云原生的分布式系統演進史 這里寫目錄標題十年架構心路&#xff1a;從單機到云原生的分布式系統演進史一、技術生涯的起點&#xff1a;單體架構的黃金時代1.1 典型技術棧1.2 記憶深刻的故障二、分布式架構轉型期2.1 服務化拆分實踐2.2 分布式事…

使用docker搭建nginx

安裝docker 和 docker compose驗證docker版本配置docker目錄配置代理&#xff0c;使docker能訪問外網能否ping通最后直接拉入鏡像即可docker pull nginx

Intel新CPU助攻:微軟Copilot+將登陸臺式電腦

微軟的Copilot PC計劃已經推出一年多&#xff0c;但目前僅支持平板電腦和筆記本電腦&#xff0c;以及少數迷你電腦。 隨著Intel下一代桌面處理器——代號為“Arrow Lake Refresh”的推出&#xff0c;Copilot PC功能有望擴展到桌面計算機。 要支持Copilot PC的所有功能&#xff…

【Kubernetes】跨節點 Pod 網絡不通排查案例

最近在部署一個集群環境的時候&#xff0c;發現集群中一個子節點與其他子節點不通&#xff0c;而 master 節點可與任何子節點互通&#xff0c;通過抓包排查后&#xff0c;發現是 Linux 路由決策導致的。因此&#xff0c;在此記錄下來&#xff0c;希望對大家有所幫助。1、環境及…

【算法訓練營Day11】二叉樹part1

文章目錄理論基礎二叉樹的遞歸遍歷前序遍歷中序遍歷后序遍歷總結二叉樹的層序遍歷基礎層序遍歷二叉樹的右視圖理論基礎 二叉樹在結構上的兩個常用類型&#xff1a; 滿二叉樹完全二叉樹 在功能應用上的比較常用的有&#xff1a; 二叉搜索樹&#xff1a; 節點有權值、遵循”左…

Flutter 之 table_calendar 控件

1.庫導入在pubspec.yaml文件中dev_dependencies:table_calendar: ^3.2.02. 代碼編寫TableCalendar(daysOfWeekHeight: 20,availableGestures: AvailableGestures.horizontalSwipe,firstDay: DateTime.now().subtract(const Duration(days: 365)),lastDay: DateTime.now(),cal…

【leetcode】1486. 數組異或操作

數組異或操作題目題解題目 1486. 數組異或操作 給你兩個整數&#xff0c;n 和 start 。 數組 nums 定義為&#xff1a;nums[i] start 2*i&#xff08;下標從 0 開始&#xff09;且 n nums.length 。 請返回 nums 中所有元素按位異或&#xff08;XOR&#xff09;后得到的…

php7.4使用 new DateTime;報錯 Class DateTime not found

php7.4使用 new DateTime;報錯Uncaught Error: Class ‘app\home\c\DateTime’ not found 查了半天資料&#xff0c;最后找到了解決辦法 DateTime 是 php 內置的類&#xff0c;不隸屬于任何命名空間&#xff0c;如果你需要在命名空間中使用須有 \ 聲明&#xff0c;解決辦法就是…

Gartner《構建可擴展數據產品建設框架》心得

一、背景與價值 1.1 “數據產品”為什么忽然重要? 傳統模式:業務提出需求 → IT 建數據集 → ETL 管道爆炸 → 維護成本指數級上升。 新范式:把“數據”包裝成“產品”,以產品思維迭代演進,強調復用、自助、可擴展。 Gartner 觀察到:大量組織把“報表”或“數據倉庫”重…

CentOS/RHEL LVM 磁盤擴展完整教程

CentOS/RHEL LVM 磁盤擴展完整教程&#x1f4dd; 前言 在Linux系統管理中&#xff0c;磁盤空間不足是經常遇到的問題。特別是在生產環境中&#xff0c;當根分區空間告急時&#xff0c;我們需要通過添加新磁盤來擴展存儲空間。本教程將詳細介紹如何在CentOS/RHEL系統中使用LVM&a…

LVGL應用和部署(用lua做測試)

【 聲明&#xff1a;版權所有&#xff0c;歡迎轉載&#xff0c;請勿用于商業用途。 聯系信箱&#xff1a;feixiaoxing 163.com】嵌入式產品做好了&#xff0c;下面就是測試和量產了。以按鍵屏幕的開發模式為例&#xff0c;如果僅僅是簡單的功能測試&#xff0c;那還比較好解決&…