免訓練指標(Zero-Cost Proxies)

1. 什么是免訓練指標(Zero-Cost Proxies,ZC proxies)?

免訓練指標是一類 無需完整訓練模型即可評估其性能的度量方法,主要用于提高 神經架構搜索(NAS) 的效率。
傳統 NAS 需要訓練候選架構來評估其性能,但訓練消耗巨大,因此免訓練指標提供了一種 基于模型本身特性(如梯度、參數分布)快速估計模型質量的方法

核心思想:
只用一個小批量數據 計算某些統計量(如梯度、參數重要性、激活值分布),從而 近似衡量模型的好壞,而不需要完整訓練整個模型。


2. 免訓練指標的類別

免訓練指標可以大致分為兩類:

  1. 傳統結構分析指標(如 SNIP、Synflow、Fisher)
  2. 基于知識蒸餾的指標(如 DisWOT)

(1)傳統結構分析指標

這些方法通常通過計算 梯度、權重、Hessian 矩陣 等信息來評估模型的質量。

① SNIP(Single-shot Network Pruning)
  • 計算梯度的重要性,衡量每個參數對損失函數的影響:
    ρ s n i p = ∣ ? L ? W ⊙ W ∣ \rho_{snip} = \left| \frac{\partial \mathcal{L}}{\partial \mathcal{W}} \odot \mathcal{W} \right| ρsnip?= ??W?L?W ?
  • 核心思想:如果去掉某個權重后損失變化較大,則該權重很重要。因此,可以用梯度信息估算整個網絡的質量。
② Synflow
  • 通過梯度流分析,避免層塌陷(layer collapse):
    ρ s y n f l o w = ? L ? W ⊙ W \rho_{synflow} = \frac{\partial \mathcal{L}}{\partial \mathcal{W}} \odot \mathcal{W} ρsynflow?=?W?L?W
  • 核心思想:確保不同層的梯度能夠均勻流動,以保持架構的穩定性。
③ Fisher
  • 計算激活梯度的平方和,用于通道剪枝:
    ρ f i s h e r = ( ? L ? A A ) 2 \rho_{fisher} = \left( \frac{\partial \mathcal{L}}{\partial \mathcal{A}} \mathcal{A} \right)^2 ρfisher?=(?A?L?A)2
  • 核心思想:通道(Channel)如果對梯度變化敏感,則在訓練時影響更大,可以用它來衡量模型質量。

(2)基于知識蒸餾的指標

DisWOT(Distillation Without Training)

  • 這是一種 基于知識蒸餾的免訓練指標,通過計算 教師-學生模型的特征匹配誤差 來評估網絡質量:
    ρ D i s W O T = D L 2 ( G ( [ A S , A T ] ) ) + D L 2 ( G ( [ F S , F T ] ) ) \rho_{DisWOT} = \mathcal{D}_{L2} (\mathcal{G}([AS,AT])) + \mathcal{D}_{L2} (\mathcal{G}([FS,FT])) ρDisWOT?=DL2?(G([AS,AT]))+DL2?(G([FS,FT]))

  • 其中:

    • ( AS, AT ) 是教師-學生模型的 激活圖(Activation Maps)
    • ( FS, FT ) 是教師-學生模型的 特征圖(Feature Maps)
    • ( \mathcal{D}_{L2} ) 計算的是 L2 距離(歐幾里得距離),衡量特征匹配誤差
  • 核心思想:如果一個模型可以很好地模仿教師模型的特征分布(即 L2 誤差小),則這個模型的質量更好。


3. 免訓練指標如何用于 NAS

在 NAS 中,免訓練指標可以用于:

  1. 快速評估候選架構
    • 在搜索空間中 篩選掉性能較差的架構,減少訓練計算量。
  2. 結合搜索算法優化架構
    • 可以將 梯度信息(SNIP, Synflow)知識蒸餾誤差(DisWOT) 作為搜索目標,指導 NAS 選擇更優的架構。
  3. 設計高效的蒸餾感知 NAS(DAS)
    • 結合 DAS(Distillation-aware Architecture Search),讓 NAS 選擇對知識蒸餾更友好的模型,提高輕量化模型的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/73636.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/73636.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/73636.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C語言 —— 此去經年夢浪蕩魂音 - 深入理解指針(卷二)

目錄 1. 數組名與地址 2. 指針訪問數組 3.一維數組傳參本質 4.二級指針 5. 指針數組 6. 指針數組模擬二維數組 1. 數組名與地址 我們先看下面這個代碼: int arr[10] { 1,2,3,4,5,6,7,8,9,10 };int* p &arr[0]; 這里我們使用 &arr[0] 的方式拿到了數…

基于Python pyscard庫采集ACS ACR122U NFC讀卡器數據的詳細操作步驟

步驟1:安裝驅動 1. 下載驅動: - 訪問ACS官網的驅動下載頁面:[ACR122U驅動下載](https://www.acs.com.hk/en/drivers/6/acr122u-nfc-reader/)。 - 選擇適用于Windows的驅動(如 ACR122U Driver (Windows) V3.05.02.zip)…

深度學習 Deep Learning 第1章 深度學習簡介

第1章 深度學習簡介 概述 本章介紹人工智能(AI)和深度學習領域,討論其歷史發展、關鍵概念和應用。解釋深度學習如何從早期的AI和機器學習方法演變而來,以及如何有效解決之前方法無法應對的挑戰。 關鍵概念 1. 人工智能的演變 …

python實現簡單的圖片去水印工具

python實現簡單的圖片去水印工具 使用說明: 點擊"打開圖片"選擇需要處理的圖片 在圖片上拖拽鼠標選擇水印區域(紅色矩形框) 點擊"去除水印"執行處理 點擊"保存結果"保存處理后的圖片 運行效果 先簡要說明…

軟件功能性測試有哪些步驟和挑戰?軟件測評服務機構分享

軟件功能性測試是對軟件系統進行驗證的一種基本方法。其主要目標是確保軟件系統能夠按照預期的要求和功能進行操作。從用戶的角度看,功能性測試旨在檢查軟件是否實現了所有要求的功能,保證用戶體驗的順暢與滿意。 一、軟件功能性測試的測試步驟   1、…

《C#上位機開發從門外到門內》3-4:基于TCP/IP的遠程監控系統設計與實現

文章目錄 一、項目概述二、系統架構設計三、通信協議設計四、功能模塊實現五、系統安全性與穩定性六、性能優化與測試七、實際應用案例八、結論 隨著信息技術的飛速發展,遠程監控系統在工業自動化、智能家居、環境監測等領域的應用日益廣泛。基于TCP/IP協議的遠程監…

在react當中利用IntersectionObserve實現下拉加載數據

目錄 一、傳統的下拉加載方案 二、存在問題 1.性能較差 2.不夠精確 三、IntersectionObserve版本下拉加載 1、callback 2、options 四、IntersectionObserver實例 1、Intersection的優勢 2、實現思路 3、代碼實現 在進行前端開發的過程中,常常會碰到下拉…

深入理解C++編程:從內存管理到多態與算法實現

C 是一門功能強大的編程語言,廣泛應用于系統編程、游戲開發和高性能計算等領域。本文將通過一系列經典問題,深入探討 C 的核心知識點,包括內存管理、多態(結合函數重載與覆蓋)、多線程、TCP/IP 模型、軟鏈接與硬鏈接的…

相對論之光速

然而,基礎物理學的進步很少全部由實驗取得。為了解實驗結果背后的機制,法拉第問道,既然磁鐵沒有接觸導線,導線中怎么會產生電流?一股電流又怎么能使指南針指針發生偏轉?有某種作用因素必然在磁鐵、導線和指南針之間的空隙中傳遞…

文本檢測-文本內容審核-文本過濾接口如何用PHP調用?

一、什么是文本檢測接口呢? 文本內容審核過濾,提供對敏感事件、違規詞語及監管要求封禁詞語的識別審核能力,包含海量歷史數據,有效過濾違禁違規、惡意推廣、低俗辱罵、低質灌水、廣告法審核,該接口應用場景廣泛&#…

突破極限:獵板PCB在HDI盲埋孔樹脂塞孔工藝中的創新與挑戰

在高端電子制造領域,HDI(高密度互連)技術憑借其高精度、高可靠性的特點,已成為5G通信、航空航天、智能汽車等領域的核心技術支撐。作為HDI板制造的核心環節,盲埋孔樹脂塞孔工藝直接決定了電路板的信號完整性、散熱性能…

群體智能優化算法-?魚優化算法 (Remora Optimization Algorithm, ROA,含Matlab源代碼)

摘要 ?魚優化算法(Remora Optimization Algorithm,ROA)是一種基于?魚在海洋中寄生與捕食者間交互關系而提出的元啟發式算法。通過模擬?魚在宿主附近進行寄生、吸附和隨機機動等行為,ROA 在全局與局部搜索之間取得平衡。本文提…

【數學建模】一致矩陣的應用及其在層次分析法(AHP)中的性質

一致矩陣在層次分析法(AHP)中的應用與性質 在層次分析法(AHP)中,一致矩陣是判斷矩陣的一種理想狀態,它反映了決策者判斷的完全合理性和一致性,也就是為了避免決策者認為“A比B重要,B比C重要,但是C又比A重要”的矛盾。…

DeepSeek R1 與 ktransformers:結合蘋果 M4 Mac 的 LLM 推理深度分析

引言 大型語言模型(LLM)的快速發展為人工智能領域帶來了革命性變化。DeepSeek R1 和 ktransformers 代表了軟件層面的最新突破,而蘋果在 2025 年 3 月 12 日發布的 M4 Mac 系列則提供了硬件支持。本文將深入分析這些技術的交匯點&#xff0c…

JavaScript基本知識

文章目錄 一、JavaScript基礎1.變量(重點)1-1 定義變量及賦值1-2 變量的命名規則和命名規范判斷數據類型: 2.數據類型轉換2-1 其他數據類型轉成數值2-2 其他數據類型轉成字符串2-3 其他數據類型轉成布爾 3.函數3-1函數定義階段3-2函數調用階段…

[IP]UART

UART 是一個簡易串口ip,用戶及配置接口簡單。 波特率從9600至2000000。 該 IP 支持以下特性: 異步串行通信:標準 UART 協議(1 起始位,8 數據位,1 停止位,無奇偶校驗)。 參數化配置…

K8s集群的環境部署

1.測試環境所需要的主機名和IP和扮演的角色 harbor 172.25.254.200 harbor倉庫 k8s-master 172.25.254.100 k8s集群控制節點 k8s-node1 172.25.254.10 k8s集群工作節點 k8s-node2 172.25.254.20 k8集群工作節點 注意:所有節點禁用selinux和防火墻 所有節點同步…

pytest自動化測試[面試篇]

pytest是python的測試框架,它提供了許多功能, 測試運行 組織pytest的測試用例代碼:模塊名稱以test_開頭,類名以Test開頭,函數名以test_開頭, 然后用pytest命令即可運行測試用例。 可以在命令行中,用pyte…

樹莓派急速安裝ubuntu;映射磁盤與儲存磁盤文件;ubuntu映射整個工程;保存系統工作狀態

一、用途 在使用樹莓派上下載ubuntu時,需要一張sd卡,當你需要給這張卡做備份的時候,可以是使用磁盤映射軟件,從而達到備份的目的 同時有一些大佬發布了ubuntu的映射文件,可以直接使用該文件,然后還原他的整…

Python學習第十九天

Django-分頁 后端分頁 Django提供了Paginator類來實現后端分頁。Paginator類可以將一個查詢集(QuerySet)分成多個頁面,每個頁面包含指定數量的對象。 from django.shortcuts import render, redirect, get_object_or_404 from .models impo…