【論文筆記】Initializing Models with Larger Ones

Abstract

介紹權重選擇,一種通過從預訓練模型的較大模型中選擇權重子集來初始化較小模型的方法。這使得知識從預訓練的權重轉移到更小的模型。
它還可以與知識蒸餾一起使用。

權重選擇提供了一種在資源受限的環境中利用預訓練模型力量的新方法,希望能夠成為大模型時代訓練小模型的有用工具。

OscarXZQ/weight-selection (github.com)

1 Introduction

神經網絡權重的初始化對于其優化至關重要,正確的初始化有助于模型收斂并防止梯度消失等問題。
本文引入一種權重初始化的方法解決該問題,使用大型預訓練模型來訓練小型模型。

引入了權重選擇(weight selection),選擇預訓練大型模型的權重子集來初始化較小的模型。
使用權重選擇來初始化小模型非常簡單,與從頭開始訓練相比,不會增加額外的計算成本。

3 Weight Selection

給定預訓練模型,目標是為同一模型系列中較小尺寸的模型獲得有效的權重初始化。借用知識蒸餾中的術語,將預訓練模型稱為教師,將我們旨在初始化的模型稱為學生。

3.1 Approach

模型可以通過增加嵌入維度或每個塊中的通道數量來加寬,并通過堆疊更多層來加深。
它還使我們能夠按照三個步驟執行權重選擇:層選擇、組件映射和元素選擇。
![[Pasted image 20240303151432.png]]

圖2:權重選擇(Weight Selection),為了初始化預訓練模型的較小變體,從預訓練模型的相應組件中統一選擇參數。

3.1.1 Layer Selection

第一步是從教師模型中選層。對于學生的每一層,教師模型中被選中的層都是用于初始化的數據來源。對于各個同性架構和分層架構,層選擇的過程略有不同。

各向同性架構是指神經網絡的每一層在整個模型中都表現出一致且統一的分層設計。

分層結構的特點是多尺度表示和嵌入維度的層次結構。分層結構通常具有不同規模和嵌入維度的階段,如VGG這樣的經典卷積網絡逐漸減少空間維度,同時增加通道維度,捕獲多尺度特征。

對于各向同性架構,我們選擇教師的前 N N N層, N N N為學生模型的層數,記作前 N N N層選擇(first- N N N selection)。
處理分層結構時,在每一個獨立的階段單獨應用前 N N N層選擇。

另一種方法是統一層選擇(uniform layer selection),即選擇教師中均勻間隔的層。

3.1.2 Component mapping

第二步,在學生和教師之間映射組件。上一步獲得了從教師到學生的層的映射,將任務簡化為用一個教師層初始化一個學生層。
得益于現代神經網絡設計采用的模塊化方法,同一系列模型中的層具有一組相同的組件,只是寬度不同。
因此,匹配相應組件的過程是自然的一對一映射。

組件(component):在人工智能領域中,神經網絡的component通常指的是網絡的組成部分,也可以理解為神經網絡的各個層(layers)或模塊(modules)。神經網絡由許多不同類型的層組成,每一層都有自己特定的功能和參數。這些層可以分為輸入層、隱藏層和輸出層,其中隱藏層可以進一步細分為卷積層、池化層、全連接層等。

3.1.3 Element selection

建立組件映射后,下一步是用教師的較大對應組件來初始化學生的較小組件,使用uniform selection,從教師tensor中均勻選擇間隔的元素,具體方法在下一部分介紹。

3.2 Methods for element selection

本節制定元素選擇并介紹不同的選擇標準。

考慮一個學生的權重tensor W s W_s Ws?,想找到用于初始化的教師權重tensor W t W_t Wt?。如果 W t W_t Wt?具有shape: t 1 , t 2 , ? , t n t_1,t_2,\cdots,t_n t1?,t2?,?,tn?,那么具有相同組件類型的 W s W_s Ws?,在選擇上也要跨過這 n n n個維度。
目標是選擇 W t W_t Wt?的子集來初始化 W s W_s Ws?

下面討論幾種可能的元素選擇方法,并在4.3節中對其表現進行比較。只要保持了一致性(如具有一致性的隨機選擇段落中所述),權重選擇就可以達到類似性能的水平。推薦實踐中使用uniform selection作為權重選擇的默認值。

一致性(consistancy):通常指的是在模型訓練、推斷或應用過程中,確保系統行為和輸出的穩定性和一致性。

  1. 數據一致性:確保數據在不同階段(采集、預處理、訓練、測試)的一致性,相同的數據在不同情況下應有相同的表現和輸出。
  2. 模型一致性:確保模型在不同環境或輸入下的行為一致,在不同硬件、軟件或數據集上訓練的模型應該產生相似的結果。
  3. 結果一致性:確保模型的輸出在不同運行中保持一致,給定相同的輸入或條件,模型應該產生相同的輸出或行為。

3.2.1 Uniform selection (default)

對于 W t W_t Wt?的第 i i i維,從 t i t_i ti?中均勻間隔地選擇 s i s_i si?
比如,想使用 4 × 6 4\times 6 4×6的線性層 W t W_t Wt?來初始化 2 × 3 2\times 3 2×3的線性層 W s W_s Ws?,沿著第一個維度選擇 1 , 3 1,3 1,3數據(均勻從 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4中選擇2個),沿著第二個維度選擇 1 , 3 , 5 1,3,5 1,3,5切片(均勻從 1 , 2 , 3 , 4 , 5 , 6 1,2,3,4,5,6 1,2,3,4,5,6中選擇3個)。

3.2.2 Consecutive selection

對于 W t W_t Wt?的第 i i i維,從 t i t_i ti?中選出連續的 s i s_i si?條數據。
對于具有分組組件的架構,連續選擇會選擇一些整個組,同時忽略對比。
對于沒有這種分組組件的架構,連續選擇相當于均勻選擇。

3.2.3 Random selection (with consistency)

對于所有權重tensor,對于 W t W_t Wt?的第 i i i維,選擇 s i s_i si?大小的 t i t_i ti?的隨機子集。
通過驗證實驗得到,一致性(為所有權重矩陣選擇相同的指數)是權重選擇達到最佳性能的關鍵。
保持一致性的動機源自于殘余連接的存在——添加到教師模型中的神經元應該將其操作保留在學生當中。

此外,保持一致性可以在元素選擇過程中保留完整的神經元,因為只選擇了一致的位置。
均勻選擇和連續選擇本質上保持了一致性,它們都是具有一致性的隨機選擇的特殊實例。

3.2.4 Random selection (without consistency)

對于所有權重tensor,對于 W t W_t Wt?的第 i i i維,選擇 s i s_i si?大小的 t i t_i ti?的隨機子集。

該方法不需要為每一個權重tensor選擇相同的索引。設計這個方法用來測試保持一致性的重要程度。

4 Experiments

![[Pasted image 20240303164937.png]]
表3:與經典初始化方法的比較,使用Cifar-100數據集測試多種初始化方法的準確度,具有一致性的權重選擇方法優于經典的初始化方法。

5 Analysis

5.1 Reduction in training time

weight selection可以顯著減少訓練時間。直接測量了使用不同數量的epochs,使用weight selection訓練ViT-T省去的時間,將結果展示在圖4(a)。有weight selection后,只需要1/3的epoch數量即可打到傳統初始化方法的表現。

![[Pasted image 20240303165556.png]]
圖4:更快地訓練。和隨機初始化比較,在Cifar-100上,ViT-T只需要1/3的epoch就可以達到其相同的表現。和在ImageNet-1K上預訓練+微調對比,weight selection可以在預訓練的第60個epoch達到其表現,省區6.12倍的時間。

5.2 Comparison with transfer learning

通過實驗來找到預訓練所需的訓練預算,以匹配權重選擇的準確性。在本實驗中,我們在ImageNet-1K上以不同的epoch數訓練ViT-T,然后在Cifar-100上微調300個 epoch。如圖 4b 所示,在 ImageNet-1K 上進行 60 輪預訓練才能在Cifar-100上達到相同的性能。在此設置下,與通過預訓練達到相同性能相比,權重選擇速度提高了6.12倍,且無需訪問用于預訓練的數據集。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/717832.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/717832.shtml
英文地址,請注明出處:http://en.pswp.cn/news/717832.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

代碼隨想錄Day67 | 695.島嶼的最大面積 1020.飛地的數量

代碼隨想錄Day67 | 695.島嶼的最大面積 1020.飛地的數量 695.島嶼的最大面積1020.飛地的數量 695.島嶼的最大面積 文檔講解:代碼隨想錄 視頻講解: 狀態 采用bfs,這道題相較于之前的題變為了求島嶼的最大面積。那就說明我們每遇到一個新的島嶼…

【Linux】軟件管理yum | 編輯器vim | vim插件安裝

目錄 1. Linux軟件管理yum 1.1 什么是軟件包 1.2 查看軟件包 1.3 如何安裝軟件 1.4 如何卸載軟件 2. Linux編輯器vim 2.1 vim的基本概念 2.2 vim的基本操作 2.3 vim正常模式命令集 2.4 vim末行模式命令集 2.5 簡單vim配置 2.6 插件安裝 1. Vim-Plug 3. coc.nvim …

如何自己系統的學python

學習Python是一項很好的投資,因為它是一種既強大又易于學習的編程語言,適用于多種應用,如數據分析、人工智能、網站開發等。下面是一個系統學習Python的步驟建議: 基礎準備 安裝Python: 訪問Python官網下載最新版本的…

微服務獲取當前登錄用戶信息

一,實現思路 1,基于JWT令牌登陸方式 JWT實現登錄的,登錄信息就保存在請求頭的token中。因此要獲取當前登錄用戶,只要獲取請求頭,解析其中的token。 1),Gateway網關攔截,解析用戶信…

微信小程序-生命周期

頁面生命周期 onLoad: 頁面加載時觸發的方法,在這個方法中可以進行頁面初始化的操作,如獲取數據、設置頁面狀態等。 onShow: 頁面顯示時觸發的方法,在用戶進入頁面或從其他頁面返回該頁面時會調用此方法。可以在此方法中進行頁面數據刷新、動…

Onenote軟件新建筆記本時報錯:無法在以下位置新建筆記本

報錯現象: 當在OneNote軟件上,新建筆記本時: 然后,嘗試重新登錄微軟賬戶,也不行,提示報錯: 解決辦法: 打開一個新的記事本,復制粘貼以下內容: C:\Users\Adm…

Mysql中的事務

什么是事務: 多條sql語句,要么全部成功,要么全部失敗。 事務的特性: 1:原子性(Atomic): 組成一個事務的多個數據庫操作是一個不可分割的原子單元,只有所有操作都成功,整個事務才會…

在Unity中模擬實現手勢識別功能

在虛擬現實(VR)和增強現實(AR)的應用開發中,手勢識別技術扮演著至關重要的角色,它允許用戶以自然的方式與虛擬世界進行交云。然而,并非所有開發者都有條件使用真實的手勢識別硬件。本文介紹了如何在Unity中通過模擬的方式實現一個簡單的手勢識…

【LeetCode】1768_交替合并字符串_C

題目描述 給你兩個字符串 word1 和 word2 。請你從 word1 開始,通過交替添加字母來合并字符串。如果一個字符串比另一個字符串長,就將多出來的字母追加到合并后字符串的末尾。 返回 合并后的字符串 。 https://leetcode.cn/problems/merge-strings-al…

C++調用lua函數

C 調用Lua全局變量(普通) lua_getglobal(lua, "width");int width lua_tointeger(lua,-1);lua_pop(lua,1);std::cout << width << std::endl;lua_close(lua); 這幾行代碼要放到lua_pcall(lua, 0,0,0);之后才可以. C給lua傳遞變量 lua_pushstring(lua, …

Python 操作 Excel,如何又快又好?

?數據處理是 Python 的一大應用場景&#xff0c;而 Excel 則是最流行的數據處理軟件。因此用 Python 進行數據相關的工作時&#xff0c;難免要和 Excel 打交道。Python處理Excel 常用的系列庫有&#xff1a;xlrd、xlwt、xlutils、openpyxl ?xlrd &#xff0d; 用于讀取 Exce…

點云從入門到精通技術詳解100篇-基于點云網絡和 PSO 優化算法的手勢估計(續)

目錄 3 深度圖像處理及轉化 3.1 雙目深度攝像原理及深度圖的獲取 3.1.1 理想化雙目深度相機成像

day47_servlet

今日內容 0 復習昨日 1 接收請求 2 處理響應 0 復習昨日 HTTP請求中 請求行 請求方法,請求路徑 請求頭 頁面信息 請求正文 請求的數據 HTTP響應中 響應行 狀態碼 信息 響應頭 頁面信息 響應正文 要給瀏覽器的內容 1 接收請求 瀏覽器發出請求,經過web.xml映射匹配,找到Servlet…

STL容器之map和set

map和set ? c98支持的是單參數的隱式類型轉換&#xff0c;而c11支持多參數的隱式類型轉換&#xff1b; 1.map和set的使用 1.1set ? set實現key值不允許修改&#xff0c;是將iterator轉變成const_iterator&#xff1b;可以對同一個類型typedef成兩個不同的自定義標識符。即…

Rocky 9 安裝 R-CytoTRACE

官網給出的詳細指南&#xff0c;只是可能大家打不開或者懶得去看E文。 第一步&#xff0c;下載CytoTRACE安裝包。 wget https://cytotrace.stanford.edu/CytoTRACE_0.3.3.tar.gz 第二步&#xff0c;打開R或者Rstudio-server # 安裝依賴包 if (!requireNamespace("Bioc…

在vue中$nextTick 原理及作用

在vue中$nextTick 原理及作用 Vue 的 nextTick 其本質是對 JavaScript 執行原理 EventLoop 的一種應用。 nextTick 的核心是利用了如 Promise 、MutationObserver、setImmediate、setTimeout的原生 JavaScript 方法來模擬對應的微/宏任務的實現&#xff0c;本質是為了利用 Java…

每周AI新聞(2024年第9周)微軟與Mistral AI達成合作 | 谷歌發11B基礎世界模型 | 傳蘋果放棄電動汽車制造轉向生成式AI

這里是陌小北&#xff0c;一個正在研究硅基生命的碳基生命。正在努力成為寫代碼的里面背詩最多的&#xff0c;背詩的里面最會寫段子的&#xff0c;寫段子的里面代碼寫得最好的…廚子。 每周日解讀每周AI大事件。 大廠動向 【1】微軟與Mistral AI達成合作 微軟官宣與法國生成…

視頻云平臺——搭建SRS5平臺支持GB28181視頻流的推送

&#x1f4e2;歡迎點贊 &#xff1a;&#x1f44d; 收藏 ?留言 &#x1f4dd; 如有錯誤敬請指正&#xff0c;賜人玫瑰&#xff0c;手留余香&#xff01;&#x1f4e2;本文作者&#xff1a;由webmote 原創&#x1f4e2;作者格言&#xff1a;新的征程&#xff0c;我們面對的不僅…

謹用ArrayList中的subList方法

謹用ArrayList中的subList方法 規范一&#xff1a; ArrayList 的 subList 結果不可強轉成 ArrayList&#xff0c;否則會拋出 ClassCastException 異常&#xff1a; public static void test7() {List<Integer> list new ArrayList<>();list.add(1);list.add(2);…

JavaWeb—— SpringBootWeb綜合案例(登錄功能、登錄校驗、異常處理)

案例-登錄認證 目錄 案例-登錄認證1. 登錄功能1.1 需求1.2 接口文檔1.3 思路分析1.4 功能開發1.5 測試 2. 登錄校驗2.1 問題分析2.2 會話技術2.2.1 會話技術介紹2.2.2 會話跟蹤方案2.2.2.1 方案一 - Cookie2.2.2.2 方案二 - Session2.2.2.3 方案三 - 令牌技術 2.3 JWT令牌2.3.1…