CAU人工智能class4 批次歸一化

歸一化

在對輸入數據進行預處理時會用到歸一化,將輸入數據的范圍收縮到0到1之間,這有利于避免綱量對模型訓練產生的影響。
但當模型過深時會產生下述問題:
在這里插入圖片描述
當一個學習系統的輸入分布發生變化時,這種現象稱之為“內部協變量偏移”(Internal Covariate Shift)。

內部協變量偏移

內部協變量偏移借鑒了統計學中的“協變量偏移”概念, 協變量(Covariate)指的是在分析某一因變量與其關系時,除了自變量以外,可能影響因變量的其他變量。

協變量的存在可能混淆自變量和因變量之間的因果關系,故在研究中通常對協變量進行控制或校正。模型在訓練時遇到數據分布發生變化,會影響模型的泛化能力。

內部協變量偏移的影響

需要較低的學習率

如果某一層的輸入分布突然變化(例如均值或方差大幅波動),則該層的參數更新可能會破壞之前學到的特征。為了穩定訓練,必須使用較小的學習率,這會顯著減慢訓練速度。

參數初始化敏感

參數初始化不合理會直接影響到模型的收斂速度、訓練效率以及最終模型的性能。
原因:

  • 引發梯度消失/爆炸問題:在計算梯度時會計算激活函數的倒數(斜率),而特別時飽和的激活函數的斜率在某些位置接近于0(或很大),這就會導致梯度消失或爆炸問題。
  • 更快的模型收斂:更快的模型收斂
有利于訓練的參數初始化

在這里插入圖片描述
訓練一個深度學習模型,如果希望模型有比較好的收斂效果,需要的前提
條件是每一層的輸入數據有穩定的數據分布

批次歸一化

批次歸一化是對一個 batch 的數據在網絡各層的輸出做標準化處理,固定小批量里面的均值和方差,使得在不同層數據保持相同分布,即滿足標準正態分布。

優點

  • 批規一化允許使用更高的學習率
  • 并且對初始化的要求不那么嚴格
  • 它還起到了正則化的作用,在某些情況下甚至可以消除對 Dropout 的需求

步驟

𝐵𝑎𝑡𝑐?𝑁𝑜𝑟𝑚 主要思路是在訓練時按 𝑚𝑖𝑛𝑖 ? 𝑏𝑎𝑡𝑐? 為單位,對神經元的數值進行歸一化,使數據的分布滿足 均值為 0,方差為 1。具體計算過程如下(4步):

  1. 計算 𝑚𝑖𝑛𝑖 ? 𝑏𝑎𝑡𝑐? 內樣本的均值
    在這里插入圖片描述
  2. 計算 𝑚𝑖𝑛𝑖 ? 𝑏𝑎𝑡𝑐? 內樣本的方差
    在這里插入圖片描述
  3. 歸一化
    在這里插入圖片描述

    其中 𝜖 是一個微小值(例如 1e?7)
  4. 對標準化的輸出進行縮放和平移
    如果強行限制輸出層的分布滿足標準正態化,使得數據集中在激活函數中心的線性區域,反而使激活函數喪失了非線性特性。
    在這里插入圖片描述
    可能會導致某些特征模式的丟失。因此在 BN 操作中為每個卷積核引入了兩個可訓練參數:縮放 (𝑆𝑐𝑎𝑙𝑒)因子 𝛾 和偏移(𝑆?𝑖𝑓𝑡)因子 𝛽。
    在這里插入圖片描述
    其中γ 和β 是可學習的參數,可以賦初始值 𝛾 = 1,β = 0 , 在訓練過程中不斷學習調整。而均值 𝜇𝐵 和方差 𝜎𝐵2 是計算得到的。
    調節的原理:
    γ 的作用:γ 可以調整歸一化后數據的方差,使其恢復到原始數據的尺度。
    在這里插入圖片描述
    β 的作用:β 可以調整歸一化后數據的均值,使其恢復到原始數據的均值。在這里插入圖片描述
    這樣通過調節這兩個參數可以保留一部分原數據的分布。

批量歸一化的位置

放在激活函數前面

激活函數是類似于 sigmoid 有一定飽和區域的函數。則可以把歸一化層放在激活函數之前,在一定程度上可以緩解梯度消失問題
在這里插入圖片描述
如上圖所示:假設未經過 BN 調整。
正態分布均值: ?6
方差: 1
意味著 95 % 的值落在位于兩個標準差[?2, 2] 的區間內,即 [?8, ?4] 之間,而對應的 Sigmoid 函數的值明顯接近于 0 ,這是典型的梯度飽和區。意味著梯度變化很小甚至消失。
而當落在的區間比較大時,計算出的梯度同樣很小。
在這里插入圖片描述
問題:
在這里插入圖片描述
因此要對分布區間進行一定的變換,使其大部分落在函數敏感區間。
在這里插入圖片描述
在這里插入圖片描述

放在激活函數之后

如果激活函數是類似于 relu 這樣的激活函數,那么可以把歸一化層放在激活函數之后,可以有效避免數據在激活之前被轉化成相似的模式,從而使得非線性特征分布趨于同化。

批歸一化與dropout的沖突

當 Dropout 和 BN 這兩個強大的方法在實際上結合使用的時候,反而經常無法獲得性能上額外的增益。事實上,當主流卷積網絡在同時配備 BN 和 Dropout 時,在很多情況下它們的性能甚至會變得更差。

方差偏移

每層的輸入分布由于上一層的參數更新變得不穩定(方差不一致),隨著信號變深,最終預測的數值偏差可能會被不斷的放大,從而降低系統的性能.
在這里插入圖片描述
從圖中可以看到,沒有使用dropout的模型每層的方差變化不大(藍線),而使用了dropout的紅線方差極不穩定(紅線)

解決方法

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81991.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81991.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81991.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

動態庫和靜態庫詳解

庫其實就是個文件 下面是文件后綴 靜態庫:.a(linux) .lib(windows) 動態庫:.so(linux) .dll(windows) 靜態庫的制作 ar -rc libmystdio.a my_stdio.o my_string.o ar是歸檔工具,rc表示replace和create,ar跟tar有點…

PDF 文檔結構化工具對比:Marker 與 MinerU

模型訓練數據-MinerU一款Pdf轉Markdown軟件 https://codeyuan.blog.csdn.net/article/details/144315141 在當前大模型(LLM)和自然語言處理(NLP)應用快速發展的背景下,如何高效地將 PDF 等非結構化文檔轉換為結構化數…

shp2pgsql 導入 Shp 到 PostGIS 空間數據庫

前言 ? shp2pgsql是PostGIS自帶的命令行工具,用于將Shapefile文件聲稱SQL腳本導入到PostGIS空間數據庫。 1. 安裝 PostGIS 通過Application Stack Builder或者下載單獨的PostGIS包進行安裝。而shp2pgsql則是與PostGIS工具集成在一起,無需單獨下載。該命…

【ISP算法精粹】什么是global tone mapping和local tone mapping?

1. 簡介 全局色調映射(Global Tone Mapping)和局部色調映射(Local Tone Mapping)是高動態范圍(HDR)圖像處理中的兩種關鍵技術,用于將高動態范圍圖像的亮度值映射到標準動態范圍(LDR…

虛擬環境中VSCode運行jupyter文件

用VS Code打開jupyter文件,點擊右上角 Select Kernel 在正上方會出現這個選擇框,選擇 Python Environment 會出來所有的虛擬環境,選擇要用的環境行

如何計算VLLM本地部署Qwen3-4B的GPU最小配置應該是多少?多人并發訪問本地大模型的GPU配置應該怎么分配?

本文一定要閱讀我上篇文章!!! 超詳細VLLM框架部署qwen3-4B加混合推理探索!!!-CSDN博客 本文是基于上篇文章遺留下的問題進行說明的。 一、本文解決的問題 問題1:我明明只部署了qwen3-4B的模型…

antv/g6 圖譜封裝配置(二)

繼上次實現圖譜后,后續發現如果要繼續加入不同樣式的圖譜實現起來太過麻煩,因此考慮將配置項全部提取封裝到js文件中,圖譜組件只專注于實現各種不同的組件,其中主要封裝的點就是各個節點的橫坐標(x),縱坐標…

從芯片互連到機器人革命:英偉達雙線出擊,NVLink開放生態+GR00T模型定義AI計算新時代

5月19日,在臺灣舉辦的Computex 2025上,英偉達推出新技術“NVLink Fusion”,允許非英偉達CPU和GPU,同英偉達產品以及高速GPU互連技術NVLink結合使用,加速AI芯片連接。新技術的推出旨在保持英偉達在人工智能開發和計算領…

Qt window frame + windowTitle + windowIcon屬性(3)

文章目錄 window frame屬性window frame的概念1. window frame的影響2. 圖片演示3. 代碼演示 API接口widget.cpp(測試代碼) windowTitle屬性API接口問題 注意點widget.cpp(屬性用法) windowIcon屬性API接口啥是窗口圖標玩法1. 先…

Git 分支管理:merge、rebase、cherry-pick 的用法與規范

Git 分支管理:merge、rebase、cherry-pick 的用法與規范 在團隊開發和個人項目中,合理管理 Git 分支至關重要。merge、rebase 和 cherry-pick 是最常用的三種分支操作命令。本文將介紹它們的基本用法、適用場景及最佳實踐規范,幫助大家更高效…

VR全景制作方法都有哪些?需要注意什么?

VR全景制作是將線下實景場景轉化為具有沉浸式體驗的全景圖像的相關技術流程。通過圖像處理和軟件拼接等手段及技術,可以制作出VR全景圖。后面,我們科普詳細的VR全景制作方法指南,順便介紹眾趣科技在相關領域提供的支持方案。 選定拍攝地點與準…

計算機系統結構1-3章節 期末背誦內容

Amdahl定律: 加快某部件執行速度所能獲得的系統性能加速比,受限于該部件的執行時間占系統中總執行時間的百分比。 加速比依賴于: 可改進比例:在改進前的系統中,可改進部分的執行時間在總的執行時間中所占的比例。 部件加速比:可改…

JS實現直接下載PDF文件

pdf文件通過a標簽直接下載會打開頁面,所以,請求該文件的blob文件流數據,再通過window.URL.createObjectURL轉成鏈接,就可以直接下載了。 只需要替換url和文件名稱就行,文件名的后綴記得要寫上pdf,不然會變成…

深度解析Pytest中Fixture機制與實戰案例

一、為什么我們需要Fixture? 在某次金融系統重構項目中,我們的測試團隊曾遇到這樣的困境:隨著測試用例增長到500,使用unittest框架編寫的測試代碼出現了嚴重的維護問題——setup方法臃腫不堪,測試數據混亂&#xff0c…

文檔結構化專家:數字化轉型的核心力量

文檔結構化專家:定義、職責與行業應用的全方位解析 一、文檔結構化的定義與核心價值 文檔結構化是將非結構化或半結構化文檔(如文本、圖像、表格)轉換為計算機可處理的規范化數據形式的過程。其核心在于通過語義解析、信息單元劃分和標準化格式(如XML/JSON),實現信息的…

Linux系統管理與編程16番外篇:PXE自動化安裝部署OpenEuler24.03LTS

蘭生幽谷,不為莫服而不芳; 君子行義,不為莫知而止休。 Preboot Execution Environment 本機服務器操作系統:CentOS7.9.2207 目標服務器安裝系統:openEuler-24.03-LTS-SP1-everything-x86_64-dvd.iso 虛擬機&#xff1…

Enhanced RTMP H.265(HEVC)技術規格解析:流媒體協議的新突破

Enhanced RTMP H.265(HEVC)技術規格解析:流媒體協議的新突破 “每一幀畫面都是時間的映射,壓縮之后的靈魂,依然能栩栩如生。” 隨著流媒體技術的快速發展,視頻編碼標準不斷推陳出新。H.264/AVC雖然已經成為…

Visual Studio Code 改成中文模式(漢化)

1、打開工具軟件(雙擊打開) 2、軟件左邊圖標點開 3、在搜索框,搜索 chinese 出現的第一個 就是簡體中文 4、點擊第一個簡體中文,右邊會出來基本信息 點擊 install 就可以安裝了(記得聯網)。 5、安裝完右…

Linux--初識文件系統fd

01. C/系統調用文件操作 C/系統調用文件操作 02. 文件系統(ext2)結構 Linux ext2文件系統,上圖為磁盤文件系統圖(內核內存映像肯定有所不同),磁盤是典型的塊設備,硬盤分區被劃分為一個個的block。一個塊的大小(有1MB,…

算法中的數學:歐拉函數

1.相關定義 互質:a與b的最大公約數為1 歐拉函數:在1~n中,與n互質的數的個數就是歐拉函數的值 eg: n1時,歐拉函數的值為1,因為1和1是互質的 n2是,值為2,因為1和2都是互質的 積性函數&…