使用pytorch創建模型時,nn.BatchNorm1d(128)的作用是什么?

在PyTorch中,nn.BatchNorm1d(128) 的作用是對 一維輸入數據(如全連接層的輸出或時間序列數據)進行批標準化(Batch Normalization),具體功能與實現原理如下:

1. 核心作用

  • 標準話數據分布
    對每個批次的輸入數據進行歸一化,使其均值接近0、方差接近1,公式如下:
    x^=x?μbatchσbatch2+e\hat{\mathbf{x}}=\frac{\mathbf{x}-\mathbf{\mu}_{batch}}{\sqrt{\sigma^{2}_{batch}+e}}x^=σbatch2?+e?x?μbatch??
    其中:
    • μbatch\mu_{batch}μbatch?:當前批次的均值
    • σbatch\sigma_{batch}σbatch?:當前批次的方差
    • eee: 防止除零的小常數(默認1e-5)
  • 可學習的縮放與偏移:
    通過參數γ\gammaγ (縮放)和 β\betaβ(偏移)保留模型的表達能力:
    y=γx^+β y = \gamma \hat{\mathbf{x}}+\beta y=γx^+β

2. 參數解釋

在這里插入圖片描述

3. 全連接網絡應用場景

import torch.nn as nnmodel = nn.Sequential(nn.Linear(64, 128),nn.BatchNorm1d(128),  # 對128維特征歸一化nn.ReLU(),nn.Linear(128, 10)
)

數學效果:
若輸入特征x∈Rm×128\mathbf{x}\in \mathbb{R}^{m\times128}xRm×128,輸出yyy滿足:
E[y:j]≈0,Var(y:,j)≈1 \mathbb{E}[y_{:j}]\approx0, Var(y_{:,j})\approx1 E[y:j?]0,Var(y:,j?)1

4. 與其他歸一化層的對比

在這里插入圖片描述

5. 訓練與推理的差異

  • 訓練階段
    使用當前批次的統計量μbatch\mu_{batch}μbatch?σbatch2\sigma_{batch}^2σbatch2?,并更新全局統計量:
    μrunnning←μrunning×(1?momentum)+μbatch×momentum\mu_{runnning} \leftarrow \mu_{running}\times(1-momentum) + \mu_{batch}\times momentumμrunnning?μrunning?×(1?momentum)+μbatch?×momentum
  • 推理階段(測試階段)
    固定使用訓練積累的全局統計量μbatch\mu_{batch}μbatch?σbatch2\sigma_{batch}^2σbatch2?
    KaTeX parse error: Undefined control sequence: \sigmma at position 54: …unning}}{\sqrt{\?s?i?g?m?m?a?^{2}_{running}+…

6. 代碼戰爭數學性質

import torch# 模擬輸入(batch_size=4, 128維特征)
x = torch.randn(4, 128) * 2 + 1  # 均值1,方差4bn = nn.BatchNorm1d(128, affine=False)  # 禁用γ和β
output = bn(x)print("輸入均值:", x.mean(dim=0).mean().item())   # ≈1
print("輸出均值:", output.mean(dim=0).mean().item())  # ≈0
print("輸入方差:", x.var(dim=0).mean().item())    # ≈4
print("輸出方差:", output.var(dim=0).mean().item())  # ≈1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/90262.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/90262.shtml
英文地址,請注明出處:http://en.pswp.cn/web/90262.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構】二叉樹的鏈式結構--用C語言實現

1.二叉樹的鏈式結構 此前,我們通過數組(順序表)完成了二叉樹的順序存儲,并實現了二叉樹的基礎功能 那么,二叉樹還有沒有其他存儲方式呢? 前面我們學習了鏈表,它是一種線性結構,而二…

java設計模式 -【適配器模式】

適配器模式的定義 適配器模式(Adapter Pattern)是一種結構型設計模式,用于解決接口不兼容問題。通過將一個類的接口轉換成客戶端期望的另一個接口,使原本因接口不匹配而無法工作的類能夠協同工作。 核心角色 目標接口(…

前端,demo操作,增刪改查,to do list小項目

demo操作&#xff0c;html<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>&l…

Spring AI 項目實戰(十九):Spring Boot + AI + Vue3 + OSS + DashScope 構建多模態視覺理解平臺(附完整源碼)

系列文章 序號 文章名稱 1 Spring AI 項目實戰(一):Spring AI 核心模塊入門 2 Spring AI 項目實戰(二):Spring Boot + AI + DeepSeek 深度實戰(附完整源碼) 3 Spring AI 項目實戰(三):Spring Boot + AI + DeepSeek 打造智能客服系統(附完整源碼) 4

在 Ubuntu 20.04.5 LTS 系統上安裝 Docker CE 26.1.4 完整指南

在 Ubuntu 20.04.5 LTS 系統上安裝 Docker CE 26.1.4 完整指南版本選擇說明 為什么選擇 Docker CE 26.1.4&#xff1f; 1. 版本穩定性和成熟度 Docker CE 26.1.4 是 2024 年 5 月發布的穩定版本&#xff0c;經過了充分的測試和驗證相比最新的 28.x 版本&#xff0c;26.1.4 在生…

避坑指南:Windows 11中 Docker 數據卷的存放位置

在 PowerShell 中使用 docker volume inspect 命令&#xff0c;輸出如下&#xff1a; [{"CreatedAt": "2025-07-23T01:00:45Z","Driver": "local","Labels": null,"Mountpoint": "/var/lib/docker/volumes/…

Hadoop大數據集群架構全解析

技術概述Hadoop的定義及其在大數據領域的地位Hadoop是由Apache基金會開發的開源分布式計算框架&#xff0c;基于Google的MapReduce和GFS論文思想實現&#xff0c;已成為大數據處理的事實標準。它通過分布式存儲和計算解決了傳統數據庫無法處理的海量數據存儲和分析問題&#xf…

【自動化測試】Selenium Python UI自動化測試實用教程

一、引言:Selenium與UI自動化測試基礎 1.1 Selenium簡介 Selenium是一個開源的Web應用自動化測試框架,支持多瀏覽器(Chrome、Firefox、Edge等)和多編程語言(Python、Java、JavaScript等),核心組件包括: WebDriver:通過瀏覽器原生API控制瀏覽器,模擬用戶操作(點擊、…

基于VSCode的nRF52840開發環境搭建

nRF52840是Nordic Semiconductor推出的一款功能強大的多協議SoC&#xff0c;廣泛應用于物聯網設備、可穿戴設備和低功耗藍牙產品開發。本篇文章將詳細介紹如何在VSCode中搭建完整的nRF52840開發環境&#xff0c;讓您能夠高效地進行嵌入式開發。 一、準備工作 VSCode&#xff1a…

GStreamer開發筆記(九):gst-rtcp-server安裝和部署實現簡單的rtsp-server服務器推流Demo

若該文為原創文章&#xff0c;轉載請注明原文出處 本文章博客地址&#xff1a;https://blog.csdn.net/qq21497936/article/details/149054288 長沙紅胖子Qt&#xff08;長沙創微智科&#xff09;博文大全&#xff1a;開發技術集合&#xff08;包含Qt實用技術、樹莓派、三維、O…

C++ namespace機制以及同時使用多個namespace可能存在的問題

在一個 .cpp 文件中使用了多個 using namespace 會怎么樣&#xff1f; 核心答案是&#xff1a;可能會導致“命名沖突&#xff08;Name Collision&#xff09;”和“二義性&#xff08;Ambiguity&#xff09;”&#xff0c;從而引發編譯錯誤。 當你使用 using namespace SomeNam…

基于R語言的分位數回歸技術應用

回歸是科研中最常見的統計學研究方法之一&#xff0c;在研究變量間關系方面有著極其廣泛的應用。由于其基本假設的限制&#xff0c;包括線性回歸及廣義線性回歸在內的各種常見的回歸方法都有三個重大缺陷&#xff1a;(1)對于異常值非常敏感&#xff0c;極少量的異常值可能導致結…

網絡I/O模型詳解-一次了解全部(面試經常會問到相關知識)

前言 網絡I/O模型的五種類型&#xff0c;其實在我們開發程序、設計程序、實現程序的方方面面都一直存在著&#xff0c;本文從實現原理、使用場景、優缺點、詳細的流程圖等方面進行深入的解釋&#xff0c;幫助大家更好的理解常用的五種網絡io模型&#xff0c;助力大家在工作、面…

面試150 合并K個升序鏈表

思路 對鏈表元素進行獲取&#xff0c;然后進行sort()排序&#xff0c;最后通過空節點建立鏈表法重新建立一個有序的鏈表&#xff0c;返回頭節點即可。 # Definition for singly-linked list. # class ListNode: # def __init__(self, val0, nextNone): # self.val …

BitDistiller:通過自蒸餾釋放 Sub-4-Bit 大語言模型的潛力

溫馨提示&#xff1a; 本篇文章已同步至"AI專題精講" BitDistiller&#xff1a;通過自蒸餾釋放 Sub-4-Bit 大語言模型的潛力 摘要 大語言模型&#xff08;LLMs&#xff09;的規模不斷擴大&#xff0c;在自然語言處理方面取得了令人矚目的進展&#xff0c;但這也帶來…

JavaScript 的 `querySelector` 方法詳解

querySelector 是 JavaScript 中用于選擇 DOM 元素的最強大方法之一&#xff0c;它允許你使用 CSS 選擇器語法來查找元素。 基本語法 // 返回文檔中第一個匹配指定 CSS 選擇器的元素 element document.querySelector(selectors);// 從指定元素后代中查找 element parentEle…

第九講:C++中的list與forward_list

目錄 1、list的介紹及使用 1.1、構造及賦值重載 1.2、迭代器 1.3、空間 1.4、訪問 1.5、修改 1.6、操作 2、迭代器失效 3、list的模擬實現 4、forward_list介紹與使用 4.1、構造及賦值重載 4.2、迭代器 4.3、容量 4.4、訪問 4.5、修改 4.6、操作 5、迭代器的分…

華為云數據庫 GaussDB的 nvarchar2隱式類型轉換的坑

bigint 與 nvarchar2比較時發生隱式類型轉換的坑 1. 案例分析 假設&#xff1a; table1有下面兩個字段&#xff1a;id:bigint&#xff0c; source_id nvarchar2(50)數據庫中id 的值一定大于 int4 的最大值&#xff0c;例如存在一條單據&#xff1a; id1947854462980792321&…

spring boot 集成netty,及其一些基本概念

一、基本概念 1、channel:通道&#xff0c;入站或者出站數據的載體 2、ChannelHandler&#xff1a;通道處理器&#xff0c;業務邏輯寫在這里面&#xff0c;netty 5版本將入戰和出站合并成了ChannelHandler 3、ChannelPipeline&#xff1a;通道里的管道&#xff0c;是一個或者多…

7月23日華為機考真題第一題100分

?? 點擊直達筆試專欄 ??《大廠筆試突圍》 ?? 春秋招筆試突圍在線OJ ?? bishipass.com 01. 創業投資收益優化 問題描述 K小姐剛剛大學畢業,手頭有 m m m 元資金想要進行創業投資。她發現了 k k