簡單聊聊神經網絡中的反向傳播

簡單聊聊神經網絡中的反向傳播

diannao/2025/9/17 15:23:50/文章來源:https://blog.csdn.net/a287100886/article/details/151716535

參考文章：

一文弄懂神經網絡中的反向傳播法——BackPropagation - Charlotte77 - 博客園

反向傳播求偏導原理簡單理解_反向傳播偏導-CSDN博客

這篇文章是筆者在讀完上述兩篇參考文章后的整理或者說按照自己的理解進行的一些補充，強烈推薦先閱讀上述兩篇文章。這兩篇文章一篇籠統的介紹了神經網絡反向傳播的通過鏈式法則計算的原理，一篇采用具體的實例進行講解，非常易于理解。

如何優化神經網絡中的權重？

比如針對上面的這個神經網絡，其中有w1,w2..b1,b2等權重參數，這些參數都是待優化的對象。一般進行優化的方式就是：計算最終的損失函數對某個權重的偏導。

比如想優化w1這個權重，那么就需要計算： $\frac{\partial L}{\partial w_1}$ 這個式子的含義就是：權重w1對于最終的損失L有多少的貢獻。

為什么這個式子能夠表達這樣的含義？需要回到偏導數的定義來看：

這個式子的含義就是，權重w增加一個極小的量 $\varepsilon$ ，損失函數L變化了多少？這個變化量，其實就衡量了權重w對L的貢獻。更形象的理解，假設w是一個旋鈕，我極其輕微的轉動了（轉動量就是 $\varepsilon$ ）一下這個旋鈕，發現最終結果變化非常大，是不是就意味著w的貢獻非常大。

得到了偏導的計算結果，之后就可以通過引入一個權重因子 $\eta$ 來對參數w1進行優化：

如何計算損失函數對某個權重的偏導？

針對上面的那張神經網絡的情況，本質上可以用如下的計算流程進行表示。這里具體的操作如何計算損失函數對某個權重的偏導，記錄在以下稿紙上。不過需要說明的幾點是：

1、強烈推薦看之前的兩篇參考文章，這里的計算是基于前面文章中涉及的問題的，很多地方都是自字母表示；

2、計算方向傳播的過程本質上是利用鏈式法則，理解之后其實非常簡單；

3、為了能夠利用鏈式法則，在每一步的前向傳播過程中，其實會計算臨時變量比如這里的h1,o1等對各個權重的偏導，因為最終損失函數對權重的偏導需要用到這些數據；

關于梯度下降法的理解：

我們計算損失函數對某個權重的偏導，這其實只是一個維度，真正決定損失函數朝著哪個方向優化的，其實是損失函數對所有權重的偏導所構成的向量，如下公式所示：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/100397.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/100397.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/100397.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

JSP自駕游管理系統46u2v--（程序+源碼+數據庫+調試部署+開發環境）

JSP自駕游管理系統46u2v--（程序+源碼+數據庫+調試部署+開發環境）

本系統（程序源碼數據庫調試部署開發環境）帶論文文檔1萬字以上，文末可獲取，系統界面在最后面。系統程序文件列表開題報告內容一、研究背景與意義近年來，自駕游因自由度高、個性化強成為國內旅游市場增長最快的領域&…

閱讀更多...

通過 SQL 快速使用 OceanBase 向量檢索學習筆記

通過 SQL 快速使用 OceanBase 向量檢索學習筆記

背景 AI時代離不開向量數據庫，向量數據庫簡單說就是在數據庫中用多維向量存儲某類事物的特征，通過公式計算各個向量在空間坐標系中的位置關系，以此來判斷事物之間的相似性。相關基礎概念如下: ● Embedding ● 距離/相似性度量 ○ Cosine dis…

閱讀更多...

PromptAD：首次引入提示學習，實現精準工業異常檢測，1張正常樣本即可超越現有方法

PromptAD：首次引入提示學習，實現精準工業異常檢測，1張正常樣本即可超越現有方法

近年來，工業異常檢測（Anomaly Detection）在智能制造、質量監控等領域扮演著越來越重要的角色。傳統方法通常依賴大量正常樣本進行訓練，而在實際生產中，異常樣本稀少甚至不存在，能否僅憑少量正常樣本就實現精…

閱讀更多...

算法 --- 字符串

算法 --- 字符串

字符串字符串算法題目主要處理文本的查找、匹配、比較、變換和統計問題，其核心特點是輸入數據為字符序列，解題關鍵在于利用其連續性、前綴性、字典序等特性，并常借助哈希、自動機、指針滑動、動態規劃等技巧高效處理。詳細分類型與適用場景…

閱讀更多...

SpringBoot中 Gzip 壓縮的兩種開啟方式：GeoJSON 瘦身實戰

SpringBoot中 Gzip 壓縮的兩種開啟方式：GeoJSON 瘦身實戰

目錄前言一、GZIP壓縮知識簡介 1、什么是Gzip 2、Gzip特點 3、Gzip在GIS方面的應用二、SpringBoot中開啟Gzip的方式 1、在SpringBoot中開啟Gzip的知識簡介 2、SpringBoot中GeoJSON的實例三、全局開啟Gzip實現 1、實現原理 2、實現效果四、局部約定配置 1、實現…

閱讀更多...

PPTist+cpolar：開源演示文稿的遠程創作方案

PPTist+cpolar：開源演示文稿的遠程創作方案

文章目錄前言【視頻教程】1. 本地安裝PPTist2. PPTist 使用介紹3. 安裝Cpolar內網穿透4. 配置公網地址6. 配置固定公網地址前言 PPTist作為開源在線演示文稿工具，提供媲美PowerPoint的核心功能，支持多頁面編輯、圖表插入、音視頻嵌入和動畫效果設置。特…

閱讀更多...

服務注冊/服務發現-Eureka

服務注冊/服務發現-Eureka

目的：解決微服務在調用遠程服務時URL寫死的問題注冊中心服務提供者（Server）：一次業務中，被其他微服務調用的服務，也就是提供接口給其他微服務。服務消費者（Client）:一次業務中&#…

閱讀更多...

cuda stream

cuda stream

基本概念 cuda stream表示GPU的一個操作隊列，操作在隊列中按照一定的順序執行，也可以向流中添加一定的操作如核函數的啟動、內存的復制、事件的啟動和結束等一個流中的不同操作有著嚴格的順序，但是不同流之間沒有任何限制 cuda stream中排隊…

閱讀更多...

數據結構：完全二叉樹

數據結構：完全二叉樹

完全二叉樹定義： 按層序遍歷（從上到下，從左到右）填充節點。除了最后一層外，其余各層必須全滿。最后一層的節點必須連續靠左。完全二叉樹不一定是滿二叉樹。滿二叉樹 (Full Binary Tree)：每個節點都有…

閱讀更多...

【Java初學基礎】?Object()頂級父類與它的重要方法equals()

【Java初學基礎】?Object()頂級父類與它的重要方法equals()

object類常見方法/*** native 方法，用于返回當前運行時對象的 Class 對象，使用了 final 關鍵字修飾，故不允許子類重寫。*/ public final native Class<?> getClass() /*** native 方法，用于返回對象的哈希碼，主…

閱讀更多...

用深度學習（LSTM）實現時間序列預測：從數據到閉環預測全解析

用深度學習（LSTM）實現時間序列預測：從數據到閉環預測全解析

用深度學習（LSTM）實現時間序列預測：從數據到閉環預測全解析時間序列預測是工業、金融、環境等領域的核心需求——小到預測設備溫度波動，大到預測股價走勢，都需要從歷史數據中挖掘時序規律。長短期記憶網絡&#xff08…

閱讀更多...

gpu-z功能介紹，安裝與使用方法

gpu-z功能介紹，安裝與使用方法

GPU-Z 功能介紹、安裝與使用方法一、核心功能硬件信息檢測識別顯卡型號、制造商、核心架構（如NVIDIA Ada Lovelace、AMD RDNA 3）、制造工藝（如5nm、7nm）。顯示顯存類型（GDDR6X、HBM2e）、容量、帶寬及顯…

閱讀更多...

數據搬家后如何處理舊 iPhone

數據搬家后如何處理舊 iPhone

每年，蘋果都會推出新款 iPhone，激發了人們升級到 iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max 或 iPhone Air 等新機型的熱情。但在獲得新 iPhone 之前，有一件重要的事情要做：將數據從舊 iPhone 轉移到新設備。雖然許多用戶都能…

閱讀更多...

Java關鍵字深度解析(上)

Java關鍵字深度解析(上)

這是一份全面的Java關鍵字實戰指南目錄 1.數據類型關鍵字:內存布局與性能優化 1.1 基礎類型的內存密碼 byte-內存的極簡主義者 int-Java世界的萬能鑰匙 long - 時間與ID的守護者 1.2 引用類型的架構設計 String-不是關鍵字但勝于關鍵字 2.訪問修飾符:企業級權限控制 …

閱讀更多...

C語言深度解析：指針數組與數組指針的區別與應用

C語言深度解析：指針數組與數組指針的區別與應用

目錄 1 引言：從名字理解本質區別 2 指針數組：靈活管理多個指針 2.1 基本概念與聲明方式 2.2 內存布局與特性 2.3 典型應用場景：字符串數組與多維度數據管理 2.3.1 靜態分配示例：字符串數組 2.3.2 動態分配示例：…

閱讀更多...

Node.js 高級應用：負載均衡與流量限制

Node.js 高級應用：負載均衡與流量限制

在當今高并發的網絡應用環境中，如何有效地分配服務器資源并保護系統免受惡意攻擊是開發者必須面對的重要問題。Node.js 作為一款廣受歡迎的服務器端 JavaScript 運行時環境，提供了豐富的工具和模塊來應對這些挑戰。本文將深入探討如何在 Node.js 中實現負…

閱讀更多...

信任鏈驗證流程

信任鏈驗證流程

信任鏈驗證流程 (The Chain of Trust)整個過程就像一場嚴格的接力賽，每一棒都必須從可信的上一位手中接過接力棒（信任），驗證無誤后，再跑自己的那段路，并把信任傳遞給下一棒現在，我們來詳細解讀圖…

閱讀更多...

黃昏時刻復古膠片風格人像風光攝影后期Lr調色教程，手機濾鏡PS+Lightroom預設下載！

黃昏時刻復古膠片風格人像風光攝影后期Lr調色教程，手機濾鏡PS+Lightroom預設下載！

調色教程這套黃昏時刻復古膠片風格人像風光攝影后期 Lr 調色方案，以落日余暉為核心色彩元素，加入復古膠片質感，讓畫面充滿溫暖與懷舊氛圍。整體色調偏向橙紅與青綠的互補對比，天空的夕陽光影與人像膚色相互映襯，既有膠…

閱讀更多...

硬件驅動——I.MX6ULL裸機啟動（3）（按鍵設置及中斷設置

硬件驅動——I.MX6ULL裸機啟動（3）（按鍵設置及中斷設置

重點：1.GIC：（Generic Interrupt Controller）通用中斷控制器，是ARM架構中用于管理中斷的核心模塊，主要用于現代多核處理器系統。它負責接收，分發并分發中斷請求，減輕CPU負擔&#x…

閱讀更多...

用deepseek對GPU服務器進行壓力測試

用deepseek對GPU服務器進行壓力測試

利用 DeepSeek 模型對 GPU 服務器進行壓力測試，核心思路是通過模擬高負載的模型推理 / 微調任務，驗證 GPU 服務器在計算、顯存、網絡等維度的承載能力，同時觀察穩定性與性能瓶頸。以下是具體的測試方案，涵蓋測試環境準備、核心測試…

閱讀更多...

最新文章