???????神經網絡基礎講解 一

??一.神經網絡

?

??1. 全連接神經網絡(Fully Connected Network, FCN)??

??核心概念:??

  • ??輸入層??:接收原始數據(如數字、圖片像素等)? ?數字矩陣 。
  • ??隱藏層??:對數據進行計算和變換(可以有多個隱藏層)。
  • ??輸出層??:給出最終結果(如分類標簽、預測值等)。

??計算方式:??
每個神經元的輸出計算如下:

a=h(w?x+b)

  • x:輸入數據
  • w:權重(決定輸入的重要程度)
  • b:偏置(調整輸出的偏移)
  • h:激活函數(如 ReLU、Sigmoid,讓網絡能學習復雜模式)

??特點:??

  • ??全連接??:每一層的每個神經元都與下一層的所有神經元相連。
  • ??適合簡單任務??(如分類數字、預測房價),但處理圖像等高維數據時效率較低。

??2. 神經網絡的訓練與優化??

??核心目標:??
找到最佳的 ??權重(w)?? 和 ??偏置(b)??,讓模型的預測盡可能準確。

??訓練過程:??

  1. ??前向傳播??:輸入數據經過網絡計算,得到預測值?y。
  2. ??計算誤差??:用 ??損失函數(Loss Function)?? 衡量預測值與真實值的差距。
  3. ??反向傳播??:從輸出層反向調整?w?和?b,讓誤差變小。
  4. ??優化算法??(如梯度下降):不斷更新參數,使模型越來越準。

??簡單理解:??

  • 就像學習騎自行車,一開始會摔倒(誤差大),但通過不斷調整(優化參數),最終能騎得穩(預測準)。

??3. 卷積神經網絡(CNN)的引入??
??為什么需要 CNN???
全連接網絡在處理圖片時:
  • ??參數太多??(一張 100x100 的圖片,全連接層可能有上百萬參數!)
  • ??計算太慢??,且容易過擬合。

??CNN 的核心:卷積核(Filter)??

  • ??作用??:像一個小窗口,在圖片上滑動,提取局部特征(如邊緣、紋理)。
  • ??優點??:
    • ??參數更少??(共享權重,減少計算量)。
    • ??保留空間信息??(適合圖像、視頻等數據)。

??典型結構:??

  1. ??卷積層(Convolution)??:提取特征
  2. ??池化層(Pooling)??:降低數據量(如取最大值或平均值)
  3. ??全連接層(FC)??:最終分類或回歸

??適用場景:??

  • 圖像識別(如人臉檢測、物體分類)
  • 視頻分析、醫學影像處理等

??總結對比??
??網絡類型????適用場景????核心特點??
??全連接網絡(FCN)??簡單分類、回歸(如房價預測)所有神經元相連,參數多
??卷積網絡(CNN)??圖像、視頻等空間數據用卷積核提取特征,參數更高效

??為什么需要激活函數???

??核心問題:??
如果不用激活函數,多層神經網絡會退化成“單層線性模型”。

  • ??例子??:假設激活函數是線性的,比如?h(x)=2x,那么一個 3 層網絡的計算過程是:y(x)=h(h(h(x)))=2×2×2×x=8x這其實等價于單層網絡?y(x)=8x,多層網絡沒有發揮任何優勢。

??關鍵作用:??
激活函數引入??非線性??,使得神經網絡可以:

  • 學習復雜模式(比如圖像中的曲線、文本中的語義關系)。
  • 解決線性模型無法處理的問題(如分類復雜數據)。
  • 讓深層網絡真正發揮“深度”價值,而不是簡單堆疊線性計算。

??1. Sigmoid 激活函數??

??公式:??

??特點:??
? ??優點??:

  • 輸出在 (0,1) 之間,適合做??概率輸出??(比如二分類問題,判斷“是貓”或“不是貓”)。
  • 計算簡單,早期神經網絡常用。

? ??缺點??:

  1. ??梯度消失??:
    • 當輸入?z?很大或很小時,導數?y′?接近 0,導致參數(w,b)幾乎不更新,深層網絡訓練困難。
    • 比如,z=10?時,y≈1,y′≈0,梯度幾乎消失。
  2. ??輸出不對稱??:?
    • ????????輸出恒為正(> 0),導致后續層的輸入總是正數,影響參數優化效率。
  3. ??訓練慢??:
    • ????????梯度更新方向不穩定,優化過程耗時較長。

??適用場景??:二分類問題的輸出層(現代神經網絡隱藏層一般不用 Sigmoid)。


??2. Tanh 激活函數??

??公式:??

??特點:??
? ??優點??(相比 Sigmoid):

  1. ??輸出對稱??:
    • 輸出在 (-1, 1) 之間,以 0 為中心,緩解了 Sigmoid 的“恒正”問題,訓練更穩定。
  2. ??收斂更快??:
    • 梯度更新更合理,模型訓練速度比 Sigmoid 快。

? ??缺點??:

  1. ??梯度消失仍然存在??:
    • 當?∣z∣?很大時,導數?y′?接近 0,深層網絡依然可能訓練困難。
  2. ??非線性能力有限??:
    • 和 Sigmoid 類似,Tanh 仍然是“飽和型”激活函數,對復雜數據的擬合能力不如 ReLU 等現代激活函數。

??適用場景??:RNN、LSTM 等序列模型(隱藏層),二分類問題的輸出層(替代 Sigmoid)。


??對比??
??激活函數????輸出范圍????優點????缺點????適用場景??
??Sigmoid??(0, 1)適合概率輸出,計算簡單梯度消失、訓練慢、輸出不對稱二分類輸出層
??Tanh??(-1, 1)輸出對稱,訓練比 Sigmoid 快仍有梯度消失問題RNN/LSTM 隱藏層

3. ??ReLU & Leaky ReLU 激活函數?


??一、ReLU(修正線性單元)??

??1. 公式與計算規則??

  • ??直觀理解??:輸入 > 0 時,直接輸出原值;輸入 ≤ 0 時,輸出 0。反向傳播時,正輸入的梯度恒為 1,負輸入的梯度為 0。

??2. 核心優勢?? ?

  1. ??解決梯度消失??:正區間的梯度恒為 1,深層網絡訓練時梯度能穩定傳遞(不像 Sigmoid/Tanh 會接近 0)。
  2. ??計算極快??:只需判斷是否大于 0,沒有指數、除法等復雜運算,適合大規模網絡(如 CNN、Transformer)。
  3. ??稀疏激活??:負輸入直接輸出 0,讓部分神經元“關閉”,提升模型效率。

??3. 主要缺點?? ?
??神經元死亡問題??:

  • 如果某個神經元的輸入長期 ≤ 0(比如初始化不好或學習率太高),它的梯度永遠是 0,參數無法更新,這個神經元就“死”了,失去作用。
  • 影響:部分神經元失效,降低模型表達能力。

??適用場景??:

  • ??絕大多數深度學習模型??(如 CNN、全連接網絡)的隱藏層默認選擇。
  • 代表網絡:ResNet、VGG、AlexNet 等。

??二、Leaky ReLU(帶泄漏的 ReLU)??

??1. 公式與計算規則??

  • ??直觀理解??:輸入 > 0 時和 ReLU 一樣;輸入 ≤ 0 時,輸出一個很小的比例(如 0.01 倍),而不是直接歸零。

??2. 核心優勢?? ?
??解決神經元死亡??:

  • 負輸入也有微小梯度(如 0.01),神經元不會完全“死掉”,保留了學習能力。

??3. 主要缺點?? ?

  1. ??需要調參??:泄漏系數?a?是人工設定的(通常 0.01),不同任務可能需要調整。
  2. ??訓練可能不穩定??:正負區間的處理方式不同,可能導致梯度更新波動。

??適用場景??:

  • 擔心 ReLU 神經元死亡的場景(如訓練不穩定或深層網絡)。
  • 改進版:??PReLU??(Parametric ReLU),讓?a?變成可學習的參數,自動優化。

??三、對比?
??特性????ReLU????Leaky ReLU??
??計算速度???? 極快(主流選擇)?? 快(稍慢于 ReLU)
??梯度消失??? 正區間無消失? 正區間無消失
??神經元死亡??? 可能死亡? 緩解死亡問題
??超參數??需設定泄漏系數?a

二. 損失函數

1. 均方誤差損失函數

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/pingmian/85385.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85385.shtml
    英文地址,請注明出處:http://en.pswp.cn/pingmian/85385.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    MySQL 8.0 OCP 英文題庫解析(二十二)

    Oracle 為慶祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免費考取原價245美元的MySQL OCP 認證。 從今天開始,將英文題庫免費公布出來,并進行解析,幫助大家在一個月之內輕松通過OCP認證。 本期公布試題201~210 試題2…

    【大模型推理】PD分離場景下decoder負載均衡,如何選取decoder

    https://mp.weixin.qq.com/s?__bizMzg4NTczNzg2OA&mid2247507420&idx1&sn4b32726abd205c7f94144bcb9105330f&chksmce64b9fc7f1d8de04a40b0153302dee52262c6f104c67195e2586e75c8093b8be493f252c8a3#rd 在非 Local 場景下,Prefill 定時獲取 Decode …

    【IP地址】IP應用場景的使用方向

    網絡安全領域 通過IP地址查詢,安全系統能夠實時監控網絡流量,識別異常訪問行為。例如,當某個IP地址在短時間內頻繁發起大量請求,且訪問模式與正常用戶存在明顯差異時,系統可將其標記為可疑IP,觸發風險預警…

    3-18 WPS JS宏 顏色設置實例應用(按條件設置單元格顏色)學習筆記

    前面講解了關于單元格的一些格式的設置,本節課再講解一下各種清除方法。 1.函數解析與用法 Range().clear()//清除全部 Range().Value2null //清除內容 Range().ClearContents()//清除內容 Range().ClearFormats()//清除格式 Range().EntireRow.Range()//以Ra…

    從零開始的云計算生活——第二十天,腳踏實地,SSH與Rsync服務

    目錄 一.故事背景 二.SSH帶外管理 1.概述 2. 配置文件 3.命令解析 4.登錄方式配置 a.用戶名密碼登錄 b.公鑰驗證登錄 5.實操生成密鑰對 三.Rsyncsersync實現數據實時同步 1.rsync概述 2.rsync運行原理 3.rsync部署 4.備份測試 配置備份目錄 5.rsyncsersync 實現…

    SpringAI + DeepSeek大模型應用開發 - 初識篇

    一、認識AI 1. AI的發展 AI,人工智能(Artificial Intelligence),使機器能像人類一樣思考、學習和解決問題的技術。 2. 大模型及其原理 在自然語言處理(Natural Language Processing, NLP)中,…

    c++第八天-多態

    虛函數虛析構函數純虛函數與抽象類 多態實現的條件:(1)公有繼承 (2)派生類重寫基類虛函數 (3)基類指針/引用指向派生類對象 虛函數不能是構造函數,不能是靜態函數,不能…

    全景圖渲染Vue3+TS使用Photo Sphere Viewer插件實現

    1.Photo Sphere Viewer插件安裝: title=插件安裝 體驗AI代碼助手 代碼解讀復制代碼npm install photo-sphere-viewer -S 或 yarn add photo-sphere-viewer -S 2.原始全景圖展示 初始化標簽容器 體驗AI代碼助手 代碼解讀復制代碼 // 全景圖的根節點必須要具備寬高 TS引用,創建…

    Redis之分布式鎖(3)

    這篇文章我們來詳細介紹一下如何正確地基于Redis實現分布式鎖。 基于Redis的分布式鎖實現 組件依賴 首先通過Maven引入Jedis開源組件&#xff0c;在pom.xml文件加入下面的代碼&#xff1a; <dependency><groupId>redis.clients</groupId><artifactId&g…

    Java課堂筆記11

    三個修飾符 一、abstract&#xff08;抽象&#xff09; 1.抽象方法只能在抽象的類里&#xff0c;只有方法的聲明&#xff0c;沒有方法的實現。&#xff08;沒有{}直接&#xff1b;結尾&#xff09;。 2.abstract修飾的類稱為抽象類。 注意&#xff1a;&#xff08;1&#x…

    Linux 核心知識點整理(高頻考點版)

    一、編譯與工具鏈 GCC 編譯流程 四階段&#xff1a;預處理&#xff08;-E&#xff0c;處理頭文件 / 宏&#xff09;→ 編譯&#xff08;-S&#xff0c;生成匯編&#xff09;→ 匯編&#xff08;-c&#xff0c;生成目標文件&#xff09;→ 鏈接&#xff08;生成可執行程序&…

    輕量化社交管理方案:Skout與云手機的巧妙搭配

    在移動社交時代&#xff0c;許多用戶開始嘗試通過多賬號管理來拓展社交圈層。近期測試了Skout社交平臺與亞矩陣云手機的搭配使用&#xff0c;發現這個組合為輕量級社交賬號管理提供了一個值得關注的解決方案。 基礎功能介紹 這套組合的核心優勢在于&#xff1a; 通過云手機實…

    ETL連接器好用嗎?如何實現ETL連接?

    目錄 一、ETL連接器的功能和優勢 1. 數據抽取能力 2. 數據轉換功能 3. 數據加載功能 4. 優勢總結 二、實現ETL連接的步驟 1. 需求分析 2. 選擇合適的ETL連接器 3. 配置數據源和目標系統 4. 設計ETL流程 5. 開發和測試ETL任務 6. 部署和監控ETL任務 三、ETL連接器在…

    uniapp實現聊天中的接發消息自動滾動、消息定位和回到底部

    前言 前言無需多言&#xff0c;想必大家對聊天軟件的功能已經很熟悉&#xff0c; 這里不做過多贅述&#xff0c;筆者通過uniapp實現聊天中的接發消息自動滾動、消息定位和回到底部。 代碼實現 <template><view class"chat-container"><!-- 消息列表…

    MyBatisMyBatis plus

    整合 MyBatis 到 Spring 或 Spring Boot 項目中&#xff0c;可以極大地簡化開發流程&#xff0c;尤其是當使用 Spring Boot 時&#xff0c;它提供了自動配置功能&#xff0c;使得集成更加簡便。 在 Spring Boot 中整合 MyBatis 1. 添加依賴 首先&#xff0c;在 pom.xml 文件中…

    Stable Diffusion 實戰-手機壁紙制作 第二篇:優化那些“崩臉”和“馬賽克”問題,讓圖像更加完美!

    歡迎回來!在《StableDiffusion實戰-手機壁紙制作》系列的第一篇中,我們成功完成了基礎操作,制作出了令人炫目的手機壁紙。 今天,我們將進入一個更高階的領域——優化處理。因為誰不想讓生成的藝術品更完美呢?尤其是避免“崩臉”和“馬賽克”這種讓人抓狂的問題! 創作的路…

    408第一季 - 數據結構 - B樹與B+樹

    B樹 性質 可以看見一個節點可以有多個數字了 然后也滿足左小右大的特征 然后所有的葉子節點都在同一層&#xff0c;然后2個數字的節點就可以有3個分支 然后呢&#xff0c;每個節點里面到底有幾個數字是有規定的公式的 就這個公式&#xff0c;m是5階的&#xff0c;算出來是2和…

    SSRF5 Gopher 協議對內網 Web 服務進行 sql 注入 GET 類型和POST類型

    實驗環境&#xff1b; Centos7.6上同時安裝sqli-lib和pikachu 一.Gopher 協議對內網 Web 服務進行 sql 注入 GET 類型 我們先訪問sqli-lib第1關 然后我們構造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlhttp://192.168.112.12/sql…

    Python打卡DAY31

    DAY31&#xff1a;文件的規范拆分和寫法 恩師浙大疏錦行 知識點&#xff1a; 規范的文件命名規范的文件夾管理機器學習項目的拆分編碼格式和類型注解 一、機器學習項目流程&#xff1a; 1、數據加載&#xff1a;從文件、數據庫、API 等獲取原始數據。 - 命名參考&#xff1a;…

    字符串大數 -減法

    描述 以字符串的形式讀入兩個數字&#xff0c;編寫一個函數計算它們的和&#xff0c;以字符串形式返回。 代碼實現 大小判斷&#xff1a;a - b 與 b - a 的絕對值相等將大的數放前面&#xff0c;抽離出結果的符號 import random s, t str(random.randint(1000, 9999)), s…