【AI前沿】深度學習:神經網絡基礎

文章目錄

  • 📑引言
  • 一、神經元和感知器
    • 1.1 神經元的基本概念
    • 1.2 感知器模型
  • 二、多層感知器(MLP)
    • 2.1 MLP的基本結構
    • 2.2 激活函數的重要性
    • 2.3 激活函數
    • 2.4 激活函數的選擇
  • 三、小結

image.png

📑引言

深度學習是現代人工智能的核心技術之一,而神經網絡是深度學習的基礎結構。神經網絡通過模擬人腦的神經元工作原理,從數據中自動提取特征并進行復雜的模式識別和分類任務。在這篇博客中,我們將詳細探討神經網絡的基本概念、構成單元、重要特性以及它們在深度學習中的關鍵作用。

一、神經元和感知器

1.1 神經元的基本概念

神經元是神經網絡的基本計算單元,其靈感來源于生物神經元。生物神經元通過接收輸入信號(來自其他神經元或感受器),經過處理后傳遞輸出信號。人工神經元模擬了這一過程,主要由以下部分組成:

  • 輸入(Input): 接收來自其他神經元或輸入數據的信號。
  • 權重(Weight): 每個輸入信號都與一個權重相乘,權重決定了該輸入信號的重要性。
  • 加權求和(Weighted Sum): 所有輸入信號與對應權重的乘積之和。
  • 激活函數(Activation Function): 將加權求和的結果轉換為輸出信號。

數學上,一個神經元的輸出可以表示為:
image.png
其中,( x_i ) 是輸入信號,( w_i ) 是權重,( b ) 是偏置,( f ) 是激活函數。

1.2 感知器模型

感知器(Perceptron)是最簡單的人工神經元模型,由Frank Rosenblatt在1958年提出。感知器是一種線性分類器,能夠將輸入數據分為兩個類別。其基本結構如下:

  • 輸入層: 接收輸入數據,每個輸入與一個權重相乘。
  • 加權求和: 將所有加權后的輸入信號相加,加上偏置。
  • 激活函數: 使用階躍函數(Step Function)作為激活函數,將加權求和結果轉換為輸出。

階躍函數定義為:
image.png
感知器模型可以表示為:
image.png
感知器的訓練過程通過調整權重和偏置,使模型能夠正確分類輸入數據。感知器的局限性在于它只能處理線性可分的數據集,對于復雜的非線性數據無能為力。

二、多層感知器(MLP)

2.1 MLP的基本結構

多層感知器(Multi-Layer Perceptron,MLP)是由多個感知器層疊組成的神經網絡模型。MLP通過引入隱藏層(Hidden Layer),能夠處理復雜的非線性數據。MLP的基本結構包括:

  • 輸入層: 接收輸入數據。
  • 隱藏層: 由多個神經元組成,通過激活函數進行非線性變換。
  • 輸出層: 生成最終的輸出結果。

每一層的輸出作為下一層的輸入,層與層之間全連接(Fully Connected),即每個神經元與上一層的所有神經元相連。

2.2 激活函數的重要性

激活函數是MLP中引入非線性的關鍵,使得神經網絡能夠擬合復雜的非線性關系。
常見的激活函數包括:

  • Sigmoid函數:

image.png
Sigmoid函數將輸入壓縮到(0, 1)之間,適用于輸出為概率的任務,但容易導致梯度消失問題。

  • Tanh函數:

image.png
Tanh函數將輸入壓縮到(-1, 1)之間,相比Sigmoid具有零中心,但仍有梯度消失問題。

  • ReLU函數(Rectified Linear Unit):

image.png
ReLU函數解決了梯度消失問題,計算簡單,廣泛應用于現代神經網絡中。但其可能導致部分神經元“死亡”,即在訓練過程中輸出恒為零。

  • Leaky ReLU函數:

image.png
Leaky ReLU在負軸上保留一部分信息,避免了神經元死亡的問題。
MLP的訓練
MLP的訓練過程包括前向傳播(Forward Propagation)和反向傳播(Backpropagation)。前向傳播計算每層的輸出,反向傳播計算誤差梯度并更新權重。

  • 前向傳播: 從輸入層開始,逐層計算輸出,直到輸出層生成最終結果。
  • 反向傳播: 從輸出層開始,逐層計算誤差梯度,并使用梯度下降法更新權重和偏置。

反向傳播的關鍵是鏈式法則(Chain Rule),通過鏈式法則計算每層的梯度:
image.png
其中,( L ) 是損失函數,( y ) 是輸出,( w ) 是權重。

2.3 激活函數

激活函數的作用
激活函數在神經網絡中起到引入非線性的作用,使得神經網絡能夠學習和擬合復雜的非線性關系。不同的激活函數具有不同的特性和應用場景。
常見激活函數

  1. Sigmoid函數:

Sigmoid函數將輸入值映射到(0, 1)之間,常用于二分類問題的輸出層。其數學表達式為:
image.png
**優點:**平滑且連續,輸出范圍在(0, 1)之間。
**缺點:**容易導致梯度消失問題,訓練深層網絡時效果不佳。

  1. Tanh函數:

Tanh函數將輸入值映射到(-1, 1)之間,常用于隱藏層的激活函數。其數學表達式為:
image.png
**優點:**零中心化,輸出范圍在(-1, 1)之間。
**缺點:**與Sigmoid函數類似,也容易導致梯度消失問題。

  1. ReLU函數:

ReLU函數是現代神經網絡中最常用的激活函數,輸出輸入值與0的較大者。其數學表達式為:
image.png
**優點:**計算簡單,能夠有效解決梯度消失問題,提高訓練速度。
**缺點:**可能導致部分神經元“死亡”,即在訓練過程中輸出恒為零。

  1. Leaky ReLU函數:

Leaky ReLU函數是ReLU的變種,在負軸上保留一部分信息,避免神經元死亡的問題。其數學表達式為:
image.png
**優點:**避免神經元死亡,保留負值信息。
**缺點:**需要手動調節參數 ( \alpha )。

2.4 激活函數的選擇

激活函數的選擇對神經網絡的性能有重要影響。
一般來說,隱藏層使用ReLU或其變種(如Leaky ReLU),輸出層根據具體任務選擇Sigmoid或Tanh函數。對于回歸問題,輸出層可以直接使用線性激活函數。

三、小結

神經網絡是深度學習的基礎結構,通過模擬人腦的神經元工作原理,能夠從數據中自動提取特征并進行復雜的模式識別和分類任務。本文詳細探討了神經元和感知器、多層感知器(MLP)、激活函數的基本概念和關鍵技術。希望通過這篇詳細的博客,讀者能夠全面理解神經網絡的基礎知識,為深入學習和研究深度學習技術打下堅實的基礎。

image.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/43393.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/43393.shtml
英文地址,請注明出處:http://en.pswp.cn/web/43393.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

kotlin Flow 學習指南 (三)最終篇

目錄 前言Flow生命周期StateFlow 替代LiveDataSharedFlow其他常見應用場景處理復雜、耗時邏輯存在依賴關系的接口請求組合多個接口的數據 Flow使用注意事項總結 前言 前面兩篇文章,介紹了Flow是什么,如何使用,以及相關的操作符進階&#xff…

如何挑選適合的需求池管理系統?10款優質工具分享

本文將分享10款優質需求池管理工具:PingCode、Worktile、Teambition、Epicor Kinetic、TAPD、SAP IBP、Logility、RELEX Solutions、JIRA、明道云。 在管理項目和產品需求時,正確的工具能夠大幅提高效率與透明度。如何從眾多需求池工具中選擇最適合團隊的…

第一節 SHELL腳本中的常用命令(2)

二,網絡管理命令nmcli 1.查看網卡 # 或者先用ip addr或ip a等查看網卡 ip a s 網卡名 ifconfig 網卡名 nmcil device show 網卡名 nmcil device status nmcil connection show 網卡名2.設置網卡 a)當網卡未被設置過時 設置dncp網絡工作模式 nmcil connection add con-name…

Rust編程-編寫自動化測試

編寫單元測試步驟: 1. 準備所需的數據 2. 調用需要測試的代碼 3. 斷言運行結果與我們所期望的一致 Rust的test元數據: #[cfg(test)]:是一個屬性宏(attribute macro)。用于控制特定的代碼段僅在測試環境中編譯…

自定義類型:聯合體

像結構體一樣,聯合體也是由一個或者多個成員組成,這些成員可以是不同的類型。 聯合體類型的聲明 編譯器只為最?的成員分配?夠的內存空間。聯合體的特點是所有成員共?同?塊內存空間。所以聯合體也叫:共?體。 輸出結果: 聯合體…

size_t 數據類型的好處

什么是size_t size_t 類型在不同的平臺上對應不同的底層整數類型,具體取決于平臺的指針大小。size_t 主要用于表示大小和長度,如數組的元素數量、緩沖區的大小等,它的設計目的是為了匹配指針的大小,以避免類型不匹配引起的錯誤。…

代碼隨想錄算法訓練營DAY58|101.孤島的總面積、102.沉沒孤島、103. 水流問題、104.建造最大島嶼

忙。。。寫了好久。。。。慢慢補吧。 101.孤島的總面積 先把周邊的島嶼變成水dfs def dfs(x, y, graph, s):if x<0 or x>len(graph) or y<0 or y>len(graph[0]) or graph[x][y]0:return sgraph[x][y]0s1s dfs(x1, y, graph, s)s dfs(x-1, y, graph, s)s dfs(…

【爬蟲入門知識講解:xpath】

3.3、xpath xpath在Python的爬蟲學習中&#xff0c;起著舉足輕重的地位&#xff0c;對比正則表達式 re兩者可以完成同樣的工作&#xff0c;實現的功能也差不多&#xff0c;但xpath明顯比re具有優勢&#xff0c;在網頁分析上使re退居二線。 xpath 全稱為XML Path Language 一種…

軟考高級第四版備考--第16天(規劃溝通管理)Plan Communication Management

定義&#xff1a;基于每個干系人或干系人群體的信息需求、可用的組織資產以及具體的項目的需求&#xff0c;為項目溝通活動制定恰當的方法和計劃的過程。 作用&#xff1a; 及時向干系人提供相關信息&#xff1b;引導干系人有效參與項目&#xff1b;編制書面溝通計劃&#xf…

【基于R語言群體遺傳學】-16-中性檢驗Tajima‘s D及連鎖不平衡 linkage disequilibrium (LD)

Tajimas D Test 已經開發了幾種中性檢驗&#xff0c;用于識別模型假設的潛在偏差。在這里&#xff0c;我們將說明一種有影響力的中性檢驗&#xff0c;即Tajimas D&#xff08;Tajima 1989&#xff09;。Tajimas D通過比較數據集中的兩個&#x1d703; 4N&#x1d707;估計值來…

vue項目中常見的一些preset及其關系

Babel的作用 Babel主要用途是用來做js代碼轉換的&#xff0c;將最新的js語法或者api轉換成低版本瀏覽器可兼容執行的代碼。 語法兼容是指一些瀏覽器新特性增加的js寫法&#xff0c;例如箭頭函數 ()>{}&#xff1b;低版本的瀏覽器無法識別這些&#xff0c;會導致一些語法解…

spark shuffle寫操作——UnsafeShuffleWriter

PackedRecordPointer 使用long類型packedRecordPointer存儲數據。 數據結構為&#xff1a;[24 bit partition number][13 bit memory page number][27 bit offset in page] LongArray LongArray不同于java中long數組。LongArray可以使用堆內內存也可以使用堆外內存。 Memor…

秋招突擊——7/9——字節面經

文章目錄 引言正文八股MySQL熟悉嗎&#xff1f;講一下MySQL索引的結構&#xff1f;追問&#xff1a;MySQL為什么要使用B樹&#xff1f;在使用MySQL的時候&#xff0c;如何避免索引失效&#xff1f;講一下MySQL的事物有哪幾種特征&#xff1f;MySQL的原子性可以實現什么效果&…

GESP C++ 三級真題(2023年9月)T2 進制判斷

進制判斷 問題描述 N進制數指的是逢N進一的計數制。例如&#xff0c;人們日常生活中大多使用十進制計數&#xff0c; 而計算機底層則一般使用二進制。除此之外&#xff0c;八進制和十六進制在一些場合也是 常用的計數制(十六進制中&#xff0c;一般使用字母A至F表示十至十五…

【區塊鏈+跨境服務】粵澳健康碼跨境互認系統 | FISCO BCOS應用案例

2020 年突如其來的新冠肺炎疫情&#xff0c;讓社會治理體系面臨前所未見的考驗&#xff0c;如何兼顧疫情防控與復工復產成為社會 各界共同努力的目標。區塊鏈技術作為傳遞信任的新一代信息基礎設施&#xff0c;善于在多方協同的場景中發揮所長&#xff0c;從 而為粵澳兩地的疫情…

uniapp上傳文件并獲取上傳進度

1. 上傳普通文件 uni.chooseMessageFile({count: 1,success: (res) > {console.log(res)console.log("res123456", res.tempFiles[0].path)const uploadTask uni.uploadFile({url: http://localhost:8000/demo,filePath: res.tempFiles[0].path,name: file,form…

CSS關于居中的問題

文章目錄 1. 行內和塊級元素自身相對父控件居中1.1. 塊級元素相對父控件居中1.2. 行內元素相對于父控件居中 2. 實現單行文字垂直居中3. 子絕父相實現子元素的水平垂直居中3.1. 方案一3.1.1. 示例 3.2. 方案二3.2.1. 示例 3.3. 方案三(推薦)3.3.1. 示例 3.4. 方案四(了解一下) …

AI大模型知識點大梳理_ai大模型的精度以下哪項描述的準確

AI大模型是什么 AI大模型是指具有巨大參數量的深度學習模型&#xff0c;通常**包含數十億甚至數萬億個參數。**這些模型可以通過學習大量的數據來提高預測能力&#xff0c;從而在自然語言處理、計算機視覺、自主駕駛等領域取得重要突破。 AI大模型的定義具體可以根據參數規模…

短信驗證碼研究:公開的短信驗證碼接口、不需要注冊的短信驗證碼接口

短信驗證碼研究&#xff1a;公開的短信驗證碼接口、不需要注冊的短信驗證碼接口 0 說明 本文提供了一個短信驗證碼接口&#xff0c;主要用于以下場景&#xff1a; 1、用于開發調試 2、用于申請驗證碼困難的企業和個人 3、用于短信驗證碼認證還沒有通過&#xff0c;但是著急…

DBeaver操作MySQL無法同時執行多條語句的解決方法

DBeaver選擇數據庫連接&#xff0c;在【驅動屬性】中將allowMultiQueries允許執行多條語句置為True