【神經網絡概述】從感知機到深度神經網絡(CNN RNN)

文章目錄

      • 1. 神經網絡基礎
        • 1.1 感知器(Perceptron)
        • 1.2 深度神經網絡(DNN)
      • 2. 卷積神經網絡(CNN)
        • 2.1 核心思想
        • 2.2 典型結構
        • 2.3 ?程碑模型:
        • 2.4 卷積層 - CNN 核心
        • 2.5 池化層
      • 3. 循環神經網絡(RNN)
        • 3.1 傳統序列架構
          • 核心思想
          • 原始 RNN 的局限性
          • RNN 優化
        • 3.2 編碼器-解碼器架構
      • 4. 詞嵌入算法
        • 4.1 基本概念
        • 4.2 解決問題
        • 4.3 嵌入矩陣
        • 4.4 詞嵌入模型
        • 4.5 詞嵌入算法

1. 神經網絡基礎

1.1 感知器(Perceptron)
  • 符號主義稱之為感知機,連接主義稱之為神經元
  • f(n)={0,w1x1+w2?x2≤θ1,w1x1+w2?x2>θf(n) = \begin{cases} 0, & w_1x_1+ w_2\cdot x_2 \le \theta \\ 1, & w_1x_1+ w_2\cdot x_2 \gt \theta \end{cases}f(n)={0,1,?w1?x1?+w2??x2?θw1?x1?+w2??x2?>θ?
  • 單層感知機:簡單邏輯門(AND, NAND, OR)
  • 多層感知機:NOR
1.2 深度神經網絡(DNN)
  • 組成:神經網絡由輸入層隱藏層輸出層組成,每層包含多個神經元
  • 訓練過程:主要包括前向傳播損失計算反向傳播三個步驟
    • 前向傳播
      • 輸入層:輸入原始數據,假設有兩個神經元,a(0)=[x0,x1]Ta^{(0)}=[x_0, x_1]^Ta(0)=[x0?,x1?]T
      • 隱藏層:z(1)=W1?a(0)+b(1),a(1)=g1(z(1))z^{(1)} = W^{1}?a^{(0)}+b^{(1)}, a^{(1)} = g_1(z^{(1)})z(1)=W1?a(0)+b(1),a(1)=g1?(z(1)) , g 是任意的激活函數
      • 輸出層,z(2)=W2?a(1)+b(2),a(2)=g2(z(2))z^{(2)} = W^{2}?a^{(1)}+b^{(2)}, a^{(2)} = g_2(z^{(2)})z(2)=W2?a(1)+b(2),a(2)=g2?(z(2))
    • 損失函數
      • 回歸任務:均方誤差(MSE)-> 計算預測值與真實值的平方差的平均值
      • 分類任務:交叉熵損失,二分類或多分類 -> 衡量兩個概率分布(預測分布$ \hat y $與真實分布y)的差異
    • 代價函數
      • 代價函數是訓練集上所有樣本損失的平均值,用于衡量模型在整體數據上的表現
      • J(W,b)=1m∑i=1mL(yi^,yi)+λ?R(W)J(W,b) = \frac{1}{m}\sum_{i=1}^{m}L(\hat{y_i}, y_i) + \lambda\cdot{R(W)}J(W,b)=m1?i=1m?L(yi?^?,yi?)+λ?R(W)λ\lambdaλ 為懲罰系數,正則項 R(W) 又稱懲罰項,常用L1、L2正則。
    • 反向傳播
      • 利用鏈式法則計算代價函數對各層權重 W 和偏置 b 的梯度,并通過梯度下降法更新參數,最終減小化代價函數。
  • 激活函數是神經網絡的重要組成部分,它們決定了神經元如何將輸入信號轉換為輸出信號,可以用于學習非線性關系

2. 卷積神經網絡(CNN)

2.1 核心思想
  • 利?卷積層池化層構建層級化的特征提取器。
2.2 典型結構
  • 輸? -> [ [卷積層 -> 激活函數] x N -> 池化層? ] x M -> [ 全連接層 -> 激活函數 ] x K -> 輸出層
2.3 ?程碑模型:
  • LeNet-5 (1998): 卷積?絡的早期成功應?(手寫數字識別),奠定基礎結構。
  • AlexNet (2012): ImageNet 競賽冠軍,引爆深度學習?命。關鍵貢獻:更深的?絡、ReLU、Dropout、GPU 加速。
  • VGGNet (2014): 探索深度影響。使??的 (3x3) 卷積核堆疊,結構簡潔,證明深度是關鍵。
  • GoogLeNet / Inception (2014): 引? Inception 模塊,實現“網絡中的網絡”,在增加深度和寬度的同時控制計算成本。
  • ResNet (2015): 引?殘差連接 (Residual Connection),解決了深度?絡訓練中的梯度消失/退化問題,使構建數百甚?上千層?絡成為可能。
2.4 卷積層 - CNN 核心
  • ?作原理
    • 使?卷積核 (Kernel) 在輸入數據(如圖像)上滑動,提取局部特征。

輸入矩陣邊緣處理:填充 0 -> 寬卷積 v.s. 窄卷積

  • 關鍵特性
    • 參數共享: 同?個卷積核在整個輸入上共享權重,極大減少參數量。
    • 局部連接:神經元只與輸入的?個局部區域連接。
    • 平移不變性: 對特征的位置不敏感。
  • 主要參數
    • 卷積核大小
    • 步長 (Stride)
    • 填充 (Padding)
    • 通道數
2.5 池化層
  • 目的
    • 降維、減少計算量
    • 增強特征魯棒性 (對微小位移不敏感)
  • 作用
    • 逐步減小特征圖的空間尺寸,增大感受野。
  • 常見類型
    • 最大池化 (Max Pooling): 取區域內的最大值。
    • 平均池化 (Average Pooling): 取區域內的平均值。

3. 循環神經網絡(RNN)

3.1 傳統序列架構

核心思想
  • 處理序列數據(文本、語音、時間序列),利用隱藏狀態傳遞歷史信息。
原始 RNN 的局限性
  • 難以捕捉長期依賴 (梯度消失/爆炸問題)。
RNN 優化
  1. LSTM (Long short-Term Memory)
    • 通過精密的門控單元(遺忘門、輸入門、輸出門)和細胞狀態 (Cell state),有效控制信息的長期記憶和遺忘。
  2. GRU (Gated Recurrent Unit)
    • 結構比 LSTM 簡單(只有更新門、重置門),參數更少,在許多任務上表現與 LSTM 相當。
3.2 編碼器-解碼器架構

序列到序列模型 (Seq2Seq)

  • 典型應用: 序列到序列(Seq2Seq)任務,如機器翻譯
  • 結構組成:
    • 編碼器: 將輸入序列編碼為固定長度向量
    • 解碼器: 基于編碼向量生成輸出序列
  • 工作流程: 如"歡迎來北京"→"welcome to Beijing"的翻譯過程
  • 實現方式: 通常使用 GRU 或 LSTM 作為基礎單元

4. 詞嵌入算法

4.1 基本概念

詞嵌入是自然語言處理(NLP)中用于將文本中的 “詞” 轉換為低維稠密向量的技術,核心目標是用數值向量表示詞的語義信息。在神經網絡中,嵌入層(Embedding Layer)的功能就是通過嵌入矩陣將詞的索引轉換為嵌入向量

4.2 解決問題

傳統方法(如 one-hot 編碼)只能將文本轉化為離散稀疏向量,實現簡單但存在維度災難和語義鴻溝(無法描述詞與詞之間的語義關聯)等問題。

4.3 嵌入矩陣

嵌入矩陣是存儲所有詞嵌入的參數矩陣,是詞嵌入技術的核心數據結構
- 存儲與查詢:嵌入矩陣本質是一個查找表,通過詞的索引(one-hot編碼)可直接獲取對應的嵌入向量(如詞匯表中 “貓” 的索引是 0,則嵌入向量為 W [0,:]);
- 參數學習:嵌入矩陣是模型的可學習參數,通過訓練數據(如大規模文本)迭代優化,最終使向量滿足語義相關性等特性(初始化時通常為隨機值,通過反向傳播更新)。

4.4 詞嵌入模型
- Skip-Gram 模型
- CBOW 模型
4.5 詞嵌入算法
- word2vec (本質是一個softmax多標簽分類)
- Glove

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90579.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90579.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90579.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

界面規范3-列表下

4、內容文字有鏈接的采用藍色字體<font colorblue></font>重要內容采用紅字字體&#xff0c;如狀態<font colorred></font>一般字體使用color: #3232325、行高height: 40px;line-height: 40px;6、其他表格占滿界面空間&#xff0c;內容多時&#xff0c…

中文語音識別與偏誤檢測系統開發

中文語音識別與偏誤檢測系統開發 前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家&#xff0c;覺得好請收藏。點擊跳轉到網站。 1. 系統概述 本系統旨在開發一個基于Paraformer模型的中文語音識別與偏誤檢…

MySQL創建普通用戶并為其分配相關權限的操作步驟

1. 登錄MySQL服務器 首先&#xff0c;你需要以管理員身份登錄MySQL服務器。可以使用以下命令&#xff1a; mysql -u root -p 輸入密碼后&#xff0c;即可進入MySQL命令行界面。 2. 創建新用戶 使用CREATE USER語句創建新用戶。語法如下&#xff1a; CREATE USER usernamehost I…

OSPF 路由協議多區域

一、課程目標本課程旨在幫助學習者掌握 OSPF 多區域的核心知識&#xff0c;具體包括&#xff1a;掌握 OSPF 各種 LSA 的內容和傳遞過程、了解普通區域與特殊區域的特點、掌握 OSPF 多區域的配置。二、OSPF 多區域劃分的必要性單區域存在的問題單區域 OSPF 網絡中&#xff0c;存…

小程序的客服咨詢(與企業微信建立溝通)

背景&#xff1a;小程序是面向群眾的。需要提供與企業的聊天窗口。 一、連接方式。 使用組件的方式最佳wx.openCustomerServiceChat 二、接入小程序 鏈接

解碼3D格式轉換

三維圖形與可視化領域&#xff0c;3D模型格式作為數據交換與存儲的基石&#xff0c;承載著模型結構、幾何形狀、紋理以及材質等多重信息。不同的3D模型格式在支持材質的方式上各有差異&#xff0c;這些差異不僅影響模型的外觀表現&#xff0c;還在格式轉換過程中帶來了特定的挑…

HarmonyOS學習記錄5

HarmonyOS學習記錄5 本文為個人學習記錄&#xff0c;僅供參考&#xff0c;如有錯誤請指出。本文主要記錄網絡請求的開發知識。 參考文檔&#xff1a;HTTP和RCP訪問網絡 網絡連接 概述 網絡連接管理提供管理網絡一些基礎能力&#xff0c;包括WiFi/蜂窩/Ethernet等多網絡連接優…

【C/C++】explicit_bzero

explicit_bzero explicit_bzero 是一個為了解決 memset 在安全清除內存場景中可能被優化器移除的問題而設計的函數&#xff0c;廣泛用于安全編程中&#xff0c;比如密碼、密鑰清除等。Introduce 頭文件 #include <string.h>函數原型 void explicit_bzero(void *s, size_t…

MySQL 鏈接方法思考

代碼: import subprocess import os from dotenv import load_dotenv import pymysql from sqlalchemy import create_enginedef check_mysql_service():"""檢查 MySQL 服務是否運行"""try:result = subprocess.run(["systemctl", &…

jxORM--查詢數據

jxORM提供了豐富的數據查詢功能。在jxORM中&#xff0c;有兩種數據查詢方式&#xff1a; 通過數據類執行查詢直接使用SQL的select語句查詢 數據類查詢 數據類查詢的優勢&#xff1a; 可以根據數據類的定義&#xff0c;自動完成查詢條件中的條件值和查詢到的數據的類型轉換直接獲…

詳解力扣高頻SQL50題之1084. 銷售分析 III【簡單】

傳送門&#xff1a;1084. 銷售分析 III 題目 表&#xff1a; Product --------------------- | Column Name | Type | --------------------- | product_id | int | | product_name | varchar | | unit_price | int | --------------------- product_id 是該表的主鍵&#x…

Kafka入門指南:從零開始掌握分布式消息隊列

為什么要有消息隊列 生活中有這樣的場景快遞員將包裹送給買家。 我記得在小時候&#xff0c;收快遞是需要快遞員電話聯系上門時間的。這非常不方便&#xff0c;一方面快遞員手中可能有多個包裹&#xff0c;另一方面買家可能在上班時間抽不出身。 后來有了驛站&#xff0c;快遞員…

基于Matlab圖像處理的瓶子自動檢測與質量評估系統

本文提出了一種基于圖像處理的瓶子缺陷檢測系統&#xff0c;旨在通過圖像分析自動識別和檢測瓶子在生產過程中可能出現的缺陷。系統首先通過圖像預處理技術&#xff0c;包括灰度轉換、二值化處理、噪聲去除等步驟&#xff0c;將原始圖像轉換為適合分析的格式。然后&#xff0c;…

【Pandas】pandas Index objects Index.name

Pandas2.2 Index objects Properties方法描述Index.values返回 Index 對象的值&#xff0c;通常是一個 NumPy 數組Index.is_monotonic_increasing用于檢查索引的元素是否 單調遞增Index.is_monotonic_decreasing用于判斷索引的值是否 單調遞減Index.is_unique用于檢查索引中的標…

JDBC教程,2025版最新講解.超詳細入門教程

以下內容全面詳盡地梳理了 JDBC &#xff08;Java Database Connectivity&#xff09;的核心知識點&#xff0c;并在關鍵環節配以示例代碼。若要快速定位&#xff0c;可先查看下方結構&#xff1a; JDBC 概覽驅動加載與注冊獲取數據庫連接執行 SQL&#xff08;Statement、Prepa…

PyTorch中nn.Module詳解和綜合代碼示例

在 PyTorch 中&#xff0c;nn.Module 是神經網絡中最核心的基類&#xff0c;用于構建所有模型。理解并熟練使用 nn.Module 是掌握 PyTorch 的關鍵。一、什么是 nn.Module nn.Module 是 PyTorch 中所有神經網絡模塊的基類。可以把它看作是“神經網絡的容器”&#xff0c;它封裝了…

深入解析三大Web安全威脅:文件上傳漏洞、SQL注入漏洞與WebShell

文章目錄文件上傳漏洞SQL注入漏洞WebShell三者的核心關聯&#xff1a;攻擊鏈閉環文件上傳漏洞 文件上傳漏洞&#xff08;File Upload Vulnerability&#xff09; 當Web應用允許用戶上傳文件但未實施充分的安全驗證時&#xff0c;攻擊者可上傳惡意文件&#xff08;如WebShell、…

【對比】群體智能優化算法 vs 貝葉斯優化

在機器學習、工程優化和科學計算中&#xff0c;優化算法的選擇直接影響問題求解的效率與效果。群體智能優化算法&#xff08;Swarm Intelligence, SI&#xff09;和貝葉斯優化&#xff08;Bayesian Optimization, BO&#xff09;是兩種截然不同的優化范式&#xff0c;分別以不同…

LLMs之Agent:ChatGPT Agent發布—統一代理系統將研究與行動無縫對接,開啟智能助理新時代

LLMs之Agent&#xff1a;ChatGPT Agent發布—統一代理系統將研究與行動無縫對接&#xff0c;開啟智能助理新時代 目錄 OpenAI重磅發布ChatGPT Agent—統一代理系統將研究與行動無縫對接&#xff0c;開啟智能助理新時代 第一部分&#xff1a;Operator 和深度研究的自然演進 第…

Linux726 raid0,raid1,raid5;raid 創建、保存、停止、刪除

RAID創建 創建raid0 安裝mdadm yum install mdadm mdadm --create /dev/md0 --raid-devices2 /dev/sdb5 /dev/sdb6 [rootsamba caozx26]# mdadm --create /dev/md0 --raid-devices2 /dev/sdb3 /dev/sdb5 --level0 mdadm: Defaulting to version 1.2 metadata mdadm: array /dev…