長短期記憶(LSTM)簡介

RNN 的主要限制在于它無法記住很長的序列,并且會陷入梯度消失的問題。

什么是梯度消失問題?

? 當添加更多具有某些激活函數的層時,神經網絡中損失函數的梯度趨近于零,這使得網絡難以訓練。

長短期記憶(LSTM)

LSTM 可以解決梯度消失問題。它通過忽略(忘記)網絡中無用的數據/信息來實現這一點。如果沒有來自其他輸入(之前的句子單詞)的有用信息,LSTM 就會忘記這些數據。當新的信息出現時,網絡會決定哪些信息應該被忽略,哪些信息應該被記住。

LSTM 架構

讓我們看看 RNN 和 LSTM 之間的區別。

在 RNN 中,我們有一個非常簡單的結構,只有一個激活函數(tanh)。

在 LSTM 中,我們擁有多個組件,而不僅僅是具有單一激活功能的簡單網絡,從而使網絡能夠忘記和記住信息。

使用的符號

LSTM 有 4 個不同的組成部分,分別是

  1. 單元狀態(記憶單元)
  2. 忘記門
  3. 輸入門
  4. 輸出門

讓我們逐一了解這些組件。

1. 單元狀態(記憶單元)

它是 LSTM 的第一個組件,貫穿整個 LSTM 單元。可以把它想象成一條傳送帶。

細胞狀態負責記憶和遺忘。它基于輸入的上下文。這意味著一些先前的信息應該被記住,而一些則應該被遺忘,一些新的信息應該被添加到記憶中。第一個操作(X)是逐點運算,它只是將細胞狀態乘以一個[-1, 0, 1]的數組。乘以0的信息將被LSTM遺忘。另一個操作是(+),它負責向狀態添加一些新的信息。

2. 忘記門

顧名思義,遺忘 LSTM 門決定哪些信息應該被遺忘。S 型函數層用于做出這一決定。該 S 型函數層被稱為“遺忘門層”。

它對h(t-1)x(t)進行點積運算,并在 sigmoid 層的幫助下,為單元狀態C(t-1)中的每個數字輸出一個介于 0 和 1 之間的數字。如果輸出為“1”,則表示我們將保留它。“0”表示完全忘記它。

3. 輸入門

輸入門向 LSTM 提供新信息,并決定是否將該新信息存儲在單元狀態中。

這分為三個部分-

  1. 一個S 型函數層決定需要更新的值。該層被稱為“輸入門層”。
  2. tanh激活函數層創建一個新的候選值向量?(t),可以添加到狀態中。
  3. 然后我們結合這兩個輸出,i(t) * ?(t),并更新單元狀態。

新的細胞狀態碳原子數(t)是通過將遺忘門和輸入門的輸出相加而得到的。

4.輸出門

LSTM 單元的輸出取決于新的單元狀態。

首先,一個 S 型函數層決定要輸出單元狀態的哪些部分。然后,在單元狀態上使用一個tanh層將值壓縮到 -1 到 1 之間,最后乘以 S 型函數門的輸出。

LSTM 實際應用

現在我們已經了解了 LSTM 的架構和組件,讓我們看看它的實際作用。

?

結論

正如文章中提到的,LSTM 可以通過遺忘和記憶信息來延長信息的保存時間。這由 4 個組件實現——一個單元狀態和 3 個門控。它還能克服梯度消失問題,而這正是 RNN 的一個局限性。這使得 LSTM 比普通 RNN 更具優勢。我們還了解了 LSTM 的架構和工作原理。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78018.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78018.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78018.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JESD204B 探究

JESD204B協議是高速串行接口標準,主要用于ADC/DAC與邏輯器件(如FPGA)之間的數據傳輸。以下為綜合解析: 一、協議概述 ?核心作用? 通過高速SERDES技術實現數模轉換器與邏輯器件間的高效數據傳輸,支持多通道同步和確定性延遲,適用于GB級吞吐量場景23。?版本演進? JESD2…

Flutter PIP 插件 ---- 新增PipActivity,Android 11以下支持自動進入PIP Mode

接上文 Flutter PIP 插件 ---- Android 項目地址 PIP, pub.dev也已經同步發布 pip 0.0.3,你的加星和點贊,將是我繼續改進最大的動力 開發文檔 Add videos using picture-in-picture (PiP)介紹PIP功能從 Android 8.0 (API level 26) 引入&…

【Java開發日記】6個Java 工具,輕松分析定位 JVM 問題 !

目錄 使用 JDK 自帶工具查看 JVM 情況 jps jinfo jvisualvm jcm 使用 JDK 自帶工具查看 JVM 情況 JDK 自帶了很多命令行甚至是圖形界面工具,幫助查看 JVM 的一些信息。比如,在機器上運行 ls 命令,可以看到 JDK 8 提供了非常多的工具或程…

動態規劃簡單題2

leetcode91題(解碼方法) 分析題目: 1.這是一種解碼,就是給多個數字組成的字符串,把這些數字解碼成字母,看看一共有多少種 2.如果一個數字前有前導0就不合法,比如06,這與6不同&…

(007)Excel 公式的使用

文章目錄 邏輯運算公式的參數常用函數引用方式引用工作表和工作簿表格的引用修改公式的計算時機區域交叉引用 邏輯運算 公式的參數 單元格引用:SUM(A1:A24)。字面值:SQRT(121)。字面文本字符串:PROPER(“john.f.smith”)。表達式&#xff1a…

Unity 和 Unreal Engine(UE) 兩大主流游戲引擎的核心使用方法

以下是 Unity 和 Unreal Engine(UE) 兩大主流游戲引擎的核心使用方法和對比分析,幫助開發者快速上手并根據項目需求選擇合適工具: 一、Unity 使用指南 1. 安裝與配置 安裝:從 Unity Hub 下載,選擇長期支持…

猜數字游戲:從數學原理到交互體驗的完整設計指南

目錄 猜數字游戲:從數學原理到交互體驗的完整設計指南引言第一章 游戲數學原理1.1 均勻分布與隨機生成1.2 最優猜測策略 第二章 游戲系統設計2.1 核心架構2.2 動態難度系統 第三章 交互設計細節3.1 輸入驗證系統3.2 漸進式提示機制 第四章 進階功能設計4.1 智能輔導…

2025工業大模型白皮書 | 螞蟻工廠北京航空航天大學聯合出品

由螞蟻工廠與北京航空航天大學聯合發布的《2025工業大模型白皮書》是一部針對工業領域大模型技術發展的前瞻性研究報告。該白皮書系統梳理了工業大模型的技術演進、核心應用場景、關鍵挑戰及未來發展趨勢,旨在為制造業數字化轉型提供理論支撐和實踐指南。作為產學研…

JavaWeb:后端web基礎(TomcatServletHTTP)

一、今日內容 二、Tomcat 介紹與使用 介紹 基本使用 小結 配置 配置 查找進程 三、Servlet 什么是Servlet 快速入門 需求 步驟 1.新建工程-模塊(Maven) 2.修改打包方式-war 3.編寫代碼 /*** 可以選擇繼承HttpServlet*/ WebServlet("/hello&q…

構建現代分布式云架構的三大支柱:服務化、Service Mesh 與 Serverless

目錄 前言1. 服務化架構模式:構建可擴展的基礎單元1.1 服務化的定義與演進1.2 在分布式云中的價值1.3 面臨的挑戰 2. Service Mesh 架構:服務通信的治理中樞2.1 什么是 Service Mesh?2.2 功能與優勢2.3 在分布式云中的角色2.4 落地難點 3. Se…

嵌入式C語言的運算符與輸入輸出

目錄 1. 運算符 1.1 位運算符 1.1.1 位運算 ~ 1.1.2 位邏輯與 & 1.1.3 位邏輯或 | 1.1.4 位邏輯異或 ^ 1.1.5 位移位運算 1.1.6 將無符號位的某位快速置 1 1.2 三目運算符 1.3 逗號運算符 1.4 運算符優先級 2. 輸出 2.1 字符輸出函數 2.2 格式輸出函數 2.3 字符…

IPD研學:76頁頁基于IPD思想-華為需求管理培訓方案【附全文閱讀】

適應人群 本方案適用于企業中參與產品研發、市場、銷售、項目管理等部門的人員,尤其是負責需求管理工作的相關從業者;致力于提升產品競爭力,對優化需求管理流程、提高產品開發質量感興趣的企業管理者;以及希望了解行業前沿需求管理方法,尋求突破和創新的相關人士。…

米酒的功能和優缺點

米酒(又稱甜酒、酒釀)是一種以糯米或其他谷物為原料,經發酵制成的傳統發酵飲品,酒精度較低(通常1%-10%)。以下是其功能、優點及缺點分析: 一、米酒的功能 營養補充 富含B族維生素(B1…

注冊登錄頁面項目

關系型數據庫地址:C:\Users\ASUS\AppData\Local\Temp\HuaweiDevEcoStudioDatabases\rdb #注冊頁面register.ets import dataRdb from ohos.data.rdbconst STORE_CONFIG {name: weather4.db } const TABLE_NAME weather_info const SQL_CREATE_TABLE CREATE TAB…

yum源配置文件CentOS-Base.repo完整內容

1.CentOS Yum 源配置文件 CentOS-Base.repo 的完整內容示例: 以下是適用于不同版本 CentOS 系統的 CentOS-Base.repo 文件的標準模板。這些模板基于常見的國內鏡像源(如阿里云、清華大學等),可以幫助解決倉庫配置失敗的問題。 適…

深度學習基礎--目標檢測入門簡介

博主簡介:努力學習的22級本科生一枚 🌟? 博客主頁:羊小豬~~-CSDN博客 內容簡介:探索AI算法,C,go語言的世界;在迷茫中尋找光芒?🌸? 往期回顧:yolov5基礎–一步一步教…

雅思寫作--70個高頻表達

文章目錄 1. learn new skills學生通過戶外活動學到很多新技2. take immediate action to do各國采取有效行動以保護環境政府采取了必要行動以減少失業。你應該立即采取行動來解3. communication skills4. grow significantly5. have many advantages1. learn new skills “lea…

深入理解虛擬機與容器:原理、對比與應用場景分析

目錄 前言1 虛擬機技術詳解1.1 虛擬機的基本原理1.2 虛擬機的優勢與局限 2 容器技術詳解2.1 容器的運行機制2.2 容器的優勢與局限 3 虛擬機與容器的核心差異對比3.1 架構對比3.2 啟動速度與資源消耗3.3 安全性與隔離性3.4 兼容性與遷移性 4 實際應用場景分析4.1 適合使用虛擬機…

SQL Server數據庫提權的幾種方法——提權教程

SQL Server數據庫提權的幾種方法——提權教程 一、簡介 在利用系統溢出漏洞沒有效果的情況下,可以采用數據庫進行提權。 數據庫提權的前提條件: 1、服務器開啟數據庫服務 2、獲取到最高權限用戶密碼 (除Access數據庫外,其他數據庫基本都存在數據庫提權的可能) 二、使用x…

【第19節 信息加解密技術】

本章目錄: 一、節概述二、知識詳解1. 信息加密的基本分類2. 對稱加密算法詳解3. 非對稱加密算法詳解4. 密鑰控制技術5. 密鑰分發機制6. 公鑰體系的密鑰管理機制7. 密鑰分類與生成 三、關鍵點提煉四、考試提示五、總結與建議 一、節概述 在信息安全體系中,信息加解密…