計算機視覺CS231n學習(5)

循環神經網絡 RNN

recurrent neural networks

  1. RNN序列處理能力(RNN核心作用)

    RNN處理序列數據,相比“Vanilla”神經網絡(僅支持一對一映射),RNN支持多種序列映射模式:

    1. 一對一:傳統分類
    2. 一對多:如圖像captioning:圖像→文字序列
    3. 多對一:如情感分析:文字序列→情感標簽
    4. 多對多:如機器翻譯:文字序列→文字序列
    5. 時序多對多:視頻幀分類
  2. RNN非序列數據的序列處理

    例如通過瞥視序列分類圖像,或逐部分生成圖像

  3. RNN的數學定義與計算圖

    1. 前向傳播公式

      狀態更新:

      ht:t時刻的隱藏狀態;xt:t時刻的輸入
      ht=fw(ht?1,xt) h_t = f_w(h_{t-1},x_t) ht?=fw?(ht?1?,xt?)
      vanilla RNN具體公式:
      ht=tanh(Whhht?1+Wxhxt),輸出yt=Whyht h_t = tanh(W_{hh}h_{t-1}+W_{xh}x_t),輸出y_t = W_{hy}ht ht?=tanh(Whh?ht?1?+Wxh?xt?),輸出yt?=Why?ht

    2. 計算圖結構

      時間步共享參數W,隱藏狀態ht依賴于前一時刻ht-1,形成循環結構

      不同映射模式的計算圖:

      1. 多對多:每個時間步輸出
      2. 多對一:最后時間步輸出
      3. 一對多:單輸入生成序列
    3. 序列到序列模型 Sequence to Sequence模型

      由 多對一編碼器(將輸入序列編碼為向量)和 一對多解碼器(從向量生成輸出序列)組成,用于機器翻譯等任務

  4. RNN反向傳播

    1. 通過時間的反向傳播(BPTT):前向計算整個序列的損失后(每個時間步loss的和),反向傳播梯度至所有時間步,更新共享參數
    2. 截斷BPTT:將長序列分割為子序列,僅在子序列內反向傳播,避免計算量過大,同時保留隱藏狀態的時序傳遞
  5. RNN的可解釋性分析

    通過可視化RNN隱藏單元,發現部分單元具有特定功能:

    引號檢測單元:對引號內文本敏感

    行位置敏感單元:跟蹤文本在句中的位置

    代碼深度單元:跟蹤代碼塊嵌套深度

  6. 圖像captioning與注意力機制

    1. 圖像captioning基本框架

      結合CNN(提取圖像特征)和RNN(生成文字序列),CNN輸出圖像特征向量,去掉最后兩層全連接層,作為RNN的初始輸入,RNN逐步生成序列

    2. 注意力機制

      RNN生成每個單詞時,會關注圖像的不同區域(比如生成straw時關注帽子的straw部分),通過加權特征向量Z=Σpivi實現(pi為注意力權重,vi為圖像特征)

  7. 視覺問答 VQA

    任務定義:給定圖像和問題,RNN結合CNN特征和問題序列,輸出答案

    注意力機制應用:RNN在處理問題時,會關注圖像中與問題相關的區域

  8. RNN的梯度問題與LSTM

    1. vanilla RNN的梯度問題

      反向傳播時,梯度需要經過多個矩陣乘法(W的連乘),若W的最大奇異值>1,梯度爆炸;若W的最小奇異值<1,梯度消失,導致長序列依賴難以學習

      解決方法:梯度裁剪(梯度范數超過閾值時縮放)緩解爆炸;改進架構(如LSTM)緩解消失

    2. LSTM:長短期記憶網絡

      核心公式:通過輸入門(i),遺忘門(f),輸出門(o),門之門(g:寫多少到細胞里)和細胞狀態(c)控制信息流動:
      在這里插入圖片描述

      梯度優勢:細胞狀態ct通過元素乘法傳遞梯度(無矩陣連乘),實現”不間斷梯度流“,類似ResNet的殘差連接

  9. RNN變體 GRU

    1. GRU(門控循環單元)

      簡化LSTM,合并輸入門和遺忘門為更新門(z),保留重置門(r):

      在這里插入圖片描述

      在這里插入圖片描述

    2. 其他RNN變體:如MUT1/2/3等,通過調整門控機制優化性能

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92427.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92427.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92427.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot Redis 緩存完全指南

Spring Boot Redis 緩存完全指南 1. 項目依賴配置 1.1 Maven依賴 <dependencies><!-- Spring Boot Redis --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId><…

八股——WebSocket

文章目錄1、 什么是 WebSocket&#xff1f;與 Http 協議的區別是什么&#xff1f;2、 Http 是如何升級為 WebSocket 的&#xff1f;3、 為什么 WebSocket 可以進行全雙工模式的消息傳輸&#xff0c;而 Http 不可以&#xff1f;4、 什么是 TCP 的沾包和拆包&#xff1f;5、 WebS…

Mysql 如何使用 binlog 日志回滾操作失誤的數據

文章目錄一、背景二、準備測試數據1. 創建測試表2. 創建測試數據三、模擬誤操作四、數據回滾&#xff08;一&#xff09;方案一&#xff1a;云數據庫恢復&#xff08;二&#xff09;方案二&#xff1a;手動恢復1. 查詢 binlog 日志2. 找到刪除語句&#xff0c;手動還原為插入語…

wodpress結構化數據對SEO的作用

在 WordPress 網站中&#xff0c;結構化數據對 SEO 的作用主要體現在以下幾個方面&#xff1a; 1. 提升搜索結果的可見性 結構化數據能夠幫助搜索引擎更好地理解網頁內容&#xff0c;從而以更精準的方式展示搜索結果。通過添加結構化數據&#xff0c;網頁可以在搜索結果中顯示…

講一講@ImportResource

題目詳細答案ImportResource是 Spring 框架中的一個注解&#xff0c;用于將傳統的 XML 配置文件導入到基于 Java 配置的 Spring 應用程序中。它允許開發者在使用 Java 配置的同時&#xff0c;繼續利用現有的 XML 配置文件。這樣可以逐步遷移舊的 XML 配置&#xff0c;或者在某些…

解決 Nginx 反代中 proxy_ssl_name 環境變量失效問題:網頁能打開但登錄失敗

前言&#xff1a;在現代企業架構中&#xff0c;多域名反向代理是實現業務隔離、品牌獨立的常見方案。然而&#xff0c;看似簡單的Nginx配置背后&#xff0c;隱藏著與TLS協議、后端認證邏輯深度綁定的細節陷阱。本文將從原理到實踐&#xff0c;詳解為何在多域名場景下&#xff0…

三步完成,A100本地vLLM部署gpt-oss,并啟動遠程可訪問api

A100本地vLLM部署gpt-oss&#xff0c;并啟動遠程可訪問api GPT-oss試用 gpt-oss有兩個原生配置是目前&#xff08;2025-8-8&#xff09;Ampere系列顯卡不支持的&#xff0c;分別是默認的MXFP4量化&#xff0c;以及Flash-attn V3。官方給出的vllm教程也是默認使用的是H系列顯卡…

【華為機試】63. 不同路徑 II

文章目錄63. 不同路徑 II題目描述示例 1&#xff1a;示例 2&#xff1a;提示&#xff1a;解題思路核心思想&#xff1a;動態規劃&#xff08;避開障礙&#xff09;算法流程復雜度分析邊界與細節方法對比代碼實現Go 實現&#xff08;含二維DP / 一維DP / 記憶化&#xff09;測試…

C++ 模擬實現 map 和 set:掌握核心數據結構

C 模擬實現 map 和 set&#xff1a;掌握核心數據結構 文章目錄C 模擬實現 map 和 set&#xff1a;掌握核心數據結構一、set 和 map 的結構1.1 set的結構1.2 map的結構二、對紅黑樹的改造2.1 改造紅黑樹的節點2.2 改造紅黑樹2.2.1 仿函數的使用2.2.2 插入函數的改造2.2.3 刪除函…

根據ASTM D4169-23e1標準,如何選擇合適的流通周期進行測試?

根據ASTM D4169-23e1標準及行業實踐&#xff0c;選擇流通周期&#xff08;DC&#xff09;需綜合以下因素&#xff1a;一、核心選擇依據?產品屬性與包裝形式??重量體積?&#xff1a;輕小包裹&#xff08;<4.53kg且<0.056m&#xff09;適用DC2/3/4/6/9/13-17等周期&…

MySQL的觸發器:

目錄 觸發器的概念&#xff1a; 創建觸發器&#xff1a; 查看觸發器&#xff1a; 查看當前數據庫的所有觸發器的定義&#xff1a; 查看當前數據中某個觸發器的定義&#xff1a; 從系統information_schema的TRIGGERS表中查詢"salary_check_trigger"觸發器的信息…

基于ubuntu搭建gitlab

原文地址&#xff1a;基于ubuntu搭建gitlab – 無敵牛 歡迎參觀我的網站&#xff1a;無敵牛 – 技術/著作/典籍/分享等 之前介紹了一個使用 git openssh-server 搭建一個極簡 git 庫的方法&#xff0c;感興趣可以查看往期文章&#xff1a;手搓一個極簡遠端git庫 – 無敵牛 。…

測試GO前沿實驗室:為水系電池研究提供多維度表征解決方案

測試GO前沿實驗室&#xff1a;為水系電池研究提供多維度表征解決方案隨著全球能源轉型加速&#xff0c;水系電池因其高安全性、低成本和環境友好特性&#xff0c;成為下一代儲能技術的重要發展方向。測試狗前沿實驗室針對水系電池研發中的關鍵科學問題&#xff0c;整合先進表征…

Spring Boot 中 YAML 配置文件詳解

Spring Boot 中 YAML 配置文件詳解 在 Spring Boot 項目中&#xff0c;配置文件是不可或缺的一部分&#xff0c;用于自定義應用行為、覆蓋默認設置。除了傳統的 properties 文件&#xff0c;Spring Boot 對 YAML&#xff08;YAML Ain’t Markup Language&#xff09;格式提供了…

Milvus安裝可視化工具,attu,保姆級

安裝包鏈接&#xff1a;GitHub - zilliztech/attu: Web UI for Milvus Vector Databasehttps://github.com/zilliztech/attu?tabreadme-ov-file 下滑 舉例&#xff1a;windows&#xff1a;下載安裝&#xff0c;然后就可以連接了&#xff08;安裝完打開后如果需要輸入用戶名密碼…

避免“卡脖子”!如何減少內存I/O延遲對程序的影響?

單來說&#xff0c;內存 IO 就像是計算機的 “數據高速公路”&#xff0c;負責在內存和其他設備&#xff08;如硬盤、CPU 等&#xff09;之間傳輸數據。它的速度和效率直接影響著計算機系統的整體性能。 你有沒有想過&#xff0c;當你點擊電腦上的一個應用程序&#xff0c;它是…

V4L2攝像頭采集 + WiFi實時傳輸實戰全流程

&#x1f4d6; 推薦閱讀&#xff1a;《Yocto項目實戰教程:高效定制嵌入式Linux系統》 &#x1f3a5; 更多學習視頻請關注 B 站&#xff1a;嵌入式Jerry V4L2攝像頭采集 WiFi實時傳輸實戰全流程 1. 實戰場景概述 目標&#xff1a; 嵌入式設備&#xff08;如RK3588/正點原子開發…

Java 之 設計模式

1.單例模式1. ??餓漢式&#xff08;Eager Initialization&#xff09;????核心原理??&#xff1a;類加載時立即創建實例&#xff0c;通過靜態變量直接初始化。??代碼示例??&#xff1a;public class Singleton {private static final Singleton INSTANCE new Sing…

[激光原理與應用-185]:光學器件 - BBO、LBO、CLBO晶體的全面比較

一、相同點非線性光學晶體屬性BBO、LBO、CLBO均為非中心對稱晶體&#xff0c;具備非線性光學效應&#xff0c;廣泛應用于激光頻率轉換&#xff08;如倍頻、三倍頻、和頻、差頻&#xff09;、光學參量振蕩&#xff08;OPO&#xff09;及電光調制等領域。寬透光范圍三者均覆蓋紫外…

Android APN加載耗時優化可行性分析

背景 根據Android系統底層機制和行業實踐,本文討論 APN 加載耗時從4.2s降至0.8s的數據合理性和技術可行性,需結合具體優化手段和硬件環境綜合分析。 以下是關鍵判斷依據及行業參考: ?? 一、APN加載耗時基準參考 未優化場景的典型耗時 首次開機或重置后:APN需從apns-con…