李沐-動手學深度學習:RNN

1.RNN從零開始實現

import math
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l#8.3.4節
#batch_size:每個小批量中子序列樣本的數目,num_steps:每個子序列中預定義的時間步數
#load_data_time_machine函數:返回數據迭代器和詞表
batch_size,num_steps = 32,35
train_iter,vocab = d2l.load_data_time_machine(batch_size,num_steps)#此向量是原始詞元的一個獨熱向量。 索引為0和2的獨熱向量如下所示:
F.one_hot(torch.tensor([0,2]),len(vocab))#8.5.1獨熱編碼
#one_hot函數將這樣一個小批量數據轉換成三維張量, 張量的最后一個維度等于詞表大小(len(vocab))。
#經常轉換輸入的維度,以便獲得形狀為 (時間步數,批量大小,詞表大小)的輸出
X = torch.arange(10).reshape((2,5))
F.one_hot(X.T,28).shape#8.5.2初始化循環神經網絡模型的模型參數。
# 隱藏單元數num_hiddens是一個可調的超參數。
#當訓練語言模型時,輸入和輸出來自相同的詞表。因此,它們具有相同的維度,即詞表的大小。
def get_params(vocab_size,num_hiddens,device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape,device=device)*0.01#隱藏層參數W_xh = normal((num_inputs,num_hiddens))W_hh = normal((num_hiddens,num_hiddens))b_h = torch.zeros(num_hiddens,device=device)#輸出層參數W_hq = normal((num_hiddens,num_outputs))b_q = torch.zeros(num_outputs,device=device)#附加梯度params = [W_xh,W_hh,b_h,W_hq,b_q]for param in params:param.requires_grad_(True)return params#8.5.3循環神經網絡模型
#init_rnn_state函數在初始化時返回隱狀態,返回一個張量,全用0填充,形狀為(批量大小,隱藏單元數)
def init_rnn_state(batch_size,num_hiddens,device):return (torch.zeros((batch_size,num_hiddens),device),)
#rnn函數定義了如何在一個時間步內計算隱狀態和輸出。
#循環神經網絡模型通過inputs最外層的維度實現循環,以便逐時間步更新小批量數據的隱狀態.
def rnn(inputs,state,params):#input的形狀:(時間步數量,批量大小,詞表大小)W_xh,W_hh,b_h,W_hq,b_q = paramsH,=stateoutputs = []#X的形狀:(批量大小,詞表大小)for X in inputs:H = torch.tanh(torch.mm(X,W_xh)+torch.mm(H,W_hh)+b_h)Y = torch.mm(H,W_hq) + b_qoutputs.append(Y)return torch.cat(outputs,dim=0),(H,)
#定義了所有需要的函數之后,創建類來包裝這些函數,并存儲從零開始實現的循環神經網絡模型的參數。
class RNNModelScratch:#@save"""從零開始實現的循環神經網絡模型"""def __init__(self,vocab_size,num_hiddens,device,get_params,init_state,forward_fn):self.vocab_size,self.num_hiddens = vocab_size,num_hiddensself.params = get_params(vocab_size,num_hiddens,device)self.init_state,self.forward_fn = init_state,forward_fndef __call__(self, X, state):X = F.one_hot(X.T,self.vocab_size).type(torch.float32)return self.forward_fn(X,state,self.params)def begin_state(self,batch_size,device):return self.init_state(batch_size,self.num_hiddens,device)#檢查輸出是否具有正確的形狀。例如,隱狀態的維數是否保持不變。
num_hiddens = 512
net = RNNModelScratch(len(vocab),num_hiddens,d2l.try_gpu(),get_params,init_rnn_state,rnn)
state = net.begin_state(X.shape[0],d2l.try_gpu())
Y, new_state = net(X.to(d2l.try_gpu()),state)
Y.shape,len(new_state),new_state[0].shape
#輸出形狀是(時間步數times,批量大小,詞表大小),而隱狀態形狀保持不變,即(批量大小,隱藏單元數)#8.5.4.預測
#首先定義預測函數來生成prefix之后的新字符,其中的prefix是一個用戶提供的包含多個字符的字符串
#循環遍歷prefix中的開始字符時,不斷將隱狀態傳遞到下一個時間步,但不生成任何輸出(預熱(warm-up)期)
def predict_ch8(prefix,num_preds,net,vocab,device):#@save"""在prefix后面生成新字符"""state = net.begin_state(batch_size=1,device=device)outputs = [vocab[prefix[0]]]get_input = lambda : torch.tensor([outputs[-1]],device=device).reshape((1,1))for y in prefix[1:]: #預熱期_,state = net(get_input(),state)outputs.append(vocab[y])for _ in range(num_preds): #預測num_preds步y,state = net(get_input(),state)outputs.append(int(y.argmax(dim=1).reshape(1)))return ''.join([vocab.idx_to_token[i] for i in outputs])
#測試predict_ch8函數。將前綴指定為time traveller,并生成10個后續字符。鑒于還沒訓練網絡,會生成荒謬的預測結果。
predict_ch8('time traveller',10,net,vocab,d2l.try_gpu())#8.5.5. 梯度截斷
def grad_clipping(net,theta): #@save"""梯度截斷"""if isinstance(net,nn.Module):params = [p for p in net.parameters() if p.requires_grad]else:params = net.paramsnorm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))if norm > theta:for param in params:param.grad[:] *= theta / norm#8.5.6.訓練
#@save
def train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter):"""訓練網絡一個迭代周期(定義見第8章)"""state, timer = None, d2l.Timer()metric = d2l.Accumulator(2)  # 訓練損失之和,詞元數量for X, Y in train_iter:if state is None or use_random_iter:# 在第一次迭代或使用隨機抽樣時初始化statestate = net.begin_state(batch_size=X.shape[0], device=device)else:if isinstance(net, nn.Module) and not isinstance(state, tuple):# state對于nn.GRU是個張量state.detach_()else:# state對于nn.LSTM或對于我們從零開始實現的模型是個張量for s in state:s.detach_()y = Y.T.reshape(-1)X, y = X.to(device), y.to(device)y_hat, state = net(X, state)l = loss(y_hat, y.long()).mean()if isinstance(updater, torch.optim.Optimizer):updater.zero_grad()l.backward()grad_clipping(net, 1)updater.step()else:l.backward()grad_clipping(net, 1)# 因為已經調用了mean函數updater(batch_size=1)metric.add(l * y.numel(), y.numel())return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()#@save
def train_ch8(net, train_iter, vocab, lr, num_epochs, device,use_random_iter=False):"""訓練模型(定義見第8章)"""loss = nn.CrossEntropyLoss()animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',legend=['train'], xlim=[10, num_epochs])# 初始化if isinstance(net, nn.Module):updater = torch.optim.SGD(net.parameters(), lr)else:updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)predict = lambda prefix: predict_ch8(prefix, 50, net, vocab, device)# 訓練和預測for epoch in range(num_epochs):ppl, speed = train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter)if (epoch + 1) % 10 == 0:print(predict('time traveller'))animator.add(epoch + 1, [ppl])print(f'困惑度 {ppl:.1f}, {speed:.1f} 詞元/秒 {str(device)}')print(predict('time traveller'))print(predict('traveller'))#因為數據集中只使用了10000個詞元,所以模型需要更多的迭代周期來更好地收斂。
num_epochs,lr = 500,1
train_ch8(net,train_iter,vocab,lr,num_epochs,d2l.try_gpu())#檢查一下使用隨機抽樣方法的結果
net = RNNModelScratch(len(vocab),num_hiddens,d2l.try_gpu(),get_params,init_rnn_state,rnn)
train_ch8(net,train_iter,vocab,lr,num_epochs,d2l.try_gpu(),use_random_iter=True)

Traceback (most recent call last):
? File "F:\doctoral_learning\deep_learning_test\Limu_allTest\Rnn-net\main.py", line 83, in <module>
? ? state = net.begin_state(X.shape[0],d2l.try_gpu())
? File "F:\doctoral_learning\deep_learning_test\Limu_allTest\Rnn-net\main.py", line 77, in begin_state
? ? return self.init_state(batch_size,self.num_hiddens,device)
? File "F:\doctoral_learning\deep_learning_test\Limu_allTest\Rnn-net\main.py", line 49, in init_rnn_state
? ? return (torch.zeros((batch_size,num_hiddens),device),)
TypeError: zeros() received an invalid combination of arguments - got (tuple, torch.device), but expected one of:
?* (tuple of ints size, *, tuple of names names, torch.dtype dtype, torch.layout layout, torch.device device, bool pin_memory, bool requires_grad)
?* (tuple of ints size, *, Tensor out, torch.dtype dtype, torch.layout layout, torch.device device, bool pin_memory, bool requires_grad)
太麻煩了,不改了。

2.RNN的簡潔實現

#8.6.循環神經網絡的簡潔實現
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2lbatch_size,num_steps = 32,35
train_iter,vocab = d2l.load_data_time_machine(batch_size,num_steps)#構造一個具有256個隱藏單元的單隱藏層的循環神經網絡層rnn_layer
num_hiddens = 256
rnn_layer = nn.RNN(len(vocab),num_hiddens)
#使用張量來初始化隱狀態,它的形狀是(隱藏層數,批量大小,隱藏單元數)。
state = torch.zeros((1,batch_size,num_hiddens))
print(state.shape)
#通過一個隱狀態和一個輸入,我們就可以用更新后的隱狀態計算輸出。
#rnn_layer的“輸出”(Y)不涉及輸出層的計算:指每個時間步的隱狀態,這些隱狀態可以用作后續輸出層的輸入。
X = torch.rand(size=(num_steps,batch_size,len(vocab)))
Y,state_new = rnn_layer(X,state)
print(Y.shape,state_new.shape)
#與 8.5節類似,為一個完整的循環神經網絡模型定義了一個RNNModel類。
#注意,rnn_layer只包含隱藏的循環層,還需要創建一個單獨的輸出層。
class RNNModel(nn.Module):"""循環神經網絡模型"""def __init__(self,run_layer,vocab_size,**kwargs):super(RNNModel,self).__init__(**kwargs)self.rnn = rnn_layerself.vocab_size = vocab_sizeself.num_hiddens = self.rnn.hidden_size#如果RNN是雙向的(之后將介紹),num_directions應該是2,否則應該是1if not self.rnn.bidirectional:self.num_directions = 1self.linear = nn.Linear(self.num_hiddens ,self.vocab_size)else:self.num_directions = 2self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)def forward(self,inputs,state):X = F.one_hot(inputs.T.long(),self.vocab_size)X = X.to(torch.float32)Y,state = self.rnn(X,state)#全連接層首先將Y的形狀改為(時間步數*批量大小,隱藏單元數)output = self.linear(Y.reshape((-1,Y.shape[-1])))return output,statedef begin_state(self,device,batch_size=1):if not isinstance(self.rnn,nn.LSTM):#nn.GRU以張量作為隱狀態return torch.zeros((self.num_directions * self.rnn.num_layers,batch_size,self.num_hiddens),device = device)else:#nn.LSTM以元組作為隱狀態return (torch.zeros((self.num_directions * self.rnn.num_layers,batch_size,self.num_hiddens),device = device),torch.zeros((self.num_directions * self.rnn.num_layers,batch_size,self.num_hiddens),device = device))
#在訓練模型之前,基于一個具有隨機權重的模型進行預測。
device = d2l.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)
print(d2l.predict_ch8('time traveller',10,net,vocab,device))
#這種模型根本不能輸出好的結果。接下來,使用 8.5節定義的超參數調用train_ch8,并且使用高級API訓練模型。
num_epochs,lr = 500,1
print(d2l.train_ch8(net,train_iter,vocab,lr,num_epochs,device))
d2l.plt.show()

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/83581.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/83581.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/83581.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++ Qt】多元素控件(ListWidget、TableWidget、TreeWidget)

每日激勵&#xff1a;“不設限和自我肯定的心態&#xff1a;I can do all things。 — Stephen Curry” 緒論?&#xff1a; 本章將通過代碼示例詳細介紹了Qt中QListWidget、QTableWidget和QTreeWidget三種多元素控件的使用方法與核心功能&#xff0c;涵蓋列表的增刪操作、表格…

基于TI DSP控制的光伏逆變器最大功率跟蹤mppt

基于TI DSP&#xff08;如TMS320F28335&#xff09;控制的光伏逆變器最大功率跟蹤&#xff08;MPPT&#xff09;程序通常涉及以下幾個關鍵部分&#xff1a;硬件電路設計、MPPT算法實現、以及DSP的編程。以下是基于TI DSP的光伏逆變器MPPT程序的一個示例&#xff0c;主要采用擾動…

Python實現P-PSO優化算法優化卷積神經網絡CNN回歸模型項目實戰

說明&#xff1a;這是一個機器學習實戰項目&#xff08;附帶數據代碼文檔&#xff09;&#xff0c;如需數據代碼文檔可以直接到文章最后關注獲取。 1.項目背景 隨著人工智能和深度學習技術的快速發展&#xff0c;卷積神經網絡&#xff08;CNN&#xff09;在圖像分類、目標檢測…

計算機視覺入門:OpenCV與YOLO目標檢測

計算機視覺入門&#xff1a;OpenCV與YOLO目標檢測 系統化學習人工智能網站&#xff08;收藏&#xff09;&#xff1a;https://www.captainbed.cn/flu 文章目錄 計算機視覺入門&#xff1a;OpenCV與YOLO目標檢測摘要引言技術原理對比1. OpenCV&#xff1a;傳統圖像處理與機器學…

【PCB工藝】繪制原理圖 + PCB設計大綱:最小核心板STM32F103ZET6

繪制原理圖和PCB布線之間的聯系,在繪制原理圖的時候,考慮到后續的PCB設計+嵌入式軟件代碼的業務邏輯,需要在繪制原理圖之初涉及到 硬件設計流程的前期規劃。在嵌入式系統開發中,原理圖設計是整個項目的基礎,直接影響到后續的: PCB 布線效率和質量 ☆☆☆重點嵌入式軟件的…

Centos系統搭建主備DNS服務

目錄 一、主DNS服務器配置 1.安裝 BIND 軟件包 2.配置主配置文件 3.創建正向區域文件 4.創建區域數據文件 5.檢查配置語法并重啟服務 二、從DNS服務配置 1.安裝 BIND 軟件包 2.配置主配置文件 3.創建緩存目錄 4.啟動并設置開機自啟 一、主DNS服務器配置 1.安裝 BIN…

LeetCode[513]找樹左下角的值

思路&#xff1a; 找樹左下角的值&#xff0c;有可能這個值不是左葉子節點&#xff0c;可能是右葉子節點&#xff0c;但怎么說這個值都是葉子節點&#xff0c;首先這道題用層序遍歷的思路比如什么隊列和BSF的遞歸都可以做&#xff0c;但我比較喜歡用純遞歸來搞&#xff0c;因為…

ubuntu20.04.5--arm64版上使用node集成java

ubuntu20.04.5arm上使用node集成java #ssh&#xff0c;可選 sudo apt update sudo apt install openssh-server sudo systemctl status ssh sudo systemctl enable ssh sudo systemctl enable --now ssh #防火墻相關&#xff0c;可選 sudo ufw allow ssh sudo ufw allow 22…

更新 Docker 容器中的某一個文件

&#x1f504; 如何更新 Docker 容器中的某一個文件 以下是幾種在 Docker 中更新單個文件的常用方法&#xff0c;適用于不同場景。 ? 方法一&#xff1a;使用 docker cp 拷貝文件到容器中&#xff08;最簡單&#xff09; &#x1f9f0; 命令格式&#xff1a; docker cp <…

JavaEE->多線程:定時器

定時器 約定一個時間&#xff0c;時間到了&#xff0c;執行某個代碼邏輯&#xff08;進行網絡通信時常見&#xff09; 客戶端給服務器發送請求 之后就需要等待 服務器的響應&#xff0c;客戶端不可能無限的等&#xff0c;需要一個最大的期限。這里“等待的最大時間”可以用定時…

html基礎01:前端基礎知識學習

html基礎01&#xff1a;前端基礎知識學習 1.個人建立打造 -- 之前知識的小總結1.1個人簡歷展示1.2簡歷信息填寫頁面 1.個人建立打造 – 之前知識的小總結 1.1個人簡歷展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8&qu…

uniapp 鍵盤頂起頁面問題

關于uniapp中鍵盤頂起頁面的問題。這是一個在移動應用開發中常見的問題&#xff0c;特別是當輸入框位于頁面底部時&#xff0c;鍵盤彈出會頂起整個頁面&#xff0c;導致頁面布局錯亂。 pages.json 文件內&#xff0c;在需要處理軟鍵盤的頁面添加 softinputMode 配置&#xff1…

使用 React Native 開發鴻蒙運動健康類應用的??高頻易錯點總結??

&#x1f6a8; ??一、環境配置與工程初始化?? ??1. Node.js 版本沖突?? ??現象??&#xff1a;DevEco Studio 報錯 Unsupported Node version&#xff08;鴻蒙 RN 依賴 Node ≥18&#xff09;。??解決??&#xff1a; nvm install 18.16.0 # 強制鎖定版本 ech…

機器學習——聚類算法

一、聚類的概念 根據樣本之間的相似性&#xff0c;將樣本劃分到不同的類別中的一種無監督學習算法。 細節&#xff1a;根據樣本之間的相似性&#xff0c;將樣本劃分到不同的類別中&#xff1b;不同的相似度計算方法&#xff0c;會得到不同的聚類結果&#xff0c;常用的相似度…

Python訓練第四十四天

DAY 44 預訓練模型 知識點回顧&#xff1a; 預訓練的概念常見的分類預訓練模型圖像預訓練模型的發展史預訓練的策略預訓練代碼實戰&#xff1a;resnet18 作業&#xff1a; 嘗試在cifar10對比如下其他的預訓練模型&#xff0c;觀察差異&#xff0c;盡可能和他人選擇的不同嘗試通…

Spring Boot中保存前端上傳的圖片

在Spring Boot中保存前端上傳的圖片可以通過以下步驟實現&#xff1a; 1. 添加依賴 確保在pom.xml中已包含Spring Web依賴&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifact…

應用層協議:HTTP

目錄 HTTP&#xff1a;超文本傳輸協議 1.1 HTTP報文 1.1.1 請求報文 1.1.2 響應報文 1.2 HTTP請求過程和原理 1.2.1 請求過程 1、域名&#xff08;DNS&#xff09;解析 2、建立TCP連接&#xff08;三次握手&#xff09; 3、發送HTTP請求 4、服務器處理請求 5、返回H…

商務合同范本智能審核系統 AI 大模型處理方案

1. 項目概述與目標 目標: 構建一個基于AI大模型的智能合同審核系統,能夠自動解析商務合同范本,識別其中的法律風險點(如權責不對等、違約金比例異常、條款模糊、缺失必要條款等),并結合企業內部合規數據庫進行實時比對,提供專業的修改建議,大幅提升合同審查的效率和合…

Kafka 消息隊列

一、 消息隊列 1. 什么是消息隊列 消息(Message)是指在應用間傳送的數據。消息可以非常簡單&#xff0c;比如只包含文本字符串&#xff0c;也可以更復雜&#xff0c;可能包含嵌入對象。消息隊列(Message Queue)是一種應用間的通信方式&#xff0c;消息發送后可以立即返回&…

NodeJS全棧WEB3面試題——P3Web3.js / Ethers.js 使用

3.1 Ethers.js 和 Web3.js 的主要區別是什么&#xff1f; 比較點Ethers.jsWeb3.js體積更輕量&#xff0c;適合前端較大&#xff0c;加載慢&#xff0c;適合 Node文檔文檔簡潔、現代化&#xff0c;支持 TypeScript文檔豐富&#xff0c;但不夠現代化模塊化設計高度模塊化&#x…