循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三)

循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三)

文章目錄

  • 循環神經網絡實戰:GRU 對比 LSTM 的中文情感分析(三)
    • 前言
    • 數據準備(與 LSTM 相同)
    • 模型搭建(GRU)
    • 訓練與測試
    • 可視化 Loss 曲線
    • 測試與預測
    • GRU vs LSTM 對比
    • 總結


前言

在前兩篇文章中,我們已經學習了 RNN/LSTM/GRU 的理論基礎,并完成了一個基于 LSTM 的中文情感分析實戰項目
那么問題來了:GRU 和 LSTM 到底哪個更好?

本篇我們將使用同樣的任務(中文情感分析),用 GRU 模型替換 LSTM,并進行訓練和測試,最后對比兩者的 速度和效果


數據準備(與 LSTM 相同)

這里我們依然使用示例的 中文評論數據(完整項目請使用 ChnSentiCorp 數據集)。

import jieba
from torchtext.vocab import build_vocab_from_iterator
from torch.nn.utils.rnn import pad_sequence
import torchtexts = ["這部電影真的很好看", "劇情太差勁了,浪費時間", "演員表演很自然,值得推薦"]
labels = [1, 0, 1]tokenized_texts = [list(jieba.cut(t)) for t in texts]def yield_tokens(data):for tokens in data:yield tokensvocab = build_vocab_from_iterator(yield_tokens(tokenized_texts), specials=["<pad>"])
vocab.set_default_index(vocab["<pad>"])text_ids = [torch.tensor(vocab(t)) for t in tokenized_texts]
padded = pad_sequence(text_ids, batch_first=True, padding_value=vocab["<pad>"])

模型搭建(GRU)

在 LSTM 中,我們有輸入門、遺忘門和輸出門,而 GRU 更加簡潔,只保留了 更新門(update gate)和重置門(reset gate),沒有單獨的細胞狀態。

因此,GRU 參數更少,訓練更快。

PyTorch 代碼如下:

import torch.nn as nnclass SentimentGRU(nn.Module):def __init__(self, vocab_size, embed_dim, hidden_dim, num_layers, num_classes=1):super(SentimentGRU, self).__init__()self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)self.gru = nn.GRU(embed_dim, hidden_dim, num_layers, batch_first=True)self.fc = nn.Linear(hidden_dim, num_classes)self.sigmoid = nn.Sigmoid()def forward(self, x):embedded = self.embedding(x)out, _ = self.gru(embedded)out = self.fc(out[:, -1, :])  # 取最后時刻的隱藏狀態return self.sigmoid(out)

訓練與測試

定義損失函數和優化器:

import torch.optim as optimmodel = SentimentGRU(vocab_size=len(vocab), embed_dim=128, hidden_dim=256, num_layers=2)
criterion = nn.BCELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)labels_tensor = torch.tensor(labels, dtype=torch.float)
losses = []

訓練循環(記錄 loss):

for epoch in range(10):optimizer.zero_grad()outputs = model(padded).squeeze()loss = criterion(outputs, labels_tensor)loss.backward()optimizer.step()losses.append(loss.item())print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

可視化 Loss 曲線

import matplotlib.pyplot as pltplt.plot(losses, label="Training Loss (GRU)")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()
plt.show()

測試與預測

和 LSTM 一樣,直接輸入新評論:

def predict(text):tokens = list(jieba.cut(text))ids = torch.tensor(vocab(tokens)).unsqueeze(0)output = model(ids)return "積極" if output.item() > 0.5 else "消極"print(predict("故事很精彩"))
print(predict("導演水平太差"))

GRU vs LSTM 對比

我們來對比兩個模型:

模型參數量訓練速度效果(準確率)適用場景
LSTM較多較慢穩定,適合長期依賴NLP 長文本、機器翻譯
GRU較少較快接近甚至優于 LSTM短文本分類、時間序列預測

實驗結論:

  • 在小數據集(短文本)下,GRU 的表現通常和 LSTM 不相上下,但訓練更快。
  • 在大規模數據集上,LSTM 更穩定,尤其在長依賴問題上優勢明顯。
  • 如果你追求 效率 → GRU 更好;
    如果你追求 精度和長期記憶能力 → LSTM 更穩妥。

總結

  1. 本文在 中文情感分析任務 中使用了 GRU 模型,并與 LSTM 進行了對比。

  2. 實驗表明,GRU 訓練速度更快,效果接近 LSTM,在短文本任務中性價比更高。

  3. 實際應用中,可以根據 任務規模與需求 來選擇:

    • 小數據集/短文本 → GRU
    • 長文本/復雜依賴 → LSTM
    • 追求最強性能 → Transformer (BERT, GPT 等)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919731.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919731.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919731.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

學習游戲制作記錄(制作提示框以及使用鍵盤切換UI)8.21

1.制作裝備提示框創建提示框&#xff0c;添加文本子對象&#xff0c;用來描述名稱&#xff0c;類型以及屬性加成掛載垂直分配組件和文本大小適配組件&#xff0c;這樣圖像會根據文本大小來調整自己創建UI_ItemTip腳本并掛載在文本框上&#xff1a;[SerializeField] private Tex…

chapter07_初始化和銷毀方法

一、簡介 一個Bean&#xff0c;在進行實例化之后&#xff0c;需要進行兩種初始化 初始化屬性&#xff0c;由PropertyValues進行賦值初始化方法&#xff0c;由ApplicationContext統一調用&#xff0c;例如加載配置文件 Bean的初始化與銷毀&#xff0c;共有三種方式&#xff08;注…

open webui源碼分析6-Function

一、Functions簡介 可以把Tools作為依賴于外部服務的插件&#xff0c;Functions就是內部插件&#xff0c;二者都是用來增強open webui的能力的。Functions是輕量的&#xff0c;高度可定制的&#xff0c;并且是用純Python編寫的&#xff0c;所以你可以自由地創建任何東西——從新…

C2039 “unref“:不是“osgEarth::Symbology::Style”的成員 問題分析及解決方法

在osgEarth2.10中實現多線段連續測量功能時,遇到下圖中的錯誤; 經過測試和驗證,主要問題出現在下圖圈出代碼的定義上 圖22-1 對于22-1中的兩個變量這樣定義是錯誤的。因為Style類沒有繼承自osg::Referenced,因此不能與osg::ref_ptr配合使用

GitHub 熱榜項目 - 日榜(2025-08-19)

GitHub 熱榜項目 - 日榜(2025-08-19) 生成于&#xff1a;2025-08-19 統計摘要 共發現熱門項目&#xff1a;12 個 榜單類型&#xff1a;日榜 本期熱點趨勢總結 本期GitHub熱榜呈現三大技術熱點&#xff1a;1&#xff09;AI原生開發持續爆發&#xff0c;Archon OS、Parlant等…

ingress 配置ssl證書

模擬環境舉例&#xff1a; # 生成帶 OU 的證書配置文件 cat > csr.conf <<EOF [ req ] default_bits 2048 prompt no default_md sha256 distinguished_name dn[ dn ] C CN ST Beijing L Beijing O YourCompany, Inc. # 組織名稱 (必填) OU DevOps De…

Pandas 合并數據集:concat 和 append

文章目錄Pandas 合并數據集&#xff1a;concat 和 append回顧&#xff1a;NumPy 數組的拼接使用 pd.concat 進行簡單拼接重復索引將重復索引視為錯誤忽略索引添加多級索引&#xff08;MultiIndex&#xff09;鍵使用連接&#xff08;Join&#xff09;方式拼接append 方法Pandas …

2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(七)

本文主要回顧2025年上半年(2025-5-24)系統架構設計師考試上午綜合知識科目的選擇題,同時附帶參考答案、解析和所涉知識點。 2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(一) 2025年5月架構設計師綜合知識真題回顧,附參考答案、解析及所涉知識點(…

面向RF設計人員的微帶貼片天線計算器

微帶貼片天線和陣列可能是僅次于單極天線和偶極天線的最簡單的天線設計。這些天線也很容易集成到PCB中&#xff0c;因此通常用于5G天線陣列和雷達等高級系統。這些天線陣列在基諧模式和高階模式下也遵循一組簡單的設計方程&#xff0c;因此您甚至可以在不使用仿真工具的情況下設…

明基RD280U編程顯示器深度測評:碼農的「第二塊鍵盤」竟然會發光?

文章目錄前言一、開箱篇&#xff1a;當理工男遇到「俄羅斯套娃式包裝」二、外觀篇&#xff1a;深空灰的「代碼容器」1. 桌面變形記2. 保護肩頸的人體工學設計三、顯示篇&#xff1a;給代碼做「光子嫩膚」1. 28寸超大大屏 3:2屏比 4K超清2.專業編程模式&#xff0c;讓代碼一目…

算法114. 二叉樹展開為鏈表

題目&#xff1a;給你二叉樹的根結點 root &#xff0c;請你將它展開為一個單鏈表&#xff1a; 展開后的單鏈表應該同樣使用 TreeNode &#xff0c;其中 right 子指針指向鏈表中下一個結點&#xff0c;而左子指針始終為 null 。 展開后的單鏈表應該與二叉樹 先序遍歷 順序相同。…

智慧能源管理系統:點亮山東零碳園區的綠色引擎

一、概述在全球積極踐行“雙碳”目標的時代浪潮下&#xff0c;山東作為經濟大省&#xff0c;正全力推動產業的綠色變革&#xff0c;零碳園區建設成為其中的關鍵一環。《山東省零碳園區建設方案》明確規劃&#xff0c;到2027年建成15個左右省級零碳園區 &#xff0c;到2030年進一…

分布式日志分析平臺(ELFK 與 EFK)理論

一、日志分析平臺核心概念在分布式系統中&#xff0c;日志是系統運行狀態監控、問題排查和業務分析的重要依據。隨著系統規模擴大&#xff0c;單機日志管理方式已無法滿足需求&#xff0c;分布式日志分析平臺應運而生。其核心目標是實現日志的集中收集、統一處理、高效存儲和可…

CoreShop微信小程序商城框架開啟多租戶-添加一個WPF客戶端以便進行本地操作--讀取店鋪信息(6)

本節內容&#xff0c;使用登錄的token進行店鋪信息讀取&#xff0c;順利的話&#xff0c;進行EXCEL上傳測試。 1。在后臺編寫 讀取店鋪信息代碼 1.1 查看原來鋪店信息在什么位置&#xff0c;店鋪的表格為CoreCmsStore#region 獲取列表// POST: Api/CoreCmsStore/GetPageList///…

UE5關卡藍圖能不能保存副本呀?

提問 關卡藍圖能不能保存副本呀&#xff1f; 回答 在 UE 里&#xff0c;“關卡藍圖&#xff08;Level Blueprint&#xff09;”本身其實是不能直接復制/保存成獨立資源的&#xff0c;因為它和具體的 **Level&#xff08;.umap 文件&#xff09;**是綁定的——相當于一個“場景腳…

機器學習數據預處理學習報告

一、學習背景與目的在機器學習流程中&#xff0c;數據預處理是保障模型訓練效果的關鍵環節。原始數據常存在缺失值、量綱不一致、特征格式不匹配等問題&#xff0c;直接影響模型對數據規律的學習。本次學習圍繞 Pandas 與 Scikit-learn&#xff08;sklearn&#xff09;工具庫&a…

git舊倉庫遷移到新倉庫

git舊倉庫遷移到新倉庫 A倉庫(舊倉庫)&#xff1a;git172.16.21.21:xxxx_software/Ni-Handler-Mgr.git B倉庫(新倉庫)&#xff1a;git172.16.11.11:yyyy/hostpc/ni-handler-mgr.git Step1 新建新倉庫 創建新 GitHub 倉庫? 在 GitHub 頁面點擊 “New repository”&#xff0c;命…

YOLO --- YOLOv5模型以及項目詳解

YOLO — YOLOv5模型以及項目詳解 文章目錄YOLO --- YOLOv5模型以及項目詳解一&#xff0c;開源地址二&#xff0c;改進點Focus 模塊三&#xff0c;網絡結構3.1 CSP1_X 與 CSP2_X3.2 自適應Anchor的計算3.3 激活函數3.3.1 SiLU3.3.2 Swish3.4 Bottleneck3.5 C33.5.1 BottleneckC…

Linux文本三劍客的使用及常見重點操作

文本三劍客指 Linux環境下的 grep&#xff08;搜索&#xff09;、sed&#xff08;編輯&#xff09;、awk&#xff08;分析&#xff09;三款用于文本處理的核心命令&#xff0c;三者分工明確、功能互補&#xff0c;是處理日志、配置文件、結構化數據等場景的 “剛需工具”。一、…

??《開源字幕神器VideoCaptioner實戰:基于Whisper+LLM的全鏈路方案,免費平替剪映會員》??

&#x1f4cc; 大家好&#xff0c;我是智界工具庫&#xff0c;每天分享好用實用且智能的開源項目&#xff0c;以及在JAVA語言開發中遇到的問題&#xff0c;如果本篇文章對您有所幫助&#xff0c;請幫我點個小贊小收藏小關注吧&#xff0c;謝謝喲&#xff01;&#x1f618; 博主…