基于雙層注意力重加權 LSTM 的中文長文本謠言檢測模型

文章目錄

  • 1.摘要
  • 2.介紹
  • 3.相關工作
    • 3.1 假新聞檢測數據集
    • 3.2 假新聞檢測方法
    • 3.3 長文本假新聞檢測的挑戰與進展
    • 3.4 與現有方法的區別
  • 4.方法
    • 4.1 模型結構
    • 4.2模型代碼
    • 4.3 損失函數與優化方法
  • 5. 實驗
    • 5.1 數據集與預處理
    • 5.2 實驗設置
    • 5.3 實驗結果
    • 5.4 對比分析
    • 5.5 結果分析與討論
  • 6. 結論
  • 參考文獻
  • 備注

1.摘要

虛假信息在社交媒體上傳播迅速,會對公眾的行為及對社會事件的反應產生負面影響。長文本假新聞由于信息復雜,難以全面識別,現有的檢測方法存在不足。針對上述現象,本文提出一種基于雙層注意力重加權的長文本謠言檢測模型。模型采用雙層雙向 LSTM 架構,通過第一層 LSTM 提取基礎語義特征并結合 Tanh 非線性變換與線性層計算詞級注意力權重定位關鍵區域;第二層 LSTM 以 Sigmoid 門控網絡生成的動態特征權重與第一層注意力權重重加權后的特征為輸入,進一步強化深層語義關聯;最終拼接兩層注意力的全局池化特征,經多層全連接網絡完成分類。在 LTCR 長文本中文謠言數據集(含 1,729 條真實新聞與 561 條假新聞)上,模型表現優異:整體準確率達 96.29%,假新聞召回率高達 93.94%,加權平均 F1 值為 0.9568,達到了業內領先水平。完整代碼可在https://github.com/Xiangfei-bit/TextClassification獲取。

2.介紹

在社交媒體高度普及的數字時代,長文本謠言的傳播已成為公共信息治理的核心挑戰。與短文本謠言相比,長文本謠言(如“某專家稱新冠疫苗存在長期副作用”類偽科學論述)通過復雜敘事、多維度誤導性陳述和隱蔽的邏輯漏洞,更易引發公眾信任危機,尤其在醫療健康領域,可能直接影響患者治療選擇與公共衛生政策執行(如拒絕接種疫苗)。據《2023年中國網絡謠言治理報告》統計,醫療健康類謠言中,長文本占比已達37.2%,但現有檢測模型對其漏檢率仍高于短文本謠言12.3%,亟需針對性技術突破。

現有研究在長文本謠言檢測中面臨雙重瓶頸:一方面,數據層面,主流中文謠言數據集(如CHECKED、DXY-COVID-Rumor)以短文本為主(平均長度<150字),缺乏對長文本場景的覆蓋,導致模型訓練時“見短不見長”;另一方面,模型層面,傳統方法(如TextRNN+Attn)依賴循環神經網絡,在處理超200字文本時因梯度消失問題難以捕捉長距離語義關聯;而基于Transformer的模型雖能緩解此問題,卻因自注意力機制的全局計算特性,易受長文本中冗余信息干擾,導致關鍵證據(如謠言核心誤導句)的定位精度下降。此外,現有模型普遍缺乏對動態特征篩選的設計,難以模擬人類閱讀時“聚焦-驗證”的認知過程,進一步限制了長文本檢測性能。

針對上述挑戰,本文提出一種基于雙層注意力重加權的長文本謠言檢測模型。其核心創新體現在三方面:
(1)層級化注意力機制:通過雙層雙向LSTM分別提取基礎語義與深層關聯特征,結合詞級與句級注意力權重,精準定位長文本中的關鍵誤導區域;
(2)動態重加權模塊:引入Sigmoid門控網絡生成可學習的特征權重,與第一層注意力權重協同作用,抑制冗余信息并放大關鍵證據,模擬人類閱讀時的“聚焦”行為;
(3)多特征融合策略:拼接兩層注意力的全局池化特征,通過多層全連接網絡增強對復雜語義的表達能力,解決長文本中信息稀釋導致的分類邊界模糊問題。
本文后續結構如下:第3節綜述相關工作;第4節詳細描述模型架構;第5節介紹實驗設計與結果分析;第6節總結研究局限并展望未來方向。

3.相關工作

假新聞檢測任務作為自然語言處理(NLP)領域中的一項重要任務,近年來在社交媒體的廣泛應用背景下引起了極大關注。尤其是在COVID-19疫情期間,假新聞的傳播不僅影響公眾的情緒,還可能對公共健康產生嚴重后果。因此,開發高效的假新聞檢測方法變得尤為重要。假新聞檢測的研究可以大致分為兩類:短文本假新聞檢測和長文本假新聞檢測。本文主要聚焦于長文本假新聞的檢測,特別是中文長文本中的假新聞識別。

3.1 假新聞檢測數據集

在假新聞檢測任務中,數據集的構建是至關重要的。許多已有的假新聞數據集主要針對短文本,而針對長文本的高質量數據集相對較少。CoAID數據集[1]由Cui和Lee提出,包含926條關于COVID-19的英文社交媒體帖子,其中包括真實和虛假的新聞。然而,數據集的長度較短,且主要面向英語社交平臺。針對中文數據,CHECKED數據集[2]是目前較為廣泛使用的中文假新聞數據集之一,包含了344條假新聞和1760條真實新聞,收集自微博等平臺。盡管CHECKED數據集為中文假新聞檢測提供了重要數據來源,但假新聞的數量較少且大多為短文本,導致其在處理長文本時的表現受限。
為了彌補這一缺陷,LTCR(Long-Text Chinese Rumor Detection)數據集應運而生。該數據集包含1729條真實新聞和561條假新聞,假新聞的平均長度為153.5個字,顯著高于現有其他數據集中假新聞的長度。LTCR數據集的提出,為中文長文本假新聞檢測提供了寶貴的資源,尤其是針對COVID-19相關的假新聞[3]。

3.2 假新聞檢測方法

目前的假新聞檢測方法大致可以分為基于傳播、基于知識和基于語義的三種方法。
① 基于傳播的假新聞檢測方法:這種方法主要通過分析新聞的傳播模式來判斷其真實性。例如,Gupta等人[4]提出了一種基于社交媒體傳播路徑的假新聞檢測方法,能夠通過分析用戶之間的互動關系來判斷新聞的可靠性。然而,這種方法依賴于新聞傳播歷史,在沒有明確傳播路徑的情況下,其效果較為有限。
② 基于知識的假新聞檢測方法:這種方法通過比對外部知識庫中的事實信息來驗證新聞的真偽。Trivedi等人[5]提出使用實體解析技術,比較待驗證新聞與真實新聞中的實體信息,進而判斷新聞的真假。這類方法能夠提供更為堅實的證據,但也存在依賴大量外部知識庫和高計算成本的問題。
③ 基于語義的假新聞檢測方法:語義分析是目前最為常見的假新聞檢測方法,尤其是基于深度學習的模型。例如,Pérez-Rosas等人[6]利用SVM和隨機森林對新聞文本進行分類,而近年來,基于深度學習的模型,如Text-CNN[7]、LSTM[8]、Transformer[9]等,取得了顯著的成果。特別是LSTM和雙向LSTM(Bi-LSTM)模型,它們在處理長文本時能夠捕捉到文本中的長期依賴關系,表現出了優越的性能。

3.3 長文本假新聞檢測的挑戰與進展

盡管現有方法在短文本假新聞檢測中取得了較好的效果,但在長文本的假新聞檢測中,尤其是中文長文本的檢測中,仍然面臨一些挑戰。長文本包含的信息量較大,如何從中提取出關鍵信息成為了一個重要問題。傳統的假新聞檢測方法往往無法充分利用長文本中的深層特征,這限制了它們在長文本假新聞檢測中的表現。

為了解決這一問題,近年來出現了一些創新方法,尤其是在輸入重加權和注意力機制方面。例如,DoubleCheck模型[3]引入了注意力機制和雙層LSTM結構,通過對長文本進行逐步處理和特征加權,從而提升了假新聞的檢測能力。然而,該模型在處理長文本時仍存在一定的局限性,尤其是在召回率(Recall)和F-score方面。

3.4 與現有方法的區別

與現有的假新聞檢測方法相比,本文提出的模型在DoubleCheck模型的基礎上進行了改進,核心創新體現在以下幾個方面:
① 輸入重加權模塊的優化:我們在DoubleCheck的輸入重加權模塊基礎上引入了門控機制,通過對LSTM層輸出的加權調整,動態調整輸入特征的權重,使得模型更加關注長文本中的關鍵信息。實驗結果表明,該改進有效提升了模型在長文本假新聞檢測中的表現,特別是在提高召回率和F-score方面。
② 雙層LSTM與注意力機制結合:我們在DoubleCheck的基礎上,設計了雙層LSTM結構,通過多層次的文本特征提取和注意力加權,進一步提升了模型的長文本理解能力。與現有的模型相比,這一改進使得我們的模型能夠更好地處理復雜的文本信息,尤其是在假新聞的識別上具有更高的準確性和召回率。
③ 全局特征融合:通過對兩層LSTM輸出的全局特征進行拼接和融合,我們在分類層輸入了更多的上下文信息,這幫助模型更全面地理解長文本內容,從而提高了分類性能。

通過上述創新,我們的模型在LTCR數據集上的實驗結果顯示出比DoubleCheck更優的性能,特別是在假新聞的召回率和F-score方面有顯著提升。

4.方法

本文提出的模型在原有DoubleCheck模型基礎上進行了改進,結合了雙層雙向LSTM和輸入重加權模塊,并加入了注意力機制,增強了長文本假新聞的檢測能力。本部分將簡要介紹模型的核心結構及其實現過程。

4.1 模型結構

模型由三個主要部分組成:第一層LSTM模塊、第二層LSTM模塊和特征融合模塊。

第一層LSTM模塊:輸入的文本數據經過嵌入層后,首先進入第一層LSTM模塊。該模塊使用雙向LSTM結構,能夠同時捕捉前向和后向的上下文信息,提取文本的初步特征。雙向LSTM的計算過程如下:
h t → = L S T M ( h t ? 1 → , x t ) \overrightarrow{h_t} =\mathrm{LSTM}(\overrightarrow{{h_{t - 1}}},x_t) ht? ?=LSTM(ht?1? ?,xt?)
h t ← = L S T M ( h t + 1 ← , x t ) \overleftarrow{h_t} =\mathrm{LSTM}(\overleftarrow{{h_{t + 1}}},x_t) ht? ?=LSTM(ht+1? ?,xt?)
h t = [ h t → ; h t ← ] \ h_t = [\overrightarrow{h_t}; \overleftarrow{h_t}] ?ht?=[ht? ?;ht? ?]

其中, h t → \overrightarrow{h_t} ht? ? h t ← \overleftarrow{h_t} ht? ?分別表示雙向LSTM的前向和后向隱藏狀態, x t x_t xt?表示當前時間步的輸入, h t h_t ht?是當前時間步的最終隱藏狀態,拼接后的隱藏狀態包含了前向和后向的上下文信息。
在該模塊中,注意力機制(attention1)通過計算權重 α 1 α_1 α1?來動態選擇重要特征:
α 1 = s o f t m a x ( W 1 h t + b 1 ) α_1 =\mathrm{softmax}(W_1h_t + b_1) α1?=softmax(W1?ht?+b1?)

其中, W 1 W_1 W1?是學習的權重矩陣, b 1 b_1 b1?是偏置項, α 1 α_1 α1?是計算出的注意力權重。網絡結構如下圖所示:
在這里插入圖片描述
第二層LSTM模塊:第一層LSTM模塊的輸出將經過重加權(通過輸入重加權模塊),然后傳遞給第二層LSTM模塊。第二層LSTM進一步提取經過加權后的特征,并通過第二層的注意力機制(attention2)進行加權,優化特征表示。類似于第一層LSTM,第二層LSTM也通過以下公式計算隱藏狀態:

h t ′ → = L S T M ( h t ? 1 ′ → , x t ) \overrightarrow{h'_t} =\mathrm{LSTM}(\overrightarrow{{h'_{t - 1}}},x_t) ht? ?=LSTM(ht?1? ?,xt?)
h t ′ ← = L S T M ( h t + 1 ′ ← , x t ) \overleftarrow{h'_t} =\mathrm{LSTM}(\overleftarrow{{h'_{t + 1}}},x_t) ht? ?=LSTM(ht+1? ?,xt?)
h t = [ h t ′ → ; h t ′ ← ] \ h_t = [\overrightarrow{h'_t}; \overleftarrow{h'_t}] ?ht?=[ht? ?;ht? ?]
然后,第二層的注意力權重 α 2 \alpha_2 α2?通過以下公式計算:
α 2 = s o f t m a x ( W 2 h t ′ + b 2 ) α_2 =\mathrm{softmax}(W_2h'_t + b_2) α2?=softmax(W2?ht?+b2?)
網絡結構如下圖所示:
在這里插入圖片描述
特征融合模塊:最后,第一層和第二層LSTM模塊的輸出通過特征融合模塊進行拼接,形成最終的特征表示。具體來說,第一層和第二層的輸出分別乘以對應的注意力權重并求和:
g l o b a l f e a t u r e 1 = ∑ t h t ? α 1 globa{l_{feature1}} =\sum_{t}{h_t} ·α_1 globalfeature1?=t?ht??α1?
g l o b a l f e a t u r e 2 = ∑ t h t ′ ? α 2 globa{l_{feature2}} =\sum_{t}{h}'_t ·α_2 globalfeature2?=t?ht??α2?
通過拼接這兩個全局特征,得到用于分類的綜合特征:
c o m b i n e d f e a t u r e = [ g l o b a l f e a t u r e 1 ; g l o b a l f e a t u r e 2 ] combine{d_{feature}} = [globa{l_{feature1}};globa{l_{feature2}}] combinedfeature?=[globalfeature1?;globalfeature2?]
這些特征通過三層的全連接層進行處理,最終生成分類結果(logits),網絡結構如下圖所示:
在這里插入圖片描述

4.2模型代碼

上述網絡結構我使用pytorch=2.6搭建的,具體實現代碼如下:

class Model(nn.Module):def __init__(self, config):super(Model, self).__init__()# 嵌入層if config.embedding_pretrained is not None:self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)else:self.embedding = nn.Embedding(config.n_vocab, config.embed, padding_idx=config.n_vocab - 1)# 第一層雙向LSTMself.lstm1 = nn.LSTM(config.embed, config.hidden_size, config.num_layers,bidirectional=True, batch_first=True, dropout=config.dropout)self.tanh1 = nn.Tanh()self.attention1 = nn.Linear(config.hidden_size * 2, 1)  # 注意力權重計算# 輸入重加權層self.gate = nn.Sequential(nn.Linear(config.hidden_size * 2, config.hidden_size * 2),nn.Sigmoid())# 第二層雙向LSTMself.lstm2 = nn.LSTM(config.hidden_size * 2, config.hidden_size, config.num_layers,bidirectional=True, batch_first=True, dropout=config.dropout)self.tanh2 = nn.Tanh()self.attention2 = nn.Linear(config.hidden_size * 2, 1)  # 第二層注意力權重計算# 輸出層self.fc = nn.Sequential(nn.Linear(config.hidden_size * 4, config.hidden_size),  # 拼接兩層特征nn.ReLU(),nn.Dropout(config.dropout),nn.Linear(config.hidden_size, config.hidden_size2),nn.ReLU(),nn.Dropout(config.dropout),nn.Linear(config.hidden_size2, config.num_classes))def forward(self, x):x, _ = x# 嵌入層處理emb = self.embedding(x)  # [batch_size, seq_len, embedding_dim]# 第一層LSTM和注意力H1, _ = self.lstm1(emb)  # [batch_size, seq_len, hidden_size*2]M1 = self.tanh1(H1)  # 非線性變換alpha1 = F.softmax(self.attention1(M1), dim=1)  # 注意力權重 [batch_size, seq_len, 1]# 輸入重加權 gate_weights = self.gate(H1)  # 計算門控權重reweighted_input = H1 * gate_weights * alpha1  # 應用門控和注意力權重# 第二層LSTM和注意力H2, _ = self.lstm2(reweighted_input)  # 處理重加權后的輸入M2 = self.tanh2(H2)alpha2 = F.softmax(self.attention2(M2), dim=1)  # 第二層注意力權重# 特征融合 (結合兩層注意力的信息)# 1. 全局特征: 對序列維度求和并池化global_feature1 = torch.sum(H1 * alpha1, dim=1)  # [batch_size, hidden_size*2]global_feature2 = torch.sum(H2 * alpha2, dim=1)  # [batch_size, hidden_size*2]# 2. 拼接兩層特征combined_feature = torch.cat([global_feature1, global_feature2], dim=1)  # [batch_size, hidden_size*4]# 分類輸出logits = self.fc(combined_feature)return logits, (alpha1, alpha2)  # 返回分類結果和兩層注意力權重

4.3 損失函數與優化方法

模型使用交叉熵損失函數(Cross-Entropy Loss)來度量預測結果與真實標簽之間的差異。交叉熵損失函數的公式如下:
L = ? ∑ i = 1 N y i log ? ( p i ) L = - \sum_{i = 1}^{N} y_{i} \log(p_{i}) L=?i=1N?yi?log(pi?)
其中, y i y_i yi?是樣本的真實標簽, p i p_i pi?是模型預測的概率值,N是樣本的數量。

在訓練過程中,采用Adam優化器進行參數更新,學習率設置為,以加速收斂并保持訓練的穩定性。

5. 實驗

5.1 數據集與預處理

本研究使用了LTCR數據集(Long-Text Chinese Rumor Detection),該數據集專門用于長文本假新聞檢測任務。LTCR數據集包含了1729條真實新聞和561條假新聞,其中假新聞的平均長度為153.5個字,顯著高于其他公開數據集中假新聞的長度。該數據集特別適用于中文長文本的假新聞檢測,并且涵蓋了與COVID-19相關的虛假新聞,這為模型的訓練和評估提供了豐富的素材。

數據集按照訓練集:驗證集:測試集 = 3:1:1的比例進行劃分,且無重疊。在數據預處理方面,所有文本被統一處理為256個詞的固定長度(config.pad_size),超出部分會被截斷,不足部分使用填充符進行填充。這確保了所有輸入文本的長度一致,有助于提高模型的訓練效率。

5.2 實驗設置

我在RTX 3050GPU平臺上使用PyTorch 2.6實現我的模型,訓練過程采用小批量方式進行,每個批次包含128個樣本(config.batch_size)。訓練過程中的超參數設置為:優化器:Adam;損失函數:多元交叉熵損失;學習率:1e-3;LSTM隱藏層大小:128;LSTM層數:2;Dropout率:0.5;訓練輪數:20輪;批量大小:128;最大文本長度:256。

實驗過程中,我還采用了提前停止策略,即如果在驗證集上的效果在1000個batch內沒有顯著提升,則提前停止訓練(config.require_improvement)。
同時,為了全面評估模型的性能,我們采用了 準確率、精確率、召回率、F1分數四種常見的分類評估指標。

5.3 實驗結果

在測試集上,我對提出的模型進行了評估,結果如下所示:

類別PrecisionRecallF1-ScoreSupport
fake0.89420.93940.916399
true0.98310.98580.9844353
uncertain0.00000.00000.00006
accuracy--0.9629458
macro avg0.62580.64170.6336458
weighted avg0.95100.96290.9568458

從實驗結果可以看出,我最后訓練的模型在假新聞和真實新聞的分類任務中表現優秀,尤其是在召回率和F1分數上。假新聞類別的精確率為0.8942,召回率為0.9394,顯示了模型能夠有效識別假新聞。對于真實新聞,模型取得了接近完美的分類效果,精確率為0.9831,召回率為0.9858,表明模型能夠高效地識別大部分真實新聞。然而,模型在不確定類別(uncertain)上的表現較差,精確率和召回率均為0,這可能是由于該類別樣本數量極少(僅6個樣本),導致模型未能有效學習該類別的特征。

宏平均(macro avg)和加權平均(weighted avg)指標的結果顯示了模型在多個類別上的整體表現,特別是加權平均的精確率和F1分數接近于1,表明模型在大多數樣本上都取得了較好的分類效果。

5.4 對比分析

為了驗證我提出的模型在假新聞檢測任務中的有效性,我們將其與多個基準模型進行了對比。以下是不同模型在LTCR數據集上的測試結果:

模型準確率 (Accuracy)召回率 (Recall)精確度 (Precision)F1分數 (F1 - score)
TextRCNN94.32%81.82%91.01%84.67%
TextCNN93.89%81.82%89.01%84.08%
Transformer94.10%86.87%86.09%86.61%
DPCNN95.41%87.88%90.62%88.77%
DeBERTa95.66%89.61%92.12%89.73%
DoubleCheck95.85%90.91%90.00%90.60%
My Model96.29%95.09%96.29%95.68%

從表格中可以看出,My Model在所有關鍵評估指標上表現非常優秀,尤其是準確率和F1分數,達到或超過了其他基準模型。

5.5 結果分析與討論

通過實驗結果,可以看到My Model在準確率(96.29%)和F1分數(95.68%)方面明顯優于其他基準模型。這表明,我們的模型在長文本假新聞檢測任務中表現出了強大的優勢,特別是在假新聞(fake)類別的召回率和精確率方面。

我的模型在假新聞的精確率(0.8942)和召回率(0.9394)上均表現出色,顯示了模型在識別假新聞時的高效性。這表明模型能夠有效地識別并且減少假新聞的誤判。在真實新聞的分類上,模型取得了精確率(0.9831)和召回率(0.9858)的良好結果,表明模型能夠準確地將大部分真實新聞正確分類。不確定類別(uncertain)分類的結果較差,精確率和召回率均為0,這可能是由于該類別樣本數量極少(僅6個樣本),導致模型未能有效學習該類別的特征。

為了進一步理解模型的性能,我選取了幾條分類錯誤的樣本并進行了分析。以下是一些常見的分類錯誤原因:

有一些假新聞由于使用了較為客觀和權威的語言描述(如“權威專家稱:新冠病毒是實驗室泄露的,已有多國研究證實這一結論。”),導致模型誤將其分類為真實新聞。例如,一些表面上符合事實的言論,實際上包含了虛假信息或偏見。真實新聞誤分類為假新聞:某些真實新聞內容復雜,可能包含了情感化的詞匯或極端觀點,導致模型誤判為假新聞。

6. 結論

本文提出了一種基于雙層雙向LSTM和輸入重加權模塊的長文本假新聞檢測模型。通過引入注意力機制和輸入重加權模塊,本研究在原有的DoubleCheck模型基礎上進行了創新,顯著提升了模型在長文本假新聞分類任務中的性能。實驗結果表明,My Model在LTCR數據集上表現出色,特別是在假新聞和真實新聞的分類精度、召回率和F1分數上,均超過了其他基準模型,尤其是達到了96.2%的測試準確率和98.44%的F1分數,驗證了模型的有效性。

在假新聞檢測中,模型不僅能夠較好地區分真實新聞和假新聞,還能夠通過重加權機制有效聚焦于長文本中的關鍵特征,提升了模型對假新聞的識別能力。然而,盡管模型在大部分類別上表現優秀,但在不確定類別的分類上仍存在一定不足,這主要是由于該類別樣本數量過少,導致模型未能有效學習到其特征。未來的研究可以通過增加不確定類別的樣本或者探索其他深度學習架構(如Transformer、BERT等)與本模型的結合,進一步優化模型的性能。

本研究提出的模型為假新聞檢測,特別是長文本假新聞檢測提供了一種新的思路和方法,具有較高的應用價值。在實際應用中,該模型可以用于社交媒體平臺、新聞網站等場景,幫助識別和過濾虛假信息,從而提升信息傳播的可信度。

參考文獻

[1] Cui, L., & Lee, D.: CoAID: COVID-19 Healthcare Misinformation Dataset. arXiv:2006.00885 (2020).
[2] Yang, C., Zhou, X., & Zafarani, R.: CHECKED: Chinese COVID-19 Fake News Dataset. Social Network Analysis and Mining, 11(1), 58 (2021).
[3] Ma, Z., Liu, M., Fang, G., & Shen, Y.: LTCR: Long-Text Chinese Rumor Detection Dataset. arXiv:2306.07201v2 (2023).
[4] Gupta, M., Zhao, P., & Han, J.: Evaluating Event Credibility on Twitter. In: SIAM International Conference on Data Mining (2012).
[5] Trivedi, R., Sisman, B., Dong, X.L., et al.: LinkNBed: Multi-Graph Representation Learning with Entity Linkage. Association for Computational Linguistics (2018).
[6] Pérez-Rosas, V., Kleinberg, B., Lefevre, A., Mihalcea, R.: Automatic Detection of Fake News. In: Proceedings of the 2017 IEEE Conference on Natural Language Processing (2017).
[7] Kim, Y.: Convolutional Neural Networks for Sentence Classification. arXiv preprint arXiv:1408.5882 (2014).
[8] Hochreiter, S., & Schmidhuber, J.: Long Short-Term Memory. Neural Computation, 9(8), 1735–1780 (1997).
[9] Vaswani, A., Shazeer, N., Parmar, N., et al.: Attention is All You Need. arXiv preprint arXiv:1706.03762 (2017).

備注

本案例為實驗要求撰寫的小論文,工作在LTCR: Long-Text Chinese Rumor Detection Dataset該論文基礎上完成的,模型結構略有不同,下圖是論文中設計的網絡模型:
在這里插入圖片描述
實驗結果僅供參考,也是本人第一次撰寫類似格式的文章,如有不足,還請指出!完整代碼在本人倉庫:https://github.com/Xiangfei-bit/TextClassification,歡迎點點star!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85699.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85699.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85699.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在 MyBatis 的xml中,什么時候大于號和小于號可以不用轉義

在 MyBatis 中&#xff0c;< 和 > ?在動態 SQL 標簽內部? 無需轉義的功能是在以下版本引入的&#xff1a; &#x1f4cc; 關鍵版本說明 版本支持情況注意事項?MyBatis 3.3.0??? 在 <if>、<where>、<set> 等動態 SQL 標簽內部可直接使用 < 和…

Redis 的穿透、雪崩、擊穿

Redis 的穿透、雪崩、擊穿 1、緩存穿透 定義 緩存穿透是指查詢一個不存在的數據&#xff0c;由于緩存中沒有該數據&#xff0c;每次請求都會直接訪問數據庫&#xff0c;導致數據庫壓力過大 產生原因 惡意攻擊&#xff1a;攻擊者故意請求大量不存在的key&#xff0c;導致請求直…

有道翻譯官手機版:智能翻譯,隨行助手

在當今全球化的時代&#xff0c;語言不再是交流的障礙。無論是學習外語、出國旅游、商務出差還是日常交流&#xff0c;一款高效、準確的翻譯軟件都能成為我們的好幫手。有道翻譯官手機版正是這樣一款功能強大、操作便捷的語言翻譯軟件&#xff0c;它憑借先進的翻譯技術和豐富的…

nuxt3 + vue3 分片上傳組件全解析(大文件分片上傳)

本文將詳細介紹一個基于 Vue.js 的分片上傳組件的設計與實現,該組件支持大文件分片上傳進度顯示等功能。 組件概述 這個上傳組件主要包含以下功能: 支持大文件分片上傳(默認5MB一個分片)支持文件哈希計算,用于文件唯一標識顯示上傳進度(整體和單個文件)支持自定義UI樣…

正則表達式與C++

轉自個人博客 1. 概述 1.1 正則表達式概述 正則表達式&#xff08;Regular Expressions&#xff0c;簡稱 regex&#xff09;是用于匹配文本模式的一種特殊字符序列&#xff0c;其可以用一系列字符來表示出不同文本的對應模式。正則表達式的應用范圍十分廣泛&#xff0c;包括驗…

OpenCV CUDA模塊設備層-----在 GPU上計算反雙曲正切函數atanh()

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 對輸入的 uchar1 像素值&#xff08;范圍 [0, 255]&#xff09;&#xff0c;先歸一化到 [0.0, 1.0] 浮點區間&#xff0c;然后計算其 反雙曲正切…

搶占西南產業高地:入駐成都芯谷金融中心文化科技產業園的價值

入駐成都芯谷金融中心文化科技產業園&#xff0c;對企業而言具有顯著的戰略價值&#xff0c;主要體現在以下幾個方面&#xff1a; 產業聚集效應與協同發展 產業鏈完善&#xff1a;成都芯谷聚焦集成電路、新型顯示、人工智能等核心產業&#xff0c;入駐企業可享受完善的產業鏈…

領域驅動設計(DDD)【2】之項目啟動與DDD基本開發流程

文章目錄 一 項目背景與目標二 核心需求分析初步需求詳細分析需求總結表 三 DDD核心概念與開發流程領域和領域專家領域驅動設計開發流程 四 潛在擴展需求 一 項目背景與目標 項目定位 開發基于SaaS的企業管理系統&#xff0c;聚焦軟件服務企業的細分市場&#xff0c;功能需求包…

深度融合數智化,百勝軟件聯合華為云加速零售行業轉型升級

當前&#xff0c;企業數字化轉型縱深推進&#xff0c;滿足企業數智化全階段、全場景的需求變得尤為關鍵。為此&#xff0c;華為云攜手上萬家伙伴共同發起第三屆828 B2B企業節&#xff0c;依托云底座為企業數智化供需“架橋”“鋪路”&#xff0c;加速企業智改數轉&#xff0c;助…

《HTTP權威指南》 第4章 連接管理

帶著問題學習&#xff08;通常是面試考點&#xff09; HTTP是如何使用TCP連接的TCP連接的時延、瓶頸及存在的障礙HTTP的優化&#xff0c;包括并行連接、keep-alive&#xff08;持久連接&#xff09;和管道化連接管理連接時應該和不應該做的事 TCP連接 TCP的數據通過IP分組&am…

StartUML入門級使用教程——畫Class類圖

一、破解安裝StartUML StarUML建模工具最新版破解安裝詳細教程https://blog.csdn.net/m0_74146638/article/details/148709643?spm1001.2014.3001.5502 二、類圖實戰 1.主界面 ? 默認打開starUML后&#xff0c;會默認進入類圖模式&#xff0c;各模塊區域功能如下&#x…

中科億海微SoM模組——FPGA+DSP核心板

FPGADSP核心板是基于中科億海微EQ6HL130型FPGA芯片搭配國產DSP開發的高性能核心板卡。對外接口采取郵票孔連接方式&#xff0c;可以極大提高信號傳輸質量和焊接后的機械強度。核心板卡的系統框圖如下圖所示。 圖 FPGADSP核心板系統框圖 FPGA采用中科億海微136K LUT資源EQ6HL130…

CentOS 7 虛擬機網絡配置異常 典型問題:啟動了NetworkManager但是network無法啟動

問題背景 在 VMware 虛擬機中使用 CentOS 7 時&#xff0c;出現以下網絡問題&#xff1a; 命令行重啟網絡服務失敗&#xff0c;提示 RTNETLINK answers: File exists 等沖突錯誤圖形界面網絡設置無法打開&#xff0c;提示需要啟動 NetworkManager網卡 ens33 無法獲取 IPv4 地…

細節/數學/滑動窗口

題目意思&#xff1a; 判斷字符串是否可以按照題目條件縮短。 思路&#xff1a; 用棧的思想寫&#xff0c;對每一次的大小寫都進行滾動判斷。 tips&#xff1a; 這里面要注意的東西就有一點多了&#xff0c;首先是字符串的遍歷問題auto更方便&#xff0c;其次是對小寫和大…

WebeServer實現:學到了哪些東西

前言 這里話就是總結一下之前沒講過的一些東西 系統調用 accept與accept4 ??當我們調用accept接收一個新的fd的時候&#xff0c;往往需要在調用fcntl將這個fd變成非阻塞IO,那么有沒有一個系統調用可以一次性做完這兩件事呢&#xff0c;有的有的就是accept4. // accept 函數…

React 虛擬dom

JSX創建出ReactElement對象 最終形成一個JS樹 將React.createElement對象轉為真實DOM的方法使用render函數 為什么要虛擬 dom 狀態難以跟蹤 ## 操作真實dom開銷大 &#xff0c;并且操作會引起頻繁的回流和重繪&#xff0c;并且不涉及批處理 聲明式編程 從虛擬dom向真實dom去…

Spring MVC異常處理機制

Spring MVC提供了多種異常處理機制,以下是核心處理方式及實現方法: 一、局部異常處理(Controller級別) @ExceptionHandler注解 在Controller內部定義異常處理方法,捕獲當前控制器拋出的指定異常。@Controller public class UserController {@GetMapping("/test"…

MySQL 8.x配置MGR高可用+ProxySQL讀寫分離(一):MGR構建MySQL高可用

#作者&#xff1a;stackofumbrella 文章目錄 簡介MGR優點MGR缺點MGR適用場景單主模式和多主模式組復制介紹組復制插件架構圖單主模式多主模式配置主機名解析安裝MGR插件 MGR故障轉移恢復MGR集群 簡介 MGR&#xff08;MySQL Group Replication&#xff09;是MySQL 5.7.17版本誕…

保安員證考試的理論知識部分,重點考查的法律法規具體有哪些?

保安員證考試理論知識部分&#xff0c;重點考查的法律法規主要有以下幾種&#xff1a; 《保安服務管理條例》&#xff1a;作為保安行業的專門法規&#xff0c;是考試核心。重點考查保安服務活動規范&#xff0c;如保安服務的范圍、資質要求等&#xff1b;保安員的權利與義務&am…

【好用但慎用】Windows 系統中將所有 WSL 發行版從 C 盤遷移到 非系統 盤的完整筆記(附 異常處理)

&#x1f680; 將所有 WSL 發行版從 C 盤遷移到 I 盤的完整教程&#xff08;含 Podman / NVIDIA Workbench / Ubuntu 等&#xff09; 【無標題】使用 Chocolatey 安裝 WSL 管理工具 LxRunOffline-CSDN博客 免責聲明 重要提示 在執行 WSL 遷移操作前&#xff0c;請務必仔細閱讀…