基于雙層注意力重加權 LSTM 的中文長文本謠言檢測模型

文章目錄

1.摘要
2.介紹
3.相關工作
- 3.1 假新聞檢測數據集
- 3.2 假新聞檢測方法
- 3.3 長文本假新聞檢測的挑戰與進展
- 3.4 與現有方法的區別
4.方法
- 4.1 模型結構
- 4.2模型代碼
- 4.3 損失函數與優化方法
5. 實驗
- 5.1 數據集與預處理
- 5.2 實驗設置
- 5.3 實驗結果
- 5.4 對比分析
- 5.5 結果分析與討論
6. 結論
參考文獻
備注

1.摘要

虛假信息在社交媒體上傳播迅速，會對公眾的行為及對社會事件的反應產生負面影響。長文本假新聞由于信息復雜，難以全面識別，現有的檢測方法存在不足。針對上述現象，本文提出一種基于雙層注意力重加權的長文本謠言檢測模型。模型采用雙層雙向 LSTM 架構，通過第一層 LSTM 提取基礎語義特征并結合 Tanh 非線性變換與線性層計算詞級注意力權重定位關鍵區域；第二層 LSTM 以 Sigmoid 門控網絡生成的動態特征權重與第一層注意力權重重加權后的特征為輸入，進一步強化深層語義關聯；最終拼接兩層注意力的全局池化特征，經多層全連接網絡完成分類。在 LTCR 長文本中文謠言數據集（含 1,729 條真實新聞與 561 條假新聞）上，模型表現優異：整體準確率達 96.29%，假新聞召回率高達 93.94%，加權平均 F1 值為 0.9568，達到了業內領先水平。完整代碼可在https://github.com/Xiangfei-bit/TextClassification獲取。

2.介紹

在社交媒體高度普及的數字時代，長文本謠言的傳播已成為公共信息治理的核心挑戰。與短文本謠言相比，長文本謠言（如“某專家稱新冠疫苗存在長期副作用”類偽科學論述）通過復雜敘事、多維度誤導性陳述和隱蔽的邏輯漏洞，更易引發公眾信任危機，尤其在醫療健康領域，可能直接影響患者治療選擇與公共衛生政策執行（如拒絕接種疫苗）。據《2023年中國網絡謠言治理報告》統計，醫療健康類謠言中，長文本占比已達37.2%，但現有檢測模型對其漏檢率仍高于短文本謠言12.3%，亟需針對性技術突破。

現有研究在長文本謠言檢測中面臨雙重瓶頸：一方面，數據層面，主流中文謠言數據集（如CHECKED、DXY-COVID-Rumor）以短文本為主（平均長度＜150字），缺乏對長文本場景的覆蓋，導致模型訓練時“見短不見長”；另一方面，模型層面，傳統方法（如TextRNN+Attn）依賴循環神經網絡，在處理超200字文本時因梯度消失問題難以捕捉長距離語義關聯；而基于Transformer的模型雖能緩解此問題，卻因自注意力機制的全局計算特性，易受長文本中冗余信息干擾，導致關鍵證據（如謠言核心誤導句）的定位精度下降。此外，現有模型普遍缺乏對動態特征篩選的設計，難以模擬人類閱讀時“聚焦-驗證”的認知過程，進一步限制了長文本檢測性能。

針對上述挑戰，本文提出一種基于雙層注意力重加權的長文本謠言檢測模型。其核心創新體現在三方面：
（1）層級化注意力機制：通過雙層雙向LSTM分別提取基礎語義與深層關聯特征，結合詞級與句級注意力權重，精準定位長文本中的關鍵誤導區域；
（2）動態重加權模塊：引入Sigmoid門控網絡生成可學習的特征權重，與第一層注意力權重協同作用，抑制冗余信息并放大關鍵證據，模擬人類閱讀時的“聚焦”行為；
（3）多特征融合策略：拼接兩層注意力的全局池化特征，通過多層全連接網絡增強對復雜語義的表達能力，解決長文本中信息稀釋導致的分類邊界模糊問題。
本文后續結構如下：第3節綜述相關工作；第4節詳細描述模型架構；第5節介紹實驗設計與結果分析；第6節總結研究局限并展望未來方向。

3.相關工作

假新聞檢測任務作為自然語言處理（NLP）領域中的一項重要任務，近年來在社交媒體的廣泛應用背景下引起了極大關注。尤其是在COVID-19疫情期間，假新聞的傳播不僅影響公眾的情緒，還可能對公共健康產生嚴重后果。因此，開發高效的假新聞檢測方法變得尤為重要。假新聞檢測的研究可以大致分為兩類：短文本假新聞檢測和長文本假新聞檢測。本文主要聚焦于長文本假新聞的檢測，特別是中文長文本中的假新聞識別。

3.1 假新聞檢測數據集

在假新聞檢測任務中，數據集的構建是至關重要的。許多已有的假新聞數據集主要針對短文本，而針對長文本的高質量數據集相對較少。CoAID數據集[1]由Cui和Lee提出，包含926條關于COVID-19的英文社交媒體帖子，其中包括真實和虛假的新聞。然而，數據集的長度較短，且主要面向英語社交平臺。針對中文數據，CHECKED數據集[2]是目前較為廣泛使用的中文假新聞數據集之一，包含了344條假新聞和1760條真實新聞，收集自微博等平臺。盡管CHECKED數據集為中文假新聞檢測提供了重要數據來源，但假新聞的數量較少且大多為短文本，導致其在處理長文本時的表現受限。
為了彌補這一缺陷，LTCR（Long-Text Chinese Rumor Detection）數據集應運而生。該數據集包含1729條真實新聞和561條假新聞，假新聞的平均長度為153.5個字，顯著高于現有其他數據集中假新聞的長度。LTCR數據集的提出，為中文長文本假新聞檢測提供了寶貴的資源，尤其是針對COVID-19相關的假新聞[3]。

3.2 假新聞檢測方法

目前的假新聞檢測方法大致可以分為基于傳播、基于知識和基于語義的三種方法。
①　基于傳播的假新聞檢測方法：這種方法主要通過分析新聞的傳播模式來判斷其真實性。例如，Gupta等人[4]提出了一種基于社交媒體傳播路徑的假新聞檢測方法，能夠通過分析用戶之間的互動關系來判斷新聞的可靠性。然而，這種方法依賴于新聞傳播歷史，在沒有明確傳播路徑的情況下，其效果較為有限。
②　基于知識的假新聞檢測方法：這種方法通過比對外部知識庫中的事實信息來驗證新聞的真偽。Trivedi等人[5]提出使用實體解析技術，比較待驗證新聞與真實新聞中的實體信息，進而判斷新聞的真假。這類方法能夠提供更為堅實的證據，但也存在依賴大量外部知識庫和高計算成本的問題。
③　基于語義的假新聞檢測方法：語義分析是目前最為常見的假新聞檢測方法，尤其是基于深度學習的模型。例如，Pérez-Rosas等人[6]利用SVM和隨機森林對新聞文本進行分類，而近年來，基于深度學習的模型，如Text-CNN[7]、LSTM[8]、Transformer[9]等，取得了顯著的成果。特別是LSTM和雙向LSTM（Bi-LSTM）模型，它們在處理長文本時能夠捕捉到文本中的長期依賴關系，表現出了優越的性能。

3.3 長文本假新聞檢測的挑戰與進展

盡管現有方法在短文本假新聞檢測中取得了較好的效果，但在長文本的假新聞檢測中，尤其是中文長文本的檢測中，仍然面臨一些挑戰。長文本包含的信息量較大，如何從中提取出關鍵信息成為了一個重要問題。傳統的假新聞檢測方法往往無法充分利用長文本中的深層特征，這限制了它們在長文本假新聞檢測中的表現。

為了解決這一問題，近年來出現了一些創新方法，尤其是在輸入重加權和注意力機制方面。例如，DoubleCheck模型[3]引入了注意力機制和雙層LSTM結構，通過對長文本進行逐步處理和特征加權，從而提升了假新聞的檢測能力。然而，該模型在處理長文本時仍存在一定的局限性，尤其是在召回率（Recall）和F-score方面。

3.4 與現有方法的區別

與現有的假新聞檢測方法相比，本文提出的模型在DoubleCheck模型的基礎上進行了改進，核心創新體現在以下幾個方面：
①　輸入重加權模塊的優化：我們在DoubleCheck的輸入重加權模塊基礎上引入了門控機制，通過對LSTM層輸出的加權調整，動態調整輸入特征的權重，使得模型更加關注長文本中的關鍵信息。實驗結果表明，該改進有效提升了模型在長文本假新聞檢測中的表現，特別是在提高召回率和F-score方面。
②　雙層LSTM與注意力機制結合：我們在DoubleCheck的基礎上，設計了雙層LSTM結構，通過多層次的文本特征提取和注意力加權，進一步提升了模型的長文本理解能力。與現有的模型相比，這一改進使得我們的模型能夠更好地處理復雜的文本信息，尤其是在假新聞的識別上具有更高的準確性和召回率。
③　全局特征融合：通過對兩層LSTM輸出的全局特征進行拼接和融合，我們在分類層輸入了更多的上下文信息，這幫助模型更全面地理解長文本內容，從而提高了分類性能。

通過上述創新，我們的模型在LTCR數據集上的實驗結果顯示出比DoubleCheck更優的性能，特別是在假新聞的召回率和F-score方面有顯著提升。

4.方法

本文提出的模型在原有DoubleCheck模型基礎上進行了改進，結合了雙層雙向LSTM和輸入重加權模塊，并加入了注意力機制，增強了長文本假新聞的檢測能力。本部分將簡要介紹模型的核心結構及其實現過程。

4.1 模型結構

模型由三個主要部分組成：第一層LSTM模塊、第二層LSTM模塊和特征融合模塊。

第一層LSTM模塊：輸入的文本數據經過嵌入層后，首先進入第一層LSTM模塊。該模塊使用雙向LSTM結構，能夠同時捕捉前向和后向的上下文信息，提取文本的初步特征。雙向LSTM的計算過程如下：
$\overrightarrow{h_t} =\mathrm{LSTM}(\overrightarrow{{h_{t - 1}}},x_t)$
$\overleftarrow{h_t} =\mathrm{LSTM}(\overleftarrow{{h_{t + 1}}},x_t)$
$\ h_t = [\overrightarrow{h_t}; \overleftarrow{h_t}]$

其中， $\overrightarrow{h_t}$ 和 $\overleftarrow{h_t}$ 分別表示雙向LSTM的前向和后向隱藏狀態， $x_t$ 表示當前時間步的輸入， $h_t$ 是當前時間步的最終隱藏狀態，拼接后的隱藏狀態包含了前向和后向的上下文信息。
在該模塊中，注意力機制（attention1）通過計算權重 $α_1$ 來動態選擇重要特征：
$α_1 =\mathrm{softmax}(W_1h_t + b_1)$

其中， $W_1$ 是學習的權重矩陣， $b_1$ 是偏置項， $α_1$ 是計算出的注意力權重。網絡結構如下圖所示：
在這里插入圖片描述
第二層LSTM模塊：第一層LSTM模塊的輸出將經過重加權（通過輸入重加權模塊），然后傳遞給第二層LSTM模塊。第二層LSTM進一步提取經過加權后的特征，并通過第二層的注意力機制（attention2）進行加權，優化特征表示。類似于第一層LSTM，第二層LSTM也通過以下公式計算隱藏狀態：

$\overrightarrow{h'_t} =\mathrm{LSTM}(\overrightarrow{{h'_{t - 1}}},x_t)$
$\overleftarrow{h'_t} =\mathrm{LSTM}(\overleftarrow{{h'_{t + 1}}},x_t)$
$\ h_t = [\overrightarrow{h'_t}; \overleftarrow{h'_t}]$
然后，第二層的注意力權重 $\alpha_2$ 通過以下公式計算：
$α_2 =\mathrm{softmax}(W_2h'_t + b_2)$
網絡結構如下圖所示：
在這里插入圖片描述
特征融合模塊：最后，第一層和第二層LSTM模塊的輸出通過特征融合模塊進行拼接，形成最終的特征表示。具體來說，第一層和第二層的輸出分別乘以對應的注意力權重并求和：
$globa{l_{feature1}} =\sum_{t}{h_t} ·α_1$
$globa{l_{feature2}} =\sum_{t}{h}'_t ·α_2$
通過拼接這兩個全局特征，得到用于分類的綜合特征：
$combine{d_{feature}} = [globa{l_{feature1}};globa{l_{feature2}}]$
這些特征通過三層的全連接層進行處理，最終生成分類結果（logits），網絡結構如下圖所示：
在這里插入圖片描述

4.2模型代碼

上述網絡結構我使用pytorch=2.6搭建的，具體實現代碼如下：

class Model(nn.Module):def __init__(self, config):super(Model, self).__init__()# 嵌入層if config.embedding_pretrained is not None:self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)else:self.embedding = nn.Embedding(config.n_vocab, config.embed, padding_idx=config.n_vocab - 1)# 第一層雙向LSTMself.lstm1 = nn.LSTM(config.embed, config.hidden_size, config.num_layers,bidirectional=True, batch_first=True, dropout=config.dropout)self.tanh1 = nn.Tanh()self.attention1 = nn.Linear(config.hidden_size * 2, 1)  # 注意力權重計算# 輸入重加權層self.gate = nn.Sequential(nn.Linear(config.hidden_size * 2, config.hidden_size * 2),nn.Sigmoid())# 第二層雙向LSTMself.lstm2 = nn.LSTM(config.hidden_size * 2, config.hidden_size, config.num_layers,bidirectional=True, batch_first=True, dropout=config.dropout)self.tanh2 = nn.Tanh()self.attention2 = nn.Linear(config.hidden_size * 2, 1)  # 第二層注意力權重計算# 輸出層self.fc = nn.Sequential(nn.Linear(config.hidden_size * 4, config.hidden_size),  # 拼接兩層特征nn.ReLU(),nn.Dropout(config.dropout),nn.Linear(config.hidden_size, config.hidden_size2),nn.ReLU(),nn.Dropout(config.dropout),nn.Linear(config.hidden_size2, config.num_classes))def forward(self, x):x, _ = x# 嵌入層處理emb = self.embedding(x)  # [batch_size, seq_len, embedding_dim]# 第一層LSTM和注意力H1, _ = self.lstm1(emb)  # [batch_size, seq_len, hidden_size*2]M1 = self.tanh1(H1)  # 非線性變換alpha1 = F.softmax(self.attention1(M1), dim=1)  # 注意力權重 [batch_size, seq_len, 1]# 輸入重加權 gate_weights = self.gate(H1)  # 計算門控權重reweighted_input = H1 * gate_weights * alpha1  # 應用門控和注意力權重# 第二層LSTM和注意力H2, _ = self.lstm2(reweighted_input)  # 處理重加權后的輸入M2 = self.tanh2(H2)alpha2 = F.softmax(self.attention2(M2), dim=1)  # 第二層注意力權重# 特征融合 (結合兩層注意力的信息)# 1. 全局特征: 對序列維度求和并池化global_feature1 = torch.sum(H1 * alpha1, dim=1)  # [batch_size, hidden_size*2]global_feature2 = torch.sum(H2 * alpha2, dim=1)  # [batch_size, hidden_size*2]# 2. 拼接兩層特征combined_feature = torch.cat([global_feature1, global_feature2], dim=1)  # [batch_size, hidden_size*4]# 分類輸出logits = self.fc(combined_feature)return logits, (alpha1, alpha2)  # 返回分類結果和兩層注意力權重

4.3 損失函數與優化方法

模型使用交叉熵損失函數（Cross-Entropy Loss）來度量預測結果與真實標簽之間的差異。交叉熵損失函數的公式如下：
$\sum_{i = 1}^{N} y_{i} \log(p_{i})$
其中， $y_i$ 是樣本的真實標簽， $p_i$ 是模型預測的概率值，N是樣本的數量。

在訓練過程中，采用Adam優化器進行參數更新，學習率設置為，以加速收斂并保持訓練的穩定性。

5. 實驗

5.1 數據集與預處理

本研究使用了LTCR數據集（Long-Text Chinese Rumor Detection），該數據集專門用于長文本假新聞檢測任務。LTCR數據集包含了1729條真實新聞和561條假新聞，其中假新聞的平均長度為153.5個字，顯著高于其他公開數據集中假新聞的長度。該數據集特別適用于中文長文本的假新聞檢測，并且涵蓋了與COVID-19相關的虛假新聞，這為模型的訓練和評估提供了豐富的素材。

數據集按照訓練集：驗證集：測試集 = 3：1：1的比例進行劃分，且無重疊。在數據預處理方面，所有文本被統一處理為256個詞的固定長度（config.pad_size），超出部分會被截斷，不足部分使用填充符進行填充。這確保了所有輸入文本的長度一致，有助于提高模型的訓練效率。

5.2 實驗設置

我在RTX 3050GPU平臺上使用PyTorch 2.6實現我的模型，訓練過程采用小批量方式進行，每個批次包含128個樣本（config.batch_size）。訓練過程中的超參數設置為：優化器：Adam；損失函數：多元交叉熵損失；學習率：1e-3；LSTM隱藏層大小：128；LSTM層數：2；Dropout率：0.5；訓練輪數：20輪；批量大小：128；最大文本長度：256。

實驗過程中，我還采用了提前停止策略，即如果在驗證集上的效果在1000個batch內沒有顯著提升，則提前停止訓練（config.require_improvement）。
同時，為了全面評估模型的性能，我們采用了準確率、精確率、召回率、F1分數四種常見的分類評估指標。

5.3 實驗結果

在測試集上，我對提出的模型進行了評估，結果如下所示：

類別	Precision	Recall	F1-Score	Support
fake	0.8942	0.9394	0.9163	99
true	0.9831	0.9858	0.9844	353
uncertain	0.0000	0.0000	0.0000	6
accuracy	-	-	0.9629	458
macro avg	0.6258	0.6417	0.6336	458
weighted avg	0.9510	0.9629	0.9568	458

從實驗結果可以看出，我最后訓練的模型在假新聞和真實新聞的分類任務中表現優秀，尤其是在召回率和F1分數上。假新聞類別的精確率為0.8942，召回率為0.9394，顯示了模型能夠有效識別假新聞。對于真實新聞，模型取得了接近完美的分類效果，精確率為0.9831，召回率為0.9858，表明模型能夠高效地識別大部分真實新聞。然而，模型在不確定類別（uncertain）上的表現較差，精確率和召回率均為0，這可能是由于該類別樣本數量極少（僅6個樣本），導致模型未能有效學習該類別的特征。

宏平均（macro avg）和加權平均（weighted avg）指標的結果顯示了模型在多個類別上的整體表現，特別是加權平均的精確率和F1分數接近于1，表明模型在大多數樣本上都取得了較好的分類效果。

5.4 對比分析

為了驗證我提出的模型在假新聞檢測任務中的有效性，我們將其與多個基準模型進行了對比。以下是不同模型在LTCR數據集上的測試結果：

模型	準確率 (Accuracy)	召回率 (Recall)	精確度 (Precision)	F1分數 (F1 - score)
TextRCNN	94.32%	81.82%	91.01%	84.67%
TextCNN	93.89%	81.82%	89.01%	84.08%
Transformer	94.10%	86.87%	86.09%	86.61%
DPCNN	95.41%	87.88%	90.62%	88.77%
DeBERTa	95.66%	89.61%	92.12%	89.73%
DoubleCheck	95.85%	90.91%	90.00%	90.60%
My Model	96.29%	95.09%	96.29%	95.68%

從表格中可以看出，My Model在所有關鍵評估指標上表現非常優秀，尤其是準確率和F1分數，達到或超過了其他基準模型。

5.5 結果分析與討論

通過實驗結果，可以看到My Model在準確率（96.29%）和F1分數（95.68%）方面明顯優于其他基準模型。這表明，我們的模型在長文本假新聞檢測任務中表現出了強大的優勢，特別是在假新聞（fake）類別的召回率和精確率方面。

我的模型在假新聞的精確率（0.8942）和召回率（0.9394）上均表現出色，顯示了模型在識別假新聞時的高效性。這表明模型能夠有效地識別并且減少假新聞的誤判。在真實新聞的分類上，模型取得了精確率（0.9831）和召回率（0.9858）的良好結果，表明模型能夠準確地將大部分真實新聞正確分類。不確定類別（uncertain）分類的結果較差，精確率和召回率均為0，這可能是由于該類別樣本數量極少（僅6個樣本），導致模型未能有效學習該類別的特征。

為了進一步理解模型的性能，我選取了幾條分類錯誤的樣本并進行了分析。以下是一些常見的分類錯誤原因：

有一些假新聞由于使用了較為客觀和權威的語言描述（如“權威專家稱：新冠病毒是實驗室泄露的，已有多國研究證實這一結論。”），導致模型誤將其分類為真實新聞。例如，一些表面上符合事實的言論，實際上包含了虛假信息或偏見。真實新聞誤分類為假新聞：某些真實新聞內容復雜，可能包含了情感化的詞匯或極端觀點，導致模型誤判為假新聞。

6. 結論

本文提出了一種基于雙層雙向LSTM和輸入重加權模塊的長文本假新聞檢測模型。通過引入注意力機制和輸入重加權模塊，本研究在原有的DoubleCheck模型基礎上進行了創新，顯著提升了模型在長文本假新聞分類任務中的性能。實驗結果表明，My Model在LTCR數據集上表現出色，特別是在假新聞和真實新聞的分類精度、召回率和F1分數上，均超過了其他基準模型，尤其是達到了96.2%的測試準確率和98.44%的F1分數，驗證了模型的有效性。

在假新聞檢測中，模型不僅能夠較好地區分真實新聞和假新聞，還能夠通過重加權機制有效聚焦于長文本中的關鍵特征，提升了模型對假新聞的識別能力。然而，盡管模型在大部分類別上表現優秀，但在不確定類別的分類上仍存在一定不足，這主要是由于該類別樣本數量過少，導致模型未能有效學習到其特征。未來的研究可以通過增加不確定類別的樣本或者探索其他深度學習架構（如Transformer、BERT等）與本模型的結合，進一步優化模型的性能。

本研究提出的模型為假新聞檢測，特別是長文本假新聞檢測提供了一種新的思路和方法，具有較高的應用價值。在實際應用中，該模型可以用于社交媒體平臺、新聞網站等場景，幫助識別和過濾虛假信息，從而提升信息傳播的可信度。

參考文獻

[1] Cui, L., & Lee, D.: CoAID: COVID-19 Healthcare Misinformation Dataset. arXiv:2006.00885 (2020).
[2] Yang, C., Zhou, X., & Zafarani, R.: CHECKED: Chinese COVID-19 Fake News Dataset. Social Network Analysis and Mining, 11(1), 58 (2021).
[3] Ma, Z., Liu, M., Fang, G., & Shen, Y.: LTCR: Long-Text Chinese Rumor Detection Dataset. arXiv:2306.07201v2 (2023).
[4] Gupta, M., Zhao, P., & Han, J.: Evaluating Event Credibility on Twitter. In: SIAM International Conference on Data Mining (2012).
[5] Trivedi, R., Sisman, B., Dong, X.L., et al.: LinkNBed: Multi-Graph Representation Learning with Entity Linkage. Association for Computational Linguistics (2018).
[6] Pérez-Rosas, V., Kleinberg, B., Lefevre, A., Mihalcea, R.: Automatic Detection of Fake News. In: Proceedings of the 2017 IEEE Conference on Natural Language Processing (2017).
[7] Kim, Y.: Convolutional Neural Networks for Sentence Classification. arXiv preprint arXiv:1408.5882 (2014).
[8] Hochreiter, S., & Schmidhuber, J.: Long Short-Term Memory. Neural Computation, 9(8), 1735–1780 (1997).
[9] Vaswani, A., Shazeer, N., Parmar, N., et al.: Attention is All You Need. arXiv preprint arXiv:1706.03762 (2017).

備注

本案例為實驗要求撰寫的小論文，工作在LTCR: Long-Text Chinese Rumor Detection Dataset該論文基礎上完成的，模型結構略有不同，下圖是論文中設計的網絡模型：
在這里插入圖片描述
實驗結果僅供參考，也是本人第一次撰寫類似格式的文章，如有不足，還請指出！完整代碼在本人倉庫：https://github.com/Xiangfei-bit/TextClassification，歡迎點點star!