目錄
- 第一章 STS(語義文本相似度) (重點)
- 一、SemEval STS 年度任務(2012-2017)
- 1. SemEval-2012 STS
- 2. SemEval-2013 STS
- 3. SemEval-2014 STS
- 4. SemEval-2015 STS
- 5. SemEval-2016 STS
- 6. SemEval-2017 STS
- 二、STS Benchmark(2017)
- 三、跨語言 STS(XSTS)
- 1. XSTS-2016
- 2. XLM-TSV
- 四、領域專用 STS 數據集
- 1. 醫療 STS(MedSTS)
- 2. 法律 STS(Legal-STS)
- 五、其他衍生數據集
- 1. SICK 數據集
- 2. MRPC(Microsoft Research Paraphrase Corpus)
- 第二章 文本聚類任務:
- 一、通用文本聚類數據集
- 1. 20 Newsgroups
- 2. Reuters-21578
- 3. Amazon Product Reviews
- 二、領域特定聚類數據集
- 1. BBC News
- 2. ArXiv論文摘要(CS子集)
- 3. COVID-19開放研究數據集
- 三、多語言聚類數據集
- 1. Multi-Domain Sentiment Dataset (MDSD)
- 2. THUCNews(中文)
- 四、聚類評估數據集(帶真實標簽)
- 第三章 無監督訓練數據集:
- 1. Wikipedia 語料庫(訓練)
- 2. Common Crawl
- 3. BookCorpus
- 4. Project Gutenberg
- 5. OpenWebText(補充推薦)
- 第四章 情感分析任務:
- 1.MR (Movie Reviews)(重要)
- 2.CR (Customer Reviews)(重要)
- 3.SST (Stanford Sentiment Treebank)(重要)
- 4.Tweet (Twitter Sentiment Analysis)
- 第五章 文本立場/主觀性分類(Subjectivity/Stance)
- 1.SUBJ (Subjectivity Dataset)(重要)
- 2.MPQA (MPQA Opinion Corpus)(重要)
- 第六章 問答與語義相似度(QA & Semantic Similarity)
- 1.TREC (TREC Question Classification)(重要)
- 2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
- 3.SS (Semantic Similarity)
- 第七章 新聞與長文本分類(News & Long-Text)
- 1.AG (AG News)
- 2.G-T (Gutenberg-Times Corpus)
- 3.G-TS (Gutenberg-Times with Timestamps)
- 第八章 領域特定分類(Domain-Specific)
- 1.Bio (BioText)
- 2.Go-S (Gene Ontology Sentences)
- 3.SO (Stack Overflow)
- 4.TC (Text Classification, 如新聞分類)
- 5.BS (可能為Bias Summarization或Book Summaries)
- 第九章 句法與語法分析
- 1.TreeD (Treebank Data, 如Penn Treebank)
- 2.Tense
- 3.CoordI (Coordination Identification)
- 第十章 詞匯與語義任務
- 1.WC (可能為Word Classification或Word Context)
- 2.SubjN/ObjN (Subjective/Object Nouns)
- 3.SOMO (可能為Semantic Orientation)
- 第十一章、自然語言推理(NLI)
- 1. SNLI (Stanford NLI)(重點)
- 2. MultiNLI
- 3. XNLI
第一章 STS(語義文本相似度) (重點)
是自然語言處理中的核心任務,目標是衡量兩個文本片段(句子或短語)在語義上的相似程度,輸出范圍為 0
(完全不相關)到 5
(完全等價)。
一、SemEval STS 年度任務(2012-2017)
每年任務通常包含 訓練集(Train) 和 測試集(Test),部分年份提供 開發集(Dev)。以下是具體劃分:
1. SemEval-2012 STS
- 訓練集:無官方訓練集(依賴外部數據或遷移學習)。
- 測試集:約 3,000 對句子(英語 + 西班牙語)。
- 領域:新聞標題、機器翻譯輸出。
- 語言:英語、西班牙語
- 特點:首次引入跨語言相似度任務。
2. SemEval-2013 STS
- 訓練集:約 1,500 對句子(英語 + 西班牙語)。
- 測試集:約 2,000 對句子(新增阿拉伯語)。
- 領域:新聞、論壇討論。
- 語言:英語、西班牙語、阿拉伯語
- 創新:增加阿拉伯語支持。
3. SemEval-2014 STS
- 訓練集:約 4,500 對句子(英語 + 西班牙語)。
- 測試集:約 3,750 對句子(含圖像描述對)。
- 領域:新聞標題、Flickr30K 圖像描述。
- 語言:英語、西班牙語
- 亮點:引入圖像描述對(文本-圖像跨模態關聯)。
4. SemEval-2015 STS
- 訓練集:約 8,000 對句子(英語 + 西班牙語)。
- 測試集:約 1,000 對句子。
- 領域:新聞、論壇、問答對。
- 語言:英語、西班牙語
- 數據量:約 9,000 對句子(含訓練集和測試集)。
5. SemEval-2016 STS
- 訓練集:約 6,000 對句子(英語 + 阿拉伯語)。
- 測試集:約 1,200 對句子。
- 領域:新聞標題、學術文本。
- 語言:英語、阿拉伯語
- 挑戰:處理復雜句式(如否定、比喻)。
6. SemEval-2017 STS
- 訓練集:約 5,000 對句子(英語 + 西班牙語 + 阿拉伯語)。
- 測試集:約 1,500 對句子。
- 語言:英語、西班牙語、阿拉伯語
- 領域:新聞、社交媒體、問答對
- 遺產:成為后續研究的基準參考。
二、STS Benchmark(2017)
- 訓練集:5,499 對句子(來自 SemEval 2012-2016 的混合數據)。
- 開發集:500 對句子(用于調參)。
- 測試集:1,379 對句子(來自 SemEval 2017)。
- 評分范圍:0-5 分(連續值)。
- 用途:BERT、RoBERTa 等模型的通用評估基準。
- 定位:標準化評估集(非年度任務)
- 數據量:5,749 對句子(訓練集 5,499 / 開發集 500 / 測試集 1,379)
- 領域:新聞標題、論壇討論、圖像描述、問答對
三、跨語言 STS(XSTS)
1. XSTS-2016
- 訓練集:3,000 對句子(英語-西班牙語對齊)。
- 測試集:1,000 對句子。
- 評分:人工標注 0-5 分。
- 任務目標:跨語言語義相似度(如英語-西班牙語)
- 語言:英語-西班牙語對齊句子對。
- 應用:評估跨語言嵌入模型(如 LASER、mBERT)。
2. XLM-TSV
- 訓練集:50,000 對句子(多語言混合)。
- 測試集:10,000 對句子(覆蓋 15 種語言)。
- 特點:自動生成 + 人工修正。
- 語言:多語言擴展(英語、德語、法語等)
四、領域專用 STS 數據集
1. 醫療 STS(MedSTS)
- 訓練集:800 對臨床文本。
- 測試集:200 對句子。
- 評分:醫生標注 0-5 分。
- 領域:臨床文本
- 數據量:約 1,000 對句子
2. 法律 STS(Legal-STS)
- 訓練集:600 對法律條款。
- 測試集:200 對句子。
- 挑戰:長文本(平均 50 詞/句)。
- 領域:法律條款、合同
- 數據量:約 800 對句子
- 挑戰:專業術語和長文本匹配。
五、其他衍生數據集
1. SICK 數據集
- 訓練集:4,500 對句子。
- 開發集:500 對句子。
- 測試集:4,927 對句子。
- 標簽:語義關聯度(1-5 分) + 關系標簽(蘊含/矛盾/中立)。
- 領域:常識推理
- 數據量:10,000 對句子
- 特點:包含語義關聯、矛盾、中立標簽。
2. MRPC(Microsoft Research Paraphrase Corpus)
- 訓練集:4,076 對句子。
- 測試集:1,725 對句子。
- 標簽:二分類(1=復述,0=非復述)。
- 任務:二分類(是否為復述)
- 數據量:5,800 對句子
- 用途:復述檢測基準(STS 的簡化版)。
第二章 文本聚類任務:
一、通用文本聚類數據集
1. 20 Newsgroups
-
內容:約20,000篇新聞組文檔,分為20個主題(如計算機、宗教、體育等)。
-
特點:主題明確,適合驗證聚類算法對粗粒度類別的區分能力。
-
官方劃分:
- 訓練集:11,314篇(按日期早于測試集的文檔劃分)。
- 測試集:7,532篇。
-
類別分布:每個類別在訓練集和測試集中均勻分布(約600-700篇/類)。
-
注意事項:實際聚類任務中通常合并全部數據(無監督學習),但可用測試集標簽評估聚類效果。
-
獲取:
通過:
scikit-learn
直接加載:
from sklearn.datasets import fetch_20newsgroups data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
2. Reuters-21578
-
內容:路透社新聞文檔,包含90個類別(如金融、貿易、農業)。
-
特點:部分文檔有多個標簽,適合多類別聚類或層次聚類。
-
獲取:通過 Kaggle 或
nltk.corpus.reuters
下載。 -
常用劃分(ModApte Split):
- 訓練集:7,769篇(僅包含至少被標注1個類別的文檔)。
- 測試集:3,019篇。
-
類別分布:高度不均衡(如
earn
類占40%+),需注意長尾問題。 -
獲取代碼
from nltk.corpus import reuters train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769] # 示例篩選
3. Amazon Product Reviews
- 內容:亞馬遜商品評論,包含評分(1-5星)和產品類別(如電子產品、圖書)。
- 特點:適合情感聚類(如正向/負向評論)或跨品類聚類。
- 獲取:Amazon Review Data (2018)(需遵守使用協議)。
- 無官方劃分:需自定義(如按時間劃分或隨機采樣)。
- 建議比例:
- 訓練集:80%(用于生成嵌入或特征)。
- 測試集:20%(評估聚類泛化性,需保留真實標簽)。
- 領域適應:可跨品類劃分(如訓練集用電子產品,測試集用圖書評論)。
二、領域特定聚類數據集
1. BBC News
- 內容:2,225篇BBC新聞文章,分為5類(商業、娛樂、政治、體育、科技)。
- 特點:短文本,類別平衡,適合小規模聚類實驗。
- 獲取:Kaggle鏈接。
- 官方劃分:無固定劃分,需隨機分割。
- 典型用法:
- 訓練集:1,600篇(80%)。
- 測試集:400篇(20%)。
- 類別平衡:每類約320-400篇(訓練集),80-100篇(測試集)。
2. ArXiv論文摘要(CS子集)
- 內容:計算機科學領域的論文摘要,可自定義類別(如AI、數據庫、算法)。
- 特點:學術長文本,適合主題建模與細粒度聚類。
- 獲取:通過 arXiv API 爬取或使用預處理的 Hugging Face Datasets。
- 時間劃分:按論文發表年份劃分(如2010-2018為訓練集,2019-2020為測試集)。
- 動態主題挑戰:測試集可能包含新術語(如“GPT-4”),考驗聚類模型泛化能力。
3. COVID-19開放研究數據集
- 內容:醫學論文摘要,涉及病毒傳播、疫苗研發等主題。
- 特點:專業術語多,適合領域自適應聚類。
- 獲取:CORD-19 Dataset。
- 劃分建議:按研究主題(如訓練集含“病毒傳播”,測試集含“疫苗副作用”)。
- 數據量:約400,000篇(持續更新),需過濾低質量文本。
三、多語言聚類數據集
1. Multi-Domain Sentiment Dataset (MDSD)
- 內容:商品評論(英文、德文、法文),包含4個領域(圖書、DVD、電子產品、廚房用品)。
- 特點:跨語言與跨領域聚類任務。
- 獲取:MDSD官網。
- 官方劃分:按語言和領域獨立劃分(如英文電子產品評論為訓練集,法文圖書評論為測試集)。
- 跨語言聚類:需對齊不同語言的嵌入空間(如用LASER或mBERT)。
2. THUCNews(中文)
- 內容:新浪新聞分類數據,14個類別(財經、房產、教育等),共74萬篇。
- 特點:大規模中文長文本,需自行劃分訓練/測試集。
- 獲取:THUCTC工具包 或 Hugging Face。
- 官方劃分:
- 訓練集:65萬篇。
- 測試集:9萬篇。
- 類別分布:均勻分布(每類約4.6萬篇訓練,6,000篇測試)。
四、聚類評估數據集(帶真實標簽)
數據集名稱 | 文本類型 | 類別數 | 用途 |
---|---|---|---|
Iris | 結構化特征 | 3 | 基礎聚類算法驗證 |
MNIST | 手寫數字圖像 | 10 | 跨模態聚類(需文本化) |
AG News | 新聞標題 | 4 | 短文本聚類效果對比 |
StackOverflow | 技術問答 | 20 | 長文本與標簽稀疏性測試 |
第三章 無監督訓練數據集:
1. Wikipedia 語料庫(訓練)
- 內容:多語言維基百科全文(含元數據如頁面標題、鏈接等)。
- 規模:英文版約 40 億詞,中文版約 10 億詞(2023 年數據)。
- 用途:BERT、GPT 等模型的預訓練基礎語料。
- 訓練/測試分布:
- 無官方劃分,通常按時間切分(如用 2020 年前數據訓練,2021 年后數據測試)。
- 部分研究采用隨機抽取 1-5% 作為驗證集(如 BERT 訓練時)。
- 獲取方式:通過 Wikimedia Dumps 按需下載特定語言版本。
2. Common Crawl
-
內容:互聯網網頁抓取的原始文本(含 HTML 標簽,需清洗)。
-
規模:每月新增約 200TB 原始數據,覆蓋 100+ 種語言。
-
用途:訓練超大規模模型(如 GPT-3、T5)。
-
訓練/測試分布:
- 無官方劃分,通常按時間或域名劃分(如 90% 訓練 + 10% 測試)。
- 需注意數據去重(重復網頁可能影響模型性能)。
-
語言分布示例:
語言 占比 英語 46% 俄語 6% 中文 4% 其他 44% -
獲取方式:通過 Common Crawl 官網 下載 WARC 文件。
3. BookCorpus
- 內容:未出版的英文小說書籍(涵蓋多種體裁)。
- 規模:約 11,000 本書,總詞數 9.8 億。
- 用途:長文本生成、語言模型微調。
- 訓練/測試分布:
- 公開版本(如 Hugging Face 的
bookcorpus
):默認無劃分,建議按 9:1 隨機分割。 - 原始版本因版權限制需申請訪問權限。
- 公開版本(如 Hugging Face 的
- 示例使用:BERT 的預訓練數據中,BookCorpus 占 25%(與 Wikipedia 組合使用)。
- 替代版本:
- Books3(包含 19 萬本書,需通過 The Eye 下載)。
- Project Gutenberg 子集(公開版權書籍,可自由使用)。
4. Project Gutenberg
- 內容:版權過期的經典文學作品(含小說、詩歌、非虛構等)。
- 規模:60,000+ 本電子書(以英文為主,含部分其他語言)。
- 用途:文學風格分析、低資源語言模型訓練。
- 訓練/測試分布:
- 無官方劃分,建議按作者或年代劃分(如 19 世紀作品訓練,20 世紀作品測試)。
- 可過濾特定領域(如科幻 vs 現實主義小說)。
- 獲取方式:直接通過 Project Gutenberg 批量下載。
5. OpenWebText(補充推薦)
- 內容:Reddit 高贊帖子的外鏈網頁文本(清洗后)。
- 規模:約 800 萬文檔,總詞數 400 億。
- 用途:GPT-2 等模型的訓練數據。
- 訓練/測試分布:
- 官方提供 預分割版本,默認按 95% 訓練 + 5% 測試。
- 特點:包含網絡用語、非正式文本,貼近實際應用場景。
第四章 情感分析任務:
1.MR (Movie Reviews)(重要)
- 任務:二分類(正/負面電影評論)
- 數據量:10,662條句子
- 分布:無固定劃分,通常使用交叉驗證或80%/20%隨機分割。
2.CR (Customer Reviews)(重要)
- 任務:二分類(商品評論情感)
- 數據量:約4,000條評論
- 分布:無官方劃分,常用交叉驗證或隨機分割。
3.SST (Stanford Sentiment Treebank)(重要)
- 任務:二分類(SST-2)或五分類(SST-5)
- 數據量:
- SST-2:67,349條(訓練集 6,920,驗證集 872,測試集 1,821)
- SST-5:11,855條(訓練集 8,544,驗證集 1,101,測試集 2,210)
- 分布:官方固定劃分。
4.Tweet (Twitter Sentiment Analysis)
- 任務:三分類(正/負/中性)
- 數據量:約20,000條推文(如SemEval-2017)
- 分布:官方劃分(訓練集 10k,測試集 10k)。
第五章 文本立場/主觀性分類(Subjectivity/Stance)
1.SUBJ (Subjectivity Dataset)(重要)
- 任務:二分類(主觀/客觀句子)
- 數據量:10,000條句子
- 分布:通常按5k訓練 + 5k測試劃分。
2.MPQA (MPQA Opinion Corpus)(重要)
- 任務:二分類(觀點極性)
- 數據量:10,606條句子
- 分布:無固定劃分,常用交叉驗證。
第六章 問答與語義相似度(QA & Semantic Similarity)
1.TREC (TREC Question Classification)(重要)
- 任務:6分類或50分類(問題類型)
- 數據量:5,952條訓練 + 500條測試
- 分布:官方固定劃分。
2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
- 任務:二分類(句子對是否語義等價)
- 數據量:5,801對(訓練集) + 1,500對(測試集)
- 分布:官方劃分,標簽不均衡(約67%負樣本)。
3.SS (Semantic Similarity)
- 任務:二分類(句子對是否語義相似)
- 數據量:依賴子集(如STS-B約8,628對)
- 分布:通常按訓練/驗證/測試劃分。
第七章 新聞與長文本分類(News & Long-Text)
1.AG (AG News)
- 任務:四分類(新聞類別)
- 數據量:127,600條(訓練集 120k,測試集 7.6k)
- 分布:官方均衡劃分(每類訓練集30k,測試集1.9k)。
2.G-T (Gutenberg-Times Corpus)
- 任務:歷史新聞分類
- 數據量:約10,000篇文檔
- 分布:需按時間或主題自定義劃分。
3.G-TS (Gutenberg-Times with Timestamps)
- 任務:時間敏感分類
- 數據量:同G-T,附帶時間戳
- 分布:按時間劃分(如1900年前后)。
第八章 領域特定分類(Domain-Specific)
1.Bio (BioText)
- 任務:二分類(生物醫學文獻關聯性)
- 數據量:約20,000條
- 分布:通常按80%/20%分割。
2.Go-S (Gene Ontology Sentences)
- 任務:多標簽分類(基因功能)
- 數據量:約50,000條
- 分布:按文獻時間自定義劃分。
3.SO (Stack Overflow)
- 任務:多標簽分類(代碼問題標簽)
- 數據量:約10,000,000條(常用子集50k)
- 分布:按時間或隨機劃分。
4.TC (Text Classification, 如新聞分類)
- 任務:多分類(如新聞類別)
- 分布:若為AG News,官方均衡劃分(訓練集 120k,測試集 7.6k)。
5.BS (可能為Bias Summarization或Book Summaries)
- 任務:需進一步明確(假設為摘要偏見檢測)
- 分布:依賴具體數據集,通常按70%/30%劃分。
第九章 句法與語法分析
1.TreeD (Treebank Data, 如Penn Treebank)
- 任務:句法分析(依存/成分樹解析)
- 分布:通常按章節劃分(如PTB:訓練集 2-21,驗證集 22,測試集 23)。
2.Tense
- 任務:動詞時態分類(過去/現在/未來等)
- 分布:需自定義劃分(常見按80%/20%分割)。
3.CoordI (Coordination Identification)
- 任務:并列結構識別
- 分布:依賴具體語料庫(如英文樹庫需自定義劃分)。
第十章 詞匯與語義任務
1.WC (可能為Word Classification或Word Context)
- 任務:詞匯分類(如詞性標注)
- 分布:若為詞性標注,常用樹庫劃分(如PTB)。
2.SubjN/ObjN (Subjective/Object Nouns)
- 任務:主觀性名詞 vs. 客觀性名詞分類
- 分布:需自定義劃分(類似SUBJ數據集)。
3.SOMO (可能為Semantic Orientation)
- 任務:詞匯語義極性(正/負)
- 分布:通常按詞典或語料庫自定義劃分。
第十一章、自然語言推理(NLI)
1. SNLI (Stanford NLI)(重點)
- 任務: 三分類(蘊含/矛盾/中立)
- 數據分布:
- 訓練集: 549,367對
- 驗證集: 9,842對
- 測試集: 9,824對
- 特點:
- 所有句子對基于圖像描述生成,訓練集與測試集領域一致。
- 測試集包含部分對抗樣本(如詞匯重疊但邏輯矛盾)。
2. MultiNLI
- 任務: 多領域三分類
- 數據分布:
- 訓練集: 392,702對(覆蓋10種文本類型,如小說、政府報告)
- 驗證集: 9,815對(匹配領域) + 9,832對(不匹配領域)
- 測試集: 分兩部分:
- 匹配領域(20,000對,與訓練集同領域)
- 不匹配領域(20,000對,新領域如旅游指南)
- 特點:
- 測試集的“不匹配領域”用于評估模型跨領域泛化能力。
3. XNLI
- 任務: 跨語言三分類(15種語言)
- 數據分布:
- 訓練集: 392,702對(僅英語,翻譯為其他語言)
- 驗證集: 2,490對/語言
- 測試集: 5,010對/語言
- 特點:
- 測試集包含低資源語言(如斯瓦希里語、烏爾都語),評估跨語言遷移能力。