多視圖文本數據集指的是包含多個不同類型或來源的信息的文本數據集。不同視圖可以來源于不同的數據模式(如原始文本、元數據、網絡結構等),或者不同的文本表示方法(如 TF-IDF、詞嵌入、主題分布等)。這些數據集常用于多視圖文本分類、文本聚類、情感分析等任務。
1. 20 Newsgroups (20NG)
-
簡介:
-
20 Newsgroups 是一個著名的文本數據集,包含 20 個不同主題的新聞組文章,涉及科技、宗教、體育等多個領域。
-
-
數據規模:
-
約 20,000 篇文章,分為 20 類,每類約 1,000 篇文章。
-
-
視圖劃分:
-
視圖 1(TF-IDF 詞向量):使用 TF-IDF 提取的詞頻特征向量。
-
視圖 2(Word2Vec 詞嵌入):利用 Word2Vec 預訓練模型轉換成密集向量。
-
視圖 3(LDA 主題分布):使用 LDA(潛在狄利克雷分配)進行主題建模,得到文章的主題分布。
-
-
適用任務:
-
多視圖文本聚類、多視圖分類、多模態學習。
-
2. Reuters-21578
-
簡介:
-
Reuters-21578 是一個金融新聞數據集,包含路透社 1987 年發布的新聞稿。
-
-
數據規模:
-
21,578 篇新聞,覆蓋 135 個不同類別(如“貿易”、“經濟”、“科技”等)。
-
-
視圖劃分:
-
視圖 1(文本內容):使用 TF-IDF 或詞向量表示新聞內容。
-
視圖 2(元數據):新聞發布時間、新聞作者等信息。
-
視圖 3(類別標簽):雖然是分類數據,但可用于半監督聚類。
-
-
適用任務:
-
文本分類、多視圖文本聚類、主題建模。
-
3. Amazon Reviews Multi-View Dataset
-
簡介:
-
該數據集包含亞馬遜用戶對商品的評論,常用于情感分析和商品推薦。
-
-
數據規模:
-
數百萬條商品評論,涵蓋多個產品類別(如電子產品、圖書、服飾等)。
-
-
視圖劃分:
-
視圖 1(評論文本):用戶對產品的評論文本,TF-IDF 或 BERT 詞向量表示。
-
視圖 2(評分):用戶給出的 1-5 星評分(數值特征)。
-
視圖 3(商品類別):商品的分類標簽,如“電子產品”或“家居用品”。
-
-
適用任務:
-
多視圖情感分析、用戶偏好分析、個性化推薦。
-
4. Wikipedia Multi-View Dataset
-
簡介:
-
該數據集包含維基百科中的文章,常用于知識圖譜構建和文本分類。
-
-
數據規模:
-
數百萬篇文章,覆蓋不同領域(如科學、歷史、藝術等)。
-
-
視圖劃分:
-
視圖 1(正文文本):TF-IDF 詞向量或 BERT 詞嵌入表示的文章內容。
-
視圖 2(超鏈接結構):文章之間的超鏈接關系,構成網絡結構。
-
視圖 3(主題分布):使用 LDA 生成的主題分布。
-
-
適用任務:
-
主題聚類、知識圖譜構建、文本分類。
-
5. Twitter Multi-View Dataset
-
簡介:
-
該數據集包含推特社交媒體數據,適用于輿情分析、社交網絡分析等任務。
-
-
數據規模:
-
包含數百萬條推文,涉及不同主題(如政治、娛樂、科技等)。
-
-
視圖劃分:
-
視圖 1(文本內容):推文的原始文本,采用 TF-IDF 或 BERT 詞嵌入表示。
-
視圖 2(用戶信息):用戶的社交屬性(關注者數量、影響力評分等)。
-
視圖 3(社交網絡結構):用戶之間的關注關系和互動(點贊、轉發)。
-
-
適用任務:
-
輿情分析、多視圖社交網絡聚類、熱點話題檢測。
-
6. Ohsumed Multi-View Medical Dataset
-
簡介:
-
該數據集包含醫學文獻,適用于醫學文本分類和生物醫學信息挖掘。
-
-
數據規模:
-
約 343,000 篇醫學文章,覆蓋多個醫學主題(如心血管、神經病學等)。
-
-
視圖劃分:
-
視圖 1(醫學文本):使用 TF-IDF 或 BERT 表示醫學摘要。
-
視圖 2(MeSH 主題標簽):每篇文章的醫學主題標簽(如“心臟病”)。
-
視圖 3(文獻引用關系):文章之間的相互引用關系,形成網絡結構。
-
-
適用任務:
-
醫學文本分類、信息檢索、臨床知識挖掘。
-
7. Yelp Multi-View Dataset
-
簡介:
-
該數據集包含 Yelp 商戶評論,適用于情感分析和商戶推薦。
-
-
數據規模:
-
約 600,000 條評論,覆蓋 10,000+ 家商戶。
-
-
視圖劃分:
-
視圖 1(評論文本):采用 TF-IDF 或 BERT 表示用戶評論。
-
視圖 2(評分):用戶對商戶的評分(1-5 分)。
-
視圖 3(商戶類別):商戶的行業類別(如餐廳、酒店)。
-
-
適用任務:
-
多視圖情感分析、推薦系統、用戶行為預測。
-
總結
數據集 | 數據規模 | 主要視圖 | 適用任務 |
---|---|---|---|
20 Newsgroups | 20,000 篇新聞 | TF-IDF、Word2Vec、LDA | 文本分類、聚類 |
Reuters-21578 | 21,578 篇新聞 | 文本、元數據、類別 | 主題建模、新聞聚類 |
Amazon Reviews | 數百萬條評論 | 文本、評分、商品類別 | 情感分析、推薦系統 |
Wikipedia | 數百萬篇文章 | 文本、超鏈接、主題 | 知識圖譜、文本聚類 |
數百萬條推文 | 文本、用戶信息、社交網絡 | 輿情分析、話題檢測 | |
Ohsumed | 343,000 篇醫學文獻 | 醫學文本、MeSH 標簽、引用關系 | 醫學信息檢索 |
Yelp | 600,000 條評論 | 文本、評分、商戶類別 | 商戶推薦、情感分析 |
后續用的時候可以來找一下。。