【數據集】多視圖文本數據集

多視圖文本數據集指的是包含多個不同類型或來源的信息的文本數據集。不同視圖可以來源于不同的數據模式(如原始文本、元數據、網絡結構等),或者不同的文本表示方法(如 TF-IDF、詞嵌入、主題分布等)。這些數據集常用于多視圖文本分類、文本聚類、情感分析等任務。


1. 20 Newsgroups (20NG)

  • 簡介

    • 20 Newsgroups 是一個著名的文本數據集,包含 20 個不同主題的新聞組文章,涉及科技、宗教、體育等多個領域。

  • 數據規模

    • 約 20,000 篇文章,分為 20 類,每類約 1,000 篇文章。

  • 視圖劃分

    • 視圖 1(TF-IDF 詞向量):使用 TF-IDF 提取的詞頻特征向量。

    • 視圖 2(Word2Vec 詞嵌入):利用 Word2Vec 預訓練模型轉換成密集向量。

    • 視圖 3(LDA 主題分布):使用 LDA(潛在狄利克雷分配)進行主題建模,得到文章的主題分布。

  • 適用任務

    • 多視圖文本聚類、多視圖分類、多模態學習。


2. Reuters-21578

  • 簡介

    • Reuters-21578 是一個金融新聞數據集,包含路透社 1987 年發布的新聞稿。

  • 數據規模

    • 21,578 篇新聞,覆蓋 135 個不同類別(如“貿易”、“經濟”、“科技”等)。

  • 視圖劃分

    • 視圖 1(文本內容):使用 TF-IDF 或詞向量表示新聞內容。

    • 視圖 2(元數據):新聞發布時間、新聞作者等信息。

    • 視圖 3(類別標簽):雖然是分類數據,但可用于半監督聚類。

  • 適用任務

    • 文本分類、多視圖文本聚類、主題建模。


3. Amazon Reviews Multi-View Dataset

  • 簡介

    • 該數據集包含亞馬遜用戶對商品的評論,常用于情感分析和商品推薦。

  • 數據規模

    • 數百萬條商品評論,涵蓋多個產品類別(如電子產品、圖書、服飾等)。

  • 視圖劃分

    • 視圖 1(評論文本):用戶對產品的評論文本,TF-IDF 或 BERT 詞向量表示。

    • 視圖 2(評分):用戶給出的 1-5 星評分(數值特征)。

    • 視圖 3(商品類別):商品的分類標簽,如“電子產品”或“家居用品”。

  • 適用任務

    • 多視圖情感分析、用戶偏好分析、個性化推薦。


4. Wikipedia Multi-View Dataset

  • 簡介

    • 該數據集包含維基百科中的文章,常用于知識圖譜構建和文本分類。

  • 數據規模

    • 數百萬篇文章,覆蓋不同領域(如科學、歷史、藝術等)。

  • 視圖劃分

    • 視圖 1(正文文本):TF-IDF 詞向量或 BERT 詞嵌入表示的文章內容。

    • 視圖 2(超鏈接結構):文章之間的超鏈接關系,構成網絡結構。

    • 視圖 3(主題分布):使用 LDA 生成的主題分布。

  • 適用任務

    • 主題聚類、知識圖譜構建、文本分類。


5. Twitter Multi-View Dataset

  • 簡介

    • 該數據集包含推特社交媒體數據,適用于輿情分析、社交網絡分析等任務。

  • 數據規模

    • 包含數百萬條推文,涉及不同主題(如政治、娛樂、科技等)。

  • 視圖劃分

    • 視圖 1(文本內容):推文的原始文本,采用 TF-IDF 或 BERT 詞嵌入表示。

    • 視圖 2(用戶信息):用戶的社交屬性(關注者數量、影響力評分等)。

    • 視圖 3(社交網絡結構):用戶之間的關注關系和互動(點贊、轉發)。

  • 適用任務

    • 輿情分析、多視圖社交網絡聚類、熱點話題檢測。


6. Ohsumed Multi-View Medical Dataset

  • 簡介

    • 該數據集包含醫學文獻,適用于醫學文本分類和生物醫學信息挖掘。

  • 數據規模

    • 約 343,000 篇醫學文章,覆蓋多個醫學主題(如心血管、神經病學等)。

  • 視圖劃分

    • 視圖 1(醫學文本):使用 TF-IDF 或 BERT 表示醫學摘要。

    • 視圖 2(MeSH 主題標簽):每篇文章的醫學主題標簽(如“心臟病”)。

    • 視圖 3(文獻引用關系):文章之間的相互引用關系,形成網絡結構。

  • 適用任務

    • 醫學文本分類、信息檢索、臨床知識挖掘。


7. Yelp Multi-View Dataset

  • 簡介

    • 該數據集包含 Yelp 商戶評論,適用于情感分析和商戶推薦。

  • 數據規模

    • 約 600,000 條評論,覆蓋 10,000+ 家商戶。

  • 視圖劃分

    • 視圖 1(評論文本):采用 TF-IDF 或 BERT 表示用戶評論。

    • 視圖 2(評分):用戶對商戶的評分(1-5 分)。

    • 視圖 3(商戶類別):商戶的行業類別(如餐廳、酒店)。

  • 適用任務

    • 多視圖情感分析、推薦系統、用戶行為預測。


總結

數據集數據規模主要視圖適用任務
20 Newsgroups20,000 篇新聞TF-IDF、Word2Vec、LDA文本分類、聚類
Reuters-2157821,578 篇新聞文本、元數據、類別主題建模、新聞聚類
Amazon Reviews數百萬條評論文本、評分、商品類別情感分析、推薦系統
Wikipedia數百萬篇文章文本、超鏈接、主題知識圖譜、文本聚類
Twitter數百萬條推文文本、用戶信息、社交網絡輿情分析、話題檢測
Ohsumed343,000 篇醫學文獻醫學文本、MeSH 標簽、引用關系醫學信息檢索
Yelp600,000 條評論文本、評分、商戶類別商戶推薦、情感分析

后續用的時候可以來找一下。。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/900079.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/900079.shtml
英文地址,請注明出處:http://en.pswp.cn/news/900079.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++ 繼承方式使用場景(極簡版)

1. 公有繼承(public) 什么時候用? “是一個”(is-a)關系:派生類 是 基類的一種。 例:class Dog : public Animal(狗是動物) 最常見,90%的繼承都用它。 2. 保…

Ubuntu 系統 Docker 中搭建 CUDA cuDNN 開發環境

CUDA 是 NVIDIA 推出的并行計算平臺和編程模型,利用 GPU 多核心架構加速計算任務,廣泛應用于深度學習、科學計算等領域。cuDNN 是基于 CUDA 的深度神經網絡加速庫,為深度學習框架提供高效卷積、池化等操作的優化實現,提升模型訓練…

高密度任務下的挑戰與破局:數字樣機助力火箭發射提效提質

2025年4月1日12時,在酒泉衛星發射中心,長征二號丁運載火箭順利升空,成功將一顆衛星互聯網技術試驗衛星送入預定軌道,發射任務圓滿完成。這是長征二號丁火箭的第97次發射,也是長征系列火箭的第567次發射。 執行本次任務…

關于SQL子查詢的使用策略

在 SQL 優化中,一般遵循**“非必要不使用子查詢”**的原則,因為子查詢可能會帶來額外的計算開銷,影響查詢效率。但是,并不是所有子查詢都需要避免,有時子查詢是最優解,具體要根據實際場景選擇合適的優化方式…

JavaEE初階復習(JVM篇)

JVM Java虛擬機 jdk java開發工具包 jre java運行時環境 jvm java虛擬機(解釋執行 java 字節碼) java作為一個半解釋,半編譯的語言,可以做到跨平臺. java 通過javac把.java文件>.class文件(字節碼文件) 字節碼文件, 包含的就是java字節碼, jvm把字節碼進行翻譯轉化為…

2.pycharm保姆級安裝教程

一、pycharm安裝 1.官網上下載好好軟,雙擊打開 2.下一步 3.修改路徑地址 (默認也可以) 4.打勾 5.安裝 不用重啟電腦 二、添加解釋器 1.雙擊軟件,打開 2.projects – new project 3.指定項目名字,項目保存地址,解釋器 4.右擊 – …

zk基礎—4.zk實現分布式功能二

大綱 1.zk實現數據發布訂閱 2.zk實現負載均衡 3.zk實現分布式命名服務 4.zk實現分布式協調(Master-Worker協同) 5.zk實現分布式通信 6.zk實現Master選舉 7.zk實現分布式鎖 8.zk實現分布式隊列和分布式屏障 4.zk實現分布式協調(Master-Worker協同) (1)Master-Worker架構…

Java 實現 字母異位詞分組

在這篇博客中,我們將詳細解析如何使用 Java 代碼來解決 字母異位詞分組這個經典的算法問題。我們會逐步分析代碼邏輯,并探討其時間復雜度及優化思路。 題目描述 給定一個字符串數組 strs,請將字母異位詞組合在一起。字母異位詞是指由相同字…

【Ragflow】10. 助理配置參數詳細解析/模型響應加速方法

概述 Ragflow的助理配置中,有很多參數,盡管官方文檔給出了一定程度的解釋,但不夠詳細。 本文將對各項參數進行更詳細的解釋說明,并進一步挖掘某些參數中隱含的潛在陷阱。 助理設置 空回復 含義:輸入的問題若未能在…

Mac Apple silicon如何指定運行amd64架構的ubuntu Docker?

如何指定運行amd64架構的ubuntu Docker 下面這個docker命令如何指定運行amd64架構的ubuntu Docker? docker run -it -v $(pwd):/workspace ubuntu:20.04 bash這個命令已經非常接近正確運行一個基于 amd64 架構的 Ubuntu 容器了,但如果你想明確指定運行…

ColPali:基于視覺語言模型的高效文檔檢索

摘要 文檔是視覺豐富的結構,不僅通過文本傳遞信息,還包括圖表、頁面布局、表格,甚至字體。然而,由于現代檢索系統主要依賴從文檔頁面中提取的文本信息來索引文檔(通常是冗長且脆弱的流程),它們…

使用C++實現HTTP服務

天天開心!!! 閱讀本篇文章之前,請先閱讀HTTP基礎知識 傳送門----> HTTP基礎知識 文章目錄 一、CWeb服務器(核心代碼WebServer.cpp)二、靜態文件結構三、編譯和運行四、訪問測試 一、CWeb服務器&#xff…

Reactive編程入門:Project Reactor 深度指南

文章目錄 4.2.1 創建 Flux 和 MonoFlux 基礎創建方式高級創建模式Mono 創建方式 4.2.2 訂閱與數據處理基礎訂閱模式數據處理操作符 4.2.3 核心操作符深度解析flatMap 操作符zip 操作符buffer 操作符 高級組合模式復雜流處理示例背壓處理策略 測試響應式流性能優化技巧 React 編…

【萬字總結】前端全方位性能優化指南(完結篇)——自適應優化系統、遺傳算法調參、Service Worker智能降級方案

前言 自適應進化宣言 當監控網絡精準定位病灶,真正的挑戰浮出水面:系統能否像生物般自主進化? 五維感知——通過設備傳感器實時捕獲環境指紋(如地鐵隧道弱光環境自動切換省電渲染) 基因調參——150個性能參數在遺傳算…

PQ以及有關索引的筆記Faiss: The Missing Manual

參考Faiss 索引結構總結: 為了加深記憶,介紹一下Inverted File Index(IVF)的名字由來: IVF索引的名字源自“倒排文件”(Inverted File)的概念。在傳統的信息檢索中,倒排文件是一種索…

win10徹底讓圖標不顯示在工具欄

關閉需要不顯示的軟件 打開 例此時我關閉了IDEA的顯示 如果說只是隱藏,鼠標拖動一個道理 例QQ 如果說全部顯示不隱藏

關稅核爆72小時!跨境矩陣防御戰緊急打響

一、T86崩塌:全球貿易鏈的至暗時刻 (配圖:美國海關系統深夜彈出紅色警報) 5月2日凌晨2:17,杭州某光伏企業的供應鏈系統突然發出刺耳警報——其價值1800萬美元的逆變器模塊被劃入34%關稅清單。這場代號"黑天鵝突…

藍橋杯Java B組省賽真題題型近6年統計分類

困難題 題號題型分值代碼量難度通過率內容2024-F解答1581困難0.12最短路問題 Dijkstra 期望2024-G解答20116困難0.19模擬 暴力 搜索 DFS 剪紙 枚舉2023-H解答2070困難0動態規劃2022-H解答20109困難0.032022-J解答25141困難0搜索2021-H解答2041困難0.18二分 思維 規律2021-I解答…

【網絡流 圖論建模 最大權閉合子圖】 [六省聯考 2017] 壽司餐廳

題目描述: P3749 [六省聯考 2017] 壽司餐廳 題目描述 Kiana 最近喜歡到一家非常美味的壽司餐廳用餐。 每天晚上,這家餐廳都會按順序提供 n n n 種壽司,第 i i i 種壽司有一個代號 a i a_i ai? 和美味度 d i , i d_{i, i} di,i?&…

前端面試題(三):axios有哪些常用的方法

Axios 是一個基于 Promise 的 HTTP 客戶端,用于瀏覽器和 Node.js 中發送 HTTP 請求。它提供了一些常用的方法來處理不同類型的請求。以下是 Axios 中常用的一些方法: 1. axios.get() 用于發送 GET 請求,從服務器獲取數據。 axios.get(/api/d…