傳神社區|數據集合集第4期|中文NLP數據集合集

自從ChatGPT等大型語言模型(Large Language Model, LLM)出現以來,其類通用人工智能(AGI)能力引發了自然語言處理(NLP)領域的新一輪研究和應用浪潮。尤其是ChatGLM、LLaMA等普通開發者都能運行的較小規模LLM開源之后,業界涌現了大量基于LLM的二次微調和應用案例。

傳神社區(Opencsg)旨在收集和整理與中文NLP相關的開源數據集。目前每篇文章整理的資源至少15個!如果本篇文章對您有幫助,歡迎點贊與收藏~

我們也歡迎大家貢獻本文未收錄的開源數據集,提供對應的資源,描述與鏈接,感謝您的支持!

目錄

1. 文本分類

      • 1.1 初等數學應用問題 (MWP) 的挑戰集

      • 1.2 多元化數學應用題

      • 1.3?數學單詞問題數據集

      • 1.4?中文生物醫學文本

      • 1.5?中文謠言數據

        1.6?新聞語料庫

      • 1.7?百度知道問答語料庫

  • 2.詞庫及詞法工具

      • 2.1 textfilter詞庫

      • 2.2 人名抽取功能詞法工具

      • 2.3 中文縮寫庫數據集

      • 2.4 漢語拆字詞典數據集

      • 2.5 詞匯情感值數據集

      • 2.6 中文詞庫、停用詞、敏感詞數據集

      • 2.7 漢字拼音轉換工具

      • 2.8 中文繁簡體互轉數據集

01 文本分析

1.1 初等數學應用問題 (MWP) 的挑戰集

SVAMP:

簡介:初等數學應用問題 (MWP) 的挑戰集。MWP 由一個簡短的自然語言敘述組成,它描述了世界的一種狀態,并提出了一個關于一些未知量的問題。SVAMP 中的示例在解決 MWP 的不同方面測試模型:1) 模型問題是否敏感?2)模型是否具有魯棒的推理能力?3)結構變化是否不變?

地址:https://opencsg.com/datasets/OpenDataLab/SVAMP

圖片

1.2 多元化數學應用題

DMath:

簡介:DMath(多元化數學應用題),這是論文“ It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset ”的 10K 高質量小學水平數學應用題的集合。

地址:https://opencsg.com/datasets/OpenDataLab/DMath

圖片

1.3?數學單詞問題數據集

Ape210K:

簡介:Ape210K是一個新的大規模和模板豐富的數學單詞問題數據集,包含 210K 個中國小學水平的數學問題,是最大的公共數據集 Math23K 的 9 倍。每個問題都包含黃金答案和得出答案所需的方程式。Ape210K 也具有更大的多樣性,有 56K 個模板,是 Math23K 的 25 倍。我們的分析表明,解決 Ape210K 不僅需要自然語言理解,還需要常識知識。

地址:https://opencsg.com/datasets/OpenDataLab/Ape210K

圖片

1.4?中文生物醫學文本

ChineseBlue:

簡介:ChinesseBLUE基準測試由不同的生物醫學文本挖掘任務組成。這些任務涵蓋了不同的文本類型(生物醫學網絡數據和臨床記錄)、數據集大小和難度級別,更重要的是,突出了常見的生物醫學文本挖掘挑戰。

地址:https://opencsg.com/datasets/billionaire/ChineseBlue

圖片

1.5?中文謠言數據

Chinese_Rumor_Dataset:

簡介:第一部分數據集(./rumors_v170613.json)共包含從2009年9月4日至2017年6月12日的31669條謠言。

地址:https://opencsg.com/datasets/MagicAI/Chinese_Rumor_Dataset

圖片

1.6?新聞語料庫

PeoplesDaily:

簡介:1946年-2003年人民日報 新聞語料庫。

地址:https://opencsg.com/datasets/crazyqq/PeoplesDaily

圖片

1.7 百度知道問答語料庫

MiningZhiDaoQACorpus:

簡介:580萬百度知道問答數據挖掘項目,百度知道問答語料庫,包括超過580萬的問題,每個問題帶有問題標簽。基于該問答語料庫,可支持多種應用,如邏輯挖掘。

地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus

圖片

2.詞庫及詞法工具

2.1 textfilter詞庫

textfilter:

簡介:敏感詞過濾的幾種實現+某1w詞敏感詞庫

地址:https://opencsg.com/datasets/MagicAI/textfilter

圖片

2.2 人名抽取功能詞法工具

cocoNLP:

簡介:這是一個中文自然語言處理(NLP)包,可以從文本中提取信息。

地址:https://opencsg.com/datasets/MagicAI/cocoNLP

圖片

2.3 中文縮寫庫數據集

Chinese-abbreviation-dataset:

簡介:這是論文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》發布的數據集。

地址:https://opencsg.com/datasets/MagicAI/Chinese-abbreviation-dataset


2.4 漢語拆字詞典數據集

chaizi:

簡介:膂 | 旅 肉 | 旅 月 鋓 | 金 利 | 釒 利 迴 | 辵 回 | 辶 回 証 | 言 正 | 訁 正

目前一字最多可以有六(6)種拆法,例如:

漢字拆法 (一)拆法 (二)拆法 (三)拆法 (四)拆法 (五)拆法 (六)
絲 刀 巴糹 刀 巴糸 刀 巴絲 色糹 色糸 色
手 并扌 并才 并手 幷扌 幷才 幷
金 亠 厶 川釒 亠 厶 川金 巟釒 巟金 ?釒 ?

地址:https://opencsg.com/datasets/MagicAI/chaizi

2.5 詞匯情感值數據集

SentiBridge:

簡介:本詞典包含:實體/屬性—情感詞。例如:“長城 宏偉”、“性價比 高”、“價格 高”。主要目的是刻畫人們是怎么描述某個實體的,例如大家通常用 宏偉 來形容長城。

目前詞典包含三個領域語料的抽取結果:新聞、旅游、餐飲,共計30萬對。

地址:https://opencsg.com/datasets/MagicAI/SentiBridge

圖片

2.6 中文詞庫、停用詞、敏感詞數據集

Chinese_from_dongxiexidian:

簡介:包含素材:Files --

分詞詞典: 綜合了百度、搜狗等詞庫,以及手動整理的若干人名和新近出現的熱詞

中文停用詞: 綜合了"百度停用詞表","哈工大停用詞表","四川大學機器學習實驗室停用詞表"等若干停用詞表,取交集并去除了不需要的標點符號和英文單詞

地址:https://opencsg.com/datasets/MagicAI/Chinese_from_dongxiexidian

2.7 漢字拼音轉換工具

python-pinyin:

簡介:將漢字轉為拼音。可以用于漢字注音、排序、檢索(Russian translation_) 。

最初版本的代碼參考了 hotoo/pinyin <https://github.com/hotoo/pinyin>__ 的實現。

  • Documentation: https://pypinyin.readthedocs.io/

  • GitHub: https://github.com/mozillazg/python-pinyin

  • License: MIT license

  • PyPI: https://pypi.org/project/pypinyin

  • Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.12

地址:https://opencsg.com/datasets/MagicAI/python-pinyin

圖片

2.8 中文繁簡體互轉

zhtools:

簡介:一些大概沒有用了的與 NScript 有關的東西。

License: GPLv2

但 nstemplate.py 和 portable.py 除外。它們并不依賴任何 GPL 項目,并且可以單獨運行。這兩者均是 Public Domain 的。

gbk2sjis.py 將簡體 nscript.dat/00~99.txt 轉換為日文編碼。

對不支持 GBK 而僅支持日文編碼的 ONS 模擬器,當運行簡體移植的時候會亂碼。這個工具能將原腳本轉換為日文編碼。

由于很多漢字在日文中并不存在,故會進行簡繁轉換和一些字符替換。部分無法自動處理的字符替換定義在?gbk2sjis.dat?中。

地址:https://opencsg.com/datasets/MagicAI/zhtools

圖片

歡迎加入傳神社區

?貢獻代碼,與我們一同共建更好的OpenCSG

?Github主頁

歡迎🌟:https:// github.com/opencsg

?Huggingface主頁

歡迎下載:https://huggingface.co/opencsg

?加入我們的用戶交流群,分享經驗

圖片

掃描上方二維碼添加傳神小助手


“? ? ??關于OpenCSG

開放傳神(OpenCSG)成立于2023年,是一家致力于大模型生態社區建設,匯集人工智能行業上下游企業鏈共同為大模型在垂直行業的應用提供解決方案和工具平臺的公司。

關注OpenCSG

傳神社區|數據集合集第4期|中文NLP數據集合集

加入傳神社區

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37258.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37258.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37258.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于深度學習的相機內參標定

基于深度學習的相機內參標定 相機內參標定&#xff08;Camera Intrinsic Calibration&#xff09;是計算機視覺中的關鍵步驟&#xff0c;用于確定相機的內部參數&#xff08;如焦距、主點位置、畸變系數等&#xff09;。傳統的標定方法依賴于已知尺寸的標定板&#xff0c;通常…

一文弄懂線性回歸模型

1、引言 今天&#xff0c;我們將深入探討機器學習中的三個關鍵概念&#xff1a;線性回歸、代價函數和梯度下降。這些概念構成了許多機器學習算法的基礎。起初&#xff0c;我決定不寫一篇關于這些主題的文章&#xff0c;因為它們已經被廣泛涉及。不過&#xff0c;我改變了主意&…

[圖解]SysML和EA建模住宅安全系統-02-現有運營領域-塊定義圖

1 00:00:00,840 --> 00:00:02,440 首先我們來看畫在哪里 2 00:00:02,570 --> 00:00:08,310 你看&#xff0c;這是圖的類型&#xff0c;圖里面內容 3 00:00:08,320 --> 00:00:10,780 這是元素類型 4 00:00:10,790 --> 00:00:14,900 這是位置&#xff0c;哪個包 …

Halcon 文本文件操作,形態學

一文件的讀寫 *******************************************************向文本文件寫入字符串內容*************************************************************read_image (Image, fabrik)threshold (Image, Region, 0, 120)area_center (Region, Area, Row, Column)open_…

【前端面試題】vue2.0與vue3.0不同處大全

Vue 3.0與Vue 2.0在細節上存在多個顯著的不同之處&#xff0c;以下是對這些區別的詳細歸納和解釋&#xff1a; 性能提升&#xff1a; Vue 3.0的性能相比Vue 2.x快了1.2至2倍。這主要得益于內部對虛擬DOM的完全重寫&#xff0c;mounting和patching的提速&#xff0c;以及基于Pr…

嘉立創學習

1.兩個設置&#xff0c;一般用左邊那個 2.焊盤分類 基本焊盤 熱風盤&#xff1a;也叫花焊盤&#xff08;負片&#xff09; 隔離焊盤&#xff1a;外面那圈黑色&#xff0c;用作隔離&#xff08;負片&#xff09; 鋼網層&#xff1a;&#xff08;錫膏&#xff09; 阻焊層&…

【php】【mysql】【layui】 原生初級簡易留言簿系統成品代碼動態網站開發網頁WEB瀏覽器端B/S結構

更多項目點擊&#x1f446;&#x1f446;&#x1f446;完整項目成品專欄 【php】【mysql】【layui】 原生初級簡易留言簿系統成品代碼動態網站開發網頁WEB瀏覽器端B/S結構 獲取源碼方式項目說明&#xff1a;文件包含&#xff1a;項目運行環境項目運行截圖 獲取源碼方式 加Q群…

妙解設計模式之橋接模式

橋接模式的概念 橋接模式&#xff08;Bridge Pattern&#xff09;是一種結構型設計模式&#xff0c;用于將抽象部分和實現部分分離&#xff0c;使它們可以獨立變化。這種模式通過組合而不是繼承來實現這個目標&#xff0c;從而提高系統的靈活性和可擴展性。 抽象部分&#xf…

如何使用C++進行文件讀寫操作

在C中&#xff0c;我們可以使用標準庫中的 <fstream>&#xff08;文件流&#xff09;來進行文件的讀寫操作。以下是一些基本的文件讀寫操作的示例。 讀取文件 cpp復制代碼 #include <fstream> #include <iostream> #include <string> int main() { s…

MySQL高級-SQL優化- update 優化(盡量根據主鍵/索引字段進行數據更新,避免行鎖升級為表鎖)

文章目錄 0、update 優化1、創建表2、默認是行鎖3、行鎖升級為表鎖4、給name字段建立索引 0、update 優化 InnoDB的行鎖是針對索引加的鎖&#xff0c;不是針對記錄加的鎖&#xff0c;并且該索引不能失效&#xff0c;否則會從行鎖升級為表鎖。 1、創建表 create table course(…

【嚴正聲明】鑒于CSDN的流氓行為,現已清空所有文章,資源下載分統一改為0

【嚴正聲明】鑒于CSDN的流氓行為&#xff0c;現已清空所有文章&#xff0c;資源下載分統一改為0 鑒于CSDN的流氓行為&#xff0c;現已清空所有文章&#xff0c;資源下載分統一改為0 鑒于CSDN的流氓行為&#xff0c;現已清空所有文章&#xff0c;資源下載分統一改為0 如果你在C…

CUDA 編程

## blocksize和gridsize設置 使用deviceQuery查看GPU相關信息(下圖為1080 ti)blocksize的最大值建議不要超過Maximum number of threads per block&#xff08;1024&#xff09;由于每個block里的線程需要被分為數個wrap&#xff0c;而wrap size為32&#xff08;Warp size&…

搭建企業內網pypi鏡像庫,讓python在內網也能像互聯網一樣安裝pip庫

目錄 知識點實驗1.服務器安裝python2.新建一個目錄/mirror/pip&#xff0c;用于存儲pypi文件&#xff0c;作為倉庫目錄3.下載python中的所需包放至倉庫文件夾/mirror/pip3.1. 新建requirement.py腳本&#xff08;將清華pypi鏡像庫文件列表粘貼到requirement.txt文件中&#xff…

【MATLAB源碼-第231期】基于matlab的polar碼編碼譯碼仿真,對比SC,SCL,BP,SCAN,SSC等譯碼算法誤碼率。

操作環境&#xff1a; MATLAB 2022a 1、算法描述 極化碼&#xff08;Polar Code&#xff09; 極化碼&#xff08;Polar Code&#xff09;是一種新型的信道編碼技術&#xff0c;由土耳其裔教授Erdal Ar?kan在2008年提出。極化碼在理論上被證明能夠在信道容量上達到香農極限…

成熟ICT測試系統與LabVIEW定制開發的比較

ICT&#xff08;In-Circuit Test&#xff09;測試系統是電子制造行業中用于電路板&#xff08;PCB&#xff09;組件檢測的重要工具。市場上有許多成熟的ICT測試系統&#xff0c;如Keysight、Teradyne、SPEA等公司提供的商用解決方案。此外&#xff0c;LabVIEW作為一種強大的圖形…

單目操作符

目錄 ! --- 邏輯反操作 & --- 取地址操作符 * --- 間接訪問操作符&#xff08;解引用操作符&#xff09; sizeof --- 操作數的類型長度&#xff08;單位為字節&#xff09; ~ --- 對一個數的補碼二進制按位取反 前置和前置-- 后置和后置-- (類型) --- 強制類型轉換…

three.js場景三元素

three.js是一個基于WebGL的輕量級、易于使用的3D庫。它極大地簡化了WebGL的復雜細節&#xff0c;降低了學習成本&#xff0c;同時提高了性能。 three.js的三大核心元素&#xff1a; 場景&#xff08;Scene&#xff09; 場景是一個三維空間&#xff0c;是所有物品的容器。可以將…

安卓速度下載v1.0.5/聚合短視頻解析下載

功能特色 短視頻下載與高級管理 – 支持短視頻下載&#xff0c;為您提供一系列高級視頻管理功能包括視頻內容提取、智能防重復技術、視頻體積壓縮以及視頻轉換成GIF圖片等&#xff1b; 磁-力鏈接下載升級 – 現支持磁力鏈接下載&#xff0c;實現邊下載邊播放的便捷體驗&#x…

構建基于LLMs混合型大模型的先進事實性問答系統架構

1.引言 傳統搜索系統基于關鍵字匹配&#xff0c;缺少對用戶問題理解和答案二次處理能力。本文探索使用大語言模型&#xff08;Large Language Model, LLM&#xff09;&#xff0c;通過其對自然語言理解&#xff08;Natural Language Understanding&#xff0c;NLU&#xff09;…

阿里云常用的操作

阿里云常見的產品和服務 容器服務 可以查看容器日志、監控容器cpu和內存&#xff0c; 日志服務 SLS 可以查看所有服務的日志&#xff0c; Web應用防火墻 WAF 可以查看 QPS. 阿里云查看集群&#xff1a; 點擊 “產品和服務” 中的 容器服務&#xff0c;可以查看 集群列表&…