自從ChatGPT等大型語言模型(Large Language Model, LLM)出現以來,其類通用人工智能(AGI)能力引發了自然語言處理(NLP)領域的新一輪研究和應用浪潮。尤其是ChatGLM、LLaMA等普通開發者都能運行的較小規模LLM開源之后,業界涌現了大量基于LLM的二次微調和應用案例。
傳神社區(Opencsg)旨在收集和整理與中文NLP相關的開源數據集。目前每篇文章整理的資源至少15個!如果本篇文章對您有幫助,歡迎點贊與收藏~
我們也歡迎大家貢獻本文未收錄的開源數據集,提供對應的資源,描述與鏈接,感謝您的支持!
目錄
1. 文本分類
-
-
-
1.1 初等數學應用問題 (MWP) 的挑戰集
-
1.2 多元化數學應用題
-
1.3?數學單詞問題數據集
-
1.4?中文生物醫學文本
-
1.5?中文謠言數據
1.6?新聞語料庫
-
1.7?百度知道問答語料庫
-
-
-
2.詞庫及詞法工具
-
-
2.1 textfilter詞庫
-
2.2 人名抽取功能詞法工具
-
2.3 中文縮寫庫數據集
-
2.4 漢語拆字詞典數據集
-
2.5 詞匯情感值數據集
-
2.6 中文詞庫、停用詞、敏感詞數據集
-
2.7 漢字拼音轉換工具
-
2.8 中文繁簡體互轉數據集
-
-
01 文本分析
1.1 初等數學應用問題 (MWP) 的挑戰集
SVAMP:
簡介:初等數學應用問題 (MWP) 的挑戰集。MWP 由一個簡短的自然語言敘述組成,它描述了世界的一種狀態,并提出了一個關于一些未知量的問題。SVAMP 中的示例在解決 MWP 的不同方面測試模型:1) 模型問題是否敏感?2)模型是否具有魯棒的推理能力?3)結構變化是否不變?
地址:https://opencsg.com/datasets/OpenDataLab/SVAMP
1.2 多元化數學應用題
DMath:
簡介:DMath(多元化數學應用題),這是論文“ It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset ”的 10K 高質量小學水平數學應用題的集合。
地址:https://opencsg.com/datasets/OpenDataLab/DMath
1.3?數學單詞問題數據集
Ape210K:
簡介:Ape210K是一個新的大規模和模板豐富的數學單詞問題數據集,包含 210K 個中國小學水平的數學問題,是最大的公共數據集 Math23K 的 9 倍。每個問題都包含黃金答案和得出答案所需的方程式。Ape210K 也具有更大的多樣性,有 56K 個模板,是 Math23K 的 25 倍。我們的分析表明,解決 Ape210K 不僅需要自然語言理解,還需要常識知識。
地址:https://opencsg.com/datasets/OpenDataLab/Ape210K
1.4?中文生物醫學文本
ChineseBlue:
簡介:ChinesseBLUE基準測試由不同的生物醫學文本挖掘任務組成。這些任務涵蓋了不同的文本類型(生物醫學網絡數據和臨床記錄)、數據集大小和難度級別,更重要的是,突出了常見的生物醫學文本挖掘挑戰。
地址:https://opencsg.com/datasets/billionaire/ChineseBlue
1.5?中文謠言數據
Chinese_Rumor_Dataset:
簡介:第一部分數據集(./rumors_v170613.json)共包含從2009年9月4日至2017年6月12日的31669條謠言。
地址:https://opencsg.com/datasets/MagicAI/Chinese_Rumor_Dataset
1.6?新聞語料庫
PeoplesDaily:
簡介:1946年-2003年人民日報 新聞語料庫。
地址:https://opencsg.com/datasets/crazyqq/PeoplesDaily
1.7 百度知道問答語料庫
MiningZhiDaoQACorpus:
簡介:580萬百度知道問答數據挖掘項目,百度知道問答語料庫,包括超過580萬的問題,每個問題帶有問題標簽。基于該問答語料庫,可支持多種應用,如邏輯挖掘。
地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus
2.詞庫及詞法工具
2.1 textfilter詞庫
textfilter:
簡介:敏感詞過濾的幾種實現+某1w詞敏感詞庫
地址:https://opencsg.com/datasets/MagicAI/textfilter
2.2 人名抽取功能詞法工具
cocoNLP:
簡介:這是一個中文自然語言處理(NLP)包,可以從文本中提取信息。
地址:https://opencsg.com/datasets/MagicAI/cocoNLP
2.3 中文縮寫庫數據集
Chinese-abbreviation-dataset:
簡介:這是論文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》發布的數據集。
地址:https://opencsg.com/datasets/MagicAI/Chinese-abbreviation-dataset
2.4 漢語拆字詞典數據集
chaizi:
簡介:膂 | 旅 肉 | 旅 月 鋓 | 金 利 | 釒 利 迴 | 辵 回 | 辶 回 証 | 言 正 | 訁 正
目前一字最多可以有六(6)種拆法,例如:
漢字 | 拆法 (一) | 拆法 (二) | 拆法 (三) | 拆法 (四) | 拆法 (五) | 拆法 (六) |
絕 | 絲 刀 巴 | 糹 刀 巴 | 糸 刀 巴 | 絲 色 | 糹 色 | 糸 色 |
拼 | 手 并 | 扌 并 | 才 并 | 手 幷 | 扌 幷 | 才 幷 |
鋶 | 金 亠 厶 川 | 釒 亠 厶 川 | 金 巟 | 釒 巟 | 金 ? | 釒 ? |
地址:https://opencsg.com/datasets/MagicAI/chaizi
2.5 詞匯情感值數據集
SentiBridge:
簡介:本詞典包含:實體/屬性—情感詞。例如:“長城 宏偉”、“性價比 高”、“價格 高”。主要目的是刻畫人們是怎么描述某個實體的,例如大家通常用 宏偉 來形容長城。
目前詞典包含三個領域語料的抽取結果:新聞、旅游、餐飲,共計30萬對。
地址:https://opencsg.com/datasets/MagicAI/SentiBridge
2.6 中文詞庫、停用詞、敏感詞數據集
Chinese_from_dongxiexidian:
簡介:包含素材:Files --
分詞詞典: 綜合了百度、搜狗等詞庫,以及手動整理的若干人名和新近出現的熱詞
中文停用詞: 綜合了"百度停用詞表","哈工大停用詞表","四川大學機器學習實驗室停用詞表"等若干停用詞表,取交集并去除了不需要的標點符號和英文單詞
地址:https://opencsg.com/datasets/MagicAI/Chinese_from_dongxiexidian
2.7 漢字拼音轉換工具
python-pinyin:
簡介:將漢字轉為拼音。可以用于漢字注音、排序、檢索(Russian translation_) 。
最初版本的代碼參考了 hotoo/pinyin <https://github.com/hotoo/pinyin>__ 的實現。
-
Documentation: https://pypinyin.readthedocs.io/
-
GitHub: https://github.com/mozillazg/python-pinyin
-
License: MIT license
-
PyPI: https://pypi.org/project/pypinyin
-
Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.12
地址:https://opencsg.com/datasets/MagicAI/python-pinyin
2.8 中文繁簡體互轉
zhtools:
簡介:一些大概沒有用了的與 NScript 有關的東西。
License: GPLv2
但 nstemplate.py 和 portable.py 除外。它們并不依賴任何 GPL 項目,并且可以單獨運行。這兩者均是 Public Domain 的。
gbk2sjis.py 將簡體 nscript.dat/00~99.txt 轉換為日文編碼。
對不支持 GBK 而僅支持日文編碼的 ONS 模擬器,當運行簡體移植的時候會亂碼。這個工具能將原腳本轉換為日文編碼。
由于很多漢字在日文中并不存在,故會進行簡繁轉換和一些字符替換。部分無法自動處理的字符替換定義在?gbk2sjis.dat
?中。
地址:https://opencsg.com/datasets/MagicAI/zhtools
歡迎加入傳神社區
?貢獻代碼,與我們一同共建更好的OpenCSG
?Github主頁
歡迎🌟:https:// github.com/opencsg
?Huggingface主頁
歡迎下載:https://huggingface.co/opencsg
?加入我們的用戶交流群,分享經驗
掃描上方二維碼添加傳神小助手
“? ? ??關于OpenCSG
開放傳神(OpenCSG)成立于2023年,是一家致力于大模型生態社區建設,匯集人工智能行業上下游企業鏈共同為大模型在垂直行業的應用提供解決方案和工具平臺的公司。
關注OpenCSG
傳神社區|數據集合集第4期|中文NLP數據集合集
加入傳神社區