各種LLM數據集包括SFT數據集
- 數集介紹和 hf上的名字
- 對話數據生成方法
- 交通領域數據集
- SFT 的解釋
數集介紹和 hf上的名字
通用預訓練數據集 SFT datasets SFT 數據集 50萬條中文ChatGPT指令Belle數據集:BelleGroup/train_0.5M_CN
100萬條中文ChatGPT指令Belle數據集:BelleGroup/train_1M_CN
5萬條英文ChatGPT指令Alpaca數據集:50k English Stanford Alpaca dataset
2萬條中文ChatGPT指令Alpaca數據集:shibing624/alpaca-zh
69萬條中文指令Guanaco數據集(Belle50萬條+Guanaco19萬條):Chinese-Vicuna/guanaco_belle_merge_v1.0
5萬條英文ChatGPT多輪對話數據集:RyokoAI/ShareGPT52K
80萬條中文ChatGPT多輪對話數據集:BelleGroup/multiturn_chat_0.8M
116萬條中文ChatGPT多輪對話數據集:fnlp/moss-002-sft-data
Reward Model datasets 獎勵模型數據集 原版的oasst1數據集:OpenAssistant/oasst1
2萬條多語言oasst1的reward數據集:tasksource/oasst1_pairwise_rlhf_r