1. C-Eval
-
數據集源地址:?C-Eval Official Repository
-
數據范圍: 該數據集包括學科類知識測試,涵蓋廣泛的學科知識,例如數學、物理、化學等。
-
數據集大小及數據形式: 數據集包含13,948道單選題,題目均為中文。
-
論文地址:?C-Eval: A Multi-level, Multi-task Benchmark Dataset in Chinese
-
評測代碼地址:?C-Eval Evaluation Code
-
評測排行榜: 可以在C-Eval的官方倉庫找到詳細的評測結果。
2. CMMLU
-
數據集源地址: 官方未提供單獨的倉庫,一般在相關研究論文和GitHub上可以找到具體實現和示例。
-
數據范圍: 包含中文學科知識測試,類似于英文的MMLU,涵蓋文學、歷史、物理等多個領域。
-
數據集大小及數據形式: 具體題目數量和形式未詳細披露,題目主要為中文文本。
-
論文地址: 暫無明確論文地址,可參考相關領域的研究論文。
-
評測代碼地址: 具體評測代碼可參見相關研究項目和GitHub倉庫。
-
評測排行榜: 未明確提供官方排行榜,但在相關研究中會展示模型在該數據集上的表現。
3. GaoKao
-
數據集源地址:?Gaokao Official Repository
-
數據范圍: 涵蓋高考試題,包括選擇題、填空題和解答題,涉及語文、數學、英語等。
-
數據集大小及數據形式: 數據集大小不一,通常分為多個子集。具體數量和形式取決于每年的高考試卷。
-
論文地址:?GAOKAO-Benchmark: Evaluating Large Language Models with Chinese Gaokao
-
評測代碼地址:?GAOKAO Evaluation Code
-
評測排行榜: 官方倉庫和論文中可以找到模型在GaoKao數據集上的評測結果。
4. MMLU (Massive Multitask Language Understanding)
-
數據集源地址:?MMLU Official Repository
-
數據范圍: 英文學科知識測試,包含57個領域,涵蓋人文科學、理工科、社科等。
-
數據集大小及數據形式: 包括57個領域的12,554個問題,數據主要為選擇題形式。
-
論文地址:?Measuring Massive Multitask Language Understanding
-
評測代碼地址:?MMLU Evaluation Code
-
評測排行榜: 可以在官方倉庫找到最新的評測結果和排行榜。
5. GSM8K (Grade School Math 8K)
-
數據集源地址:?GSM8K Official Repository
-
數據范圍: 專注于小學數學問題解決,涵蓋基本數學技能。
-
數據集大小及數據形式: 包括8,000條問題和解決方案,問題主要以文本形式給出,答案為詳細的解題步驟。
-
論文地址:?Training Verifiers to Solve Math Word Problems
-
評測代碼地址:?GSM8K Evaluation Code
-
評測排行榜: 官方倉庫和論文中展示了模型在GSM8K數據集上的評測結果。
請注意,數據集的具體細節和最新信息可能隨時間變化,請參考相關鏈接和官方資源獲取最新的更新。