LLM評測數據集

1. C-Eval

  • 數據集源地址:?C-Eval Official Repository

  • 數據范圍: 該數據集包括學科類知識測試,涵蓋廣泛的學科知識,例如數學、物理、化學等。

  • 數據集大小及數據形式: 數據集包含13,948道單選題,題目均為中文。

  • 論文地址:?C-Eval: A Multi-level, Multi-task Benchmark Dataset in Chinese

  • 評測代碼地址:?C-Eval Evaluation Code

  • 評測排行榜: 可以在C-Eval的官方倉庫找到詳細的評測結果。

2. CMMLU

  • 數據集源地址: 官方未提供單獨的倉庫,一般在相關研究論文和GitHub上可以找到具體實現和示例。

  • 數據范圍: 包含中文學科知識測試,類似于英文的MMLU,涵蓋文學、歷史、物理等多個領域。

  • 數據集大小及數據形式: 具體題目數量和形式未詳細披露,題目主要為中文文本。

  • 論文地址: 暫無明確論文地址,可參考相關領域的研究論文。

  • 評測代碼地址: 具體評測代碼可參見相關研究項目和GitHub倉庫。

  • 評測排行榜: 未明確提供官方排行榜,但在相關研究中會展示模型在該數據集上的表現。

3. GaoKao

  • 數據集源地址:?Gaokao Official Repository

  • 數據范圍: 涵蓋高考試題,包括選擇題、填空題和解答題,涉及語文、數學、英語等。

  • 數據集大小及數據形式: 數據集大小不一,通常分為多個子集。具體數量和形式取決于每年的高考試卷。

  • 論文地址:?GAOKAO-Benchmark: Evaluating Large Language Models with Chinese Gaokao

  • 評測代碼地址:?GAOKAO Evaluation Code

  • 評測排行榜: 官方倉庫和論文中可以找到模型在GaoKao數據集上的評測結果。

4. MMLU (Massive Multitask Language Understanding)

  • 數據集源地址:?MMLU Official Repository

  • 數據范圍: 英文學科知識測試,包含57個領域,涵蓋人文科學、理工科、社科等。

  • 數據集大小及數據形式: 包括57個領域的12,554個問題,數據主要為選擇題形式。

  • 論文地址:?Measuring Massive Multitask Language Understanding

  • 評測代碼地址:?MMLU Evaluation Code

  • 評測排行榜: 可以在官方倉庫找到最新的評測結果和排行榜。

5. GSM8K (Grade School Math 8K)

  • 數據集源地址:?GSM8K Official Repository

  • 數據范圍: 專注于小學數學問題解決,涵蓋基本數學技能。

  • 數據集大小及數據形式: 包括8,000條問題和解決方案,問題主要以文本形式給出,答案為詳細的解題步驟。

  • 論文地址:?Training Verifiers to Solve Math Word Problems

  • 評測代碼地址:?GSM8K Evaluation Code

  • 評測排行榜: 官方倉庫和論文中展示了模型在GSM8K數據集上的評測結果。

請注意,數據集的具體細節和最新信息可能隨時間變化,請參考相關鏈接和官方資源獲取最新的更新。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24516.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24516.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24516.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【一百一十】【算法分析與設計】[SDOI2009] HH的項鏈,樹狀數組應用,查詢區間的種類數,樹狀數組查詢區間種類數

P1972 [SDOI2009] HH的項鏈 [SDOI2009] HH的項鏈 題目描述 HH 有一串由各種漂亮的貝殼組成的項鏈。HH 相信不同的貝殼會帶來好運,所以每次散步完后,他都會隨意取出一段貝殼,思考它們所表達的含義。HH 不斷地收集新的貝殼,因此&am…

SMS - 基于阿里云實現手機短信驗證碼登錄(無需備案,非測試)

目錄 SMS 環境調試 從阿里云云市場中購買第三方短信服務 調試短信驗證碼功能 實戰開發 封裝組件 對外接口 調用演示 SMS 環境調試 從阿里云云市場中購買第三方短信服務 a)進入阿里云首頁,然后從云市場中找到 “短信” (一定要從 云…

如何實現網站HTTPS訪問

在當今網絡安全至關重要的時代,HTTPS已經成為網站安全的基本標準。HTTPS(超文本傳輸安全協議)通過在HTTP協議基礎上加入SSL加密層,確保了數據在用戶瀏覽器和服務器之間的傳輸是加密的,有效防止數據被竊取或篡改&#x…

calico node一直not ready

背景 我司某個大數據集群在做完添加到集群聯邦管理后,該集群的calico-node全部處于not ready 狀態,導致集群中節點之前的跨節點容器網絡不通。 操作 將大數據所在的k8s集群添加到集群聯邦的控制平面后,我們為了做各個子集群之間的容器網絡…

換熱器設計參數的選用

1 換熱管類型 光管:適用于任何條件;應用面廣 螺紋管:殼程流體的膜傳熱系數相當于管程傳熱系數1/3~3/5的場合;強化殼程傳熱系數,提高總傳熱系數;結垢速率低,結垢周期長。 波紋管:管…

使用 PAI-DSW x Free Prompt Editing圖像編輯算法,開發個人AIGC繪圖小助理

教程簡述 在本教程中,您將學習在阿里云交互式建模平臺PAI-DSW x Free Prompt Editing(CVPR2024中選論文算法)圖像編輯算法,開發個人AIGC繪圖小助理,實現文本驅動的圖像編輯功能單卡即可完成AIGC圖片風格變化、背景變化…

Java 的分支

分支控制有三種:單分支,雙分支,多分支。 單分支 基本語法: if (條件表達式){執行代碼塊; }程序示例: import java.util.Scanner;public class If01 {public static void main(String[] args) {Scanner sc new Sca…

【JAVA WEB實用技巧與優化方案】如何通過javacore、heapdump來排查JVM線程和內存問題

文章目錄 介紹什么是javacore ? javacore可以用來做哪些分析?什么是HeapDump?一、輸出JAVACORE 和 DUMP文件1.輸出JAVACORE通過`kill -3 [pid]` 來輸出javacore通過jstack 輸出Javacore文件2.輸出 dump 文件二、javacore文件和heapdump文件的分析工具使用詳情javacore 工具i…

Cesium開發環境搭建(一)

1.下載安裝Node.js 進入官網地址下載安裝包 Node.js — Download Node.js https://cdn.npmmirror.com/binaries/node/ 選擇對應你系統的Node.js版本,這里我選擇的是Windows系統、64位 安裝完成后,WINR,輸入node --version,顯示…

React + SpringBoot實現圖片預覽和視頻在線播放,其中視頻實現切片保存和分段播放

圖片預覽和視頻在線播放 需求描述 實現播放視頻的需求時,往往是前端直接加載一個mp4文件,這樣做法在遇到視頻文件較大時,容易造成卡頓,不能及時加載出來。我們可以將視頻進行切片,然后分段加載。播放一點加載一點&am…

tcp aimd 窗口的推導

舊事重提,今天用微分方程的數值解觀測 tcp aimd 窗口值。 設系統 AI,MD 參數分別為 a 1,b 0.5,丟包率由 buffer 大小,red 配置以及線路誤碼率共同決定,設為 p,窗口為 W,則有&…

云原生技術助力某國際化商業集團打造數字化轉型新引擎

某國際化商業集團(以下簡稱:集團),成立于1988年,現已發展成為擁有總資產800多億元,員工13000多人,涵蓋港口碼頭、石油化工、國際貿易等產業于一體的國際化現代化企業集團,連續多年進…

HAL STM32F1 通過查表方式實現SVPWM驅動無刷電機測試

HAL STM32F1 通過查表方式實現SVPWM驅動無刷電機測試 📍相關篇《基于開源項目HAL STM32F4 DSP庫跑SVPWM開環速度測試》 ?針對STM32F1系列,沒有專門的可依賴的DSP庫,為了實現特定函數的浮點運算快速計算,通過查表方式來實現&#…

番外篇 | 利用華為2023最新Gold-YOLO中的Gatherand-Distribute對特征融合模塊進行改進

前言:Hello大家好,我是小哥談。論文提出一種改進的信息融合機制Gather-and-Distribute (GD) ,通過全局融合多層特征并將全局信息注入高層,以提高YOLO系列模型的信息融合能力和檢測性能。通過引入MAE-style預訓練方法,進一步提高模型的準確性。?? 目錄 ??1.論文解…

如何解鎖植物大戰僵尸雜交版v2.0.88所有植物

如何解鎖植物大戰僵尸雜交版v2.0.88所有植物 前言安裝相關軟件快速解鎖方法 前言 經過探索植物大戰僵尸雜交版植物解鎖和關卡有關,所以通過所有關卡就可以解鎖所有植物。 安裝相關軟件 1.安裝植物大戰僵尸 2.安裝Hex Editor Neo 快速解鎖方法 本文參考如何修改…

<vs2022><問題記錄>visual studio 2022使用console打印輸出時,輸出窗口不顯示內容

前言 本文為問題記錄。 問題概述 在使用visual studio 2022編寫代碼時,如C#,在代碼中使用console.writeline來打印某些內容,以便于觀察,但發現輸出窗口不顯示,而代碼是完全沒有問題的。 解決辦法 根據網上提供的辦法…

深入解析力扣183題:從不訂購的客戶(LEFT JOIN與子查詢方法詳解)

在本篇文章中,我們將詳細解讀力扣第183題“從不訂購的客戶”。通過學習本篇文章,讀者將掌握如何使用SQL語句來解決這一問題,并了解相關的復雜度分析和模擬面試問答。每種方法都將配以詳細的解釋,以便于理解。 問題描述 力扣第18…

Java Web學習筆記23——Vue項目簡介

Vue項目簡介: Vue項目-創建: 命令行:vue create vue-project01 圖形化界面:vue ui 在命令行中切換到項目文件夾中,然后執行vue ui命令。 只需要路由功能。這個路由功能,開始不是很理解。 創建項目部保存…

html+css示例

HTML HTML(超文本標記語言)和CSS(層疊樣式表)是構建和設計網頁的兩種主要技術。HTML用于創建網頁的結構和內容,而CSS用于控制其外觀和布局。 HTML基礎 HTML使用標簽來標記網頁中的不同部分。每個標簽通常有一個開始…

【原創】海為PLC與RS-WS-ETH-6傳感器的MUDBUS_TCP通訊

點擊“藍字”關注我們吧 一、關于RS-WS-ETH-6傳感器的準備工作 要完成MODBUS_TCP通訊,我們必須要知道設備的IP地址如何分配,只有PLC和設備的IP在同一網段上,才能建立通訊。然后還要選擇TCP的工作模式,來建立設備端和PC端的端口號。接下來了解設備的報文格式,方便之后發送…