評測系統構建

合成數據更“科研驅動”,強調 controllability 和 generalization evaluation:
之前往往直接采用經典數據集如OGB和OGB-large提供的經典數據集和數據劃分思路
該思想從現有真實數據中學習參數,再構造類似但分布略異的數據集,驗證模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成時調節各項參數以更全面的反映模型性能
graphworld則是提供了一個完全合成的數據集來反省模型效果(作者成為fake data)

NeurIPS 2024 Datasets and Benchmarks Track 更“產業/應用驅動”,強調 task relevance 和 community standard:
DrivAerNet++ 多模態汽車數據集,結合計算流體力學模擬與深度學習基準,用于自動駕駛研究。
DomainGallery 少樣本圖像生成數據集,強調屬性驅動的微調方法。
Bench2Drive 封閉式端到端自動駕駛任務的多能力基準測試框架。
FEDMEKI 聯邦學習場景下的醫學基礎模型擴展基準,注重知識注入。
GTSinger 面向歌唱任務的全球多技術語料庫,包含真實音樂分數。
SolarCube 衛星與地面觀測融合的大規模太陽能預測數據集。
CARE 酶分類與檢索任務的基準套件,支持生物信息學研究。
VRSBench 面向遙感圖像理解的多模態視覺語言基準數據集。
Sim2Real-Fire 森林火災預測與回溯的多模態模擬數據集。
SciInstruct 科學語言模型訓練用的自反式指令注釋數據集。
HelpSteer 2 用于訓練獎勵模型的開源數據集,支持對齊與安全性研究。
WildPPG 長時間連續記錄的真實世界脈搏波數據集,支持健康監測。
CRAG 綜合檢索增強生成(RAG)任務的基準數據集。
CVQA 多文化多語言視覺問答基準,覆蓋全球多種語言與文化背景。
MMM-RS 多模態、多分辨率、多場景遙感圖像生成基準。
UrbanDataLayer 城市科學研究的統一數據處理管道,支持多源數據融合。
DrivingDojo Dataset 交互式、知識豐富的自動駕駛世界模型數據集。

專門的NeurIPS 2024 Track Datasets and Benchmarks中:

DevBench 面向語言學習的多模態發展性基準,關注兒童語言習得過程
MedCalc-Bench 醫學計算能力評估基準,用于測試 LLM 在醫學推理中的表現
PRISM Alignment Dataset 多文化人類反饋數據集,用于研究 LLM 的主觀性與對齊問題(best paper)
Brain Treebank 基于自然語言刺激的大規模腦電記錄數據集,連接語言與神經活動
ChaosBench 用于氣候預測的物理建模基準,支持多通道季節性預測任務
OpenMathInstruct-1 包含180萬條數學指令的微調數據集,提升 LLM 數學能力
Embodied Agent Interface 用于評估 LLM 在具身決策任務中的表現,連接語言與行動
AgentBoard 多輪 LLM Agent 的分析性評估平臺,支持行為與策略分析
LINGOLY 奧林匹克級語言推理題庫,涵蓋瀕危語言與低資源語言
A Taxonomy of Challenges to Curating Fair Datasets 公平數據集構建挑戰的系統分類,關注偏見與代表性問題

我們關注的是泛化與穩健性,不只是某個具體應用,同時 參考 DB Track 的設計理念,可以從 synthetic dataset generation 切入

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/93680.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/93680.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/93680.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【計算機網絡面試】TCP/IP網絡模型有哪幾層

參考: 2.1 TCP/IP 網絡模型有哪幾層? | 小林coding | Java面試學習 以下為自己做的筆記 應用層 專注于為用戶提供應用功能,如HTTP、FTP、Telnet、DNS、SMTP等。應用層不關心用戶是怎么傳輸的,當兩個設備間的應用需要通信時&…

3 種方式玩轉網絡繼電器!W55MH32 實現網頁 + 阿里云 + 本地控制互通

目錄 1 前言 2 項目環境 2.1 硬件準備 2.2 軟件準備 2.3 方案圖示 3 例程修改 4 功能驗證 5. 總結 1 前言 HTTP(超文本傳輸協議,HyperText Transfer Protocol)是一種用于分布式、協作式、超媒體信息系統的應用層協議, 基于 TCP/IP…

第四篇:科技封鎖與文化滲透篇——T-501 與 M-208 雙引擎布局(節奏增強版)

科技封鎖與文化滲透篇——T-501 與 M-208 雙引擎布局(節奏增強版) 引子 在全球競爭中,光有資本和市場遠遠不夠。 ? 科技封鎖(T-501):通過技術標準、專利網絡、供應鏈控制,讓對手進入成本極高的…

python實現梅爾頻率倒譜系數(MFCC) 除了傅里葉變換和離散余弦變換

語音識別第4講:語音特征參數MFCC https://zhuanlan.zhihu.com/p/88625876/ Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-Between https://haythamfayek.com/2016/04/21/speech-processing-…

springBoot+knife4j+openapi3依賴問題參考

pom文件附帶版本<parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.12</version></parent><dependencies><!-- SpringDoc starter --><d…

XML DOM 高級

XML DOM 高級 引言 XML DOM(Document Object Model)是用于解析和操作XML文檔的一種標準,它允許開發者通過編程方式訪問和修改XML文檔的內容。本文將深入探討XML DOM的高級特性,包括XML解析、節點操作、事件處理以及性能優化等,幫助讀者全面理解并掌握XML DOM的高級應用。…

「第18講 內容生成應用場景與多語言支持」AI Agent開發與應用:基于大模型的智能體構建

第18講核心內容概述內容生成應用場景營銷文案生成&#xff1a;基于產品特征自動生成廣告語、社交媒體文案&#xff0c;支持個性化推薦和A/B測試優化。新聞報道輔助&#xff1a;快速生成財經、體育等領域的結構化新聞摘要&#xff0c;結合實時數據更新內容。教育內容定制&#x…

金融業務安全增強方案:國密SM4/SM3加密+硬件加密機HSM+動態密鑰管理+ShardingSphere加密

國密SM4/SM3 SM4&#xff1a;對稱加密算法&#xff0c;分組長度128位&#xff0c;密鑰長度128位&#xff0c;適用于數據加密&#xff08;如數據庫字段、通信報文&#xff09;】 加密存儲&#xff1a;用戶身份證號、銀行卡號等敏感字段&#xff08;配合ShardingSphere等中間件自…

Chaos Vantage 2.8.1 發布:實時探索與材質工作流的全新突破

作為行業領先的實時光線追蹤渲染器&#xff0c;Chaos Vantage再添利器。2.8.1版本更新聚焦材質工作流、硬件效率與API拓展&#xff0c;為建筑可視化、動畫制作等領域帶來更流暢的操作體驗與更深層的定制化可能。 一、核心功能更新&#xff1a;讓創作更順暢 完整V-Ray材質節點支…

【集合框架List接口】

&#x1f449; 用 ArrayList 存數據&#xff0c;結果插入時卡住了&#xff1f; &#x1f449; 想刪除某個元素&#xff0c;卻發現索引錯亂了&#xff1f; &#x1f449; 不知道該用 ArrayList 還是 LinkedList&#xff0c;選錯了導致性能瓶頸&#xff1f;一、List 是什么&#…

《棒球百科》奧運會取消了棒球·野球1號位

?? 奧運會棒球消失&復活之謎&#xff01;深度揭秘全球體育權力游戲 ??? 2008年為何被踢出奧運&#xff1f;(Why Removed in 2008?)MLB的致命抵制? 奧運賽期撞車MLB常規賽白熱化階段&#xff01;? 球隊老板拒放巨星&#xff1a;2000年悉尼奧運美國隊僅剩"替補陣…

基于js和html的點名應用

分享一個在課堂或者是公司團建上需要點名的應用程序&#xff0c;開箱即用。1、雙擊打開后先選擇人員名單&#xff08;可以隨時更改的&#xff09;2、下面的滾動速度可以根據需求調整<!DOCTYPE html> <html lang"zh"> <head> <meta charset"…

【深度學習-基礎知識】單機多卡和多機多卡訓練

1. 單機多卡訓練&#xff08;Single Machine, Multi-GPU&#xff09; 概念 在同一臺服務器上&#xff0c;有多塊 GPU。一個訓練任務利用所有 GPU 并行加速訓練。數據集存放在本地硬盤或共享存儲上。 核心原理數據并行&#xff08;Data Parallelism&#xff09; 將一個 batch 劃…

數據庫原理及應用_數據庫基礎_第2章關系數據庫標準語言SQL_SQL語言介紹數據庫的定義和刪除

前言 "<數據庫原理及應用>(MySQL版)".以下稱為"本書"中2.1節和2.2節第一部分內容 引入 本書P40:SQL(Structure Query Language結構化查詢語言)是一種在關系數據庫中定義和操縱數據的標準語言,是用戶和數據庫之間進行交流的接口. ---SQL是一種語言,是…

實變函數中集合E的邊界與其補集的邊界是否相等

在實變函數&#xff08;或一般拓撲學&#xff09;中&#xff0c;給定一個集合 E \subseteq \mathbb{R}^n &#xff08;或更一般的拓撲空間&#xff09;&#xff0c;集合 E 的邊界&#xff08;boundary&#xff09;與 E 的補集 E^c 的邊界是否相等&#xff1f; 即&#x…

# C++ 中的 `string_view` 和 `span`:現代安全視圖指南

C 中的 string_view 和 span&#xff1a;現代安全視圖指南 文章目錄C 中的 string_view 和 span&#xff1a;現代安全視圖指南目錄1. 原始指針的痛點1.1 安全問題1.2 所有權不明確1.3 接口笨拙1.4 生命周期問題2. string_view 深入解析2.1 基本特性2.2 高效解析示例2.3 防止常見…

Linux學習-多任務(線程)

定義輕量級進程&#xff0c;實現多任務并發&#xff0c;是操作系統任務調度最小單位&#xff08;進程是資源分配最小單位 &#xff09;。創建由進程創建&#xff0c;屬于進程內執行單元。- 獨立&#xff1a;線程有8M 獨立棧區 。 - 共享&#xff1a;與所屬進程及進程內其他線程…

高級堆結構

一、二項堆&#xff08;Binomial Heap&#xff09;&#xff1a;理解「合并操作」的優化二項堆的核心優勢是高效合并&#xff0c;類似 “二進制加法”。我們通過「合并兩個二項堆」的偽代碼和步驟來理解&#xff1a;核心結構偽代碼&#xff1a;class BinomialTreeNode:def __ini…

系統學習算法 專題十七 棧

題目一&#xff1a;算法思路&#xff1a;一開始還是暴力解法&#xff0c;即遍歷字符串&#xff0c;如果出現當前位置的字符等于后面的字符&#xff0c;則刪除這兩個字符&#xff0c;然后再從頭遍歷&#xff0c;如此循環即可但是這樣時間復雜度很高&#xff0c;每刪除一次就從頭…

深入解析函數指針及其數組、typedef關鍵字應用技巧

目錄 一、函數指針變量的創建 1、什么是函數指針變量&#xff1f; 2、函數是否有地址&#xff1f; 3、創建函數指針變量 4、函數指針類型解析 二、函數指針變量的使用 三、兩段有趣的代碼 1、解釋 (*(void (*)())0)(); 2、解釋 void (*signal(int, void(*)(int)))(int…