合成數據更“科研驅動”,強調 controllability 和 generalization evaluation:
之前往往直接采用經典數據集如OGB和OGB-large提供的經典數據集和數據劃分思路
該思想從現有真實數據中學習參數,再構造類似但分布略異的數據集,驗證模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成時調節各項參數以更全面的反映模型性能
graphworld則是提供了一個完全合成的數據集來反省模型效果(作者成為fake data)
NeurIPS 2024 Datasets and Benchmarks Track 更“產業/應用驅動”,強調 task relevance 和 community standard:
DrivAerNet++ 多模態汽車數據集,結合計算流體力學模擬與深度學習基準,用于自動駕駛研究。
DomainGallery 少樣本圖像生成數據集,強調屬性驅動的微調方法。
Bench2Drive 封閉式端到端自動駕駛任務的多能力基準測試框架。
FEDMEKI 聯邦學習場景下的醫學基礎模型擴展基準,注重知識注入。
GTSinger 面向歌唱任務的全球多技術語料庫,包含真實音樂分數。
SolarCube 衛星與地面觀測融合的大規模太陽能預測數據集。
CARE 酶分類與檢索任務的基準套件,支持生物信息學研究。
VRSBench 面向遙感圖像理解的多模態視覺語言基準數據集。
Sim2Real-Fire 森林火災預測與回溯的多模態模擬數據集。
SciInstruct 科學語言模型訓練用的自反式指令注釋數據集。
HelpSteer 2 用于訓練獎勵模型的開源數據集,支持對齊與安全性研究。
WildPPG 長時間連續記錄的真實世界脈搏波數據集,支持健康監測。
CRAG 綜合檢索增強生成(RAG)任務的基準數據集。
CVQA 多文化多語言視覺問答基準,覆蓋全球多種語言與文化背景。
MMM-RS 多模態、多分辨率、多場景遙感圖像生成基準。
UrbanDataLayer 城市科學研究的統一數據處理管道,支持多源數據融合。
DrivingDojo Dataset 交互式、知識豐富的自動駕駛世界模型數據集。
專門的NeurIPS 2024 Track Datasets and Benchmarks中:
DevBench 面向語言學習的多模態發展性基準,關注兒童語言習得過程
MedCalc-Bench 醫學計算能力評估基準,用于測試 LLM 在醫學推理中的表現
PRISM Alignment Dataset 多文化人類反饋數據集,用于研究 LLM 的主觀性與對齊問題(best paper)
Brain Treebank 基于自然語言刺激的大規模腦電記錄數據集,連接語言與神經活動
ChaosBench 用于氣候預測的物理建模基準,支持多通道季節性預測任務
OpenMathInstruct-1 包含180萬條數學指令的微調數據集,提升 LLM 數學能力
Embodied Agent Interface 用于評估 LLM 在具身決策任務中的表現,連接語言與行動
AgentBoard 多輪 LLM Agent 的分析性評估平臺,支持行為與策略分析
LINGOLY 奧林匹克級語言推理題庫,涵蓋瀕危語言與低資源語言
A Taxonomy of Challenges to Curating Fair Datasets 公平數據集構建挑戰的系統分類,關注偏見與代表性問題
我們關注的是泛化與穩健性,不只是某個具體應用,同時 參考 DB Track 的設計理念,可以從 synthetic dataset generation 切入