BizFinBench
中文
金融業務場景基準數據集
結合迭代校準評估框架IteraJudge,對25個先進LLM進行全面評估,發現在金融AI領域與人類期望存在顯著性能差距。
https://arxiv.org/pdf/2505.19457
https://github.com/HiThink-Research/BizFinBench/tree/main
Finance-Instruct-500k
英文
涉及50萬個金融實體,涵蓋問答、推理、情感新粉、主題分類、NER和對話,
https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k
LiveBench
https://github.com/LiveBench/LiveBench.git
reference
---