model | MMLU | C-Eval | GSM8K | HumanEval |
glm-4-9b | 74.7 | 77.1 | 84.0 | 70.1 |
qwen1.5-7b | 61 | 74.1 | 62.5 | 36.0 |
qwen1.5-14b | 67.6 | 78.7 | 70.1 | 37.8 |
數據來源是以下兩個圖。可以看到GLM4非常優秀,qwen應該也快要開源自己的新模型了,希望國內的大模型團隊能夠繼續堅持,持續努力,堅持就是成功,持續性的努力非常重要!!!
(來源:魔搭社區)
(來源:Introducing Qwen1.5 | Qwen)