評測榜單說明
在數學推理基準AIME24上,QwQ-32B達到了79.5分,幾乎與DeepSeek-R1-617B的79.8分持平,遠超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸餾模型。
在編程能力方面,QwQ-32B 在LiveCodeBench上獲得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同樣優于o1-mini的53.8分和蒸餾模型。
在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中,通義千問QwQ-32B的得分均略微超過了DeepSeek-R1-617B。
除了在性能上的提升,QwQ-32B的另一個亮點就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的顯存,而現在,32B的QwQ,4張4090就能跑,這是將近15倍的差距,并且智能水平還差不多。
根據提供的搜索結果,以下是與用戶提到的基準測試相關的信息匯總及分析:
1. AIME24
- 用途:數學推理能力評測基準,主要測試模型在復雜數學問題中的邏輯推理能力。
- 相關模型表現:
- 阿里開源的QwQ-32B模型在AIME24上獲得79.5分,接近DeepSeek-R1-617B(79.8分),遠超OpenAI o1-mini(63.6分)。
- 特點:該基準注重模型對數學規律的解析能力,例如在找規律題目中,模型需通過提示進行迭代計算,但可能因過度思考導致錯誤。
2. LiveCodeBench
- 用途:代碼生成能力評測基準,評估模型生成可執行代碼的準確性和效率。
- 相關模型表現:
- QwQ-32B在LiveCodeBench上得分為63.4分,接近DeepSeek-R1-617B的65.9分,優于同尺寸的蒸餾模型。
- 問題示例:生成解決“用5L和3L瓶子裝4L水”的代碼,QwQ-32B展示了生成多種解決方案的能力。
3. LiveBench
- 用途:綜合評測大模型能力的榜單,由Meta首席科學家楊立昆領銜設計,被列為“最難的LLMs評測榜”之一。
- 相關模型表現:
- QwQ-32B在LiveBench中得分略微超過DeepSeek-R1-617B,顯示其綜合推理能力的優勢。
- 覆蓋領域:可能包括數學、代碼、邏輯推理等多維度任務。
4. IFEval(推測為FEva的可能對應)
- 用途:指令遵循能力評測集,由谷歌等機構提出,測試模型對復雜指令的理解和執行能力。
- 相關模型表現:
- QwQ-32B在IFEval中表現優異,得分超過DeepSeek-R1-617B,顯示其較強的指令解析能力。
5. BFCL(Benchmark for Function Call and Tools)
- 用途:評估模型準確調用函數或工具的能力,例如API接口或外部工具的使用。
- 相關模型表現:
- QwQ-32B在BFCL測試中得分略高于DeepSeek-R1-671B,突顯其在工具調用任務中的高效性。
時間范圍 (24.08-25.02)
- 解讀:可能指基準測試的活躍使用時間段(2024年8月至2025年2月),但搜索結果中未明確提及具體時間范圍。當前信息顯示,阿里QwQ-32B的測試結果發布于2025年3月7日,表明這些基準在近期仍被廣泛使用。
總結
上述基準測試覆蓋了數學推理(AIME24)、代碼生成(LiveCodeBench)、綜合能力(LiveBench)、指令遵循(IFEval)及工具調用(BFCL)等多個維度,是當前評估大模型能力的重要工具。阿里QwQ-32B模型在這些測試中表現突出,尤其在降低部署成本的同時保持高性能,成為開源社區的熱門選擇。
如需進一步了解各基準的詳細評測方法或歷史數據,可參考相關論文或模型開源頁面(如魔搭社區、Hugging Face等)。