QWQ大模型評測榜單

在這里插入圖片描述

評測榜單說明
在數學推理基準AIME24上,QwQ-32B達到了79.5分,幾乎與DeepSeek-R1-617B的79.8分持平,遠超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸餾模型。

在編程能力方面,QwQ-32B 在LiveCodeBench上獲得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同樣優于o1-mini的53.8分和蒸餾模型。

在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中,通義千問QwQ-32B的得分均略微超過了DeepSeek-R1-617B。

除了在性能上的提升,QwQ-32B的另一個亮點就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的顯存,而現在,32B的QwQ,4張4090就能跑,這是將近15倍的差距,并且智能水平還差不多。

根據提供的搜索結果,以下是與用戶提到的基準測試相關的信息匯總及分析:


1. AIME24

  • 用途:數學推理能力評測基準,主要測試模型在復雜數學問題中的邏輯推理能力。
  • 相關模型表現
    • 阿里開源的QwQ-32B模型在AIME24上獲得79.5分,接近DeepSeek-R1-617B(79.8分),遠超OpenAI o1-mini(63.6分)。
  • 特點:該基準注重模型對數學規律的解析能力,例如在找規律題目中,模型需通過提示進行迭代計算,但可能因過度思考導致錯誤。

2. LiveCodeBench

  • 用途:代碼生成能力評測基準,評估模型生成可執行代碼的準確性和效率。
  • 相關模型表現
    • QwQ-32B在LiveCodeBench上得分為63.4分,接近DeepSeek-R1-617B的65.9分,優于同尺寸的蒸餾模型。
  • 問題示例:生成解決“用5L和3L瓶子裝4L水”的代碼,QwQ-32B展示了生成多種解決方案的能力。

3. LiveBench

  • 用途:綜合評測大模型能力的榜單,由Meta首席科學家楊立昆領銜設計,被列為“最難的LLMs評測榜”之一。
  • 相關模型表現
    • QwQ-32B在LiveBench中得分略微超過DeepSeek-R1-617B,顯示其綜合推理能力的優勢。
  • 覆蓋領域:可能包括數學、代碼、邏輯推理等多維度任務。

4. IFEval(推測為FEva的可能對應)

  • 用途:指令遵循能力評測集,由谷歌等機構提出,測試模型對復雜指令的理解和執行能力。
  • 相關模型表現
    • QwQ-32B在IFEval中表現優異,得分超過DeepSeek-R1-617B,顯示其較強的指令解析能力。

5. BFCL(Benchmark for Function Call and Tools)

  • 用途:評估模型準確調用函數或工具的能力,例如API接口或外部工具的使用。
  • 相關模型表現
    • QwQ-32B在BFCL測試中得分略高于DeepSeek-R1-671B,突顯其在工具調用任務中的高效性。

時間范圍 (24.08-25.02)

  • 解讀:可能指基準測試的活躍使用時間段(2024年8月至2025年2月),但搜索結果中未明確提及具體時間范圍。當前信息顯示,阿里QwQ-32B的測試結果發布于2025年3月7日,表明這些基準在近期仍被廣泛使用。

總結

上述基準測試覆蓋了數學推理(AIME24)、代碼生成(LiveCodeBench)、綜合能力(LiveBench)、指令遵循(IFEval)及工具調用(BFCL)等多個維度,是當前評估大模型能力的重要工具。阿里QwQ-32B模型在這些測試中表現突出,尤其在降低部署成本的同時保持高性能,成為開源社區的熱門選擇。
如需進一步了解各基準的詳細評測方法或歷史數據,可參考相關論文或模型開源頁面(如魔搭社區、Hugging Face等)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72697.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72697.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72697.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

bash: uwsgi: 未找到命令

針對你提出的“bash: uwsgi: command not found”問題,以下是一些可能的解決方案,請按照步驟逐一排查: ?1、檢查uwsgi命令是否正確?: 確保你輸入的命令是uwsgi,而不是uWSGI或其他變體。 ?2、確認uwsgi是否已安裝?&…

超圖(Hypergraph)

超圖(Hypergraph)是圖結構學習(Graph Learning)中的一種擴展形式,它比傳統圖(Graph)更具表達能力,適用于建模復雜的多元關系。 超圖是一種由 超節點(Hypernodes&#xff…

PyTorch中的線性變換:nn.Parameter VS nn.Linear

self.weight nn.Parameter(torch.randn(in_channels, out_channels)) 和 self.linear nn.Linear(in_channels, out_channels) 并不完全一致,盡管它們都可以用于實現線性變換(即全連接層),但它們的使用方式和內部實現有所不同。 …

鴻蒙生態日日新,夸克、順豐速運、駕校一點通等多款應用功能更新

3月5日鴻蒙生態日日新PLOG:吉事辦、健康甘肅等政務服務App上架原生鴻蒙應用市場;夸克、順豐速運、駕校一點通等多款應用功能更新。

基于SpringBoot的智慧停車場小程序(源碼+論文+部署教程)

運行環境 ? 前端:小程序 Vue ? 后端:Java ? IDE工具:IDEA(可自行選擇) HBuilderX 微信開發者工具 ? 技術棧:小程序 SpringBoot Vue MySQL 主要功能 智慧停車場微信小程序主要包含小程序端和…

致同報告:香港財政赤字加劇,擴大稅基與增收迫在眉睫

2月26日香港政府2025-26年度財政預算案,(以下簡稱“預算案”)發布,香港財政司司長陳茂波提出一系列旨在減少開支并振興香港經濟的措施,以應對日益增長的財政赤字。主要提案包括對所有公務員實施凍薪、針對性稅務寬減措…

在Spring Boot項目中分層架構

常見的分層架構包括以下幾層: 1. Domain 層(領域層) 作用:領域層是業務邏輯的核心,包含與業務相關的實體類、枚舉、值對象等。它是對業務領域的抽象,通常與數據庫表結構直接映射。 主要組件: 實體類(Entity):與數據庫表對應的Java類,通常使用JPA或MyBatis等ORM框架…

實訓任務2.2 使用Wireshark捕獲數據包并分析

目錄 【實訓目標】 【實訓環境】 【實訓內容】 【實訓步驟】 1.啟動WireShark 2. 使用Wireshark捕獲數據包 (1)選擇網絡接口 (2)捕獲數據包 (1)設置Wireshark過濾器并捕獲數據包 (2&…

工業自動化核心:BM100 信號隔離器的強大力量

安科瑞 呂夢怡 18706162527 BM100系列信號隔離器可以對電流、電壓等電量參數或溫度、電阻等非電量參數進行快速精確測量,經隔 離轉換成標準的模擬信號輸出。既可以直接與指針表、數顯表相接,也可以與自控儀表(如PLC)、各種 A/D …

并發編程——累加器

目錄 1 AtomicLong 1.1 核心功能 1.2 實現原理: (1)基于 Unsafe 的底層操作 (2) volatile字段的內存可見性 (3)CAS 操作與 ABA 問題 1.3 性能分析 1.4 使用場景 2 LongAdder 核心設計原理 1 分段存儲 2 分散更新策略 3.處理高競…

大模型管理工具:LLaMA-Factory

目錄 一、安裝與環境配置 二、?啟動 Web 界面 三、數據準備 四、模型訓練 五、模型評估 七、模型導出 八、API服務部署 LLaMA-Factory 是一個開源的大語言模型(LLM)微調框架,旨在簡化大規模模型的訓練、微調和部署流程。它支持多種主…

推流項目的ffmpeg配置和流程重點總結一下

ffmpeg的初始化配置,在合成工作都是根據這個ffmpeg的配置來做的,是和成ts流還是flv,是推動遠端還是保存到本地, FFmpeg 的核心數據結構,負責協調編碼、封裝和寫入操作。它相當于推流的“總指揮”。 先來看一下ffmpeg的…

大語言模型從理論到實踐(第二版)-學習筆記(緒論)

大語言模型的基本概念 1.理解語言是人工智能算法獲取知識的前提 2.語言模型的目標就是對自然語言的概率分布建模 3.詞匯表 V 上的語言模型,由函數 P(w1w2 wm) 表示,可以形式化地構建為詞序列 w1w2 wm 的概率分布,表示詞序列 w1w2 wm…

strace工具的交叉編譯

1、下載源碼 git clone https://github.com/strace/strace.git cd strace 2、運行 bootstrap 腳本(如果需要) 如果源碼中沒有 configure 腳本,運行以下命令生成: ./bootstrap 3. 配置編譯參數 運行 configure 腳本&#xff…

Vue 3 組件庫持續集成 (CI) 實戰:GitHub Actions 自動化測試與 Storybook 文檔構建 - 構建高效可靠的組件庫 CI 流程

引言 歡迎再次回到 Vue 3 + 現代前端工程化 系列技術博客! 在昨天的第十篇博客中,我們深入學習了代碼覆蓋率分析,掌握了利用 Jest 代碼覆蓋率報告提升單元測試有效性的方法,進一步鞏固了組件庫的質量防線。 今天,我們將邁向 自動化流程 的構建,聚焦于 持續集成 (Continu…

無穿戴動捕數字人互動方案 | 暢享零束縛、高沉浸的虛實交互體驗

在數字化浪潮席卷而來的當下,虛擬人互動體驗正逐漸成為各領域的新寵。長久以來,虛擬人驅動主要依靠穿戴式動作捕捉設備,用戶需要通過佩戴傳感器或標記點來實現動作捕捉。然而,隨著技術的不斷突破,一種全新的無穿戴動作…

03 HarmonyOS Next儀表盤案例詳解(二):進階篇

溫馨提示:本篇博客的詳細代碼已發布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下載運行哦! 文章目錄 前言1. 響應式設計1.1 屏幕適配1.2 彈性布局 2. 數據展示與交互2.1 數據卡片渲染2.2 圖表區域 3. 事件處理機制3.1 點擊事件處理3.2 手勢…

python-leetcode-統計構造好字符串的方案數

2466. 統計構造好字符串的方案數 - 力扣(LeetCode) 這個問題可以用**動態規劃(DP)**來解決,思路如下: 思路 1. 定義 DP 數組 設 dp[i] 表示長度為 i 的好字符串的個數。 2. 狀態轉移方程 我們可以在 dp…

MySQL------存儲引擎和用戶和授權

9.存儲引擎 1.兩種引擎 MyISAM和InnoDB 2.兩種區別 1.事務: MyISAM不支持事務 2.存儲文件: innodb : frm、ibd MyISAM: frm、MYD、MYI 3.數據行鎖定: MyISAM不支持 4.全文索引: INNODB不支持,所以MYISAM做select操作速度很快 5.外鍵約束: MyISAM…

題海拾貝:P9241 [藍橋杯 2023 省 B] 飛機降落

Hello大家好&#xff01;很高興我們又見面啦&#xff01;給生活添點passion&#xff0c;開始今天的編程之路&#xff01; 我的博客&#xff1a;<但凡. 我的專欄&#xff1a;《編程之路》、《數據結構與算法之美》、《題海拾貝》 歡迎點贊&#xff0c;關注&#xff01; 1、題…