Meta AIUCSD放大招:DeepConf 讓大語言模型推理既快又準,84.7%的token節省+近乎完美的準確率!

1. 【前言】

Meta&UCSD
Meta&UCSD

大語言模型(LLMs) 在推理任務中通過自一致性等測試時縮放方法展現出巨大潛力,但存在精度收益遞減和計算開銷高的問題。為此,Meta與UCSD的研究人員提出DeepConf方法,它利用模型內部的置信度信號,在生成過程中或生成后動態過濾低質量推理軌跡,無需額外模型訓練或超參數調優,可無縫集成到現有服務框架中。在多種推理任務和最新開源模型(如Qwen 3和GPT-OSS系列)上的評估顯示,DeepConf在挑戰性基準測試(如AIME 2025)中表現優異,DeepConf@512的準確率高達99.9%,與完全并行思維相比,生成的** tokens減少多達84.7%,顯著提升了推理效率**和性能。Up: DeepConf on AIME 2025. Down: Parallel thinking using DeepConf

2. 【論文基本信息】

論文基本信息
論文基本信息

論文標題:Deep Think with Confidence

論文鏈接:https://arxiv.org/html/2508.15260v1 項目鏈接:jiaweizzhao.github.io/deepconf

3 論文背景

3.1 大語言模型推理的現狀與挑戰

大語言模型(LLMs)在推理任務中展現出顯著潛力,尤其通過測試時縮放方法(如自一致性方法),即生成多條推理路徑并通過多數投票聚合答案,可有效提升推理性能。然而,該類方法存在明顯局限:一方面,隨著推理軌跡數量增加,精度提升呈現遞減趨勢,甚至可能因低質量軌跡主導投票而導致性能下降;另一方面,生成大量推理軌跡會帶來極高的計算開銷,例如在AIME 2025任務中,使用Qwen3-8B模型將pass@1精度從68%提升至82%,需額外生成511條推理軌跡,消耗1億個token,嚴重限制了實際部署。

3.2 現有置信度評估方法的不足

近年來,研究開始利用模型的下一個token分布統計(如熵、置信度分數)評估推理軌跡質量,通過聚合token級統計量計算全局置信度(如平均軌跡置信度),以篩選低質量軌跡。但全局置信度方法存在兩大缺陷:一是掩蓋了局部推理步驟的置信度波動,可能忽略關鍵的中間推理錯誤(如少數高置信度token掩蓋大量低置信度片段);二是需生成完整軌跡才能計算,無法實現低質量軌跡的早期終止,導致計算效率低下。

3.3 DeepConf方法的提出動機

為解決上述問題,本文提出“Deep Think with Confidence(DeepConf)”方法。其核心思路是利用模型內部的局部置信度信號,在推理軌跡生成過程中或生成后動態過濾低質量軌跡。該方法無需額外模型訓練或超參數調優,可無縫集成到現有服務框架中,旨在同時提升推理效率(減少生成token)和性能(提高精度),尤其針對復雜推理任務(如AIME 2025)實現高效優化。

4.【研究方法論】

4.1 推理質量的置信度指標

為了有效評估推理軌跡的質量,論文基于模型內部的token分布提出了多種置信度指標,具體如下:

  • Token熵(Token Entropy):給定語言模型在位置i的預測token分布P_{i},token熵定義為H_{i}=-\sum_{j} P_{i}(j) log P_{i}(j),其中P_{i}(j)表示詞匯表中第j個token的概率。低熵表明分布集中,模型確定性高;高熵則反映預測的不確定性。
  • Token置信度(Token Confidence):將位置i的top-k個token的負平均對數概率定義為token置信度C_{i}=-\frac{1}{k} \sum_{j=1}^{k} log P_{i}(j),k為所考慮的top token數量。高置信度對應分布集中和模型確定性高,低置信度則表示token預測的不確定性。
  • 平均軌跡置信度(Average Trace Confidence):為了評估整個推理軌跡,對token級指標進行聚合,采用平均軌跡置信度(也稱為自確定性)作為軌跡級質量度量,即C_{avg }=\frac{1}{N} \sum_{i=1}^{N} C_{i},其中N是生成的token總數。該指標能有效區分正確和錯誤的推理路徑,值越高表明正確性可能性越大,但存在掩蓋中間推理失敗和需完整軌跡才能評估的局限性。 Confidence distributions for correct vs. incorrect reasoning traces across different metrics.

4.2 DeepConf的置信度度量方法

為解決全局置信度度量的局限性,論文提出了多種捕捉局部中間步驟質量的置信度度量方法,具體如下:

  • 組置信度(Group Confidence):通過在推理軌跡的重疊跨度上平均token置信度,量化中間推理步驟的置信度,提供更局部和平滑的信號。每個token與一個滑動窗口組G_{i}相關聯,該組由n個先前的token組成(例如n=1024或2048),相鄰窗口重疊。對于每個組G_{i},組置信度定義為C_{G_{i}}=\frac{1}{|G_{i}|} \sum_{t \in G_{i}} C_{t},其中|G_{i}|是組G_{i}中的token數量。
  • 底部10%組置信度(Bottom 10% Group Confidence):為捕捉極低置信度組的影響,軌跡置信度由軌跡內底部10%組置信度的平均值確定,即C_{bottom-10 }(t)=\frac{1}{|G_{b}|} \sum_{G_{j} \in G_{b}} C_{G_{j}},其中G_{b}是置信度得分最低的10%組的集合。
  • 最低組置信度(Lowest Group Confidence):考慮推理軌跡中最不自信的組的置信度,是底部10%組置信度的特例,僅基于最低置信度組估計軌跡質量,定義為C_{least}(t)=\min_{G_{j}\in G}C_{G_{j}},其中G是推理軌跡中所有token組的集合。
  • 尾部置信度(Tail Confidence):通過關注推理軌跡的最后部分來評估其可靠性,基于推理質量在長思維鏈末端往往下降且最終步驟對正確結論至關重要的觀察。尾部置信度C_{tail }定義為C_{tail }(t)=\frac{1}{|T_{tail }|} \sum_{t \in T_{tail }} C_{t},其中T_{tail }代表固定數量的token(例如2048)。

4.3 DeepConf的離線與在線思維方法

2 Algorithms
2 Algorithms
4.3.1 離線思維(Offline Thinking)

在離線思維中,每個問題的推理軌跡已生成,重點是聚合多個軌跡的信息以更好地確定最終答案,主要包括以下方法:

  • 多數投票(Majority Voting):在標準多數投票中,每個推理軌跡的最終答案對最終決策的貢獻相同。設T為所有生成軌跡的集合,對于每個t \in T,令answer(t)為從軌跡t中提取的答案字符串。每個候選答案a的得票數為V(a)=\sum_{t \in T} I( answer (t)=a),其中I{\cdot}是指示函數。最終答案選擇得票最高的那個,即\hat{a}=arg max _{a} V(a)
  • 置信度加權多數投票(Confidence-Weighted Majority Voting):不再平等對待每個軌跡的投票,而是根據相關軌跡的置信度對每個最終答案進行加權。對于每個候選答案a,其總得票權重定義為V(a)=\sum_{t \in T} C_{t} \cdot I( answer(t)=a),其中C_{t}是從上述討論的置信度度量中選擇的軌跡級置信度。選擇加權得票最高的答案,該投票方案有利于高置信度軌跡支持的答案,從而減少不確定或低質量推理答案的影響。
  • 置信度過濾(Confidence Filtering):除了加權多數投票外,還應用置信度過濾來集中關注高置信度推理軌跡。置信度過濾根據軌跡置信度得分選擇前η百分比的軌跡,確保只有最可靠的路徑對最終答案有貢獻,提供η=10%和η=90%兩種選擇。 Confidence measurements and offline thinking with confidence
4.3.2 在線思維(Online Thinking)

在線思維過程中評估置信度,能夠在生成過程中實時估計軌跡質量,從而動態終止無前景的軌跡,主要包括以下內容:

  • 算法介紹:提出了基于最低組置信度的DeepConf-low和DeepConf-high兩種算法,在在線思維中自適應地停止生成并調整軌跡預算,包括離線預熱和自適應采樣兩個主要部分。
  • 離線預熱(Offline Warmup):DeepConf需要一個離線預熱階段來確定在線決策的停止閾值s。對于每個新提示,生成N_{init }個推理軌跡(例如N_{init }=16)。停止閾值s定義為s= Percentile _{100-\eta}(\{C_{t}: t \in T_{warmup }\}),其中T_{warmup }表示所有預熱軌跡,C_{t}是軌跡t的置信度,η是期望的保留比例。具體而言,DeepConf-low使用前η=10%(對應第90個百分位數),DeepConf-high使用前η=90%(對應第10個百分位數),該閾值確保在在線生成過程中,當軌跡的置信度低于從預熱階段保留前η%最高置信度軌跡的水平時,軌跡將被終止。
  • 自適應采樣(Adaptive Sampling):在DeepConf中,所有方法都采用自適應采樣,根據問題難度動態調整生成的軌跡數量。難度通過生成軌跡之間的共識來評估,用量化多數投票權重V(\hat{a})與總投票權重\sum_{a} V(a)的比率表示,即\beta=\frac{V(\hat{a})}{\sum_{a} V(a)}。τ是預設的共識閾值。如果\beta<\tau,模型對當前問題未達成共識,軌跡生成將繼續,直到達到固定的軌跡預算B。否則,軌跡生成停止,使用現有軌跡確定最終答案。 -DeepConf during online generation.

5.【實驗結果】

5.1 實驗設置

  • 模型:評估5個開源LLM(DeepSeek-8B、Qwen3-8B/32B、GPT-OSS-20B/120B),覆蓋多參數規模,側重數學推理與長思維鏈能力。
  • 數據集:5個高難度基準,含4個數學競賽題(AIME24/25、BRUMO25、HMMT25)和1個研究生STEM推理任務(GPQA)。
  • 基線與設置:以自一致性多數投票為基線,預生成4096條推理軌跡池,離線/在線實驗分別重采樣后應用投票方法,結果經64次獨立運行平均,早期終止軌跡僅計停止前token。

5.2 離線評估結果

  • 帶過濾的置信度加權多數投票多數優于標準多數投票(Cons@512)。
  • η=10%過濾收益最大,如DeepSeek-8B在AIME25準確率從82.3%升至87.4%,GPT-OSS-120B在AIME25達99.9%。
  • 局部與全局置信度度量均有效,但η=10%激進過濾可能因模型過度自信受損,η=90%更保守安全。
  • 所有方法均優于pass@1,最低組置信度下,η=10%平均提升5.27個百分點(相對多數投票),η=90%平均提升0.29個百分點。 Benchmarking confidence measurements in offline setting Offline accuracy with Lowest Group Confidence filtering (DeepSeek-8B) on AIME24, AIME25, BRUMO25, and HMMT25

5.3 在線評估結果

  • K=512時,DeepConf-low減少43-79%token,多數情況提升準確率(如DeepSeek-8B在AIME24+5.8%),少數情況下降;DeepConf-high節省18-59%token,準確率基本不變。
  • GPT-OSS-120B上,DeepConf最高節省85.8%token,保持競爭力。
  • DeepSeek-8B上,DeepConf-low平均省62.88%token,DeepConf-high省47.67%,效率優勢顯著。
  • 在線行為與離線一致,η=10%過濾增益最高,偶爾在特定數據集下降。

Benchmark DeepConf in online setting. Accuracy vs. generated tokens for online Lowest Group Confidence filtering (DeepSeek8B) on AIME24, AIME25, BRUMO25, and HMMT25.

6.【總結展望】

6.1 總結

論文提出了Deep Think with Confidence(DeepConf)方法,旨在解決大型語言模型(LLMs)在推理任務中使用自一致性等測試時擴展方法存在的準確性收益遞減和計算開銷高的問題。DeepConf利用模型內部的置信度信號,在生成過程中或生成后動態過濾低質量的推理軌跡,無需額外的模型訓練或超參數調優,可無縫集成到現有服務框架中。通過在多種推理任務和最新開源模型上的評估表明,在離線模式下,DeepConf@512使用GPT-OSS-120B在AIME 2025上達到99.9%的準確率;在在線模式下,與完全并行思維相比,可減少高達84.7%的生成token,同時保持或超過準確率,有效提升了推理效率和性能。

6.2 展望

未來工作有多個有前景的方向。一是將DeepConf擴展到強化學習場景,利用基于置信度的早期停止來指導策略探索,提高訓練期間的樣本效率。二是解決模型在錯誤推理路徑上表現出高置信度的情況,這是實驗中觀察到的一個關鍵限制。此外,還可探索更 robust的置信度校準技術和不確定性量化方法,以更好地識別和緩解過度自信但錯誤的預測。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95637.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95637.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95637.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決leetcode第3671.子序列美麗值求和問題

3671. 子序列美麗值求和難度&#xff1a;困難問題描述&#xff1a;給你一個長度為 n 的整數數組 nums。對于每個 正整數 g&#xff0c;定義 g 的 美麗值 為 g 與 nums 中符合要求的子序列數量的乘積&#xff0c;子序列需要 嚴格遞增 且最大公約數&#xff08;GCD&#xff09;恰…

電機控制(一)-電機分類

電機分類 電機分類&#xff1a; 電機的拓撲模型并沒有發生太大變化,變化較大的是控制電機的方法。 常見的電機類型有&#xff1a; 步進電機vs伺服電機 在工業自動化、機器人、精密設備等領域&#xff0c;步進電機和伺服電機是兩種最常用的驅動電機&#xff0c;但兩者的核心…

【Qt】QToolBar、QToolButton的常用用法

一、QToolBar 常用用法 QToolBar 是 Qt 中用于創建工具欄的控件&#xff0c;可快速放置常用功能按鈕、分隔符或自定義控件&#xff0c;并支持拖動停靠、浮動等特性。 1. 基礎創建與添加到主窗口 // 在 QMainWindow 中創建工具欄 QToolBar *toolBar new QToolBar(tr("主工…

DVWA靶場通關筆記-驗證碼繞過Insecure CAPTCHA (Impossible級別)

目錄 一、reCAPTCHA 1、配置security為Impossible級別。 2、配置RECAPTCHA參數 3、再次打開靶場 二、源碼分析 1、index.php 2、impossible.php 3、功能函數 三、reCAPTCHA 防范分析 1、嚴格的參數驗證與處理 2、預處理防止SQL注入 3、CAPTCHA 驗證通過 4、驗證當前…

MySQL安裝(如果之前有安裝過MySQL,先執行下面的卸載流程)

1.安裝MySQL 1.1更新系統的軟件包列表 sudo apt-get update1.2安裝MySQL服務器 sudo apt-get install mysql-server1.3檢查MySQL服務是否啟動&#xff0c;若沒有啟動手動啟動若沒有啟動執行&#xff1a; sudo service mysql start1.4登錄MySQL&#xff08;默認安裝之后不需要密…

Streamlit 數據看板模板:非前端選手快速搭建 Python 數據可視化交互看板的實用工具

你想想看&#xff0c;平時你用 Python 跑出來一堆數據 —— 比如用戶留存率、產品銷量變化&#xff0c;想給領導或者同事看&#xff0c;總不能直接發個 CSV 文件或者一堆靜態圖吧&#xff1f;對方看的時候還得自己翻數據&#xff0c;想對比下上個月和這個月的變化都費勁&#x…

FMC、FMC+ 詳解

文章目錄FMC 簡介FMC 引腳輸出定義High-pin count (HPC) connector, HPC pinoutLow-pin count (LPC) connector, LPC pinoutPin and signal descriptionFMC 簡介VITA57 標準更新歷史VITA57.4 標準推出的原因FMC 引腳輸出定義Altera 開發板的 FMC 引腳定義英特爾 Arria 10 GX FP…

小迪web自用筆記24

黑名單機制。如果被過濾可以試試PHP5看看過濾沒&#xff08;或者其他變種變形&#xff09;&#xff0c;但是得看環境有些環境會被當成下載&#xff0c;有些會直接打開。白名單機制只允許這幾個特定后綴可以上傳&#xff0c;比黑名單更安全。直接從信息圖中獲取文件類型。文件類…

私有部署問卷系統、考試系統、投票系統、測評系統的最佳選擇-調問開源問卷表單(DWSurvey)

在選擇私有部署問卷系統的時候&#xff0c;調問問卷系統(DWSurvey)是一定要嘗試一下&#xff0c;而且可以應用到私有部署考試系統、私有部署投票系統、私有部署測評系統等多個應用場景。 私有部署問卷、考試、測評、投票系統的優勢不言而喻&#xff0c;就拿私有部署考試系統來說…

企業實用——MySQL的備份詳解

序言: 本次基于mysql8.0.40來給大家做數據庫的備份的實用技巧和思路!對于mysql基礎的部分后續我會節選部分給大家講解,本篇文章適合有一定數據庫基礎的小伙伴看。 目錄 一、MySQL備份概述 1、關于數據保存你要知道 2、到底要備份什么 備份什么 MySQL體系結構(MySQL =…

使用 FunASR 工具包實現音頻文件的語音識別

使用 FunASR 工具包實現音頻文件的語音識別&#xff0c;并將識別結果保存為文本文件&#xff0c;支持單文件處理和批量處理。電腦環境需要配置&#xff0c;我使用的PyTorch版本: 2.4.1cu121&#xff0c;CUDA可用: True。FunASR 是一個功能強大、性能卓越、面向工業應用的語音識…

【STM32】定時器編碼器接口

【STM32】定時器編碼器接口一、編碼器接口1.1 正交編碼器1.2 編碼器接口基本結構1.3 工作模式二、編碼器接口測速一、編碼器接口 編碼器接口可接收增量&#xff08;正交&#xff09;編碼器的信號&#xff0c;根據編碼器旋轉產生的正交信號脈沖&#xff0c;自動控制CNT的自增或…

浪潮科技Java開發面試題及參考答案(120道題-中)

請介紹一下 SpringMVC 的運行流程&#xff1f;從用戶發送請求到響應返回的完整步驟是什么&#xff1f;SpringMVC 是基于MVC架構的Web框架&#xff0c;其運行流程圍繞“前端控制器&#xff08;DispatcherServlet&#xff09;”展開&#xff0c;通過多個組件協同工作&#xff0c;…

k8s初始化常見問題

執行初始化&#xff1a;kubeadm init --apiserver-advertise-address192.168.88.110 --image-repository registry.aliyuncs.com/google_containers --pod-network-cidr10.244.0.0/16 --control-plane-endpointweb01報錯信息&#xff1a;age-repository registry.aliyuncs.com/…

Python學習筆記--使用Django修改和刪除數據

一、修改方式一&#xff1a;模型類的對象.屬性 更改的屬性值&#xff0c;模型類的對象.save()返回值&#xff1a;編輯的模型類的對象。def update_book(request):book models.Book.objects.filter(pk1).first()book.price "169"book.save()return HttpResponse(bo…

如何評價2025年數學建模國賽?

2025年全國大學生數學建模競賽將于9月4日正式舉行&#xff01; 有些第一次參加數學競賽的同學可能覺得自己還沒準備好&#xff0c;臨近比賽感到緊張很正常&#xff0c;但需調整心態——數學建模比賽本就是學習過程&#xff0c;遇到不會的知識及時搜索、現學現用即可&#xff0…

uniapp [全端兼容] - 實現全景圖Vr 720°全景效果查看預覽功能,3D全景圖流暢不卡頓渲染+手勢拖拽+懸浮工具按鈕,uniAPP實現vr看720度全景效果示例代碼(H5小程序APP全兼容)

前言 如果您需要 Vue 版本,請訪問 這篇文章。 在 uni-app 全平臺兼容(H5網頁網站、支付寶/微信小程序、安卓App、蘋果App、nvue)開發中,詳細實現全景圖Vr 720全景查看+用戶可流暢拖動預覽+自定義工具欄/按鈕元素等,uniApp如何實現在線觀看720度全景圖,適用于全景圖VR看房…

51單片機-實現串口模塊教程

本章概述思維導圖&#xff1a;51單片機實現串口模塊教程通信基本概念通信&#xff0c;至少是需要兩個對象&#xff0c;一個收一個發數據。根據數據通信的傳輸時序協調方式&#xff0c;可分為&#xff1a;同步通信和異步通信&#xff1b;根據數據通信的傳輸線路可分為&#xff1…

Linux echo 命令使用說明

echo 命令使用說明&#xff08;Linux&#xff09; 適用環境 Bash/Zsh 等常見 Shell&#xff08;echo 通常為內建命令&#xff09;也可能存在外部 /bin/echo&#xff08;行為與內建略有差異&#xff09; 基本語法 echo [選項] [字符串...]常用選項 -n: 結尾不輸出換行-e: 解析反…

Java搭建高效后端,Vue打造友好前端,聯合構建電子采購管理系統,實現采購流程電子化、自動化,涵蓋采購全周期管理,功能完備,附詳細可運行源碼

前言&#xff1a;在當今數字化浪潮席卷的時代&#xff0c;企業的采購管理面臨著前所未有的挑戰與機遇。傳統采購模式因流程繁瑣、效率低下、信息不透明等問題&#xff0c;已難以滿足企業快速發展的需求。電子采購管理系統作為一種創新的采購解決方案&#xff0c;借助先進的信息…