探秘LLM推理模型:hidden states中藏著的self verification的“鑰匙”

推理模型在數學和邏輯推理等任務中表現出色,但常出現過度推理的情況。本文研究發現,推理模型的隱藏狀態編碼了答案正確性信息,利用這一信息可提升推理效率。想知道具體如何實現嗎?快來一起來了解吧!

論文標題
Reasoning Models Know When They’re Right: Probing Hidden States for Self-Verification
來源
arXiv:2504.05419v1 [cs.AI] 7 Apr 2025
https://arxiv.org/abs/2504.05419

文章核心

研究背景

近年來,推理模型在復雜推理能力上取得顯著進展,如OpenAI的o1和DeepSeekR1等在數學和邏輯推理任務中表現出色,其基于搜索的推理方式是重要優勢。

研究問題

  1. 推理模型存在過度思考的問題,在得到正確答案后仍會進行不必要的推理步驟。
  2. 不清楚模型在推理過程中對中間答案正確性的評估能力如何。
  3. 模型雖能編碼答案正確性信息,但在推理時未能有效利用該信息。

主要貢獻

  1. 驗證信息編碼:證實推理模型的隱藏狀態編碼了答案正確性信息,通過簡單的探測就能可靠地提取,且探測結果校準度高,在分布內和分布外示例上都有良好表現。
  2. 提前預測正確性:發現模型隱藏狀態包含“前瞻性”信息,能在中間答案完全生成前預測其正確性。
  3. 提升推理效率:將訓練好的探測模型用作驗證器,實施基于置信度的提前退出策略,在不降低性能的情況下,可減少24%的推理令牌數量,揭示了模型在利用內部正確性信息方面的潛力。

方法論精要

  1. 核心算法/框架:使用兩層多層感知器(MLP)作為探測模型,在推理模型生成的長思維鏈(Chain-of-Thought,CoT)基礎上,將其分割為包含中間答案的多個塊,利用該探測模型從這些塊對應的隱藏狀態中提取信息,進而預測中間答案的正確性。
  2. 關鍵參數設計原理:由于數據集存在類別不平衡問題,多數中間答案正確,因此使用加權二元交叉熵損失函數。其中, w w w是訓練數據中負樣本與正樣本的比例, α \alpha α是縮放不平衡權重的超參數,通過調整這些參數來優化探測模型的訓練。
  3. 創新性技術組合
  • 數據處理創新:設計了一套獨特的數據處理流程。首先,收集推理模型針對任務數據集中每個問題的響應,將推理過程中封裝在標記內的推理痕跡提取出來,并以 “\n\n” 為分隔符拆分成段落。通過檢測段落中的 “wait”“double-check”“alternatively” 等關鍵詞來識別新推理路徑的起始點,然后將同一推理路徑的段落合并成一個塊。接著,借助 Gemini 2.0 Flash 工具,從每個塊中提取中間答案(若存在),并與真實答案對比判斷其正確性。對于相鄰且不包含中間答案的塊,將其與最近的含答案塊合并。最終,每個合并后的塊都包含一個中間答案以及由 Gemini 生成的表示答案正確性的二進制標簽,形成 ( c 1 , y 1 ) , ( c 2 , y 2 ) , . . . ( c k , y k ) {(c_{1}, y_{1}),(c_{2}, y_{2}), ...(c_{k}, y_{k})} (c1?,y1?),(c2?,y2?),...(ck?,yk?) 這樣的數據結構,為后續探測模型的訓練提供了豐富且準確的數據。
  • 模型訓練創新:在訓練探測模型時,采用將長 CoT 分段處理后得到的塊數據進行訓練。對于每個塊 c i c_{i} ci? ,選取其最后一個令牌位置的最后一層隱藏狀態作為該塊的表示 e i e_{i} ei?,以此構建探測數據集 D = ( e i , y i ) i = 1 N D={(e_{i}, y_{i})}_{i=1}^{N} D=(ei?,yi?)i=1N?,這種基于塊的隱藏狀態表示方式能夠有效捕捉推理過程中每個中間步驟的特征信息,為準確訓練探測模型奠定了基礎。同時,結合加權二元交叉熵損失函數進行訓練,進一步提升了模型在不平衡數據上的訓練效果。
  1. 實驗驗證方式:選擇數學推理(GSM8K、MATH、AIME)和邏輯推理(KnowLogic)任務的數據集,使用開源的DeepSeek - R1 - Distill系列模型以及QwQ - 32B模型。通過在不同數據集上訓練和測試探測模型,對比不同模型的性能,并將訓練好的探測模型作為驗證器,與靜態提前退出策略對比,評估推理效率和準確性。

實驗洞察

  1. 性能優勢:在分布內實驗中,所有探測模型的ROC - AUC得分均高于0.7,預期校準誤差(ECE)低于0.1。例如,R1 - Distill - Qwen - 32B在AIME數據集上的ROC - AUC得分超過0.9。在跨數學推理數據集的實驗中,部分探測模型具有良好的泛化性,如在MATH和GSM8K數據集上訓練的探測模型在兩個數據集之間轉移時,ROC - AUC和ECE表現良好。
  2. 效率突破:使用基于探測模型置信度的提前退出策略,在MATH數據集上,當置信度閾值設為0.85時,推理準確率與不提前退出時大致相同(88.2%),但生成的令牌數量減少了約24%;當閾值設為0.9時,推理準確率為88.6%,令牌數量減少19%。且在節省相同數量令牌的情況下,該策略比靜態提前退出策略的準確率高5%。
  3. 消融研究:訓練非推理模型(Llama - 3.1 - 8B - Instruct)的探測模型并與推理模型對比,發現非推理模型探測模型的性能更差,分類得分更低,校準誤差更高,表明答案正確性的編碼信息在推理模型中更顯著,與長CoT推理能力相關。同時,研究發現推理模型在中間答案生成前,隱藏狀態就編碼了正確性信息,且靠近答案生成位置的段落,探測模型性能更好。

本文由AI輔助完成。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902972.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

流量抓取工具(wireshark)

協議 TCP/IP協議簇 網絡接口層(沒有特定的協議)PPPOE 物理層數據鏈路層 網絡層: IP(v4/v6) ARP(地址解析協議) RARP ICMP(Internet控制報文協議) IGMP傳輸層:TCP(傳輸控制協議)UDP(用戶數據報協議)應用層…

.NET倉儲層在 using 塊中創建 SqlSugarClient 的風險

如題&#xff0c;先看代碼示例 using 塊的使用 public ISugarQueryable<T> GetSet(Expression<Func<T, bool>> whereExpression null) {using (SqlSugarClient dbClient SqlSugarInstance.GetInstance()){var query dbClient.Queryable<T>();if (w…

C語言----函數棧幀講解

目錄 1.函數棧幀是什么? 2. 理解函數棧幀能解決什么問題 3、函數棧幀的創建和銷毀具體過程 3.1 什么是棧 3.2 認識相關寄存器和匯編指令 3.3函數棧幀的創建和銷毀 3.3.1 預備知識 3.3.2 函數的調用堆棧 3.3.3 準備環境 3.3.4 轉到反匯編 3.3.5 函數棧幀的創建 3.3…

代碼隨想錄學習筆記---二叉樹

學習目標&#xff1a; 學習代碼隨想錄–二叉樹 每天學習1道,復習兩道 學習內容&#xff1a; 2025.4.7 復習內容: 24. 兩兩交換鏈表中的節點 25. 最大二叉樹 學習內容 26. 合并二叉樹 2025.4.8 復習內容: 27. 二分查找 28. 合并二叉樹 29. 27. 移除元素 學習內容: 30. 二叉…

Git ——提交至github,Vercel拉取,更新不了項目的問題解決

首先因為github上有個錯誤 1 failing check Vercel - No GitHub account was found matching the commit author email address 發現好像是vercel拉取不了項目&#xff0c;vercel登錄的郵箱與我此次提交更改的郵箱不匹配&#xff0c;查看Git的user確實如此&#xff08;之前的…

Vue3項目中 npm 依賴安裝 --save 與 --save-dev 的區別解析

這兩個命令的區別如下&#xff1a; bash npm install --save types/crypto-js # 安裝到 dependencies&#xff08;生產依賴&#xff09; npm install --save-dev types/crypto-js # 安裝到 devDependencies&#xff08;開發依賴&#xff09; 核心區別 依賴分類不同…

品牌如何通過朝日新聞出海日本?——某企業日本媒體發稿實戰

文 | 言同數字亞太傳播實驗室 一、日本市場的隱形門檻&#xff1a;中國品牌的三大痛點 案例背景&#xff1a; 某中國靈芝保健品企業&#xff08;代號"ForestLife"&#xff09;&#xff0c;產品雖獲中國/歐盟有機認證&#xff0c;但在日本市場面臨&#xff1a; 認知…

鴻蒙-試一下屬性字符串:除了Span之外,如何在同一個Text組件中展示不同樣式的文字

文章目錄 前言簡介有哪些類型拉出來溜溜Text SpanStyledString其他CustomSpan先看一下構造函數onMeasure(measureInfo: CustomSpanMeasureInfo): CustomSpanMetricsonDraw(context: DrawContext, drawInfo: CustomSpanDrawInfo) 遺留問題 前言 在開發中&#xff0c;經常會遇到…

Nginx 安裝與配置全流程指南(2025 最新版)

一、環境準備與依賴安裝 1.1 系統要求 操作系統&#xff1a;支持主流 Linux 發行版&#xff08;Ubuntu 20.04/CentOS 7/Debian 10&#xff09;硬件配置&#xff1a;內存 ≥512MB&#xff0c;磁盤 ≥10GB 可用空間&#xff08;建議使用 SSD&#xff09;網絡要求&#xff1a;開…

【LeetCode 熱題 100】滑動窗口最大值 / 最小覆蓋子串 / 輪轉數組 / 缺失的第一個正數

??個人主頁&#xff1a;小羊 ??所屬專欄&#xff1a;LeetCode 熱題 100 很榮幸您能閱讀我的文章&#xff0c;誠請評論指點&#xff0c;歡迎歡迎 ~ 目錄 子串和為 K 的子數組滑動窗口最大值最小覆蓋子串 普通數組最大子數組和合并區間輪轉數組除自身以外數組的乘積缺失的…

golang的cgo的一點小心得

最后有個項目需要涉及到cgo&#xff0c;在這塊以前用的不多&#xff0c; 這次略微用得深入了一點&#xff0c;記下來幾點以備以后使用 本質上cgo去用的時候就是遵守一些ABI而已&#xff0c;總體而言&#xff0c;盡量避免復雜結構的來回傳遞。1 對于變長參數&#xff0c;只有…

異構網絡環境下的切換策略研究

移動互聯網應用快速崛起,現有的無線接入技術有,無線局域網(Wireless Local Area NetWork,WLAN),移動蜂窩網絡(4G,5G),無線廣域網(Wireless Wide Area Network,WWAL)以及衛星通信網絡等。多接入技術方便用戶通信,還符合多業務場景。這種多無線接入技術共存的網絡環…

人工智能賦能美妝零售數字化轉型:基于開源AI大模型的S2B2C商城系統構建

摘要 在消費升級背景下&#xff0c;美妝行業正經歷從傳統賣場向智能體驗空間的轉型。本文以"未來商店"為研究對象&#xff0c;探討開源AI大模型與S2B2C商城系統的協同效應&#xff0c;揭示人工智能技術如何重構"人-貨-場"關系。通過實證研究發現&#xff…

計算機視覺中的正則化:從理論到實踐的全面解析

&#x1f31f; 計算機視覺中的正則化&#xff1a;從理論到實踐的全面解析&#x1f31f; 大家好&#xff01;今天要和大家分享的是在計算機視覺&#xff08;CV&#xff09;領域中非常重要的一個概念——正則化&#xff08;Regularization&#xff09;。無論你是剛開始接觸深度學…

Linux字符設備驅動開發的詳細步驟

1. 確定主設備號?? ??手動指定??&#xff1a;明確設備號時&#xff0c;使用register_chrdev_region()靜態申請&#xff08;需確保未被占用&#xff09;。??動態分配??&#xff1a;通過alloc_chrdev_region()由內核自動分配主設備號&#xff08;更靈活&#xff0c;推…

軟件工程效率優化:一個分層解耦與熵減驅動的系統框架

軟件工程效率優化&#xff1a;一個分層解耦與熵減驅動的系統框架** 摘要 (Abstract) 本報告構建了一個全面、深入、分層的軟件工程效率優化框架&#xff0c;旨在超越簡單的技術羅列&#xff0c;從根本的價值驅動和熵減原理出發&#xff0c;系統性地探討提升效率的策略與實踐。…

【Docker游戲】使用Docker部署vue-XiuXianGame文字修仙小游戲

【Docker游戲】使用Docker部署vue-XiuXianGame文字修仙小游戲 一、vue-XiuXianGame介紹1.1 vue-XiuXianGame簡介1.2 主要特點 二、本次實踐規劃2.1 本地環境規劃2.2 本次實踐介紹 三、本地環境檢查3.1 檢查Docker服務狀態3.2 檢查Docker版本3.3 檢查docker compose 版本 四、拉…

用 LangChain 手搓 RAG 系統:從原理到實戰

一、RAG 系統簡介 在當今信息爆炸的時代&#xff0c;如何高效地從海量數據中獲取有價值的信息并生成準確、自然的回答&#xff0c;成為了人工智能領域的重要課題。檢索增強生成&#xff08;Retrieval-Augmented Generation&#xff0c;RAG&#xff09;系統應運而生&#xff0c;…

SpringBoot集成LiteFlow實現輕量級工作流引擎

LiteFlow 是一款專注于邏輯驅動流程編排的輕量級框架&#xff0c;它以組件化方式快速構建和執行業務流程&#xff0c;有效解耦復雜業務邏輯。通過支持熱加載規則配置&#xff0c;開發者能夠即時調整流程步驟&#xff0c;將復雜的業務如價格計算、下單流程等拆分為獨立且可復用的…

38 python random

在實際中,我們常常會用到隨機的概念,比如 模擬抽獎活動(如:月度優秀員工抽獎)生成測試數據(如:隨機考勤時間、隨機銷售額)打亂數據順序(如:隨機分配任務到人)Python 的random模塊就像你的 "隨機事件生成器",幫你輕松創建各種隨機數據 一、基礎操作:從隨…