顛覆傳統!單樣本熵最小化如何重塑大語言模型訓練范式?

顛覆傳統!單樣本熵最小化如何重塑大語言模型訓練范式?

大語言模型(LLM)的訓練往往依賴大量標注數據與復雜獎勵設計,但最新研究發現,僅用1條無標注數據和10步優化的熵最小化(EM)方法,竟能在數學推理任務上超越傳統強化學習(RL)。這一突破性成果或將改寫LLM的訓練規則,快來了解這場效率革命!

論文標題

One-shot Entropy Minimization

來源

arXiv:2505.20282v2 [cs.CL] + https://arxiv.org/abs/2505.20282

PS: 整理了LLM、量化投資、機器學習方向的學習資料,關注同名公眾號 「 亞里隨筆」 即刻免費解鎖

文章核心

研究背景

大語言模型(LLM)的訓練后優化(post-training)近年來發展迅猛,DeepSeek-R1、Kimi-K1.5和OpenAI o-series等模型展現出卓越的推理能力。然而,傳統強化學習(RL)方法在應用中面臨顯著挑戰:其不僅需要大量高質量標注數據,還需精心設計規則化獎勵函數以最大化優勢信號,同時防范“獎勵黑客”問題。與之形成鮮明對比的是,熵最小化(EM)作為完全無監督方法,在訓練效率與便捷性上具備潛在優勢。本研究通過訓練13,440個LLM,系統驗證了EM僅用單條無標注數據和10步優化即可超越傳統RL的可能性,為LLM訓練后優化范式提供了全新思路。

研究問題

1. 數據效率低下:RL需數千條標注數據,而無監督方法的潛力尚未充分挖掘。

2. 訓練復雜度高:RL需設計復雜獎勵函數,且易出現“獎勵黑客”(reward hacking)問題。

3. 收斂速度緩慢:RL通常需數千步訓練,而高效優化方法亟待探索。

主要貢獻

1. 單樣本高效優化:提出One-shot Entropy Minimization(單樣本熵最小化)方法,僅用1條無標注數據+10步優化,性能超越傳統RL(如在Qwen2.5-Math-7B模型上,MATH500數據集得分提升25.8分)。

2. 理論機制創新:揭示EM與RL的核心目標一致(釋放預訓練模型潛力),但通過“對數幾率右移”(logits shift)機制驅動模型行為,與RL的左移方向相反,更利于生成高概率正確路徑。

3. 關鍵因素解析:發現溫度參數(temperature)是訓練與推理的核心變量,EM在推理時溫度趨勢與RL完全相反(EM隨溫度升高性能下降,RL反之)。

3. 范式重新定義:證明EM是“分布塑形工具”而非學習方法,其效果在10步內即可完成,后續訓練 loss 下降與性能提升解耦。

方法論精要

1. 核心算法/框架

熵最小化算法:通過最小化生成token的條件熵 H t H_t Ht?,迫使模型對預測更自信,僅計算生成token(非prompt部分)的熵。

數據選擇策略:基于“方差篩選”選擇最具不確定性的輸入——計算模型在k次采樣中的“pass@k準確率方差”,優先選擇方差最高的prompt(如NuminaMath數據集中的風力壓力計算問題)。

2. 關鍵參數設計原理

溫度參數0.5:訓練時溫度過低會使分布過窄,過高則增加隨機性,0.5時性能方差最大,易獲峰值表現。

學習率 2 × 10 ? 5 2×10^{-5} 2×10?5:10步快速收斂的最優選擇,過大易導致過自信,過小則收斂緩慢。

3. 創新性技術組合

無監督+方差篩選:無需標注數據,僅通過模型自身預測的不確定性篩選有效輸入,形成“熵敏感”訓練信號。

對數幾率分析:EM使logits分布右偏(skewness提升至1.54),集中概率質量于正確路徑,而RL導致左偏(skewness降至0.02)。

4. 實驗驗證方式

數據集:數學推理基準(MATH500、Minerva Math、Olympiad Bench、AMC23),以及LLaMA-3.1-8B、Qwen2.5系列等多模型測試。

基線方法:OpenReasoner-Zero、SimpleRL-Zoo、Prime-Zero等RL模型,對比其在數據量(129k-230k)與訓練步數(240-4000步)上的劣勢。

實驗洞察

1. 性能優勢

  • Qwen2.5-Math-7B模型:EM 1-shot使MATH500從53.0提升至78.8(+25.8),Minerva Math從11.0至35.3(+24.3),平均提升24.7分,接近Prime-Zero-7B等SOTA模型。
  • 跨模型泛化:在Qwen2.5-7B-Instruct模型上,EM將平均準確率從43.12%提升至44.5%,且對弱模型(LLaMA-3.1-8B)也有29.6%→42.2%的提升。

2. 效率突破

  • 訓練步數:僅10步收斂,較RL的數千步提升數百倍;單樣本訓練速度比RL快3個數量級。
  • 數據效率:1條數據效果超過RL的數千條,如EM 1-shot在AMC23上得分70.3,超越SimpleRL-Zoo(24k數據+4000步)的55.3分。

3. 消融研究

  • 溫度影響:訓練時溫度0.5性能最佳,推理時溫度與性能負相關(溫度1.0時EM平均得分下降5%,RL上升3%)。

  • 訓練順序:EM先于RL可提升性能(如Qwen2.5-Math-7B+EM+RL在AMC23得70.3),而RL后接EM會導致性能下降(如SimpleRL-Zoo+EM得分降低5.9分)。

Future Works

1. 穩定化訓練機制開發:針對EM訓練中存在的隨機性問題(相同設置下不同種子得分差異可達2倍),探索自適應早停策略或正則化方法,如基于損失-性能解耦點的動態終止準則,降低溫度參數敏感性,構建更魯棒的訓練框架。

2. 跨領域泛化探索:當前EM主要驗證于數學推理任務,未來將拓展至對話生成、代碼補全、科學文獻總結等多模態場景,研究序列級熵優化(如全句語義熵)與任務特定先驗融合技術,驗證其作為通用分布塑形工具的普適性。

3. 混合優化范式構建:探索EM與監督微調(SFT)、RL的協同機制,例如設計“EM預塑形→SFT精調→RL校準”的流水線,或開發動態熵-獎勵聯合優化目標,平衡模型自信度與外部對齊要求,解決RL后接EM導致的“對齊稅”問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85350.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85350.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85350.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

自動駕駛系統研發系列—激光雷達感知延遲:自動駕駛安全的隱形隱患?

???? 歡迎來到我的技術小筑,一個專為技術探索者打造的交流空間。在這里,我們不僅分享代碼的智慧,還探討技術的深度與廣度。無論您是資深開發者還是技術新手,這里都有一片屬于您的天空。讓我們在知識的海洋中一起航行,共同成長,探索技術的無限可能。 ?? 探索專欄:學…

【MySQL】事務及隔離性

目錄 一、什么是事務 (一)概念 (二)事務的四大屬性 (三)事務的作用 (四)事務的提交方式 二、事務的啟動、回滾與提交 (一)事務的啟動、回滾與提交 &am…

視覺分析明火檢測助力山東化工廠火情防控

視覺分析技術賦能化工廠火情防控:從山東事故看明火與煙霧檢測的應用價值 一、背景:山東化工事故中的火情防控痛點 近期,山東高密友道化學有限公司、淄博潤興化工科技有限公司等企業接連發生爆炸事故,暴露出傳統火情防控手段的局…

【小程序】微信小程序備案失敗,有請DeepSeek閃亮出場,看TA如何快速給出解決方案

🌹歡迎來到《小5講堂》🌹 🌹這是《小程序》系列文章,每篇文章將以博主理解的角度展開講解。🌹 🌹溫馨提示:博主能力有限,理解水平有限,若有不對之處望指正!&a…

Oracle正則表達式學習

目錄 一、正則表達簡介 二、REGEXP_LIKE(x,匹配項) 三、REGEXP_INSTR 四、REGEXP_SUBSTR 五、REGEXP_REPLACE 一、正則表達簡介 相關網址: https://cloud.tencent.com/developer/article/1456428 https://www.cnblogs.com/lxl57610/p/8227599.html https://…

vscode 代理模式(agent mode),簡單嘗試一下。

1. 起因, 目的: agent mode, 很流行,名氣很大。簡單試試效果,確實很強。agent mode, 取代人工,確實是前進了一大步。 2. 先看效果 效果對比,左邊是 普通的AI 生成的, 右邊是 代理…

貝銳蒲公英工業路由器R300A海外版:支持多國4G頻段,全球組網

為更好地滿足全球部署和企業出海項目的多樣化需求,貝銳蒲公英異地組網工業路由器R300A海外版全新上市,并已正式上架速賣通!無論是跨國分支機構協同辦公,還是海外工廠設備遠程運維,R300A海外版都能為企業提供靈活、高性…

自然圖像數據集

目錄 CIFAR-10 數據集CIFAR-100 數據集AFHQ 數據集FFHQ 數據集 CIFAR-10 數據集 簡介: CIFAR-10 是一個經典的圖像分類數據集,廣泛用于機器學習領域的計算機視覺算法基準測試。它包含60000幅32x32的彩色圖像,分為10個類,每類6000…

【AI面試秘籍】| 第25期:RAG的關鍵痛點及解決方案深度解析

今天我們來聊聊大模型領域一個非常火熱的技術——RAG(Retrieval Augmented Generation)。RAG通過引入外部知識庫,有效地緩解了大型語言模型(LLM)在處理知識密集型任務時可能出現的幻覺、知識過時等問題。然而&#xff…

精英-探索雙群協同優化(Elite-Exploration Dual Swarm Cooperative Optimization, EEDSCO)

一種多群體智能優化算法,其核心思想是通過兩個分工明確的群體——精英群和探索群——協同工作,平衡算法的全局探索與局部開發能力,從而提高收斂精度并避免早熟收斂。 一 核心概念 在傳統優化算法(如粒子群優化、遺傳算法&#xf…

Transformer相關

問題匯總 Transformer的結構自注意力機制(Self-Attention)多頭自注意力前饋神經網絡(Feed-Forward Network, FFN)位置編碼編碼器(Encoder)和解碼器(Decoder)Multi-Query Attention(多查詢注意力機制)Grouped-query Attention(分組查詢注意力機制)FlashAttention與注…

【位運算】兩整數之和(medium)

兩整數之和(medium) 題?描述:解法(位運算):代碼復雜度分析 題?鏈接: 371. 兩整數之和 題?描述: 給你兩個整數 a 和 b ,不使? 運算符 和 - ,計算并返回兩…

現代密碼學入門 | 現代密碼學核心特點介紹

在當今互聯互通的世界中,數字數據在全球范圍內不斷流動,安全通信和數據保護的需求從未如此迫切。現代密碼學作為數字防御的先鋒,提供了一系列復雜的技術和算法,以保護信息免受窺探和惡意行為的侵害。 現代密碼學是從其古典前身—…

Redis分布式鎖深度解析與最佳實踐

1 2 Redis分布式鎖實現方式確實是經典問題,下面我將系統性地分析這個方案及其演進過程,并給出生產級的解決方案。 一、基礎方案及其缺陷 1. 初始實現方式 SETNX lock_key unique_value # 嘗試獲取鎖 EXPIRE lock_key 30 # 設置過期時間 …

Hive自定義函數案例(UDF、UDAF、UDTF)

目錄 前提條件 背景 概念及適用場景 UDF(User-Defined Function) 概念 適用場景 UDAF(User-Defined Aggregate Function) 概念 適用場景 UDTF(User-Defined Table-Generating Function) 概念 適…

Go語言的原子操作

當我們想要對某個變量并發安全的修改,除了使用官方提供的mutex,還可以使用sync/atomic包的原子操作,它能夠保證對變量的讀取或修改期間不被其他的協程所影響。 Golang提供的原子操作都是非侵入式的,由標準庫sync/atmoic包提供&am…

QNAP MEMOS 域名訪問 SSL(Lucky)

注意:下述是通過ssh、docker-compose方式安裝docker的,不是直接在container station中安裝的哈!!! 一、編輯docker-compose.yml文件 用“#”號標識的,在保存文件的時候建議去掉,不然有時候會出…

C#實現遠程鎖屏

前言 這是一次提前下班沒有鎖屏進而引發的一次思考后的產物,思考的主要場景是當人離開電腦后,怎么能控制電腦鎖屏,避免屏幕上的聊天記錄被曝光。 首先想到通過系統的電源計劃設置閑置超時時間熄屏,這可能是最接近場景的解決方案&a…

[Protobuf]常見數據類型以及使用注意事項

[Protobuf]常見數據類型以及使用注意事項 水墨不寫bug 文章目錄 一、基本數據類型1、字段2、字段的修飾規則 二、自定義數據類型1、message類型2、enum類型3、Any類型4、oneof類型5、map類型 三、小工具1.hexdump2.decode 四、注意事項 一、基本數據類型 protobuf 支持多種基礎…

JS分支和循環

程序的執行順序 在程序開發中&#xff0c;程序有三種不同的執行順序 1.順序執行 2.分支執行 3.循環執行 程序的代碼塊 <script>//一個代碼塊{var num11var num22var num3num1num2}//一個休想var info{name:"chen",age:18} 1.if分支語句&#xff08;單分支語句&…