模型訓練-關于token【低概率token, 高熵token】

Qwen團隊新發現:大模型推理能力的提高僅由少數高熵 Token 貢獻
不要讓低概率token主導了LLM的強化學習過程

一 低概率詞元問題

論文:Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

在RL訓練過程中,低概率詞元(low-probability tokens)因其巨大的梯度幅值,在模型更新中產生了不成比例的主導效應。這種“梯度主導”現象會嚴重抑制對模型性能至關重要的高概率詞元的有效學習,從而阻礙了模型能力的進一步提升。
本文首先從理論上溯源了這一現象,揭示了其內在機理:對于一個典型的LLM,任何詞元在網絡中間層產生的梯度范數,其大小與( 1-兀)成正比,其中兀是該詞元的生成概率。這一關系清晰地表明,詞元概率越低,其梯度貢獻越大,反之則越小。

基于這一核心洞察,提出了兩種旨在恢復梯度平衡、簡單而高效的方法,以緩解低概率詞元的過度主導:
在這里插入圖片描述

二 高熵token

論文:Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

token 熵” 并不是針對于某個特定 token,而是在特定位置 t,對解碼不確定性的度量
在這里插入圖片描述

作者發現,生成推理鏈時每個位置的 token 熵值極度不均衡:只有少數 token 以高熵生成,而大多數 token 以低熵輸出。具體地,80% 的token 熵低于0.67
在這里插入圖片描述
熵最高的 token 通常用于連接兩個連續推理部分之間的邏輯關系,比如wait、however 和 unless 等(對比或轉折),thus 和 also(遞進或補充),since 和 because (因果關系);在數學推導中,suppose、assume、given 和 define 等 token 頻繁出現,用于引入假設、已知條件或定義
熵最低的 token 則傾向于完成當前句子部分或結束單詞的構建,均表現出高度的確定性

為了驗證高熵 token 對推理性能的關鍵作用,作者通過控制解碼溫度來調整這些 token 在生成過程中的隨機性。
結果表明,適當提高高熵 token 的熵值可以提高推理正確率;反之,強行降低其熵值則會顯著損害性能。這充分證明了在關鍵分叉 token 處保持較高的不確定性和探索度,對提高推理質量大有裨益。可見,少數高熵 token 確實是推理過程中應重點關注的“要害”
在這里插入圖片描述

作者設計了這樣的實驗:利用 DAPO 算法訓練 Qwen3-14B 模型,保存不同訓練階段下的 checkpoint,分別在各種數學推理基準上進行采樣,識別各中間模型的高熵 token,然后分別計算這些它們與原始模型、訓練完畢后的模型對應的高熵 token 重疊率,結果如下
在這里插入圖片描述
可見在 RL 訓練過程中,盡管與基礎模型的重疊逐漸減少,但在收斂時(第 1360 步),基礎模型的重疊率仍保持在 86% 以上,這表明 RL 訓練在很大程度上保留了基礎模型的高熵 token

那么具體的熵值又是如何變化呢?下圖是作者的統計結果,可見基礎模型中初始熵較高的 token 在 RL 后往往表現出更大的熵增,這與三中的實驗結論不謀而合,表明 RL 帶來推理性能提升的原因之一,很可能就是因為高熵 token 的不確定性更強了,提高了大模型推理的靈活性
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84486.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84486.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84486.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

XCTF-web-easyupload

試了試php,php7,pht,phtml等,都沒有用 嘗試.user.ini 抓包修改將.user.ini修改為jpg圖片 在上傳一個123.jpg 用蟻劍連接,得到flag

gRPC、WebSocket 與 HTTP 的核心區別對比

gRPC、WebSocket 與 HTTP 的核心區別對比,涵蓋通信模式、協議特性及適用場景: 🔄 ?一、通信模式? ?HTTP? ?單向請求-響應?:客戶端發起請求,服務器返回響應后連接立即關閉13。?無狀態協議?:每次請求…

Android第十三次面試總結(四大 組件基礎)

Activity生命周期和四大啟動模式詳解 一、Activity 生命周期 Activity 的生命周期由一系列回調方法組成,用于管理其創建、可見性、焦點和銷毀過程。以下是核心方法及其調用時機: ?onCreate()?? ?調用時機?:Activity 首次創建時調用。?…

講講JVM的垃圾回收機制

垃圾回收就是對內存堆中已經死亡或者長時間沒有使用的對象進行清楚或回收。 JVM 在做 GC 之前,會先搞清楚什么是垃圾,什么不是垃圾,通常會通過可達性分析算法來判斷對象是否存活。 在確定了那些垃圾可以被回收后,垃圾回收器&…

QT軟件外包開發費用

國內QT軟件外包開發費用是一個非常復雜的問題,沒有一個固定的價格,它受到多種因素的影響。以下將詳細闡述影響QT軟件外包開發費用的主要因素,并提供大致的價格區間供參考(請注意,這些價格僅為估算,實際報價…

iOS 16 SwiftUI 優雅跳轉實踐:用枚舉路由和 NavigationStack 實現多頁面導航

引言:跳轉的混亂與優雅的必要性 SwiftUI 給我們帶來了聲明式界面的全新開發體驗,但當涉及到頁面跳轉時,許多開發者仍然面臨一些“舊痛”。最初的 NavigationLink(destination:isActive:) 或 sheet(isPresented:) 等方式雖然能用,…

TikTok矩陣養號實戰:住宅IP純凈度與設備指紋聯動方案

在TikTok矩陣運營中,住宅IP純凈度和設備指紋管理是規避風控的核心。以下方案整合多平臺風控邏輯與實戰數據,覆蓋環境隔離、行為模擬到風險防控全流程。 🔧 一、住宅IP純凈度維持策略 IP篩選與驗證 靜態住宅IP優選:核心賬號綁定目標…

Elasticsearch增刪改查語句

創建索引庫:不帶映射的 PUT /索引名稱 {"settings": {"number_of_shards": 3, // 主分片數"number_of_replicas": 1 // 每個主分片的副本數} } 創建帶映射的索引庫: PUT /products {"settings": {"…

樹莓派4B, ubuntu20.04, 安裝Ros Noetic[踩坑記錄]

一、安裝過程 1. 硬件要求 樹莓派4B (建議4GB或8GB內存版本) 至少16GB的microSD卡 2. 下載并安裝Ubuntu 20.04 Ubuntu 20.04 LTS (Focal Fossa) for Raspberry Pi 使用Raspberry Pi Imager或BalenaEtcher將鏡像寫入microSD卡 3. 安裝ROS Noetic ?# 設置sources.list s…

視覺slam--框架

視覺里程計的框架 傳感器 VO--front end VO的缺點 后端--back end 后端對什么數據進行優化 利用什么數據進行優化的 后端是怎么進行優化的 回環檢測 建圖 建圖是指構建地圖的過程。 構建的地圖是點云地圖還是什么信息的地圖? 建圖并沒有一個固定的形式和算法…

每日算法 -【Swift 算法】刪除鏈表的倒數第 N 個結點

?? Swift | 刪除鏈表的倒數第 N 個結點(含詳細注釋) 在刷算法題時,我們經常會遇到關于鏈表的題目,而「刪除鏈表的倒數第 N 個節點」是其中一個非常經典的題。今天我們就用 Swift 來實現它,并梳理清楚整個思路。 ?? 一、題目描述 給你一個鏈表,刪除鏈表的倒數第 n 個…

Truffle 和 Ganache 使用指南

Truffle 和 Ganache 使用指南 Truffle 命令詳解 Truffle 是一個流行的以太坊開發框架,提供了許多有用的命令來簡化智能合約的開發、測試和部署。 常用 Truffle 命令 初始化項目 truffle init 創建一個新的 Truffle 項目結構。 編譯合約 truffle compile 編譯項目中的 Solid…

docker進階之架構

一、OCI 名為OCI,全稱 Open Container Initiative/開放容器倡議,其目的主要是為了制定容器技術的通用技術標準。目前主要有兩種標準: 1、容器運行時標準 (runtime spec) 2、容器鏡像標準(image spec) …

企業產品網絡安全日志6月10日-WAF資費消耗排查

發生了什么事? 上個的費用賬單出來了,WAF費用有點飆升。比平時多了50%到100%。 周五的時候就已經知道這個事情了,但當時考慮肯定是攔截了一些惡意請求,所以。 反正也是上個月的事情了,所以周一過來復盤一下 數了下&a…

vue3+el-table 利用插槽自定義數據樣式

<el-table-column label"匹配度" prop"baseMatchingLevel"><template #default"scope"><div :style"{ color: scope.row.baseMatchingLevel > 0.8 ? #00B578 : #FA5151 }">{{ scope.row.baseMatchingLevel }}&l…

[密碼學實戰]C語言使用SDF庫構建國密算法RESTful服務(五)

[密碼學實戰]C語言使用SDF庫構建國密算法RESTful服務(五) 引言 在現代信息安全領域,國密算法(SM系列算法)作為中國自主研發的密碼算法標準,在金融、政務等領域得到廣泛應用。本文將詳細介紹如何使用C語言結合SDF(Security Device Function)庫,構建一個提供國密算法服…

ubuntu 22.04搭建SOC開發環境

目錄 AArch64位編譯器命名規則 安裝交叉工具鏈編譯 安裝aarch64-none-elf工具鏈 安裝aarch64-none-linux-gnu工具鏈 啟動板載系統 板卡啟動方式 硬件連接 準備階段 硬件連接 udev規則配置 啟動流程 開發板外觀圖 硬件準備清單 硬件連接 SSH登錄系統 設置Windows為…

push [特殊字符] present

push &#x1f19a; present 前言present和dismiss特點代碼演示 push和pop特點代碼演示 前言 在 iOS 開發中&#xff0c;push 和 present 是兩種不同的視圖控制器切換方式&#xff0c;它們有著顯著的區別。 present和dismiss 特點 在當前控制器上方新建視圖層級需要手動調用…

Java項目中常用的中間件及其高頻問題避坑

Java項目中常用的中間件及其高頻問題避坑如下: 一、常用中間件分類及作用 1. ??消息隊列中間件?? ??作用??:解耦系統、異步通信、削峰填谷。??代表產品??: ??Kafka??:高吞吐量流處理,適合日志收集、實時分析。??RocketMQ??:金融級可靠性,支持事務消…

發布一個angular的npm包(包含多個模塊)

為什么要發布npm包 根本原因時為了能夠在更廣泛的區域復用代碼&#xff0c;比如公司不支持一般的外部網絡&#xff0c;但是支持npm包的下載&#xff0c;那么就可以發布npm包&#xff0c;然后在公司內使用。 angular的npm不同嗎 angular library angular 目前已經到angular20…