Better Faster Large Language Models via Multi-token Prediction 原理

目錄

模型結構:

Memory-efficient implementation:

實驗:

1. 在大規模模型上效果顯著:

2. 在不同類型任務上的效果:

為什么MLP對效果有提升的幾點猜測:

1.?并非所有token對生成質量的影響相同

2. 關鍵選擇點的權重累積機制

3. 從互信息的角度解釋

4.?因果語言模型的傳統因子化順序

屈折語中的語法一致性挑戰

非因果因子化順序的優勢(多token預測提升對復雜語法結構(如屈折、一致關系)的處理能力)

通過隱式建模非因果依賴,減少因局部錯誤導致的全局矛盾

問題:


模型結構:

單token預測:

多token預測:

model?P_{\theta}?應用一個共享trunk來針對x_{t:1}產生一個latent 表示z_{t:1},接著送入到n個獨立的head來并行預測未來n個tokens。

其中:

Memory-efficient implementation:

由于詞表大小V遠大于維度d,所以logit的計算,由(d,V)變化為 (d,V*N),是GPU memery使用的瓶頸。解決辦法為序列話的計算每個獨立輸出頭f_i的前向和反向傳播過程,在trunk進行梯度累加。在計算f_{i+1}之前f_i的計算已經被釋放掉。將CPU的memery峰值從O(nV+d)降低為O(V+d)

實驗:

1. 在大規模模型上效果顯著:

小規模模型的局限性

  • 模型容量不足:小模型(如百萬或十億參數級)難以同時捕捉多個時間步的復雜依賴關系。多令牌預測需要模型理解長距離上下文和跨步關聯,這對小模型來說過于困難。

  • 邊際收益低:在小規模實驗中,多令牌預測可能僅帶來微弱的效果提升(如困惑度略微下降),無法證明其額外計算成本是合理的。

2. 在不同類型任務上的效果:

2.1在choice task上面沒有提升性能,可能需要放大模型大小才能看到效果。

2.2 在抽象文本總結任務上有提升:

2.3:歸納能力:隨著模型大小增大,兩者能力趨于相同。

為什么MLP對效果有提升的幾點猜測:

1.?并非所有token對生成質量的影響相同

在語言模型生成文本時,某些token的決策對整體質量至關重要,而另一些則影響較小(如風格變化)。

  • 關鍵選擇點(Choice Points):影響文本高層語義的token(例如問答中的核心術語、邏輯轉折詞),錯誤會導致回答偏離主題。

  • 無關緊要的token(Inconsequential Transitions):僅影響局部風格(如近義詞替換),不影響后續內容。

2. 關鍵選擇點的權重累積機制

關鍵選擇點(如位置?t)的決策錯誤會直接影響后續多個token的生成。例如:

  • 若模型在?t 處預測錯誤,可能導致?t+1,t+2,…,t+n?的預測全部偏離正確路徑。

  • 此時,總損失中會包含?Lt+1,Lt+2,…,Lt+n?,這些損失均與?t?處的錯誤相關。

數學推導(以n=5為例):

  • 關鍵選擇點(如位置?t)的錯誤會影響后續5個token的預測,其總權重為:

    \sum^5_{k=1}=\frac{5*(5+1)}{2}=15

    這里的權重?k?表示第?k?步的損失對關鍵點的梯度貢獻。

  • 無關緊要的token(如位置?t+1)僅影響后續4個token,總權重為\sum^4_{k=1}1=4 ,但實際實現中可能簡化為固定權重?n。

多token預測的損失函數在反向傳播時,關鍵點的梯度會從多個未來位置的損失中累積

  • 傳統自回歸:位置?t?的錯誤僅通過?Lt+1的梯度更新參數。

  • 多token預測:位置?t?的錯誤通過?Lt+1,Lt+2,…,Lt+n 的梯度疊加更新參數,形成更高的有效權重(梯度在反向傳播時會自然累積到共同依賴的關鍵點上)。

例如,若位置?t 是生成回答中的核心術語(如“量子力學”),其錯誤會導致后續所有相關解釋偏離正軌。此時,模型從多個未來位置的損失中接收到更強的信號,迫使它優先學習正確預測此類關鍵點。

3. 從互信息的角度解釋

還沒完全理解,理解后再更新

4.?因果語言模型的傳統因子化順序

  • 基本公式:因果語言模型(如GPT)將文本序列的聯合概率分解為自回歸形式,即按時間順序逐個預測下一個token

  • 特點:生成順序嚴格從前向后(如首先生成?x1?,再基于?x1??生成?x2?,依此類推)。

  • 局限性:某些語言結構(如屈折語中的語法一致性)需要逆向或跳躍式依賴,傳統順序可能不高效。

屈折語中的語法一致性挑戰

  • 示例:德語句子
    Wie konnten auch Worte meiner durstenden Seele genügen?
    包含以下語法依賴:

    1. 動詞?genügen?要求其賓語為與格(Dative Case)

    2. 名詞?Seele?為陰性單數與格,因此所有修飾成分(如物主代詞?meiner?和分詞?durstenden)必須與其在性、數、格上一致。

  • 關鍵矛盾

    • 傳統自回歸順序需先生成?meiner?和?durstenden,再生成?Seele?和?genügen

    • 但實際上,后續的?genügen?和?Seele?的語法要求決定了前面的?meiner?和?durstenden?的形式

非因果因子化順序的優勢(多token預測提升對復雜語法結構(如屈折、一致關系)的處理能力

  • 逆向推理:若模型能先預測后續關鍵token(如?genügen?和?Seele),再生成前面的修飾詞(如?meiner?和?durstenden),可更高效確保語法一致性。

  • 示例中的理想順序

    主句→genu¨gen→Seele→meiner→durstenden主句→genu¨gen→Seele→meiner→durstenden
  • 優勢:先生成核心動詞和名詞,再根據其語法要求調整修飾詞形態,避免回溯錯誤。

通過隱式建模非因果依賴,減少因局部錯誤導致的全局矛盾

  • 傳統單步預測:模型僅基于上文生成下一個token,無法顯式利用后續token的語法信息。

  • 多token預測(如4-token)

    1. 強制模型在生成當前token時,潛在表示(latent activations)中需編碼后續多個token的信息

    2. 例如,生成?meiner?時,模型已隱式預判后續的?durstendenSeelegenügen?的語法要求,從而正確選擇與格陰性單數形式。

  • 訓練機制多token預測損失函數要求模型同時預測多個位置,迫使潛在表示包含未來上下文信息。

問題:

為什么多token預測可以對關鍵點錯誤施加高權重懲罰?loss不是獨立的?為什么損失函數中每個token的權重與其對后續token的影響相關?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81056.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81056.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81056.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

git merge解沖突后,add、continue提交

git merge解沖突后,add、continue提交 git merge操作沖突后,需要手動解沖突,解完沖突后,需要: git add . 然后,進入一般的正常git代碼提交流程。 git合并‘merge’其他分支的個別文件到當前branch_gitbash 合并branc…

3.8.1 利用RDD實現詞頻統計

在本次實戰中,我們通過Spark的RDD實現了詞頻統計功能。首先,準備了包含單詞的文件并上傳至HDFS。接著,采用交互式方式逐步完成詞頻統計,包括創建RDD、單詞拆分、映射為二元組、按鍵歸約以及排序等操作。此外,還通過創建…

應對進行性核上性麻痹,健康護理鑄就溫暖防線

進行性核上性麻痹(PSP)是一種罕見的神經退行性疾病,主要影響患者的運動、平衡及吞咽等功能。針對這類患者,有效的健康護理對提升其生活質量、延緩病情發展至關重要。 在日常生活護理方面,由于患者存在平衡障礙和肌肉僵…

融合蛋白質語言模型和圖像修復模型,麻省理工與哈佛聯手提出PUPS ,實現單細胞級蛋白質定位

蛋白質亞細胞定位(subcellular localization of a protein)是指蛋白質在細胞結構中具體的定位情況, 這對蛋白質行使其生物學功能至關重要。舉個簡單例子,如果把細胞想象成一個龐大的企業,其中細胞核、線粒體、細胞膜等…

lanqiaoOJ 4330:歐拉函數模板

【題目來源】 https://www.lanqiao.cn/problems/4330/learning/ 【問題描述】 這是一道模板題。 首先給出歐拉函數的定義:即 φ(n) 表示的是小于等于 n 的數中和 n 互質的數的個數。 比如說 φ(6)2,當 n 是質數的時候,顯然有φ(n)n-1。 【題…

無人機電子防抖技術要點概述!

一、技術要點 1. 傳感器數據融合 電子防抖需結合陀螺儀、加速度計、視覺傳感器等多源數據,實時檢測無人機的姿態變化和振動頻率。例如,IMU(慣性測量單元)通過加速度計和陀螺儀測量飛行器的姿態和運動狀態,結合視覺感…

Win10 安裝單機版ES(elasticsearch),整合IK分詞器和安裝Kibana

一. 先查看本機windows是否安裝了ES(elasticsearch),檢查方法如下: 檢查進程 按 Ctrl Shift Esc 組合鍵打開 “任務管理器”。在 “進程” 選項卡中,查看是否有 elasticsearch 相關進程。如果有,說明系統安裝了 ES。 檢查端口…

BIO、NIO、AIO 的區別與實戰應用解析

導語: BIO、NIO 和 AIO 是后端面試中的經典話題,尤其在高并發、高性能場景下更是重中之重。本文將從面試官視角出發,深入剖析三者的區別、典型題目和實戰解答,助你掌握答題技巧,輕松拿下這一高頻考點! 一、…

電腦風扇轉速不正常的原因

一、硬件故障或接觸問題 1. 風扇本身損壞 扇葉卡頓或軸承磨損:灰塵堆積、異物纏繞(如頭發、線纜)會導致扇葉轉動阻力增大,發出異響并轉速下降;軸承潤滑脂干涸或老化會引起風扇噪音大、轉速不穩定。電機故障&#xff…

運維打鐵:生產服務器用戶權限管理方案全解析

文章目錄 一、引言二、方案設計2.1 權限模型選擇2.2 角色定義2.3 權限分配2.4 用戶與角色關聯 三、相關代碼注釋(以 Linux 系統為例)3.1 用戶創建與角色分配腳本3.2 權限設置腳本 四、常見問題解決4.1 用戶無法登錄4.2 用戶權限不足4.3 權限文件修改后不…

在tp6模版中加減法

實際項目中,我們經常需要標簽變量加減運算的操作。但是,在ThinkPHP中,并不支持模板變量直接運算的操作。幸運的是,它提供了自定義函數的方法,我們可以利用自定義函數解決:ThinkPHP模板自定義函數語法如下&a…

Fastjson利用鏈JdbcRowSetImpl分析

首先創建客戶端 package com.yq1ng.vul;import com.alibaba.fastjson.JSON;/*** FastJsonTest** author yq1ng* date 2021/12/29 19:45* since 1.0.0*/ public class FastJsonTest {public static void main(String[] args) {String ser "{\"type\":\"co…

基于OAuth2-proxy和Keycloak為comfyui實現SSO

背景 comfyui無認證被漏掃后易被rce挖礦 攻擊過程 https://www.oschina.net/news/340226 https://github.com/comfyanonymous/ComfyUI/discussions/5165 阿里云漏洞庫關于comfyui的漏洞 https://avd.aliyun.com/search?qcomfyui&timestamp__1384n4%2BxBD0GitGQ0QD8ID%2F…

第R7周:糖尿病預測模型優化探索

文章目錄 1.數據預處理1.1 設置GPU1.2 數據導入1.3 數據檢查 2. 數據分析2.1 數據分布分析2.2 相關性分析 3. LSTM模型3.1 劃分數據集3.2 數據集構建3.3 定義模型 4. 訓練模型4.1 定義訓練函數4.2 定義測試函數4.3 訓練模型 5. 模型評估5.1 Loss與Accuracy圖 6. 總結 &#x1f…

一些好用的Chrome 擴展程序

以下是按主要功能分類的 Chrome 擴展程序列表,包括其版本號、中文功能簡述以及指向其主頁或 Chrome 網上應用店頁面的鏈接。 翻譯與語言 沉浸式翻譯 - 網頁翻譯插件 | PDF 翻譯 | 免費 版本: 1.16.12 描述: 【沉浸式翻譯】免費的(原文 / 譯文&#xff0…

貪心算法題目合集2

貪心算法題目合集2 一般排序排隊接水整數區間金銀島尋找平面上的極大點NOIP 2008 普及組 排座椅 推導排序規律NOIP 1998 提高組 拼數排序規則的正確性證明:全序關系證明拼數的貪心策略正確P2878 [USACO07JAN] Protecting the Flowers SP1842 [USACO05NOV] 奶牛玩雜技…

全方位詳解微服務架構中的Service Mesh(服務網格)

一、引言 隨著微服務架構的廣泛應用,微服務之間的通信管理、流量控制、安全保障等問題變得日益復雜。服務網格(Service Mesh)作為一種新興的技術,為解決這些問題提供了有效的方案。它將服務間通信的管理從微服務代碼中分離出來&a…

如何在VSCode中更換默認瀏覽器:完整指南

引言 作為前端開發者,我們經常需要在VSCode中快速預覽HTML文件。默認情況下,VSCode會使用系統默認瀏覽器打開文件,但有時我們可能需要切換到其他瀏覽器進行測試。本文將詳細介紹如何在VSCode中更換默認瀏覽器。 方法一:使用VSCo…

【普及+/提高】洛谷P2613 【模板】有理數取余——快讀+快速冪

題目來源 P2613 【模板】有理數取余 - 洛谷 題目描述 給出一個有理數 cba?,求 cmod19260817 的值。 這個值被定義為 bx≡a(mod19260817) 的解。 輸入格式 一共兩行。 第一行,一個整數 a。 第二行,一個整數 b。 輸出格式 一個整數&a…

從編程助手到AI工程師:Trae插件Builder模式實戰Excel合并工具開發

Trae插件下載鏈接:https://www.trae.com.cn/plugin 引言:AI編程工具的新紀元 在軟件開發領域,AI輔助編程正在經歷一場革命性的變革。Trae插件(原MarsCode編程助手)最新推出的Builder模式,標志著AI編程工具…