Better Faster Large Language Models via Multi-token Prediction 原理

模型結構：

Memory-efficient implementation：

實驗：

1. 在大規模模型上效果顯著：

2. 在不同類型任務上的效果：

為什么MLP對效果有提升的幾點猜測：

1.?并非所有token對生成質量的影響相同

2. 關鍵選擇點的權重累積機制

3. 從互信息的角度解釋

4.?因果語言模型的傳統因子化順序

屈折語中的語法一致性挑戰

非因果因子化順序的優勢（多token預測提升對復雜語法結構（如屈折、一致關系）的處理能力）

通過隱式建模非因果依賴，減少因局部錯誤導致的全局矛盾

問題：

模型結構：

單token預測：

多token預測：

model? $P_{\theta}$ ?應用一個共享trunk來針對 $x_{t:1}$ 產生一個latent 表示 $z_{t:1}$ ,接著送入到n個獨立的head來并行預測未來n個tokens。

其中：

Memory-efficient implementation：

由于詞表大小V遠大于維度d，所以logit的計算,由(d,V)變化為 (d,V*N),是GPU memery使用的瓶頸。解決辦法為序列話的計算每個獨立輸出頭 $f_i$ 的前向和反向傳播過程，在trunk進行梯度累加。在計算 $f_{i+1}$ 之前 $f_i$ 的計算已經被釋放掉。將CPU的memery峰值從 $O(nV+d)$ 降低為 $O(V+d)$ 。

實驗：

1. 在大規模模型上效果顯著：

小規模模型的局限性

模型容量不足：小模型（如百萬或十億參數級）難以同時捕捉多個時間步的復雜依賴關系。多令牌預測需要模型理解長距離上下文和跨步關聯，這對小模型來說過于困難。
邊際收益低：在小規模實驗中，多令牌預測可能僅帶來微弱的效果提升（如困惑度略微下降），無法證明其額外計算成本是合理的。

2. 在不同類型任務上的效果：

2.1在choice task上面沒有提升性能，可能需要放大模型大小才能看到效果。

2.2 在抽象文本總結任務上有提升：

2.3:歸納能力：隨著模型大小增大，兩者能力趨于相同。

為什么MLP對效果有提升的幾點猜測：

1.?并非所有token對生成質量的影響相同

在語言模型生成文本時，某些token的決策對整體質量至關重要，而另一些則影響較小（如風格變化）。

關鍵選擇點（Choice Points）：影響文本高層語義的token（例如問答中的核心術語、邏輯轉折詞），錯誤會導致回答偏離主題。
無關緊要的token（Inconsequential Transitions）：僅影響局部風格（如近義詞替換），不影響后續內容。

2. 關鍵選擇點的權重累積機制

關鍵選擇點（如位置?t）的決策錯誤會直接影響后續多個token的生成。例如：

若模型在?t 處預測錯誤，可能導致?t+1,t+2,…,t+n?的預測全部偏離正確路徑。
此時，總損失中會包含?Lt+1,Lt+2,…,Lt+n?，這些損失均與?t?處的錯誤相關。

數學推導（以n=5為例）：

關鍵選擇點（如位置?t）的錯誤會影響后續5個token的預測，其總權重為：
$\sum^5_{k=1}=\frac{5*(5+1)}{2}=15$
這里的權重?k?表示第?k?步的損失對關鍵點的梯度貢獻。
無關緊要的token（如位置?t+1）僅影響后續4個token，總權重為 $\sum^4_{k=1}1=4$ ，但實際實現中可能簡化為固定權重?n。

多token預測的損失函數在反向傳播時，關鍵點的梯度會從多個未來位置的損失中累積：

傳統自回歸：位置?t?的錯誤僅通過?Lt+1的梯度更新參數。
多token預測：位置?t?的錯誤通過?Lt+1,Lt+2,…,Lt+n 的梯度疊加更新參數，形成更高的有效權重(梯度在反向傳播時會自然累積到共同依賴的關鍵點上)。

例如，若位置?t 是生成回答中的核心術語（如“量子力學”），其錯誤會導致后續所有相關解釋偏離正軌。此時，模型從多個未來位置的損失中接收到更強的信號，迫使它優先學習正確預測此類關鍵點。

3. 從互信息的角度解釋

還沒完全理解，理解后再更新

4.?因果語言模型的傳統因子化順序

基本公式：因果語言模型（如GPT）將文本序列的聯合概率分解為自回歸形式，即按時間順序逐個預測下一個token
特點：生成順序嚴格從前向后（如首先生成?x1?，再基于?x1??生成?x2?，依此類推）。
局限性：某些語言結構（如屈折語中的語法一致性）需要逆向或跳躍式依賴，傳統順序可能不高效。

屈折語中的語法一致性挑戰

示例：德語句子
Wie konnten auch Worte meiner durstenden Seele genügen?
包含以下語法依賴：
1. 動詞?genügen?要求其賓語為與格（Dative Case）。
2. 名詞?Seele?為陰性單數與格，因此所有修飾成分（如物主代詞?meiner?和分詞?durstenden）必須與其在性、數、格上一致。
關鍵矛盾：
- 傳統自回歸順序需先生成?meiner?和?durstenden，再生成?Seele?和?genügen。
- 但實際上，后續的?genügen?和?Seele?的語法要求決定了前面的?meiner?和?durstenden?的形式。

非因果因子化順序的優勢（多token預測提升對復雜語法結構（如屈折、一致關系）的處理能力）

逆向推理：若模型能先預測后續關鍵token（如?genügen?和?Seele），再生成前面的修飾詞（如?meiner?和?durstenden），可更高效確保語法一致性。
示例中的理想順序：
主句→genu¨gen→Seele→meiner→durstenden主句→genu¨gen→Seele→meiner→durstenden
優勢：先生成核心動詞和名詞，再根據其語法要求調整修飾詞形態，避免回溯錯誤。

通過隱式建模非因果依賴，減少因局部錯誤導致的全局矛盾

傳統單步預測：模型僅基于上文生成下一個token，無法顯式利用后續token的語法信息。
多token預測（如4-token）：
1. 強制模型在生成當前token時，潛在表示（latent activations）中需編碼后續多個token的信息。
2. 例如，生成?meiner?時，模型已隱式預判后續的?durstenden、Seele、genügen?的語法要求，從而正確選擇與格陰性單數形式。
訓練機制：多token預測損失函數要求模型同時預測多個位置，迫使潛在表示包含未來上下文信息。

問題：

為什么多token預測可以對關鍵點錯誤施加高權重懲罰？loss不是獨立的？為什么損失函數中每個token的權重與其對后續token的影響相關？

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/81056.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/81056.shtml
英文地址，請注明出處：http://en.pswp.cn/web/81056.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！