（2025，LLM，下一 token 預測，擴散微調，L2D，推理增強，可擴展計算）從大語言模型到擴散微調

Large Language Models to Diffusion Finetuning

1. 概述

2. 研究背景

3. 方法

3.1 用于 LM 微調的高斯擴散

3.2 架構

4. 主要實驗結果

5. 結論

本文提出了一種新的微調方法——LM to Diffusion (L2D)，旨在賦予預訓練的大語言模型（Large Language Models, LLMs）測試時可擴展計算能力。

研究發現，通過在推理過程中增加擴散步數，模型的準確性可以單調增加，從而提高在數學、編程和推理等下游任務中的性能。

此外，該方法可以結合強大的引導技術，優化計算資源的動態分配，同時保持語言模型的單步生成能力。

本文的主要貢獻包括：

當前自回歸（autoregressive）大語言模型在推理能力上存在一定的局限性，主要體現在：

擴散模型（Diffusion Models）在視覺領域的成功啟發了研究人員嘗試將其應用于語言建模，以引入多步推理的能力。然而，由于離散文本數據的特殊性，現有的擴散語言模型在性能上落后于自回歸模型。

L2D 通過將 LMs 視為單步擴散模型，并在其基礎上擴展多步推理能力，從而增強 LLM 的推理能力，而不會影響其原始的單步生成能力。

語言建模在有限詞匯表 V 上定義的目標分布 p_1 上運行。給定一個由標簽 y 索引的 token x_1，該 token 與來自目標數據分布 p_1 的先前 token c 的上下文一起采樣，我們的擴散損失公式如下：

使用公式 3 訓練擴散模型可以解釋為標準的下一個 token 預測，其中為模型提供了一個額外的擴散 token x_t，包含有關目標 y 的一定程度的知識，范圍從無信息（t = 0）到完美信息（t = 1）。

這些設計選擇的目的是 L2D 旨在通過微調方法擴展預先訓練的 LM，而不是從頭開始學習新模型。

雖然從一開始就完全采用擴散訓練可能看起來更為普遍，但我們認為這可能會失去傳統自回歸建模所固有的一些訓練可擴展性和強大的歸納偏差。正是這些偏差使傳統自回歸建模在語言領域得到廣泛確立。

L2D 的實現設計為預訓練 transformer 的模塊化擴展，以有效利用擴散的多步擴展能力，同時保留其原始的單步生成能力。

L2D 在其架構中引入了一條 并行擴散路徑，其中傳播擴散 token x_t 的隱藏表示，僅在最后一層影響凍結的主 LM 路徑。

L2D 使用 transformer 架構以及與主路徑 f_{θ_l} 相同數量的塊來實現擴散路徑 f_{θ_d} 。為了充分利用預訓練 LM 的知識，擴散路徑中的所有層也都使用來自 θ_l 的權重進行初始化。
擴散路徑中的 transformer 由一系列殘差 MLP 和交叉注意模塊組成。雖然 MLP 模塊遵循與 f_{θ_l} 中相應模塊相同的結構，但交叉注意模塊專門參數化 query 和輸出線性層。具體而言，在交叉注意期間，目標 token y_k 的擴散 token x^k_t 會關注從 f_{θ_l} 中相應的自注意模塊計算出的所有先前的 key 和 value。
最終，只在所有塊之后，即 LM 的線性頭之前，將 f_θ 中處理的信息整合回主路徑。具體來說，將這兩條路徑與元素加權和 f_{θ_l} + w_d·f_{θ_d} 合并，其中擴散 token x^k_t 的重新縮放潛變量被添加到前一個 token x^{k?1} 的潛變量中。

研究者在多個基準測試（benchmark）上對 L2D 進行了實驗，包括：數學任務（GSM8K、MATH），編程任務（HumanEval、MBPP），知識推理任務（MMLU、MMLU-Pro）

增加擴散步數（計算量）能顯著提高推理能力，但性能提升在一定步數后趨于穩定。?

L2D 在所有測試集上均提升了語言模型的性能，特別是在數學和編程任務上，表現尤為明顯。

L2D 兼容現有的微調方法（如 LoRA 和全參數微調），且比傳統微調方法更高效。

引導技術（Classifier-Free Guidance） 使 L2D 在特定任務上的表現進一步提升，允許用戶在生成過程中指定任務需求。

L2D 通過結合擴散模型的推理增強能力，使大語言模型能夠更高效地利用計算資源，提高復雜任務的推理能力。這項研究為未來的大語言模型微調提供了一條新的方向，通過引入擴散計算框架，使模型能夠智能調整計算資源，提高推理質量，在多個領域展現出了良好的潛力。

【一個比較關心且重要的問題，新添加的擴散路徑導致的額外計算開銷是多少？原文并未提及】

論文地址：https://arxiv.org/abs/2501.15781

進 Q 學術交流群：922230617

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/894713.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/894713.shtml
英文地址，請注明出處：http://en.pswp.cn/news/894713.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！