(2025,LLM,下一 token 預測,擴散微調,L2D,推理增強,可擴展計算)從大語言模型到擴散微調

Large Language Models to Diffusion Finetuning

目錄

1. 概述

2. 研究背景

3. 方法

3.1 用于 LM 微調的高斯擴散

3.2 架構

4. 主要實驗結果

5. 結論


1. 概述

本文提出了一種新的微調方法——LM to Diffusion (L2D),旨在賦予預訓練的大語言模型(Large Language Models, LLMs)測試時可擴展計算能力。

研究發現,通過在推理過程中增加擴散步數,模型的準確性可以單調增加,從而提高在數學、編程和推理等下游任務中的性能。

此外,該方法可以結合強大的引導技術,優化計算資源的動態分配,同時保持語言模型的單步生成能力。

本文的主要貢獻包括:

  • 提出 L2D 微調方法,結合語言模型的自回歸能力和擴散模型的多步推理能力,利用語言模型的預測來更新擴散狀態。
  • 證明 L2D 可擴展計算能力,通過增加計算資源提高推理質量。
  • 提升 LMs 在數學、編程和推理任務上的表現,同時保留其單步生成能力。
  • 實現高效微調:L2D 不修改模型原始參數,僅需修改少量參數,即可在多個任務上取得顯著提升。??

2. 研究背景

當前自回歸(autoregressive)大語言模型在推理能力上存在一定的局限性,主要體現在:

  • 無法根據任務的復雜度調整計算資源。
  • 生成結果的質量受限于單步預測,而無法進行多步優化。

擴散模型(Diffusion Models)在視覺領域的成功啟發了研究人員嘗試將其應用于語言建模,以引入多步推理的能力。然而,由于離散文本數據的特殊性,現有的擴散語言模型在性能上落后于自回歸模型。

3. 方法

3.1 用于 LM 微調的高斯擴散

L2D 通過將 LMs 視為單步擴散模型,并在其基礎上擴展多步推理能力,從而增強 LLM 的推理能力,而不會影響其原始的單步生成能力。

語言建模在有限詞匯表 V 上定義的目標分布 p_1 上運行。給定一個由標簽 y 索引的 token x_1,該 token 與來自目標數據分布 p_1 的先前 token c 的上下文一起采樣,我們的擴散損失公式如下:

使用公式 3 訓練擴散模型可以解釋為標準的下一個 token 預測,其中為模型提供了一個額外的擴散 token x_t,包含有關目標 y 的一定程度的知識,范圍從無信息(t = 0)到完美信息(t = 1)。

  • 當 t = 0 時,LM 本質上是用與 L2D 相同的預測目標進行訓練的,此時 x_0?與目標 y 完全不相關。
  • 遵循算法 1 的推理涉及從模型的 logit 中迭代采樣越來越準確的下一個 token ?x,直到采樣預算 T。
  • 傳統的 LM 推理可以再次被視為此過程的特例(T = 1),其中僅使用模型的第一個樣本來預測 y。

這些設計選擇的目的是 L2D 旨在通過微調方法擴展預先訓練的 LM,而不是從頭開始學習新模型。

雖然從一開始就完全采用擴散訓練可能看起來更為普遍,但我們認為這可能會失去傳統自回歸建模所固有的一些訓練可擴展性和強大的歸納偏差。正是這些偏差使傳統自回歸建模在語言領域得到廣泛確立。

3.2 架構

L2D 的實現設計為預訓練 transformer 的模塊化擴展,以有效利用擴散的多步擴展能力,同時保留其原始的單步生成能力。

L2D 在其架構中引入了一條 并行擴散路徑,其中傳播擴散 token x_t 的隱藏表示,僅在最后一層影響凍結的主 LM 路徑

  • L2D 使用 transformer 架構以及與主路徑 f_{θ_l} 相同數量的塊來實現擴散路徑 f_{θ_d} 。為了充分利用預訓練 LM 的知識,擴散路徑中的所有層也都使用來自 θ_l 的權重進行初始化。
  • 擴散路徑中的 transformer 由一系列殘差 MLP 和交叉注意模塊組成。雖然 MLP 模塊遵循與 f_{θ_l} 中相應模塊相同的結構,但交叉注意模塊專門參數化 query 和輸出線性層。具體而言,在交叉注意期間,目標 token y_k 的擴散 token x^k_t 會關注從 f_{θ_l} 中相應的自注意模塊計算出的所有先前的 key 和 value。
  • 最終,只在所有塊之后,即 LM 的線性頭之前,將 f_θ 中處理的信息整合回主路徑。具體來說, 將這兩條路徑與元素加權和 f_{θ_l} + w_d·f_{θ_d} 合并,其中擴散 token x^k_t 的重新縮放潛變量被添加到前一個 token x^{k?1} 的潛變量中。

4. 主要實驗結果

研究者在多個基準測試(benchmark)上對 L2D 進行了實驗,包括:數學任務(GSM8K、MATH),編程任務(HumanEval、MBPP),知識推理任務(MMLU、MMLU-Pro)

增加擴散步數(計算量)能顯著提高推理能力,但性能提升在一定步數后趨于穩定。?

L2D 在所有測試集上均提升了語言模型的性能,特別是在數學和編程任務上,表現尤為明顯。

L2D 兼容現有的微調方法(如 LoRA 和全參數微調),且比傳統微調方法更高效。

引導技術(Classifier-Free Guidance) 使 L2D 在特定任務上的表現進一步提升,允許用戶在生成過程中指定任務需求。

5. 結論

L2D 通過結合擴散模型的推理增強能力,使大語言模型能夠更高效地利用計算資源,提高復雜任務的推理能力。這項研究為未來的大語言模型微調提供了一條新的方向,通過引入擴散計算框架,使模型能夠智能調整計算資源,提高推理質量,在多個領域展現出了良好的潛力。

【一個比較關心且重要的問題,新添加的擴散路徑導致的額外計算開銷是多少?原文并未提及】

論文地址:https://arxiv.org/abs/2501.15781

進 Q 學術交流群:922230617

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/894713.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/894713.shtml
英文地址,請注明出處:http://en.pswp.cn/news/894713.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek 與 ChatGPT 對比分析

一、技術背景與研發團隊 ChatGPT 由 OpenAI 開發,自 2015 年 OpenAI 成立以來,經過多年的技術積累和迭代,從 GPT-1 到 GPT-4o,每一次升級都帶來了技術上的突破。OpenAI 擁有雄厚的技術實力和海量的數據、強大的算力支持&#xff…

學習threejs,pvr格式圖片文件貼圖

👨??? 主頁: gis分享者 👨??? 感謝各位大佬 點贊👍 收藏? 留言📝 加關注?! 👨??? 收錄于專欄:threejs gis工程師 文章目錄 一、🍀前言1.1 ??PVR貼圖1.2 ??THREE.Mesh…

DeepSeek R1技術報告關鍵解析(8/10):DeepSeek-R1 的“aha 時刻”,AI 自主學習的新突破

1. 什么是 AI 的“aha 時刻”? 在強化學習過程中,AI 的推理能力并不是線性增長的,而是會經歷一些關鍵的“頓悟”時刻,研究人員將其稱為“aha 時刻”。 這是 AI 在訓練過程中突然學會了一種新的推理方式,或者能夠主動…

python:遞歸函數與lambda函數

遞歸函數:1.函數內調用自己 2.有一個出口 1.遞歸 一.有出口時 def sum(num):if num1:return 1return numsum(num-1) asum(3) print(a) #num3 3sum(2) #num2 2sum(1) #num1是返回1 #即3sum(2)即32sum(1)即321運行結果 6 二.無出口時 def sum(num)…

ABB 3BSE018741R30 帶插頭連接器的電纜

產品ID:3BSE018741R30 ABB型號名稱:PFTL 101/201/PFCL 201 30米 目錄描述:帶插頭連接器的電纜,30米 ABB型號名稱:PFTL 101/201/PFCL 201 30米 核心信用:0.00 原產國:瑞典波蘭 海關稅則號:85389091 框架尺寸:備件 毛重:5公斤 媒體描述:帶插頭連接器的電纜 最小訂購數…

SpringMVC請求

一、RequestMapping注解 RequestMapping注解的作用是建立請求URL和處理方法之間的對應關系 RequestMapping注解可以作用在方法和類上 1. 作用在類上:第一級的訪問目錄 2. 作用在方法上:第二級的訪問目錄 3. 細節:路徑可以不編寫 / 表示應…

VUE的響應性調試:組件調試鉤子、計算屬性調試、偵聽器調試【僅會在開發模式下工作】

文章目錄 引言I 組件調試鉤子調試事件對象的類型定義鉤子II 計算屬性調試例子回調函數說明III 偵聽器調試引言 VUE的響應性調試的使用場景:確切地知道Vue 的響應性系統正在跟蹤什么,或者是什么導致了組件重新渲染。 I 組件調試鉤子 組件調試鉤子僅會在開發模式下工作 調試…

tkvue 入門,像寫html一樣寫tkinter

介紹 沒有官網&#xff0c;只有例子 安裝 像寫vue 一樣寫tkinter 代碼 pip install tkvue作者博客 修改樣式 import tkvue import tkinter.ttk as ttktkvue.configure_tk(theme"clam")class RootDialog(tkvue.Component):template """ <Top…

藍橋杯試題:排序

一、問題描述 給定 nn 個正整數 a1,a2,…,ana1?,a2?,…,an?&#xff0c;你可以將它們任意排序。現要將這 nn 個數字連接成一排&#xff0c;即令相鄰數字收尾相接&#xff0c;組成一個數。問&#xff0c;這個數最大可以是多少。 輸入格式 第一行輸入一個正整數 nn&#xff…

Java—不可變集合

不可變集合&#xff1a;不可以被修改的集合 創建不可變集合的應用場景 如果某個數據不能被修改&#xff0c;把它防御性地拷貝到不可變集合中是個很好的實踐。當集合對象被不可信的庫調用時&#xff0c;不可變形式是安全的。 簡單理解&#xff1a;不想讓別人修改集合中的內容…

每日Attention學習18——Grouped Attention Gate

模塊出處 [ICLR 25 Submission] [link] UltraLightUNet: Rethinking U-shaped Network with Multi-kernel Lightweight Convolutions for Medical Image Segmentation 模塊名稱 Grouped Attention Gate (GAG) 模塊作用 輕量特征融合 模塊結構 模塊特點 特征融合前使用Group…

響應式編程_04Spring 5 中的響應式編程技術棧_WebFlux 和 Spring Data Reactive

文章目錄 概述響應式Web框架Spring WebFlux響應式數據訪問Spring Data Reactive 概述 https://spring.io/reactive 2017 年&#xff0c;Spring 發布了新版本 Spring 5&#xff0c; Spring 5 引入了很多核心功能&#xff0c;這其中重要的就是全面擁抱了響應式編程的設計思想和實…

C/C++編譯器

C/C 代碼是不可跨平臺的&#xff0c;Windows 和 Unix-like 有著不同的 API&#xff0c;C/C 在不同平臺有著不同編譯器。 MSVC Windows 平臺&#xff0c;MSVC 是 Visual Studio 中自帶的 C/C 編譯器。 GCC Unix-like 平臺&#xff0c;GCC 原名 GNU C Compiler&#xff0c;后…

python gltf生成預覽圖

使用Python生成GLTF模型的預覽圖 隨著3D技術的不斷發展&#xff0c;GLTF&#xff08;GL Transmission Format&#xff09;逐漸成為了Web和移動應用程序中最流行的3D文件格式之一。GLTF文件不僅能以較小的體積存儲復雜的3D模型&#xff0c;還支持動畫、材質、光照和紋理等特性。…

html中的表格屬性以及合并操作

表格用table定義&#xff0c;標簽標題用caption標簽定義&#xff1b;用tr定義表格的若干行&#xff1b;用td定義若干個單元格&#xff1b;&#xff08;當單元格是表頭時&#xff0c;用th標簽定義&#xff09;&#xff08;th標簽會略粗于td標簽&#xff09; table的整體外觀取決…

【JavaScript】《JavaScript高級程序設計 (第4版) 》筆記-Chapter3-語言基礎

三、語言基礎 ECMAScript 的語法很大程度上借鑒了 C 語言和其他類 C 語言&#xff0c;如 Java 和 Perl。ECMAScript 中一切都區分大小寫。無論是變量、函數名還是操作符&#xff0c;都區分大小寫。 所謂標識符&#xff0c;就是變量、函數、屬性或函數參數的名稱。標識符可以由…

【前端】【Ts】【知識點總結】TypeScript知識總結

一、總體概述 TypeScript 是 JavaScript 的超集&#xff0c;主要通過靜態類型檢查和豐富的類型系統來提高代碼的健壯性和可維護性。它涵蓋了從基礎數據類型到高級類型、從函數與對象的類型定義到類、接口、泛型、模塊化及裝飾器等眾多知識點。掌握這些內容有助于編寫更清晰、結…

基于Springboot+vue的租車網站系統

基于SpringbootVue的租車網站系統是一個現代化的在線租車平臺&#xff0c;它結合了Springboot的后端開發能力和Vue的前端交互優勢&#xff0c;為用戶和汽車租賃公司提供了一個高效、便捷、易用的租車體驗和管理工具。以下是對該系統的詳細介紹&#xff1a; 一、系統架構 ?后…

藍橋杯之c++入門(二)【輸入輸出(上)】

目錄 前言1&#xff0e;getchar和 putchar1.1 getchar()1.2 putchar() 2&#xff0e;scanf和 printf2.1 printf2.1.1基本用法2.1.2占位符2.1.3格式化輸出2.1.3.1 限定寬度2.1.3.2 限定小數位數 2.2 scanf2.2.1基本用法2.2.2 占位符2.2.3 scanf的返回值 2.3練習練習1&#xff1a…

我的鴻蒙學習之旅:探索萬物互聯的新宇宙

在科技飛速發展的今天&#xff0c;操作系統領域的創新層出不窮。華為鴻蒙系統的出現&#xff0c;猶如一顆璀璨的新星&#xff0c;照亮了萬物互聯的未來之路。懷著對新技術的好奇與渴望&#xff0c;我踏上了學習鴻蒙的征程&#xff0c;這段經歷充滿了挑戰與驚喜&#xff0c;也讓…