擴散LLM推理新范式:打破生成長度限制,實現動態自適應調節

隨著 Gemini-Diffusion,Seed-Diffusion 等擴散大語言模型(DLLM)的發布,這一領域成為了工業界和學術界的熱門方向。但是,當前 DLLM 存在著在推理時必須采用預設固定長度的限制,對于不同任務都需要專門調整才能達到最優效果。

為了解決這一本質的問題,香港中文大學 MMLab,上海 AI 實驗室等提出 DAEDAL,賦予 DLLM 可以根據問題的具體情況自主調整回答長度的能力,彌補了 DLLM 與自回歸 LLM 的關鍵差距,為更靈活、高效、強大的擴散大語言模型打下了基石。

  • 論文標題:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

  • 論文地址:https://arxiv.org/abs/2508.00819

  • 代碼地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作為一種 Training Free 的去噪策略,從一個統一且很短的初始長度開始,讓模型根據自己的需求在生成中調節長度,動態擴展,達到了和現有去噪策略在每個評測基準上精心調整生成長度得到的最佳性能相當的表現,有時甚至更勝一籌。

DAEDAL 介紹

擴散大語言模型(DLLM)潛力巨大,但其現有推理流程存在一個關鍵的問題:需要預定義的,固定的生成長度。與能夠邊思考邊決定 “說” 多少的人類和自回歸模型不同,現有的 DLLM 需要預先設定確切的輸出長度。這導致了一個兩難的困境:設置太短,模型在復雜問題上難以發揮全部實力,可能導致做錯;設置太長,則會浪費大量的計算資源,同時,實驗中還發現過長的生成長度可能導致性能下降。

作者在探索中發現,這一問題的解決方案就蘊藏在模型自身之中。DLLM 在生成時會不斷地全局規劃其整體輸出,而它的預測置信度正是其內部狀態的強大信號。作者發現了兩種關鍵信號:

  • DLLM 在序列末端生成序列結束符 (EOS) 的意愿直接反映了其對全局預算的規劃。當預設長度充足時,模型會自信地在末尾規劃出結束區域,從而高置信度地預測 EOS。反之,當長度不足時,模型會試圖利用所有可用空間來完成核心內容,因而抑制了在末尾生成 EOS 的置信度。

  • 在去噪過程中,對某個特定詞元的極低預測置信度,則可作為一種局部信號,這不僅代表了模型對該詞元的不確定性,更深層次地,它表明當前的局部上下文過于受限,不足以支撐一個復雜的邏輯步驟或細節的展開,或是需要插入空間對過去生成的內容進行補充和修正。

DAEDAL 使用統一的短初始長度即可取得強大性能。 實驗結果清晰地展示了 DAEDAL 的優越性能。盡管 DAEDAL 默認從一個較短的初始長度開始,但其兩階段的長度調整與擴展機制,不僅使其性能顯著優于使用相同短初始長度的基線方法,更能達到與基線方法在所有固定長度中精心調優后的峰值性能相當、甚至在某些情況下超越后者的水平。

這一發現凸顯了 DAEDAL 的有效性,并揭示了固定長度范式的內在不便之處,因為基線方法的最佳長度因不同基準而異,這更強調了動態長度適應的必要性。為了直觀展示這種動態適應性,圖 3 對比了 DAEDAL 所用總生成長度(N_token)的分布與基線方法所用的單一最佳長度。

DAEDAL 能自適應地找到最佳生成長度。 進一步的分析表明,DAEDAL 能智能地預估并生成恰當長度的回答。在多數情況下,DAEDAL 產生的有效詞元數(E_token)與基線方法在最佳性能配置下的有效詞元數相當。這表明 DAEDAL 能自適應地找到模型內在的、針對特定任務所需詞元長度的 “舒適點”。基線方法的行為也印證了這一點:當設置的長度過長時,即使有效詞元數可能繼續增加,性能反而可能會下降。DAEDAL 的自適應特性有效避免了這種因過度擴展導致的性能下降。

DAEDAL 能夠提升計算資源利用率。在取得優越準確率的同時,DAEDAL 生成的總詞元數(N_token)通常低于基線方法在最佳性能 setting 下的總詞元數。相近的有效詞元數和更低的總詞元數帶來了更高的有效詞元利用率(E_ratio)。這大大地提升了計算資源的利用率。

總結

DAEDAL 通過其初始長度調整(Initial Length Adjustment)和迭代式掩碼插入(Iterative Mask Insertion)機制,不僅在多個基準上取得了與精心調優的固定長度基線相當甚至更優的性能,還能為每個任務自適應地分配合適的長度。這使得模型在性能和計算效率上都取得了實質性的提升。DAEDA 彌補了擴散大語言模型與自回歸大語言模型在核心能力上的一個關鍵差距,為更靈活、高效、強大的擴散大語言模型打下了基石。

作者介紹

本文第一作者是香港中文大學 MMLab 的博士生李勁松,導師林達華教授,主要研究方向是多模態大模型和大語言模型。曾在 NeurIPS,ECCV,ACL 等頂級會議發表多篇論文,Google 學術引用超 1400 次。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/918261.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/918261.shtml
英文地址,請注明出處:http://en.pswp.cn/news/918261.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【ee類保研面試】其他類---計算機網絡

25保研er,希望將自己的面試復習分享出來,供大家參考 part0—英語類 part1—通信類 part2—信號類 part3—高數類 part100—self項目準備 文章目錄計算機網絡知識點大全**計算機網絡知識點總結**一、五層協議模型二、OSI七層模型補充三、TCP 與 UDP 及區別…

Python-機器學習(一)——特征工程

目錄 特征工程 一、特征提取 1、字典特征提取 2、文本特征提取 2.1 英文文本提取 2.2 中文文本提取 3、TF-IDF文本特征詞的重要程度特征提取 二、無量綱化-預處理 1 MinMaxScaler 歸一化 2 normalize歸一化 3 StandardScaler 標準化 三、特征降維 1、特征選擇 1.…

談談SQL計算存儲引擎中的索引和計算

背景 最近在這家公司做了一些事情,做的事情和以往的工作不太一樣,不一樣的點呢就是 之前我主要的工作是關注計算這方面,因為數據量大,研究的是怎么加速查詢,怎么研究規則去優化,怎么去解規則的bug等等。因為…

vscode.window.activeTextEditor 獲取不到 png 圖片路徑問題

vscode 的 extensions 插件開發時用 vscode.window.activeTextEditor?.document.uri 獲取不到編輯器打開的圖片路徑,文檔路徑可以獲取到。個人猜測因為圖片不能編輯,所以沒有 activeTextEditor 屬性吧。解決辦法:巧用右鍵獲取路徑和相對的路…

Java 大視界 -- Java 大數據在智能醫療手術機器人操作數據記錄與性能評估中的應用(390)

Java 大視界 -- Java 大數據在智能醫療手術機器人操作數據記錄與性能評估中的應用(390)引言:正文:一、傳統手術機器人的 “黑箱困境”:記不全、算不清、追不到1.1 設備與臨床的 “斷層”1.1.1 數據記錄 “太粗放”1.1.…

C++的結構體指針

結構體變量和結構體指針的區別特性結構體變量結構體指針存儲內容結構體的實際數據內存地址內存開銷結構體總大小固定4/8字節(指針大小)成員訪問運算符.->函數傳參時的行為值拷貝(新副本)地址傳遞(操作原數據&#x…

pdf文件轉word免費使用幾個工具

在線工具(無需安裝) Smallpdf ? 核心功能: 網頁端直接操作,支持 PDF 與 Word 格式互轉 免費用戶每日限 2 次轉換(免注冊) 自動清除服務器文件,確保隱私安全 🔗 訪問鏈接&#xff1a…

Vue3 組件化開發

文章目錄前言組件化開發底部菜單 TabMenu父子組件相互傳數據父傳子:自定義屬性子傳父:自定義事件父子組件互傳案例插槽 slot多個插槽總結組件化開發總結Vue組件的基本組成子組件使用的三個步驟父子組件相互傳遞數據前言 提示:這里可以添加本…

服務器硬件電路設計之I2C問答(二):I2C總線的傳輸速率與上拉電阻有什么關系?

I2C 總線傳輸速率與上拉電阻關系密切。上拉電阻阻值決定總線電平切換速度:電阻越小,充放電電流越大,信號邊沿更陡,支持更高速率(如 400kHz 快速模式);電阻過大則切換慢,限制速率&…

大語言模型提示工程與應用:LLMs文本生成與數據標注實踐

提示詞應用實踐 學習目標 本課程通過LLMs生成情感分析樣本和標注葡萄9品鑒數據,展示了其文本生成和數據標注能力。同時,利用PAL模型解決日期計算問題,學習了LLMs與編程運行時結合實現復雜推理的方法,為自然語言處理應用提供了實…

node.js 零基礎入門

Node.js 零 基礎入門與核心語法 適用對象:完全沒接觸過 Node.js 的同學 目標:從 0 到能寫 CLI、小型 HTTP 服務、文件腳本、調用系統/網絡資源 目錄 什么是 Node.js安裝與運行運行腳本與 REPL模塊體系:CommonJS 與 ES Modules基礎語法在 Node…

《Day3-PyTorch 自動微分入門:從計算圖到梯度下降的實踐指南》

八、自動微分自動微分模塊torch.autograd負責自動計算張量操作的梯度,具有自動求導功能。自動微分模塊是構成神經網絡訓練的必要模塊,可以實現網絡權重參數的更新,使得反向傳播算法的實現變得簡單而高效。1. 基礎概念張量Torch中一切皆為張量…

apache cgi測試

test.cgi #!/bin/sh echo "Content-type: text/html" echo "" echo "<h1>Hello from a Mac CGI script!</h1>" echo "<p>Current time is: $(date)</p>"?% 放置目錄 /opt/homebrew/Cellar/mapserver/8.4.0_1…

力扣 30 天 JavaScript 挑戰 第二題筆記

這道題是涉及知識–閉包 1. 閉包定義以及相關知識點 官方定義為&#xff1a;在 JavaScript 中&#xff0c;函數具有對在相同作用域以及任何外部作用域中聲明的所有變量的引用。這些作用域被稱為函數的 詞法環境。函數與其環境的組合被稱為 閉包。 簡單理解&#xff1a;內層函數…

OpenAI GPT-5 深度解析:API Key定價與ChatGPT(Free, Plus, Pro)用戶的區別

前言&#xff1a;兩年等待&#xff0c;只為這一躍 在科技圈長達兩年的屏息期待與無盡猜想之后&#xff0c;2025年8月8日北京時間凌晨&#xff0c;OpenAI終于揭開了其新一代旗艦模型——GPT-5的神秘面紗。這不僅僅是一次常規的產品迭代&#xff0c;更被整個行業視為一塊試金石&a…

ClickHouse集群部署實踐---3分片2副本集群

ClickHouse集群部署實踐—3分片2副本集群 未完待續。。。 喜歡的先點贊收藏&#xff01;&#xff01; 由于我們準備部署的是3分片2副本的集群&#xff0c;現在來解釋一下配置參數的意思&#xff1a; shard標簽代表分片的意思&#xff0c;如上圖我們有3個分片&#xff0c;clickh…

Unity_VR_Pico開發手冊

文章目錄一、配置開發環境1.下載PICO Unity Integration SDK2.安裝 Unity 編輯器&#xff08;添加安卓開發平臺模塊&#xff09;3.導入下載的SDK4.項目配置和切換開發平臺5.導入 XR Interaction Toolkit6.安裝 Universal RP(通用渲染管線)并設置 (選做)二、調試環境搭建&#x…

Linux系統之Docker命令與鏡像、容器管理

目錄 一、 Docker命令 docker命令幫助 docker常用子命令&#xff08;必須背會&#xff09; docker管理子命令(暫時不需要) swarm集群管理子命令&#xff08;不需要&#xff09; docker容器管理子命令&#xff08;必須背會&#xff09; docker全局選項 二、 docker鏡像管…

比亞迪第五代DM技術:AI能耗管理的深度解析與實測驗證

比亞迪第五代DM技術&#xff1a;AI能耗管理的深度解析與實測驗證 &#xff08;面向新能源汽車研發/測試工程師&#xff09;目錄 技術背景與核心突破AI能耗管理系統架構解析關鍵技術創新點 2.1 動力域三腦合一控制2.2 全溫域熱管理協同2.3 導航數據深度耦合 實測數據與場景驗證 …

sqli-labs通關筆記-第37關POST寬字符注入(單引號閉合 手工注入+腳本注入 3種方法)

目錄 一、寬字符注入 二、sqlmap之unmagicquotes 三、addslashes與mysqli_real_escape_string 四、源碼分析 1、代碼審計 2、SQL注入安全性分析 五、滲透實戰 1、進入靶場 2、正確用戶名密碼探測 3、手工注入&#xff08;方法1&#xff09; &#xff08;1&#xff…