字節Seed發布擴散語言模型,推理速度達2146 tokens/s,比同規模自回歸快5.4倍

擴散模型寫代碼,不僅像開了倍速,改起來還特別靈活!

字節Seed最新發布擴散語言模型Seed Diffusion Preview,這款模型主要聚焦于代碼生成領域,它的特別之處在于采用了離散狀態擴散技術,在推理速度上表現出色。

它的代碼推理速度能達到2146?tokens/s,比同類的Mercury和Gemini Diffusion等模型快不少,同時比同等規模的自回歸模型快5.4倍,并且在代碼編輯任務中更具優勢。

Seed Diffusion Preview以結構化的代碼生成為實驗領域,系統性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性。

下面介紹它的具體技術細節。

核心是兩階段訓練學習

自回歸模型存在串行解碼延遲瓶頸,理論上,擴散模型的并行生成潛力和整體性生成的優勢可以解決自回歸模型推理速度局限這一痛點。

但理論優勢與實際效果還是有差距,離散擴散模型在語言任務中的大規模部署仍面臨兩大核心瓶頸:歸納偏置沖突和推理效率瓶頸。

為解決上述問題,Seed Diffusion Preview采用了四項關鍵的技術創新。

兩階段訓練

兩階段訓練是模型的核心訓練策略。

這是針對離散擴散過程設計的漸進式訓練方案,兩個階段分別采用不同的corruption過程(即對原始數據的擾動方式)。通過分階段優化模型對token的理解與生成能力,平衡訓練效率與生成質量。

第一個階段是基于掩碼的擴散訓練,學習上下文補全,占整個訓練步驟的80%。

目標是將原始序列中的token替換為特殊的[MASK]標記,讓模型學習從部分被掩蓋的序列中恢復原始token,以此奠定基礎的語言建模能力。

第二個階段是基于編輯的擴散訓練,增強全局的合理性。

掩碼訓練可能帶來“捷徑依賴”的問題——優先利用未掩碼token的局部關聯性進行恢復,而非理解整個序列的全局邏輯。

此階段的目標就是通過插入、刪除、替換等編輯操作對原始序列進行擾動,并用編輯距離衡量擾動程度,編輯次數由特定函數控制在合理范圍內,打破模型對未掩碼token的錯誤認知,迫使模型重新評估所有token。

實證表明,引入編輯階段后,模型在代碼修復基準CanItEdit上的pass@1對比自回歸模型(AR模型)提升了4.8%(54.3vs.50.5),明顯增強了模型的代碼邏輯理解與修復能力。

Seed Diffusion Preview的測試結果驗證了了離散擴散路線在大語言模型推理上的潛力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91771.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91771.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91771.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

海洋大地測量基準與水下導航系列之九我國海洋PNT最新技術進展(下)

三、海洋PNT技術裝備研發與工程化應用 1.海底基準裝備 研制了首批適應海洋環境的多型海底基準站裝備,在我國南海海域成功布設了定位精度優于0.25m的海底大地測量試驗基準網,實現了我國海底大地測量基準技術零的突破。基準方艙具備穩固、抗壓、防腐、防…

入門MicroPython+ESP32:安裝逗腦IDE及驅動

本篇文章將手把手帶大家入門MicroPython ESP32,重點介紹逗腦IDE的安裝過程以及相關驅動的安裝。 一、下載逗腦IDE 要開始使用逗腦IDE,首先需要從官網下載最新版本。請訪問以下網址進行下載:https://www.itprojects.cn/ide 下載時的界面大…

CentOS上部署Redis及其哨兵(Sentinel)模式

架構:說明我這里是偽集群的,redis 在同一臺機器,Sentinel 只有一個,也存在單點故障問題只能當作開發環境使用,要滿足生產至少是下面這種架構 ------------------- ------------------- ------------------- …

《軟件測試與質量控制》實驗報告二 單元測試

目 錄 一、實驗學時 二、實驗目的 三、實驗環境 (一)硬件環境: (二)軟件環境: 四、實驗內容 1、實驗方案: 2、實驗步驟: 3、設計思路: 1、安裝JUnit和Eclemma…

k8s模式部署PolarDB-X

當前文檔適配PolarDB-X V2.4.0 版本 環境描述: 部署機(ops)1x2.2x.2x8.116,部署機需要可以訪問互聯網。使用ansible進行部署,自行安裝ansible。需要部署兩個k8s集群,分別在其上安裝一個polardb-x集群。 部…

Flask + YARA-Python*實現文件掃描功能

以下是一個 完整的 Web API 示例,使用 Flask YARA-Python 實現文件掃描功能,支持上傳文件并返回 YARA 規則匹配結果。 ? 功能說明 提供一個 /scan 接口,支持文件上傳使用預加載的 YARA 規則進行掃描返回 JSON 格式的匹配結果支持多規則、可…

WinForm之NumericUpDown控件

NumericUpDown(數字上下控件)是 WinForm 中專門用于輸入和調整數值的控件,它結合了文本框和上下按鈕,用戶可通過點擊按鈕或直接輸入來設置數值,且能嚴格限制數值范圍(最小值、最大值)和步長&…

一文讀懂K8S kubectl 命令,運維小白必看!

一、Kubectl 是什么? Kubectl 是 Kubernetes(簡稱 K8S)集群的命令行工具,它就像是一把萬能鑰匙,讓我們可以與 K8S 集群進行交互,輕松管理集群中的各種資源,像是 Pod、Service、Deployment 等等。通過向 K8S API 發送 REST 請求,kubectl 實現了對集群資源的增刪改查等操…

髖臼方向的定義與測量-I

近期看到關于髖臼方向不同應用場景下的不同定義,覺得特別有意思,但是,原文是影印本,不太方便實用屏幕取詞翻譯,且一些專業術語也不太好理解。 因此,我將原文和翻譯整理了一些,不對的地方&#x…

Python爬蟲實戰:研究mahotas庫,構建圖像獲取及處理系統

一、引言 (一)研究背景 在信息爆炸的時代,圖像作為一種直觀、豐富的信息載體,其數量在互聯網上呈現指數級增長。這些圖像數據涵蓋了自然景觀、動植物、工業產品等多個領域,為模式識別、機器學習等研究提供了寶貴的數據源。特別是在植物學研究領域,葉片圖像包含了豐富的…

【04】海康相機C#開發——VS 在編譯時,提示“Files的值“+亂碼情況解決辦法’ ,C#項目打開編譯時報錯:Files 的值“IGEF‘,

文章目錄C#項目打開,用VS 在編譯時編譯時報錯:Files 的值“亂碼; 有的編譯器會顯示:Files的值“IGEF 以上報錯都為同一種錯誤,.net中的配置文件亂碼導致的: 找到項目目錄下的“..\obj\Debug\”的文件夾中…

MySQL隱式轉換陷阱:從錯誤查詢案例解析索引失效與數據類型匹配

開始之前,先問個問題問題:mysql 數據類型是date ,怎么寫查詢條件索引有效? ——下面帶著疑問看下去。 一、mysql-8.隱式轉換導致索引失效或查出不符合where條件結果 今天在執行一條sql語句時候,where條件寫錯了&#x…

【sklearn(01)】數據集加載、劃分,csv文件創建,特征工程,無量綱化

目錄sklearn數據集玩具數據集現實世界數據集加載玩具數據集獲取現實世界數據集本地csv數據創建csv文件pandas加載csv數據集劃分特征工程步驟特征工程APIDictVectorizer 字典列表特征提取APICountVectorizer 文本特征提取API英文文本提取中文文本提取TfidfVectorizer TF-IDF文本…

docker desktop入門(docker桌面版)(提示wsl版本太低解決辦法)

參考文章:Docker Desktop Engine Stopped原因分析(docker桌面停止)WSL沒裝或沒更新 文章目錄Docker Desktop入門指南1. Docker Desktop簡介2. 安裝Docker Desktop2.1 系統要求2.2 下載和安裝3. 配置Docker Desktop修改默認存儲路徑4. 運行你的…

《n8n基礎教學》第三節:模擬一個自動化場景

1、模擬場景Nathan 🙋是 ABCorp 的分析經理,他的工作是支持 ABCorp 團隊的報告和分析。作為一個真正的多面手,他還負責處理一些雜項任務。Nathan 做的一些事情是重復且枯燥的。他希望自動化其中一些任務,以避免精疲力竭。作為一名…

CodeRush AI 助手進駐 Visual Studio:AiGen/AiFind 亮相(三)

CodeRush 是專為 Visual Studio 打造的高效開發插件,通過集成 AI 驅動功能(如自然語言生成代碼的 AiGen 和智能搜索邏輯的 AiFind)、語音交互及深度重構工具,直接在 IDE 內無縫完成代碼生成、修改與導航,消除窗口切換與…

如何從頭開始搭建屬于自己的家用nas實現內網穿透訪問

最近我在家部署了群暉NAS923,從而實現內網穿透,下面寫一個新手向教程: 一、硬件安裝與初始化設置 1. 硬盤安裝(已完成可跳過) 群暉 923 支持 4 塊 3.5 英寸硬盤,開箱后取出硬盤架,將硬盤&am…

mysql 之多表

mysql之多表已知2張基本表:部門表:dept (部門號,部門名稱);員工表 emp(員工號,員工姓名,年齡,入職時間,收入,部門號)CREATE table dep…

【Django】-6- 登錄用戶身份鑒權

一、🛡? Django 鑒權 & 登錄控制 Django 自帶的鑒權系統(用戶身份管理小管家)鑒權系統能干啥?Django 自帶的鑒權系統,就像一個 “用戶身份管家” ,幫你管好這些事兒:功能類比加密存儲用戶密…

winscp 連openwrt 返回127錯誤碼

winscp 連openwrt 24.10返回127錯誤碼。找了許多原因也沒搞清為啥(客戶端加密方式、winscp版本過低等都試過),用SecureFx試了一下,發現是openwrt 24.10固件沒有安裝Sftp服器,用下列命令安裝即可。opkg install openssh…