51c大模型~合集170

自己的原文哦~? ? ? ? ? ?https://blog.51cto.com/whaosoft/14132244

#4DNeX

一張圖，開啟四維時空：4DNeX讓動態世界「活」起來

僅憑一張照片，能否讓行人繼續行走、汽車繼續飛馳、云朵繼續流動，并讓你從任意視角自由觀賞？

南洋理工大學 S-Lab 攜手上海人工智能實驗室，給出肯定答案 ——4DNeX。作為全球首個僅依賴單張輸入即可直接輸出 4D 動態場景的前饋（feed-forward）框架，4DNeX 擺脫了游戲引擎與合成數據的束縛，首次大規模利用真實世界動態影像進行訓練，實現「時空視頻」的高效、多視角、高保真渲染。

在多項基準測試中，4DNeX 以顯著優勢超越 Free4D、4Real 等當前最佳方法，真正把「一張圖生成四維世界」的科幻概念帶進了現實。

，時長00:51

論文鏈接：https://4dnex.github.io/4DNeX.pdf
項目主頁：https://4dnex.github.io/?

1. 研究背景

世界模型正成為 AI 研究的高頻熱詞。 Google DeepMind 近期迭代的 Genie 3 已能在高質量游戲數據上生成長達數分鐘的交互式視頻，但目前尚且缺乏在諸多真實場景上的驗證。

世界模型發展的一個重要拐點在于：讓模型學會刻畫我們身處的動態 3D 世界，并服從其物理定律。唯有如此，生成的內容才能既逼真又可導，進而支持「反事實」推演 —— 在虛擬中重放、預測甚至改寫現實。這一能力不僅可構成下一代 AR/VR 與xx智能的重要研究基石，更是邁向可信 AGI 的必經之路。

構建 4D 世界模型的關鍵能力，在于能否持續產出高保真、可擴展的 4D 內容，其主要在于以下三個方面的研究：

數據?– 相較于游戲等引擎合成的數據，真實采集的數據雖能保留物理屬性，卻難以大量獲取，更難標注；
表征?- 如何兼顧不同模態（如材質和幾何等）特性，設計選取高效的 3D/4D 表征仍是學界長久未竟的科研命題；
架構?– 當前的不同生成模型架構互有優劣，如何更好地繼承現有模型先驗，保障高質量仍需探索。

鑒于此，「真實高效」的 4D 世界模型構建非常重要，也充滿挑戰。

2. 4DNeX-10M Dataset

近千萬幀帶 4D 標注的視頻集

為破解高質量真實 4D 數據稀缺的瓶頸，4DNeX 首度發布?4DNeX-10M—— 近千萬幀、多場景、帶偽標簽的超大規模 4D 視頻數據集。其覆蓋室內外環境、自然景觀與人體運動等多元主題，尤以海量「以人為中心」的 4D 數據為特色，囊括豐富的物理屬性、動態細節與交互行為，為 4D 世界模型的構建奠定堅實基礎。

圖 1 4DNeX-10M Dataset 包含了不同來源且豐富多樣的動態數據

為支撐 4DNeX-10M 的構建，研究者們同步設計了一條全自動的數據–標注管線（見下圖）。

數據源：單目實拍視頻數據，其中動態場景取自 Pexels、Vimeo 等公開視頻庫；靜態場景則整合 RealEstate-10K、DL3DV 等。
首輪清洗：基于光流一致性、亮度統計、運動強度及 OCR 文字檢測，剔除低質片段。
標簽制作：
內容：LLaVA-Next Video 給視頻片段打標。
幾何：靜態場景使用 Dust3R 三維重建，動態場景使用 Monst3R / MegaSam 四維重建，輸出 Semi-Dense 3D/4D 點云圖、幾何標簽。
質量把關：聯合置信度（MCV、HCPR 等）與運動平滑度等多重閾值，篩除幾何漂移或動態異常序列。

最終打標完成的 4DNeX-10M 數據集構成如圖右下角統計所示。

圖 2 4DNeX-10M 構建管線以及數據統計情況

3. 4DNeX 方法架構

表征選取

在 4D 內容生成中，傳統「4D」指 3D 空間幾何外加時間軸；而在世界模型的語境下，RGB 視頻攜帶的材質、光照與語義信息同樣關鍵。4DNeX 因而提出 6D 統一表征：以 RGB 序列刻畫外觀（3 維）并以 XYZ 序列編碼幾何（3 維）。該設計無需顯式相機控制，即可同步生成多模態內容，兼顧真實感與物理一致性。

圖 3 不同的 RGB 和 XYZ 模態融合策略

算法框架

4DNeX 框架的技術突破在于「寬度融合」這一關鍵策略：系統比較五種方案后，研究者們發現將 RGB 與 XYZ 在 token 寬度維度直接拼接，可將跨模態距離壓到最低。相比之下，通道融合會擾亂預訓練分布，批處理融合又無法保證對齊。?

圖 4 不同的空間融合策略對比

網絡骨架沿用 Wan2.1 視頻擴散模型，通過輕量級 LoRA 微調完成適配，主要的策略包括有：

輸入端以斜坡深度初始化，先驗地逼近自然場景的深度梯度；
XYZ 坐標經歸一化校正，徹底消除 VAE 潛在空間的分布錯位；
軟掩碼機制在擴散過程中動態約束幾何細節，引導結構收斂；
旋轉位置編碼維持像素級 RGB-XYZ 對齊。

最后，僅需一次輕量重投影即可反算出相機參數，確保輸出在物理層面嚴密自洽。

圖 5 4DNeX 框架總覽

4. 實驗結果

實驗驗證顯示 4DNeX 在效率與質量上實現雙重突破：VBench 測試中，其動態幅度達 100%（超越 Free4D 的 40.1%），時空一致性 96.8% 領先業界。用戶研究（23 人評估）更顯示 85% 用戶偏好其生成效果，尤其在運動幅度與真實感方面優勢顯著。

生成效果可視化證明模型能力 —— 單圖輸入可輸出連貫動態點云序列（圖 5），新視角合成在真實場景（in-the-wild）中保持幾何一致性（下圖 6）；與 Animate124、4Real 等基線對比（下圖 7），4DNeX 在樹葉搖曳幅度、人體動作自然度等細節表現更優。

，時長00:05

圖 6 4DNeX 生成的視頻效果（RGB & Point Map）

，時長00:05

圖 7 4DNeX 生成未經訓練真實世界視頻的新視角視頻

圖 8 4DNeX 對比其他方法的生成效果

User Study 用戶調研結果顯示 4DNeX 生成的效果優于 Free4D、4Real、Animate124、GenXD 方法。

表格 1 User Study 結果對比

消融實驗

研究者們還對比了五種融合 RGB 以及 XYZ 的策略，以發現最佳的多模態融合策略。實驗一步證實寬度融合策略的關鍵作用，消除其他方案（如通道融合）的噪聲或對齊失敗問題。

圖 9 不同融合策略的結果可視化展示

#Discrete-Diffusion-Forcing

開源擴散大模型首次跑贏自回歸！上交大聯手UCSD推出D2F，吞吐量達LLaMA3的2.5倍

視頻 1：D2F dLLMs 與同尺寸 AR LLMs 的推理過程對比示意

在大語言模型（LLMs）領域，自回歸（AR）范式長期占據主導地位，但其逐 token 生成也帶來了固有的推理效率瓶頸。此前，谷歌的 Gemini Diffusion 和字節的 Seed Diffusion 以每秒千余 Tokens 的驚人吞吐量，向業界展現了擴散大語言模型（dLLMs）在推理速度上的巨大潛力。然而，當前的開源 dLLMs 卻因一定的技術挑戰 —— 例如缺少完善的 KV 緩存機制，以及未充分釋放并行潛力 —— 推理速度遠慢于同規模的 AR 模型。

近期的一篇工作徹底扭轉了這個局面。上海交通大學 DENG Lab 聯合加州大學圣地亞哥分校（UCSD）推出?Discrete Diffusion Forcing（D2F），首次使開源 dLLMs 的生成速度顯著超過同等規模的 AR 模型。實驗顯示，D2F 模型在 GSM8K 等基準上，實現了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升，同時相比于原始的 dLLMs 模型實現了最高達 50 倍的加速。

本文作者團隊來自上海交通大學 DENG Lab 與加州大學圣地亞哥分校（UCSD）。該研究由碩士生王旭、準碩士生徐晨開、本科生金義杰以及博士生金佳純共同完成，指導教師為鄧志杰與張浩老師。DENG Lab 隸屬上海交通大學，致力于高效、跨模態生成模型的研究。

論文地址：https://arxiv.org/abs/2508.09192?

代碼地址：https://github.com/zhijie-group/Discrete-Diffusion-Forcing?

項目主頁：https://zhijie-group.github.io/Discrete-Diffusion-Forcing/

模型倉庫：https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora?

Demo 地址：https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B

圖 1：D2F dLLMs 實現了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升

簡單來說，D2F 賦予了 dLLMs 幾種關鍵特性：

1. ?自回歸 - 擴散混合架構：引入塊級自回歸生成，塊間保持因果性，讓模型能夠有效利用 KV 緩存。

2. ?塊內 + 塊間雙尺度并行：引入了塊內 token 間并行解碼和塊間并行解碼，最大化并行生成潛力

3. ?雙狀態解碼：通過設計雙狀態的塊解碼流水線，最大化吞吐量。

4.??更優的 tradeoff：相比原始 dLLMs，具有顯著更優的性能 - 效率權衡

5. ?vLLM 集成：已將 vLLM 集成到 D2F 中，讓推理速度更進一步

問題的根源：dLLMs 理論優勢與現實瓶頸

擴散大語言模型（dLLMs）理論上具有并行生成 token 的能力，不必像 AR 模型一樣逐個生成，從而在推理效率上具備巨大潛力。然而，在實踐中，現有的開源 dLLMs 并未充分展現這一優勢，其推理速度往往落后于 AR 模型，這個瓶頸主要源于兩個基礎性問題：

KV Cache 的不兼容性：標準 dLLM 依賴雙向注意力機制來獲取全局上下文，導致 AR 模型中常見的 KV 緩存加速技術無法直接應用于 dLLMs。在每次去噪迭代中，模型都需要重新計算所有 token 的 K、V 矩陣，造成了巨大的計算冗余。

塊間解碼的串行限制：為了引入緩存機制，一些工作嘗試將生成過程分塊（block-wise）。但這些方法通常要求嚴格的塊間順序，即只有前一個塊必須被完全解碼后，才能開始處理下一個塊。這種嚴格的依賴使得并行生成僅限于塊內而無法應用于塊之間，極大地限制了整體的并行潛力。

因此，想要釋放 dLLMs 的潛力，就必須同時解決 KV Cache 的兼容性與塊間的并行解碼問題。

D2F 的核心設計：一種自回歸 - 擴散混合范式

面對上述瓶頸，D2F 的核心思想是構建一個融合自回歸和擴散思想的混合范式，協同設計高效的模型架構，訓練方法以及推理策略。

架構：塊級因果注意力，兼容 KV Cache

為了讓 dLLMs 能真正兼容 KV 緩存，D2F 將 dLLMs 中標準的雙向注意力機制重塑為了塊級因果注意力。具體來說：

塊內（Intra-block）：保持標準的雙向注意力，以充分利用塊內的上下文信息。
塊間（Inter-block）：使用因果注意力，即任意一個塊只能關注其自身及所有在它之前的塊。

這種設計在塊的層面上建立了自回歸的順序。每個生成完成的塊的 KV 狀態被緩存并在后續復用，從而根本上解決了 KV Cache 的兼容性問題，大幅減少了冗余計算。

訓練：非對稱蒸餾與結構化噪聲

圖 2：D2F dLLMs 基于非對稱蒸餾實現訓練

為了避免從頭訓練 dLLMs 的高昂成本。D2F 使用了非對稱蒸餾策略，將一個預訓練好的 dLLMs 教師模型的能力，高效地蒸餾到 D2F 學生模型上。兩者區別在于教師模型使用雙向全注意力而學生模型使用塊級因果注意力。

為了進一步解鎖學生的塊間并行能力，D2F 引入了單調遞增的結構化噪聲調度。具體而言，訓練數據前向加噪過程中，序列靠前的塊被施加較小的噪聲而靠后的塊被施加更大的噪聲。這種結構化的噪聲訓練，其目的是為了教會學生模型如何依據部分去噪、尚不清晰的前文來預測后文。

推理：流水線并行解碼

圖 3：D2F dLLMs 的推理流程示意

在上述訓練范式的基礎上，D2F 設計了一套創新的并行解碼算法：Pipelined Parallel Decoding。

該算法維護一個動態的待解碼窗口，其中包括若干 tokens 塊。在必要時，新塊以半激活的狀態進入窗口，并在前綴去噪到一定比例后轉為全激活狀態。這種動態添加和雙狀態解碼的機制，確保了流水線的高效和質量。

兩種狀態的區別主要在于解碼策略的激進程度：

半激活狀態（Semi-activated）：只接受那些預測置信度超過某一閾值?τ_conf?的 token。
全激活狀態（Fully-activated）：如果沒有 token 超過置信度閾值，也會選擇置信度最高的一個 token 進行解碼。

，時長00:25

視頻 2：D2F dLLMs 推理過程中顯式地對多個塊進行并行解碼

實驗結果

速度提升，性能不降

D2F 給原始 dLLM 帶來了最高可達 50 倍的加速，同時平均性能不下降。

圖 4：D2F-LLaDA 與基線方法的對比

圖 5：D2F-Dream 與基線方法的對比

優異的性能 - 效率權衡曲線

D2F 提供了一條遠優于現有模型的性能 - 效率權衡曲線。通過調整解碼參數，D2F 可以適應各種場景，在性能和速度之間做出靈活的選擇。例如，在 MBPP 任務上，通過稍微犧牲性能，吞吐量可達 AR 模型的 4 倍以上。

圖 6：D2F dLLMs 實現更優異的優異的性能 - 效率權衡

總結與思考

D2F 的出現為開源 dLLMs 社區注入了新的活力，展現了 dLLMs 推理速度上的巨大潛力。通過開源代碼和模型，團隊希望能夠激勵社區投入更多的研究資源，共同推動并行解碼技術走向成熟，進入更廣泛的實際應用。

此外，D2F 的成功證明了 AR 和 Diffusion 并非是兩種完全對立的范式。通過巧妙的混合框架設計，可以融合 AR 模型的緩存優勢和 dLLMs 的并行優勢，這為大模型推理優化開辟了新的道路。

未來工作：目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待實現，歡迎感興趣的同學跟我們聯系。

#UoMo

UoMo來了，首個無線網絡流量預測模型，一個框架搞定三類任務

你有沒有想過，未來的移動網絡能像 “預知未來” 一樣提前感知用戶需求？在今年的 ACM KDD 2025 大會上，清華大學電子系團隊聯合中國移動發布了 UoMo，全球首個面向移動網絡的通用流量預測模型。UoMo 能同時勝任短期預測、長期預測，甚至在沒有歷史數據的情況下生成全新區域的流量分布。它結合了前沿的擴散模型與 Transformer 結構，還能理解城市中的地理信息與人流變化，把網絡規劃和優化做得更聰明、更精準。

標題：UoMo: A Universal Model of Mobile Traffic Forecasting for Wireless Network Optimization

作者：Haoye Chai（柴浩野）， Shiyuan Zhang（張詩源），Xiaoqian Qi（齊效乾），Baohua Qiu（邱寶華），Yong Li（李勇）

機構：清華大學，中國移動?

論文鏈接：https://dl.acm.org/doi/10.1145/3711896.3737272

數據及代碼鏈接：https://github.com/tsinghua-fib-lab/UoMo

為什么要做 UoMo

在大規模移動網絡中，流量預測是實現智能化網絡運營與優化的核心能力。它讓運營商能夠在復雜網絡環境中，提前感知流量變化，從而主動執行一系列網規網優操作（如調度資源、部署基站、降低能耗）。然而，現有方法往往針對單一任務，缺乏跨區域、跨任務的統一預測能力，難以支撐智能化網絡在多樣化場景下的長期穩定運行：

泛化能力不足

不同城市在人口分布、城市布局和地理環境上差異極大，導致流量模式也隨之變化，現有專用模型難以捕捉多樣化時空特征，更難遷移到新場景。

任務適應性受限

短期 / 長期預測對數據特征的關注點不同，傳統做法往往為每個任務單獨設計模型，導致部署復雜、維護成本高。

UoMo 目標：在統一框架下同時支持短期預測、長期預測、生成三類任務。

移動網絡流量預測任務是什么

論文把移動網絡的流量預測歸納為三類

短期預測：用較長歷史?
預測近未來
?，強調短時波動，典型的網規網優任務包括資源分配、用戶接入控制等。
長期預測：用較短歷史?
預測較長未來?
，強調周期與規律，典型的網規網優任務包括基站休眠節能、網絡容量擴展等。
生成（無歷史）：僅用區域環境特征直接生成?
，用于新區域的潛在需求評估，典型網規網優任務包含頻段規劃、小區選址等。

UoMo 的統一架構

數據詞元化→ 模型預訓練 → 模型微調

(一) 數據詞元化：異構時空流量變成統一 “token”

將城市區域

、時間?

?的張量

切分基礎單元

獲得 token 序列

?，并通過嵌入層?

?轉換為低維表征，以此將不同時空粒度（小區 / 柵格，1 小時 / 15 分鐘）投影到相同低維空間。

(二) 基于擴散模型預訓練

UoMo 骨干網絡結合擴散模型 + Transformer，采用擴散模型建模大規模移動數據的復雜時空分布，采用 Transformer 學習流量數據序列相關性。同時，UoMo 采用掩碼 - 復原的自監督訓練范式，定義如下四種掩碼策略：

短期掩碼：遮掩未來短時間內，對應短期預測任務；
長期掩碼：遮住更長時間段，對應長期預測任務；
生成掩碼：將目標時空區域全部數據進行遮掩，用周圍區域 + 環境上下文完成生成任務；
隨機掩碼：隨機遮掩時空點，幫助模型學習數據普適時空規律。

訓練目標：定義前向過程加噪后數據表示為e，可觀測部分數據為o，掩碼策略為m，可以表示如下：

去噪網絡用于還原原始添加噪聲，最小化掩碼部分的 MSE 損失：

(三) 城市環境微調：把人和城市注入模型

城市環境兩大來源：（1）移動網絡用戶數：與網絡流量格式相同的時空序列，表征不同時空地點人類移動規律；（2）POI 分布：表示某一時空區域的 POI 數量，通過與時間戳進行組合映射，能夠獲得具備時間屬性的 POI 分布。
基于對比學習的環境對齊：相同時空區域內的流量與環境信息作為正樣本，文章中通過理論分析，指出擴散模型中訓練目標實際上等價于對比學習中優化 InfoNCE 目標，可以表示：

實驗與結論

作者從真實世界 9 座規模不同的城市中采集下行移動流量數據，時間粒度為 15 分鐘至 1 小時。在每個數據集中，城市環境環境數據通過公開地圖服務抓取各城市的 POI 信息，覆蓋居住、娛樂等 15 個相關類別。

實驗結果表明，無論是短期預測、長期預測、生成任務，UoMo 相比于現有 baseline 算法，均體現卓越的預測能力，充分說明 UoMo “一模多用” 的能力，具備良好的通用性。

本文還對數據預測效果進行了可視化展示，充分說明 UoMo 所預測數據不僅僅是 “數值指標最優”，能夠很好地還原真實流量數據的波動模式，這也為移動網絡規劃與優化提供重要實用基礎。?

對于 UoMo 零樣本 / 小樣本的學習能力， UoMo 相比于其他算法同樣能夠展示強大的泛化遷移能力，尤其是在小樣本數據（如 5%/10% 數據）訓練之后，能夠進一步拉近與真實的誤差。

部署與應用

基于 UoMo 預測的移動網絡流量，文章測試了三類典型的應用場景（基站選址規劃、無線資源分配、基站休眠控制），驗證移動流量預測能力以及對網規網優的能力支撐。部署過程遵循三步閉環范式：

UoMo 流量預測：基于城市多源數據（歷史流量、用戶數、POI 等），UoMo 執行相應流量預測任務（長期 / 短期 / 生成），產生可用于后續優化的預測流量。
基于生成數據的優化策略求解：在獲得預測流量后，將其輸入到網絡優化求解器中（站點選址、容量規劃、節能優化、QoS 優化等），獲得網規網優策略。
基于真實數據的策略驗證與評估：應用平臺按照真實網絡數據驗證網規網優策略，從覆蓋、吞吐、時延等指標對優化策略進行量化評估，當最終系統性能越高，則說明基于 UoMo 預測流量所制定的規劃優化策略效果越好。

總結

UoMo 是一種結合擴散模型的移動流量預測通用模型，該模型能夠同時支持多種預測任務（短期 / 長期預測與生成）。通過建模移動流量在時間、空間、城市環境之間的聯合分布，UoMo 在多城市的預測任務中具備優越的性能表現，并且具備較好的零樣本 / 小樣本學習能力，體現出卓越的通用性與泛化能力。

#NextStep-1

一次在圖像生成上自回歸范式的探索

自回歸模型，是 AIGC 領域一塊迷人的基石。開發者們一直在探索它在視覺生成領域的邊界，從經典的離散序列生成，到結合強大擴散模型的混合范式，每一步都凝聚了社區的智慧。

這些工作，比如 MAR、Fluid、LatentLM 等，為我們帶來了巨大的啟發，也讓我們看到了進一步優化的空間：比如，如何避免離散化帶來的信息損失？如何讓模型的架構更輕盈、更強大？

帶著這些問題，階躍星辰團隊進行了新的嘗試，并分享了階段性成果：NextStep-1。

階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續的視覺空間中，以自回歸方式進行生成。

為實現這一點，團隊采用了一個輕量的「流匹配頭」（Flow Matching Head）。它讓模型能夠：

學會在連續的視覺空間中直接生成單個圖像 Patch，從根本上繞開了作為信息瓶頸的離散化步驟。
模型以自回歸的方式，逐一生成所有 patches，最終完成一幅完整的圖像。

這一設計帶來了另一個顯著優勢：架構的簡潔與純粹。由于不再需要外部大型擴散模型的「輔助」，NextStep-1 的整體架構變得高度統一，實現了真正意義上的端到端訓練。

階躍星辰團隊認為，NextStep-1 的探索指向了一個有趣且充滿潛力的方向。它證明了在不犧牲連續性的前提下，構建一個簡潔、高效的自回歸模型是完全可行的。

這只是探索的第一步。階躍星辰選擇將 NextStep-1 開源，衷心期待它能引發更多有價值的討論，并希望能與社區的研究者一起，繼續推動生成技術的演進。

論文鏈接：https://arxiv.org/abs/2508.10711
GitHub 鏈接：https://github.com/stepfun-ai/NextStep-1
Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

動因探究：背后的技術支撐

整體架構

NextStep-1 的架構如圖 1 所示，其核心是一個強大的 Transformer 骨干網絡（14B 參數），輔以一個輕量級的流匹配頭（Flow Matching Head，157M 參數），用于直接生成連續的圖像 Patch。

圖 1 NextStep-1 的架構圖

這一結構極其簡潔、純粹，它帶來了兩大解放：

解放了對離散化的依賴：不再需要圖像 Tokenizer 進行離散化，直接在連續空間操作。
解放了對外部擴散模型的依賴：不再需要外接大型擴散模型作為?「解碼器」，實現了端到端的自回歸訓練。

核心發現

在探索 NextStep-1 的過程中，階躍星辰團隊獲得了兩個關鍵發現，它們不僅解釋了模型為何高效，也為未來的研究提供了新的思路。

發現一：真正的「藝術家」?是 Transformer

在階躍星辰的框架中，Transformer 是?「主創」，流匹配頭更像是「畫筆」。團隊通過實驗發現，流匹配頭的尺寸大小（ 157M -> 528M），對最終圖像質量影響很小。這有力地證明了，核心的生成建模與邏輯推理等?「重活」，完全由 Transformer 承擔。流匹配頭則作為一個高效輕量的采樣器，忠實地將 Transformer 的潛在預測?「翻譯」?成圖像 Patch。

發現二：Tokenizer 的「煉金術」—— 穩定與質量的關鍵

在連續視覺 Token 上的操作帶來了獨特的穩定性挑戰，團隊發現兩個關鍵?「煉金術」：

通道歸一化（Channel-Wise Normalization）是穩定性的「壓艙石」：通過引入簡單的通道歸一化，極其有效地穩定了 Token 的統計特性，即使在高 CFG 指導強度下，也能確保生成清晰、無偽影的圖像。
「更多噪聲」?竟能帶來「更好質量」：一個反直覺的發現是，訓練 Tokenizer 時加入更多噪聲正則化，反而能顯著提升最終生成圖像的質量。階躍星辰團隊推斷，這有助于塑造一個更魯棒、分布更均勻的潛在空間，為自回歸主模型提供更理想的工作平臺。

眼見為實：高保真的視覺生成和編輯能力

NextStep-1 實現了高保真的文生圖的生成，同時具有強大的圖像編輯能力，覆蓋多種編輯操作（如物體增刪、背景修改、動作修改、風格遷移等），并能理解用戶的日常語言指令，實現形式自由的圖像編輯。

圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

硬核實力：權威 Benchmark 下的表現

除了直觀的視覺效果，階躍星辰團隊也在多個行業公認的 Benchmark 上對 NextStep-1 進行了嚴格的評估。結果表明，

綜合性能在自回歸模型中達到了新的 SOTA（State-of-the-Art）水平
在多個 benchmark 上已能與頂尖的擴散模型（Diffusion Models）直接競爭

表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

表 2 NextStep-1 在 OneIG 上的性能

表 3 NextStep-1 在 WISE 上的性能

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性與未來展望

NextStep-1 是階躍星辰團隊對構建簡潔的高保真生成模型的一次真誠探索。它證明了，在不犧牲連續性的前提下，構建一個純粹的端到端自回歸模型是完全可行的。階躍星辰相信，這條?「簡潔」?的道路，為多模態生成領域提供了有價值的新視角。

階躍星辰團隊深知這只是探索的開始，前路依然廣闊。作為一個對新范式的初步探索，NextStep-1 在展現出巨大潛力的同時，也讓團隊識別出了一些亟待解決的挑戰。我們在此坦誠地列出這些觀察，并視其為未來工作的重要方向。

生成過程中不穩定

NextStep-1 成功證明了自回歸模型可以在高維連續潛在空間中運行，并達到媲美擴散模型的生成質量，但這條路徑也帶來了獨特的穩定性挑戰。觀察到，當模型的潛在空間從低維（如 4 通道）擴展到更高維（如 16 通道）時，盡管后者能表達更豐富的細節，但也偶發性地出現了一些生成?「翻車」的情況（如圖 3 所示）。

圖 3 失敗的例子，展示圖像生成過程中一些暴露出的問題

雖然其根本原因仍有待進一步探究，但團隊推測可能存在以下因素：

局部噪聲 / 塊狀偽影：可能源于生成后期出現的數值不穩定性。
全局噪聲：可能反映了模型尚未完全收斂，需要更多的訓練來優化。
網格狀偽影：可能揭示了當前一維位置編碼在精確捕捉二維空間關系上的局限性。

順序解碼帶來的推理延遲

自回歸模型的順序解碼特性，是其推理速度的主要瓶頸。研究團隊對單個 Token 在 H100 GPU 上的延遲進行了理論分析（如表 5 所示），結果表明：

主要瓶頸在于大模型（LLM）骨干網絡的順序解碼
流匹配頭（Flow Matching Head）的多步采樣過程也構成了不可忽視的開銷

表 5?H100 上生成每個 token 的理論延遲速度 ( batch size 為 1 )

這一觀察指明了兩個明確的加速方向：

優化流匹配頭：通過減小其參數量、應用模型蒸餾以實現少步生成，或采用更先進的少步采樣器。
加速自回歸主干：借鑒大語言模型領域的最新進展，如將多 Token 預測等技術，適配到圖像 Token 的生成中。

高分辨率生成的挑戰

在擴展到高分辨率圖像生成方面，與技術生態已相當成熟的擴散模型相比，階躍星辰團隊的框架面臨兩大挑戰：

收斂效率：自回歸模型的嚴格順序生成特性，在更高分辨率下需要更多的訓練步數才能收斂。相比之下，擴散模型在每次迭代中并行地優化整張圖像，能更直接地利用二維空間歸納偏置。
技術遷移難度：為高分辨率擴散模型開發的先進技術（如 timestep shift）難以直接遷移。其根本原因在于，流匹配頭主要扮演一個輕量級采樣器的角色，而核心的生成建模由 Transformer 骨干網絡完成，因此單純修改采樣過程對最終輸出的影響有限。

因此，基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個重要探索方向。

監督微調（SFT）的獨特挑戰

團隊觀察到，當使用小規模、高質量的數據集進行微調時，訓練動態會變得極不穩定。

擴散模型通常僅需數千個樣本，就能穩定地適應目標數據分布，同時保持良好的泛化生成能力。相比之下，階躍星辰的 SFT 過程：

依賴大規模數據：只有在百萬樣本規模的數據集上訓練時，才能觀察到顯著且穩定的提升。
在小數據集上表現脆弱：當使用小規模數據集時，模型會陷入一種?「岌岌可危」?的平衡狀態。它要么收效甚微，幾乎沒有變化；要么突然?「崩潰」，完全過擬合到目標數據分布上，喪失了原有的泛化能力。

因此，如何在一個小規模數據集上，找到一個既能對齊目標風格、又能保留通用生成能力的?「甜蜜點」（sweet spot）檢查點，對階躍星辰團隊而言仍然是一個重大的挑戰。

#一句話，性能暴漲49%！

馬里蘭MIT等力作：Prompt才是大模型終極武器

提示詞才是AI隱藏的王牌！馬里蘭MIT等頂尖機構研究證明，一半提示詞，是讓AI性能飆升49%的關鍵。

AI性能的提升，一半靠模型，一半靠提示詞。

最近，來自馬里蘭大學、MIT、斯坦福等機構聯手驗證，模型升級帶來的性能提升僅占50%，而另外一半的提升，在于用戶提示詞的優化。

他們將其稱之為「提示詞適應」（prompt adaptation）。

論文地址：https://arxiv.org/pdf/2407.14333v5

為此，他們讓DALL-E 2和DALL-E 3來了一場PK，1,893名「選手」在10次嘗試中，用隨機分配三種模型之一復現目標圖像。

令人驚訝的是，DALL-E 3圖像相似度顯著優于DALL-E 2。

其中，模型升級本身僅貢獻了51%的性能，剩余的49%全靠受試者優化的提示詞。

關鍵是，那些沒有技術背景的人，也能通過提示詞，讓DALL-E 3模型生成更好的圖片。

OpenAI總裁Greg Brockman也同樣認為，「要充分發揮模型的潛力，確實需要一些特殊的技巧」。

他建議開發者們去做「Prompt庫」管理，不斷探索模型的邊界。

換言之，你的提示詞水平，決定了AI能不能從「青銅」變成「王者」。

別等GPT-6了！

不如「調教」提示詞

GenAI的有效性不僅取決于技術本身，更取決于能否設計出高質量的輸入指令。

2023年，ChatGPT爆紅之后，全世界曾掀起一股「提示詞工程」的熱潮。

盡管全新的「上下文工程」成為今年的熱點，但「提示詞工程」至今依舊炙手可熱。

然而共識之下，提示詞設計作為一種動態實踐仍缺乏深入研究。

多數提示詞庫和教程，將有效提示視為「可復用成品」，但卻用到新模板中可能會失效。

這就帶來了一些現實的問題：提示策略能否跨模型版本遷移？還是必須持續調整以適應模型行為變化？

為此，研究團隊提出了「提示詞適應」這一可測量的行為機制，用以解釋用戶輸入如何隨技術進步而演進。

他們將其概念化為一種「動態互補能力」，并認為這種能力對充分釋放大模型的經濟價值至關重要。

為評估提示詞適應對模型性能的影響，團隊采用了Prolific平臺一項預注冊在線實驗數據，共邀請了1,893名參與者。

每位受試者被隨機分配三種不同性能的模型：DALL-E 2、DALL-E 3，或自動提示優化的DALL-E 3。

除模型分配外，每位參與者還獨立分配到15張目標圖像中的一張。這些圖像選自商業營銷、平面設計和建筑攝影三大類別。

實驗明確告知參與者模型無記憶功能——每個新提示詞均獨立處理，不繼承先前嘗試的信息。

每人需要提交至少10條提示詞，需通過模型盡可能復現目標圖像，最優表現者將獲得高額獎金。

任務結束后參與者需填寫涵蓋年齡、性別、教育程度、職業及創意寫作/編程/生成式AI自評能力的人口統計調查。

隨機分配，10次生成

實驗的核心結果指標，是參與者生成的每張圖像與指定目標圖像之間的相似度。

這項指標通過CLIP嵌入向量的余弦相似度進行量化。

由于生成模型的輸出具有隨機性，同一提示詞在不同嘗試中可能產生不同的圖像。

為控制這種變異性，研究人員為每個提示詞生成10張圖像，并分別計算它們與目標圖像的余弦相似度，隨后取這10個相似度得分的平均值作為該提示詞的預期質量分數。

回放分析：是模型，還是提示詞？

實驗的另一個核心目標在于，厘清圖像復現性能的提升中，有多少源于更強大的模型，又有多少來自提示詞的優化？

根據概念框架的表述，當模型從能力水平θ1升級至更高水平θ2時，其輸出質量的總改進可表示為：

研究人員將這一變化分解為兩部分：

1. 模型效應：將相同提示詞應用于更優模型時，獲得的性能提升；

2. 提示詞效應：通過調整提示詞以充分發揮更強大模型優勢所帶來的額外改進。

為實證評估這兩個組成部分，研究人員對DALL-E 2和DALL-E 3（原詞版）實驗組參與者的提示詞進行了額外分析。

具體方法是將實驗過程中參與者提交的原始提示詞，重新提交至其原分配模型和另一模型，并分別生成新圖像。

· 分離模型效應

針對DALL-E 2參與者編寫的提示詞（x*(θ1,s)），團隊同時在DALL-E 2和DALL-E 3模型上進行評估，分別獲得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的實測值。

這一對比可分離出模型效應：即在固定提示詞情況下，僅通過升級模型獲得的輸出質量提升。

· 比較提示效應

為了評估提示詞效應，作者還比較了以下兩組數據：

1. 在DALL-E 3上回放DALL-E 2提示詞的質量（即Q[θ2,s,x*(θ1,s)]估計值）

2. DALL-E 3的參與者專門為模型編寫的提示詞在相同模型上的質量（即Q[θ2,s,x*(θ2,s)]估計值）

這一差異恰恰能反映，用戶通過調整提示詞，模型本身得到的額外改進。

那么，這項實驗的具體結果如何？

DALL-E 3強大的生圖能力

提示詞解鎖了一半

實驗中，研究團隊主要探討了三大問題：

(i) 接入更強大的模型（DALL-E 3）是否能提升用戶表現；

(ii) 用戶在使用更強模型時如何改寫或優化他們的提示詞；

(iii) 整體性能提升中有多少應歸因于模型改進，多少應歸因于提示詞的適應性調整。

模型升級，是核心

首先，團隊驗證了使用DALL-E 3的參與者，是否比使用DALL-E 2的參與者表現更優？

如下圖1所示，匯總了所有發現。

A展示了三組代表性目標圖像，每組都包含了從兩種模型中抽取的三張圖像。

中間行是，目標圖像余弦相似度最接近全體參與者平均值的生成結果，上行（下行）則呈現比均值相似度高（低）約一個平均處理效應（ATE）的圖像。

在10次必要提示嘗試中，使用DALL-E 3的參與者生成圖像與目標圖像的余弦相似度平均高出0.0164。

這個提升相當于0.19個標準差，如下圖1 B所示。

而且，這種優勢在10次嘗試中持續存在，因此不可否認，模型升級一定會比前代有著顯著的性能提升。

而且，參與者的動態提示行為在兩種模型間也存在顯著差異：

圖C表明，DALL-E 3使用者的提示文本平均比DALL-E 2組長24%，且該差距隨嘗試次數逐漸擴大。

他們更傾向于復用或優化先前提示，這表明當發現模型能處理復雜指令后，他們會采取更具開發性的策略。

此外詞性分析證實，增加的詞匯量提供的是實質性描述信息而非冗余內容：

名詞和形容詞（最具描述性的兩類詞性）占比在兩種模型間基本一致（DALL-E 3組48% vs DALL-E 2組49%，p = 0.215）。

這說明了，提示文本的延長反映的是——語義信息的豐富化，而非無意義的冗長。

模型51%，提示詞49%

研究人員觀察到提示行為的差異表明，用戶會主動適應所分配模型的能力。

DALL-E 3使用者的整體性能提升中，有多少源自模型技術能力的增強，又有多少歸因于用戶針對該能力重寫提示？

為解答這一問題，研究人員采用前文所述的回放（replay）分析法，以實證分離這兩種效應。

模型效應

將DALL-E 2參與者編寫的原始提示，分別在DALL-E 2和DALL-E 3上評估性能。

結果顯示，相同提示在DALL-E 3上運行時余弦相似度提升0.0084（p<10^-8），占兩組總性能差異的51%。

提示效應

將DALL-E 2參與者的原始提示與DALL-E 3參與者編寫的提示（均在DALL-E 3上評估）進行對比。

結果顯示，該效應貢獻了剩余48%的改進，對應余弦相似度提升0.0079（p=0.024）。

總處理效應

總處理效應為0.0164，關鍵的是，當DALL-E 3用戶編寫的提示應用于DALL-E 2時，性能較原始DALL-E 2提示無顯著提升（Δ=0.0020；p=0.56）。

這種不對稱性，印證了提示優化的效果依賴于模型執行復雜指令的能力邊界。

圖2 B通過單一目標圖像直觀呈現這些效應：

上行展示DALL-E 2參與者的原始提示，在DALL-E 3上生成更高保真度的圖像，證明固定提示下模型升級的效果；
下行顯示DALL-E 3參與者的提示在DALL-E 2上輸出質量顯著下降，凸顯當模型能力不足時，提示優化的效果存在天花板。

這些發現研究人員的理論主張，提供了實證支持：

提示優化是一種動態互補策略——用戶根據模型能力提升而主動調整行為，且這種調整對實際性能增益的貢獻不可忽視。

技能異質性

如下表1呈現了「回歸分析結果」，測試了模型效應、提示詞效應以及總效應是否會在不同技能水平的參與者之間系統性地變化。

主要發現如下：

1. 總效應與表現十分位數的交互項呈負相關且統計顯著（?0.000115，p = 0.0152）。

這表明模型改進縮小了高、低績效用戶之間的整體差距，這與概念框架中的命題1一致。

2. 模型效應與表現十分位數的交互項，同樣呈負相關且統計顯著（?0.000059，p=0.0210）。

這說明模型升級主要惠及低技能用戶。這與命題2的理論預測相符，因為接近性能上限的高技能用戶存在收益遞減效應。

3. 并沒有發現提示詞適應的效益，在技能分布上存在顯著差異（?0.000056，p=0.2444）。

此外，研究團隊還評估了自動化提示詞的效果。

結果發現，GPT-4經常添加無關細節或微妙改變參與者的原意，導致模型輸出質量下降58%。

用簡單的話來說，AI寫的提示詞曲解了意圖，不如用戶精心編制的提示詞。

對此，Outbox.ai的創始人Connor Davis給出了建議，不要去過度自動化提示詞，人還應該在其中發揮主動性。

作者介紹

Eaman Jahani

Eaman Jahani是馬里蘭大學商學院信息系統專業的助理教授。

他曾在UC伯克利統計系擔任博士后研究員，還獲得了MIT的社會工程系統與統計學雙博士學位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理學院IT組的四年級博士生。他曾獲得MIT碩士學位和華盛頓大學學士學位。

他的研究圍繞兩個相輔相成的方向：(1) 利用AI系統進行社會科學發現；(2) 探索AI系統如何代表人類并按照人類指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大學博士生，此前，曾獲得了普林斯頓大學的學士學位。

個人的研究喜歡從人機交互到社會科學等多個學術領域汲取靈感，試圖理解新興的人機協作系統及其對商業和社會的影響。

參考資料：

??https://arxiv.org/abs/2407.14333v5???

??https://x.com/connordavis_ai/status/1957057335152836737???