論文閱讀筆記——Autoregressive Image Generation without Vector Quantization

MAR 論文
基于 VQ（向量量化）的圖像生成方法具有顯著優勢，它通過離散化壓縮將原始圖像映射到有限的 codebook 空間，從而縮小學習范圍、降低建模難度，同時這種離散表示更易于與自回歸（AG）生成方式結合，提升多模態任務（如文本到圖像生成）的融合能力；然而，該方法也存在明顯局限性，包括訓練難度較高（容易導致codebook利用率不足，僅部分編碼參與計算，嚴重制約模型表達能力）、解碼重建質量欠佳等問題，其根本原因在于VQ本質上是一種有損壓縮方式，不可避免會丟失部分信息。
在這里插入圖片描述
本文的核心創新點在于徹底摒棄了傳統VQ（向量量化）方法，直接進行自回歸圖像生成。作者提出關鍵觀點：在自回歸學習框架下，預測下一個 token x 時，離散化表征并非必要條件——若允許 x 保持連續性，則 VQ 機制自然失去存在價值。為實現這一目標，論文創新性地采用擴散模型（diffusion）的損失函數替代傳統的交叉熵損失，從而將x建模為連續概率分布而非離散符號。這一轉變不僅繞過了 VQ 帶來的信息損失問題，更通過連續空間的建模提升了生成質量。
在這里插入圖片描述
當前主流的大語言模型（LLM）普遍采用單向Causal Attention機制，這確實符合語言生成的序列特性（當前詞只依賴歷史信息）。然而，在圖像生成領域，雙向Attention可能更具優勢——與語言中詞與詞的線性依賴不同，圖像中的像素或patch往往與其周圍區域存在空間上的相互影響。通過雙向Attention建模這種全局上下文關系，理論上可以更自然地捕捉圖像的空間結構特征，同時仍能保持自回歸生成的特性（通過適當的掩碼機制實現）。這種改進既保留了自回歸的序列生成優勢，又彌補了單向Attention對圖像空間關系建模的不足。

傳統的自回歸圖像生成通常采用固定的序列順序（如從左到右、從上到下逐行生成圖像塊），如圖(a)所示。然而，本文提出這種固定順序的生成方式并非最優解。受掩碼語言模型（MLM）的啟發，論文創新性地提出 掩碼自回歸（Masked Autoregressive, MAR） 方法——如圖(b)所示，模型可以隨機選擇生成任意位置的圖像塊，而無需遵循預設順序。這種靈活生成方式帶來兩個關鍵優勢：首先，它突破了傳統自回歸模型的順序限制，使生成過程更符合圖像的空間特性；其次，如圖?所示，MAR支持同時預測多個被掩碼的圖像塊，從而顯著提升解碼速度。這一設計在保持自回歸建模優勢的同時，實現了更高效的并行化生成。

實驗

在這里插入圖片描述
（1）在自回歸中，用diff loss代替 CE loss，效果都是有提升，說明了diff loss的有效；
（2）在AR下（第一行），diff loss相比 CE loss提升的并不明顯，當切換成論文提出的MAR形式，這個提升優勢就愈加明顯。
（3）在MAR_default（masked AR，就是上述?圖形式）下，表現最好，而且即是是CE loss，也是相比之前的變體，也是又很明顯的提升，說明masked AR在圖像任務的有效性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/90342.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/90342.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/90342.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！