MAR 論文
基于 VQ(向量量化)的圖像生成方法具有顯著優勢,它通過離散化壓縮將原始圖像映射到有限的 codebook 空間,從而縮小學習范圍、降低建模難度,同時這種離散表示更易于與自回歸(AG)生成方式結合,提升多模態任務(如文本到圖像生成)的融合能力;然而,該方法也存在明顯局限性,包括訓練難度較高(容易導致codebook利用率不足,僅部分編碼參與計算,嚴重制約模型表達能力)、解碼重建質量欠佳等問題,其根本原因在于VQ本質上是一種有損壓縮方式,不可避免會丟失部分信息。
本文的核心創新點在于徹底摒棄了傳統VQ(向量量化)方法,直接進行自回歸圖像生成。作者提出關鍵觀點:在自回歸學習框架下,預測下一個 token x 時,離散化表征并非必要條件——若允許 x 保持連續性,則 VQ 機制自然失去存在價值。為實現這一目標,論文創新性地采用擴散模型(diffusion)的損失函數替代傳統的交叉熵損失,從而將x建模為連續概率分布而非離散符號。這一轉變不僅繞過了 VQ 帶來的信息損失問題,更通過連續空間的建模提升了生成質量。
當前主流的大語言模型(LLM)普遍采用單向Causal Attention機制,這確實符合語言生成的序列特性(當前詞只依賴歷史信息)。然而,在圖像生成領域,雙向Attention可能更具優勢——與語言中詞與詞的線性依賴不同,圖像中的像素或patch往往與其周圍區域存在空間上的相互影響。通過雙向Attention建模這種全局上下文關系,理論上可以更自然地捕捉圖像的空間結構特征,同時仍能保持自回歸生成的特性(通過適當的掩碼機制實現)。這種改進既保留了自回歸的序列生成優勢,又彌補了單向Attention對圖像空間關系建模的不足。
傳統的自回歸圖像生成通常采用固定的序列順序(如從左到右、從上到下逐行生成圖像塊),如圖(a)所示。然而,本文提出這種固定順序的生成方式并非最優解。受掩碼語言模型(MLM)的啟發,論文創新性地提出 掩碼自回歸(Masked Autoregressive, MAR) 方法——如圖(b)所示,模型可以隨機選擇生成任意位置的圖像塊,而無需遵循預設順序。這種靈活生成方式帶來兩個關鍵優勢:首先,它突破了傳統自回歸模型的順序限制,使生成過程更符合圖像的空間特性;其次,如圖?所示,MAR支持同時預測多個被掩碼的圖像塊,從而顯著提升解碼速度。這一設計在保持自回歸建模優勢的同時,實現了更高效的并行化生成。
實驗
(1)在自回歸中,用diff loss代替 CE loss,效果都是有提升,說明了diff loss的有效;
(2)在AR下(第一行),diff loss相比 CE loss提升的并不明顯,當切換成論文提出的MAR形式,這個提升優勢就愈加明顯。
(3)在MAR_default(masked AR,就是上述?圖形式)下,表現最好,而且即是是CE loss,也是相比之前的變體,也是又很明顯的提升,說明masked AR在圖像任務的有效性。