論文題目:RandAR: Decoder-only Autoregressive Visual Generation in Random Orders(隨機順序下僅解碼器的自回歸視覺生成)
會議:CVPR2025
摘要:我們介紹了RandAR,一種僅解碼器的視覺自回歸(AR)模型,能夠以任意令牌順序生成圖像。與之前依賴于預定義生成順序的純解碼器AR模型不同,RandAR消除了這種歸納偏差,解鎖了純解碼器生成的新功能。我們的基本設計通過在每個要預測的圖像標記之前插入“位置指令標記”來實現隨機順序,表示下一個圖像標記的空間位置。RandAR在隨機排列的標記序列上進行訓練,這是一項比固定順序生成更具挑戰性的任務,它的性能與傳統的光柵順序相當。更重要的是,從隨機指令訓練的只有解碼器的變壓器獲得了新的能力。針對AR模型的效率瓶頸,RandAR在推理時采用KV-Cache并行解碼,在不犧牲生成質量的情況下享受2.5 ×加速。此外,RandAR以零樣本學習的方式支持繪制,繪制和分辨率外推。我們希望RandAR能激發解碼器視覺生成模型的新方向,并拓寬它們在不同場景中的應用
源碼鏈接:https://rand-ar.github.io/
引言
在人工智能圖像生成領域,autoregressive(自回歸)模型一直扮演著重要角色。受到GPT等語言模型成功的啟發,研究者們將"下一個token預測