Lumina-T2X 是一個新的內容生成系列模型,統一使用 DiT 架構。通過文本生成圖像、視頻、多視角 3D 對象和音頻剪輯。
可以在大幅提高生成質量的前提下大幅減少訓練成本,而且同一個架構支持不同的內容生成。圖像質量相當不錯。
由 50 億參數的 Flag-DiT 驅動的 Lumina-T2I,其訓練計算成本僅為同類 6 億參數模型的 35%。
目前放出了 Lumina-T2I 圖像生成模型,模型主干是Large-DiT、文本編碼模型是 Llama2-7B 、VAE 用的 SDXL的。
相關鏈接
論文鏈接:https://arxiv.org/pdf/2405.05945 模型下載:https://huggingface.co/Alpha-VLLM/Lumina-T2I
論文閱讀
摘要
Sora揭示了縮放擴散變壓器(DIT)的潛力 以任意分辨率,寬高比和持續時間為單位的影像圖像和視頻,但仍然缺乏足夠的實施細節。
在這份技術報告中,我們介紹了Lumina-T2X家族 - 一系列配備零定位注意的基于流動的大擴散變壓器(FLAG-DIT),作為一個統一的框架,旨在將噪聲轉換為圖像,視頻,多視圖 3D對象和音頻剪輯以文本說明為條件。
通過對潛在的時空空間進行象征,并結合了[Nextline]和[NextFrame]令牌等可學習的占位符,Lumina-T2X無縫地統一了各種時空分辨率的不同方式的表示。這種統一的方法可以在單個框架內培訓不同方式,并可以在任何分辨率,寬高比和推理期間的長度下靈活地生成多模式數據。諸如繩索,rmsnorm和流匹配之類的高級技術增強了旗幟dit的穩定性,靈活性和可擴展性,使Lumina-T2X的模型可擴展到高達70億個參數,并將上下文窗口擴展到128K tokens。
帶有Lumina-T2I型號和Lumina-T2V型號的長720p視頻的圖像對于創建超高定義特別有益。值得注意的是,由50億參數的旗幟驅動的Lumina-T2i僅需要6億參數NAIVE DIT(PIXART-α)的訓練計算成本的35%,這表明參數數量顯著增加 加速生成模型的收斂性而不損害視覺質量。我們進一步的全面分析強調了Lumina-T2X在分辨率外推,高分辨率編輯,生成一致的3D視圖以及具有無縫過渡的綜合視頻方面的初步能力。
方法
Flag-dit與標簽和文本條件的比較。(左)Flag-dit與標簽調節。(右)具有零初始化注意機制的文本條件反射。
我們的Lumina-T2X框架由四個組件組成:逐幀編碼,輸入和基于Flag-DiT的目標構建、文本編碼和預測。
Lumina-T2I是一個統一的和免訓練的框架,支持文本到圖像的生成,分辨率外推,風格一致生成,合成生成和高分辨率編輯。
實驗
Lumina-T2I能夠生成任意寬高比的圖像,提供優越的分辨率視覺質量和保真度,同時嚴格遵守給定的文本說明。
Lumina-T2I的分辨率外推樣本。無需任何額外的訓練,LuminaT2I能夠直接生成從512512到17921792的各種分辨率的圖像。
由Lumina-T2I生成的風格一致的圖像生成樣本。給定一個共享樣式描述,Lumina-T2I可以生成一批具有不同風格一致內容的圖像。
Lumina-T2I的成分生成樣本。我們的Lumina-T2I框架可以生成高質量的圖像與復雜區域組成基于提示和指定的組合。
演示高分辨率圖像的樣式編輯和主題編輯教練免費的方式。
Lumina-T2I與PixArt-α在圖像生成中的定性比較 多個決議。來自Lumina-T2I的樣本顯示了與給定文本更好的對齊與PixArt-α相比,在所有分辨率下都具有卓越的視覺質量。
結論
在本文中,我們提出了Lumina-T2X,這是一個統一的框架,旨在將文本說明轉換為任意分辨率和持續時間的任何模式,包括圖像,視頻,3D對象的多視圖以及語音。 Lumina-T2X的核心是一系列基于流動的大擴散變壓器(FLAG-DIT),精心設計用于可擴展的條件生成。配備了關鍵修改,包括繩索,RNSNORM,KQ-NORM和零定位的注意體系結構,[NextLine]和[NextFrame]令牌用于數據表示形式,以及與原點擴散變壓器相比,我們的旗幟位從擴散到流匹配公式的轉換為穩定性,靈活性和可擴展性的大大提高。我們首先驗證了Imagenet基準上標志dit的生成能力,該功能表現出卓越的性能和 與擴展模型參數一致的更快收斂。
鑒于這些有前途的發現,我們以各種方式實例化旗桿,并為文本對圖像,視頻,視頻提供統一的食譜 多文章和語音產生。我們證明,該框架不僅可以在任意分辨率下生成逼真的圖像或視頻任務,例如以無訓練的方式推斷出外推,高分辨率編輯和組成生成。
總體而言,我們希望我們的嘗試,發現和開源的Lumina-T2X可以幫助闡明生成AI的路線圖,并成為進一步研究開發有效大型多模式生成模型的新起點。