Lumina-T2X 一個使用 DiT 架構的內容生成模型,可通過文本生成圖像、視頻、多視角 3D 對象和音頻剪輯。

Lumina-T2X 是一個新的內容生成系列模型,統一使用 DiT 架構。通過文本生成圖像、視頻、多視角 3D 對象和音頻剪輯。

可以在大幅提高生成質量的前提下大幅減少訓練成本,而且同一個架構支持不同的內容生成。圖像質量相當不錯。

由 50 億參數的 Flag-DiT 驅動的 Lumina-T2I,其訓練計算成本僅為同類 6 億參數模型的 35%。

目前放出了 Lumina-T2I 圖像生成模型,模型主干是Large-DiT、文本編碼模型是 Llama2-7B 、VAE 用的 SDXL的。

相關鏈接

論文鏈接:https://arxiv.org/pdf/2405.05945 模型下載:https://huggingface.co/Alpha-VLLM/Lumina-T2I

論文閱讀

摘要

Sora揭示了縮放擴散變壓器(DIT)的潛力 以任意分辨率,寬高比和持續時間為單位的影像圖像和視頻,但仍然缺乏足夠的實施細節。

在這份技術報告中,我們介紹了Lumina-T2X家族 - 一系列配備零定位注意的基于流動的大擴散變壓器(FLAG-DIT),作為一個統一的框架,旨在將噪聲轉換為圖像,視頻,多視圖 3D對象和音頻剪輯以文本說明為條件。

通過對潛在的時空空間進行象征,并結合了[Nextline]和[NextFrame]令牌等可學習的占位符,Lumina-T2X無縫地統一了各種時空分辨率的不同方式的表示。這種統一的方法可以在單個框架內培訓不同方式,并可以在任何分辨率,寬高比和推理期間的長度下靈活地生成多模式數據。諸如繩索,rmsnorm和流匹配之類的高級技術增強了旗幟dit的穩定性,靈活性和可擴展性,使Lumina-T2X的模型可擴展到高達70億個參數,并將上下文窗口擴展到128K tokens。

帶有Lumina-T2I型號和Lumina-T2V型號的長720p視頻的圖像對于創建超高定義特別有益。值得注意的是,由50億參數的旗幟驅動的Lumina-T2i僅需要6億參數NAIVE DIT(PIXART-α)的訓練計算成本的35%,這表明參數數量顯著增加 加速生成模型的收斂性而不損害視覺質量。我們進一步的全面分析強調了Lumina-T2X在分辨率外推,高分辨率編輯,生成一致的3D視圖以及具有無縫過渡的綜合視頻方面的初步能力。

方法

Flag-dit與標簽和文本條件的比較。(左)Flag-dit與標簽調節。(右)具有零初始化注意機制的文本條件反射。

我們的Lumina-T2X框架由四個組件組成:逐幀編碼,輸入和基于Flag-DiT的目標構建、文本編碼和預測。

Lumina-T2I是一個統一的和免訓練的框架,支持文本到圖像的生成,分辨率外推,風格一致生成,合成生成和高分辨率編輯。

實驗

Lumina-T2I能夠生成任意寬高比的圖像,提供優越的分辨率視覺質量和保真度,同時嚴格遵守給定的文本說明。

Lumina-T2I的分辨率外推樣本。無需任何額外的訓練,LuminaT2I能夠直接生成從512512到17921792的各種分辨率的圖像。

由Lumina-T2I生成的風格一致的圖像生成樣本。給定一個共享樣式描述,Lumina-T2I可以生成一批具有不同風格一致內容的圖像。

Lumina-T2I的成分生成樣本。我們的Lumina-T2I框架可以生成高質量的圖像與復雜區域組成基于提示和指定的組合。

演示高分辨率圖像的樣式編輯和主題編輯教練免費的方式。

Lumina-T2I與PixArt-α在圖像生成中的定性比較 多個決議。來自Lumina-T2I的樣本顯示了與給定文本更好的對齊與PixArt-α相比,在所有分辨率下都具有卓越的視覺質量。

結論

在本文中,我們提出了Lumina-T2X,這是一個統一的框架,旨在將文本說明轉換為任意分辨率和持續時間的任何模式,包括圖像,視頻,3D對象的多視圖以及語音。 Lumina-T2X的核心是一系列基于流動的大擴散變壓器(FLAG-DIT),精心設計用于可擴展的條件生成。配備了關鍵修改,包括繩索,RNSNORM,KQ-NORM和零定位的注意體系結構,[NextLine]和[NextFrame]令牌用于數據表示形式,以及與原點擴散變壓器相比,我們的旗幟位從擴散到流匹配公式的轉換為穩定性,靈活性和可擴展性的大大提高。我們首先驗證了Imagenet基準上標志dit的生成能力,該功能表現出卓越的性能和 與擴展模型參數一致的更快收斂。

鑒于這些有前途的發現,我們以各種方式實例化旗桿,并為文本對圖像,視頻,視頻提供統一的食譜 多文章和語音產生。我們證明,該框架不僅可以在任意分辨率下生成逼真的圖像或視頻任務,例如以無訓練的方式推斷出外推,高分辨率編輯和組成生成。

總體而言,我們希望我們的嘗試,發現和開源的Lumina-T2X可以幫助闡明生成AI的路線圖,并成為進一步研究開發有效大型多模式生成模型的新起點。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/12090.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/12090.shtml
英文地址,請注明出處:http://en.pswp.cn/web/12090.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

structured concurrency

1. 基于 c executions的異步實現 - 從理論到實踐 - 知乎 (zhihu.com)

kubeadm部署k8s v1.30

k8s 1.30主要新功能 kubelet 重啟后穩健的 VolumeManager 重建(SIG Storage) 防止在卷還原過程中未經授權的卷模式轉換(SIG Storage) Pod 調度可用性(SIG Scheduling) PodTopologySpread 中的最小域數&a…

VitePress變成可視化了

VitePressSimple 非技術人員搭建博客的門檻又降低了,這個開源項目把VitePress變成可視化了。 要搭建博客、教程網站,VitePress是門檻最低的方案之一,唯一和技術有關的就是會用到編輯器來操作。 現在好了,VitePressSimple直接把Vit…

Java 枚舉的使用與反射應用

文章目錄 一、定義方式1.1 簡單定義1.2 帶參數定義 二、反射應用1. 反射獲取枚舉常量2. 反射獲取枚舉屬性3. 動態調用枚舉方法4. 動態設置枚舉屬性5. 判斷枚舉類型6. 反射獲取枚舉信息 單例模式:枚舉類型是一種有限實例的類,枚舉常量在定義時就被限定為一…

解決在云服務器上無法使用QQ郵箱發送郵件的問題

最近在做測試demo的時候發現,在本地可以使用qq郵箱的服務來進行郵件的發送,但是把項目部署到云服務器上就沒辦法發送郵件,并且報錯是連接超時: 向xxxxxqq.com用戶發送綁定郵箱驗證碼異常:Mail server connection fail…

leetcode234-Palindrome Linked List

題目 給你一個單鏈表的頭節點 head ,請你判斷該鏈表是否為回文鏈表 。如果是,返回 true ;否則,返回 false 。 示例 1: 輸入:head [1,2,2,1] 輸出:true 分析 可以用快慢指針的方式找到鏈表的…

自用代碼生成器代碼

代碼生成器 pom.xml文件中 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.ap…

【軟件測試】自動化測試 Selenium 篇(一)

一、什么是自動化測試 1、自動化測試介紹 自動化測試指軟件測試的自動化&#xff0c;在預設狀態下運行應用程序或者系統&#xff0c;預設條件包括正常和異常&#xff0c;最后評估運行結果。將人為驅動的測試行為轉化為機器執行的過程。 自動化就相當于將人工測試手段進行轉換…

【激活函數--下】非線性函數與ReLU函數

文章目錄 一、非線性函數在神經網絡中的重要性二、ReLU函數介紹及其實現2.1 ReLU函數概述2.2 ReLU函數的Python實現及可視化 一、非線性函數在神經網絡中的重要性 在神經網絡中&#xff0c;激活函數的選擇對于網絡的性能和能力至關重要。階躍函數和Sigmoid函數除了是激活函數的…

數據可視化-課堂記錄

week02 # 數據可視化的發展歷史 作用 格式塔原則 # 數據可視化的流程# 數據分析 指標體系建設 確定一個行業指標體系實現報表&#xff08;power bi python matplotlib seaborn pyecharts echarts&#xff09; # 數據分析面試 技術&#xff1a;sqlexcelpythonpowerbispss …

JS 實現冒泡排序

冒泡排序原理&#xff1a; 升序冒泡&#xff1a;兩次循環&#xff0c;相鄰元素兩兩比較&#xff0c;如果前面的大于后面的&#xff0c;就交互位置&#xff1b; 降序冒泡&#xff1a;兩次循環&#xff0c;相鄰元素兩兩比較&#xff0c;如果前面的小于后面的&#xff0c;就交互…

stable-diffusion-webui配置

源碼地址 https://github.com/AUTOMATIC1111/stable-diffusion-webui.git報錯Fresh install fail to load AttributeError: NoneType object has no attribute _id pydantic降級 pip uninstall pydantic pip install pydantic1.10.11記得要把clip-vit-large-patch14放在opena…

業務邏輯攻擊是什么,如何有效進行防護

想象一下&#xff1a;您的開發團隊剛推出了一款令人驚嘆的全新應用程序&#xff0c;它具有頂級的API安全性&#xff0c;通過客戶端保護對其進行了強化&#xff0c;甚至還設置了針對機器人攻擊的防御措施。你感到這款產品很有安全保障&#xff0c;自己的團隊出色地完成了工作。 …

解決Java Web應用中下載文件無法打開的問題

在Java Web應用中&#xff0c;文件下載是一個常見的功能。但有時候&#xff0c;即使代碼看起來正確&#xff0c;下載的文件卻無法正確打開。 問題描述 假設我們有以下代碼用于下載文件&#xff1a; response.addHeader("Content-Disposition", "attachment;fi…

服務器通的遠程桌面連接不上,關于服務器通暢但遠程桌面連接不上問題的專業分析

在日常的企業IT管理中&#xff0c;服務器遠程桌面連接是一個重要的操作功能。然而&#xff0c;有時會出現服務器網絡通暢&#xff0c;但遠程桌面無法連接的情況。 問題分析 1. 防火墻或安全組設置問題&#xff1a;服務器的防火墻或安全組可能阻止了遠程桌面連接的端口&#xf…

adobe安裝“Error:SyntaxError:JSON Parse error:Unexpec

mac電腦安裝Adobe時&#xff0c;會提示錯誤“Error:SyntaxError:JSON Parse error:Unexpected EOF”&#xff0c;這是怎么回事兒的&#xff0c;不管您是安裝AI、PS、PR還是LR&#xff0c;如果也遇到相同的問題&#xff0c;可以參考一下方法解決&#xff1a; 「adobe安裝提示錯誤…

Java RMI反序列化總結篇-01

1.java rmi反序列化 RMI 允許一個應用程序訪問另外一個服務器或虛擬機上的對象&#xff0c;方法和服務&#xff0c;它使遠程方法調用就像在本地調用一樣簡單。它為用戶屏蔽了底層的網絡傳輸細節&#xff0c;使用的時候只需適當處理異常即可。所以 RMI 是非常容易使用的&#x…

Kubernetes集群安裝

Kubernetes集群安裝 環境準備 192.168.1.53 k8s-master 192.168.1.52 k8s-node-1 192.168.1.51 k8s-node-2 設置三臺機器的主機名&#xff1a; Master上執行&#xff1a; [rootlocalhost ~]# hostnamectl --static set-hostname k8s-masterNode1上執行&#xff1a; [ro…

vue3+vite項目部署服務器,選擇非根目錄訪問

背景 vue3vite項目&#xff0c;需要部署服務器。 但是根目錄已經部署了另外一個項目A了&#xff0c;這個時候要在部署另外一個項目B。 問題 比如你的地址是http://test.com 之前直接輸入http://test.com即可訪問A項目 如果B項目也這么干的話就沖突了 訪問A&#xff1a;http…

哪款骨傳導耳機最值得入手?精選5款頂尖配置的骨傳導耳機,閉眼入也不踩雷!

作為一名有著多年工作經驗的數碼博主&#xff0c;我見證了無數因盲目追求新穎而引發的聽力問題。在此&#xff0c;我必須鄭重提醒大家&#xff0c;雖然市面上充斥著眾多聲稱能提供卓越音質和佩戴舒適度的骨傳導耳機品牌&#xff0c;但它們之間存在大量劣質產品&#xff0c;這類…