1. SDXL 1.0 簡介
SDXL 1.0是Stability AI推出的新基礎模型,作為Stable Diffusion的大幅改進版本,它是一個用于文本到圖像合成的潛在擴散模型(LDM)。作為Stable Diffusion的最新進化,它正在超越其前身,并與MidjourneySOTA圖像生成器相媲美的圖像。
這些改進源于一系列有意識的設計選擇,包括一個3倍大的UNet骨干網絡,更強大的預訓練文本編碼器,以及引入了一個單獨的基于擴散的精煉模型。精煉模型使用SDEdit首次提出的后處理圖像到圖像擴散技術,提高了樣本的視覺保真度。這里將使用帶有和不帶有此精煉模型的SDXL,以更好地理解其在流程中的作用。并比較這些結果與Stable Diffusion 2.0的輸出,以獲得SDXL引入的改進的更廣泛的畫面。
但這些改進確實有代價;SDXL 1.0涉及一個35億參數基礎模型(base)和一個66億參數的精煉模型(refiner),使其成為今天最大的開放圖像生成器之一。這種增加主要是由于更多的注意力模塊和更大的交叉注意力上下文,因為SDXL使用了第二個文本編碼器。
2. SDXL 1.0 展望
SDXL 1.0作為一款先進的圖像生成AI模型,承諾將在多個領域推動生成性AI技術的發展和應用。這包括但不限于3D分類技術,這種技術可以對三維數據進行識別和分類,為三維建模和虛擬現實等領域提供支持;可控圖像編輯,允許用戶根據需求對圖像進行精確的修改和調整;圖像個性化,通過理解用戶的特定需求和偏好,生成符合個性化要求的圖像內容;合成數據增強,通過生成逼真的合成數據來擴充數據集,提高機器學習模型的訓練效果;圖形用戶界面原型設計,利用AI來輔助設計和優化用戶界面,提升用戶體驗;從fMRI腦掃描重建圖像,這是一種前沿的應用,可以通過分析腦活動數據來重建視覺圖像,對于神經科學研究具有重要意義;以及音樂生成,AI可以根據給定的風格或情感創作出新的音樂作品。
3. SDXL 1.0 的改進
SDXL 1.0在文本到圖像生成AI工具領域中表現出色,盡管Midjourney作為一個受歡迎的選擇仍然存在,SDXL作為一個免費的開源選項,為其提供了有力的競爭。
SDXL 1.0的開源和開放獲取特性意味著用戶可以免費使用它,只要有相應的計算資源。值得注意的是,SDXL 1.0并不需要過多的計算資源。Stability AI還指出,SDXL 1.0甚至可以在只有8GB VRAM的消費級GPU上有效運行,這使得生成性文本到圖像模型變得更加易于接觸和使用。
SDXL 1.0之所以能夠提供比以往更好的圖像輸出,主要得益于以下幾點:
-
更好的對比度、照明和陰影:SDXL 1.0能夠生成具有更豐富層次感和深度的圖像,通過更精細的照明和陰影處理,使得圖像更加逼真和立體。
-
更鮮艷、更準確的顏色:SDXL 1.0在顏色的再現上做得更好,能夠生成更加鮮艷且接近真實世界的顏色,提高了圖像的視覺吸引力。
-
本地1024 x 1024分辨率:SDXL 1.0支持較高的分辨率輸出,這意味著生成的圖像更加清晰,細節更加豐富。
-
能夠創建可讀文本:SDXL 1.0在處理文本方面的能力得到了提升,能夠生成清晰可辨的文本,這對于需要包含文字信息的圖像生成尤為重要。
-
更好的人體解剖學(手、腳、四肢和面部):SDXL 1.0在生成人體部位,尤其是手、腳、四肢和面部時,能夠更加精確地捕捉到人體解剖學的特征,使得生成的人物圖像更加逼真和自然。
4. SDXL 1.0用于模型可解釋性
生成性AI技術的發展正面臨著模型可解釋性、透明度和可重復性的重要挑戰。隨著AI技術的不斷進步,模型的決策過程變得越來越復雜,有時候甚至對于開發這些模型的工程師和研究人員來說也難以理解。這種不透明性對于當前許多處于最前沿的生成性AI模型來說尤其令人關注,因為它限制了我們對模型性能、潛在偏見和局限性的全面評估。
Stability AI將SDXL模型開放給公眾,這是一個積極的步驟,有助于提高模型的可解釋性和透明度。這樣的決策有助于避免模型可解釋性不足可能帶來的一系列負面影響,比如偏見和刻板印象的持續存在,對組織決策的不信任,甚至可能帶來的法律后果。此外,開放模型還有助于促進可重復性,增強合作,并推動AI技術的進一步發展。
通過將Stable Diffusion模型開源和開放獲取,Stability AI遵循了行業向開放人工智能發展的趨勢。這種做法鼓勵業界從業者在現有工作的基礎上進一步構建和貢獻新的見解,共同推動生成性AI技術的進步和創新。通過這種方式,可以促進知識的共享和技術的民主化,從而使更多的人能夠參與到AI技術的發展中來,并從中受益。
使用SDXL基礎base加refiner模型,隨機種子為277,提示為“machine learning model explainability, in the style of a medical poster”(機器學習模型可解釋性,以醫學海報的風格)
5. SDXL 1.0的實際應用
代碼Colad:https://colab.research.google.com/drive/17HTh_A-NWCVpPdxw8KJVLpgko8FZ6OQh
SAM + Stable Diffusion用于文本到圖像修復
在這個完整的代碼教程中,學習如何使用SAM + Stable Diffusion創建一個圖像修復流程。
在我們下載了Artifact之后,我們將使用HuggingFace的SDXL修復流程來進行圖像修復和擴展。我們將使用與教程第一部分幾乎相同的提示(只有一些非常小的例外)。
一個圖表展示了一張原始圖像、一只青蛙的分割掩膜,以及由SDXL 1.0擴散流程生成的修復后的圖像。
圖像修復是指在圖像的指定區域填充缺失數據的過程;圖表由作者提供。
作為提醒,圖像修復是指在圖像的指定區域填充缺失數據的過程。擴展則是在圖像原始邊界之外擴展圖像的過程,我們將通過修復圖像的背景掩膜有效地實現這一點。修復流程接受正面和負面的提示,我們將設置隨機種子,以便你在當地環境中復現相同的結果。