2023 Unite 大會關于“Muse“ AI 大模型訓練

Unity Muse 借助強大的 AI 能力幫助你探索、構思和迭代，其中包括紋理和精靈兩項功能，可將自然語言和視覺輸入轉化為可用資產。

將 AI 引入 Unity Editor 中的 Muse 提供了更快將想法轉化為實物的選項。您可以調整并使用文本提示、圖案、顏色和草圖，將其轉化為真實且項目準備就緒的輸出。

為了提供有用、負責任和尊重其他創作者版權的輸出，我們挑戰自己在 Muse 的精靈和紋理生成 AI 模型訓練方法上進行創新。

在本文中，我們分享了 Muse 如何生成結果，解構我們的模型訓練方法，并介紹我們的兩個新基礎模型。

訓練AI模型

在我們推出Muse的Texture和Sprite功能的同時，我們還創新了兩個專有的擴散模型，每個模型都從零開始，在Unity擁有或授權的專用數據上進行訓練。

擴展我們的自有內容庫

為了增強我們數據集的規模和多樣性，我們采用了一種關鍵技術——數據增強，使我們能夠從原始 Unity 擁有的數據樣本中產生許多變異。這極大地豐富了我們的訓練集，并提高了模型從有限樣本中進行泛化的能力。我們還使用了一些技術，如幾何變換、色彩空間調整、噪聲注入和生成模型（如穩定擴散）的樣本變異，以人工擴展我們的數據集。

最近，穩定擴散模型因為最初是在從互聯網上抓取的數據上進行訓練而引發了倫理擔憂。在構建 Muse 的紋理和精靈功能過程中，我們盡量減少對預訓練模型的依賴，從零開始在 Unity 擁有并負責任地策展的原始數據集上訓練潛在的擴散模型架構。通過將穩定擴散模型作為數據增強技術的一部分，我們能夠安全地利用這個模型，將原始的 Unity 擁有的資產庫擴展為一個強大且多樣化的輸出庫，這些輸出具有獨特性、原創性，且不包含任何受版權保護的藝術風格。在此基礎上，我們還采取了額外的緩解措施，如下所述。支撐 Muse 紋理和精靈功能的潛在擴散模型的訓練數據集并未包含從互聯網上抓取的任何數據。

以下是一些通過上述增強技術擴展的內容示例。

一個原始數據樣本（左上角）以及通過混合多種增強技術獲得的結果合成變異，包括基于擾動的技術（從上到下：色彩空間調整）和基于生成的技術（從左到右）

在增強現有數據后，我們仍在許多主題上發現了空白，需要填補。為了實現這一目標，我們在自己的內容上訓練了穩定擴散模型，直到其行為發生顯著變化。然后，我們使用這些派生模型，根據預過濾的主題列表創建了全新的合成數據。這個主題列表經過人類審查和額外的大型語言模型（LLM）自動過濾，以確保我們不會試圖創建任何違反我們指導原則和目標的合成圖像：一個完全不含可識別的藝術風格、受版權保護的材料和潛在有害內容的數據集。

結果是兩個大型數據集，包括增強和完全合成的圖像，我們對此有很高的信心，認為這兩個數據集中不會包含不想要的概念。然而，盡管我們非常有信心，但我們仍然希望添加更多的過濾以確保模型的安全性。

額外的數據過濾以確保安全且有用的輸出

由于我們的主要任務是確保安全、隱私和使我們的工具不會產生負面影響，因此我們開發了四個獨立的分類器模型，它們負責對數據集進行額外的過濾。這些模型有助于確保數據集中的所有內容都符合我們的人工智能指導原則，以及對圖像質量的額外檢查。

這四個評審模型共同負責確定合成圖像：

不包含任何可識別的人類特征
不包含任何非通用的藝術風格
不包含任何知識產權的人物或標志
質量可以達到可接受水平

如果一張圖像沒有通過四個評審模型中的任何一個所要求的高置信度閾值，那么它將被丟棄在我們的數據集中。我們決定采取謹慎的立場，并使我們的模型傾向于拒絕，以便只有具有最高置信度的圖像才能通過過濾器并進入最終數據集。

Muse Modle：Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1

在 2023 Unite?活動中，我們宣布了 Muse 的紋理和精靈功能的早期訪問。驅動這些工具的第一個模型的內部版本分別稱為 Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1。這些模型僅具有基本的裝飾理解，主要專注于照片寫實風格。

此外，如果您想讓模型匹配您項目中現有的風格，可以通過向我們風格訓練系統提供少量您自己的參考資產來教導我們的模型以創建特定藝術風格的內容。這將創建一個與主模型協同工作的較小二次模型，以引導其輸出。這個小二次模型對于您或您組織來說是私有的，因為它是由訓練師訓練的，我們永遠不會使用這個內容來訓練我們的主模型。

由于我們的模型專注于照片寫實風格，因此我們無需在無數不同的風格上訓練主模型。這種架構使我們在保持對負責任的人工智能承諾的同時，為您提供了深入的藝術控制。

今天，這些模型只是開始。我們期望 Muse 能夠繼續變得更聰明，并提供更好的輸出，我們將通過模型改進路線圖來引導這些模型走上這一道路。

Photo-Real-Unity-Texture-1 roadmap

目前，我們的紋理模型在各個方面都非常出色。它掌握了許多概念，您可以在紋理模型中自由混合完全無關的概念，并獲得美麗的結果，如“金屬史萊姆”或“藍色水晶玻璃巖石”，如上所示。

盡管模型在當前狀態下非常出色，但在學習它對不同提示和輸入方式的反應后，我們發現使用單個單詞提示可能難以實現高級材料概念。除了基本的提示準確性外，我們還計劃通過添加新的指導模型方式來為您提供更多控制。

在未來，我們計劃添加顏色選擇器、額外的預制指導圖案、改進的自定義指導圖案創建系統，以及其他新的視覺輸入方法，我們目前正在實驗。

展望未來，我們 Photo-Real-Unity-Texture-1 的主要關注點是確定任何弱的材料概念，并通過頻繁的模型重訓練來繼續提高整體質量和能力。您通過內置評分系統提供的反饋對于幫助我們構建最好的工具至關重要，因為它可以幫助我們確定模型能力的薄弱環節。結合我們頻繁的訓練計劃，我們正在快速改進模型，使其更易于使用并對材料世界更加了解。

Photo-Real-Unity-Sprite-1 roadmap

類似于 Photo-Real-Unity-Texture-1，我們的基礎精靈模型整體上非常出色，并知道許多概念。由于該工具目前尚未具備內置動畫功能，我們選擇將初期努力集中在最常見靜態精靈概念的質量最大化上。您可以在上面的圖片中看到基礎模型的原始輸出。在正常使用中，這些輸出將由用戶訓練的模型引導，以匹配特定的藝術風格。

雖然靜態物體已經非常可靠，但我們仍在努力改進動物和人類的解剖學準確性。在這些類型的主題上，您可能會獲得很好的結果，但可能會遇到四肢過多或缺失，或者面部扭曲的情況。這是我們對負責任的人工智能的承諾和嚴格限制可使用數據所導致的結果。我們非常重視隱私和安全，即使這意味著在初期早期訪問版本中某些主題的質量會受到影響。