AI作畫的業界天花板被我找到了，AIGC模型揭秘

一、前景

1、AI和AIGC的關系

人工智能（Artificial Intelligence），英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

AIGC是繼 UGC、PGC 之后新型利用AI技術自動生成內容的生產方式。

2、AIGC的市場目前分類有哪些

目前市場上AIGC一般可分為文本類、代碼類、繪畫類等等，那目前市場上有哪些公司在AIGC的繪畫和文本和代碼這些方向做得非常頂尖水平呢？當然有，那就是昆侖萬維，讓我們看下他們的AIGC能力怎么樣。

二、昆侖萬維的AI作畫簡單體驗

? 電腦PC端體驗地址：https://sky-paint.singularity-ai.com/index.html#/

? 都讓我們也可以用小程序，功能和PC效果一樣。

? 小程序：天工巧繪SkyPaint

1、使用系統自帶的關鍵字繪制

在主頁，我們可以直接明了的看到 “生成畫作”按鈕，我們選一個“童話時間白雪皚皚圣誕節”的主題來進行AI繪制。

圖片生成中

效果如下：

出現了4張圣誕節圖片，非常清晰、操作也非常簡單，最關鍵的是生成圖片速度非常快，非常絲滑，一點也不卡，直接驚艷到我了。

2、輸入中文關鍵字繪制

我們輸入“水天一色”這4個字，繪制效果如下。

3、輸入英文關鍵字繪制

我們輸入"red sky”英文，繪制效果如下。

小結：從體驗上講，生成圖片的速度非常快，并且能很好的支持中英雙語提示詞輸入實現文字生成圖像。

三、昆侖萬維的AI作畫的核心競爭力

1、基于Stable Diffusion 模型

Model：Latent Diffusion

Paper：High-Resolution Image Synthesis with Latent Diffusion Models

訓練集：LAION-high-resolution 和 LAION-Aesthetics

模型結構圖：

模型原理

模型訓練

訓練目標：一步步對隨機的高斯噪聲降噪（denoise）

優勢：Latent diffusion 之所以是 “latent”，是因為模型是在低維的潛空間（latent space）上進行擴散過程，而不是在實際的像素空間，從而降低了內存消耗和計算復雜度（比如輸入shape是(3,512,512)，下采樣因子是8，潛空間中變成了(3,64,64)，節省了8×8=64倍的內存）。訓練完之后的模型就能把一張圖表示成一個低維的潛特征。

模型推理

如圖（假設batch size是1），用戶輸入的 prompt 被 CLIP Text encoder 編碼為 77×768 的潛特征，隨機噪聲被表示成 64×64 的潛特征；然后 U-Net 以 prompt 的特征為條件，逐步迭代計算。U-Net 輸出的噪聲殘差，會通過調度算法（scheduler algorithm），根據先前的噪聲表示和預測的噪聲殘差，計算最終去噪的圖像潛表示。Stable Diffusion 建議的調度算法有三種：

PNDM scheduler（Pseudo Numerical Methods for Diffusion Models on Manifolds，默認）

DDIM scheduler

K-LMS scheduler

得到圖像潛表示后，就可以送到 VAE 的 decoder 解碼成圖像了。

2、Stable Diffusion 算法模型的絕對優勢在哪里？

? Stable Diffsuion能壓縮率更高，清晰度超越JPEG等算法。

? 與純粹基于transformer的方法相比，本文方法更適合高維數據；還可以高效地應用于百萬像素圖像的高分辨率合成。

? 顯著降低計算成本，在多個任務(無條件圖像合成、inpainting、超分辨率)和數據集上實現了具有競爭力的性能。與基于像素的擴散方法相比，顯著降低了推理成本。

? 與之前的工作(同時學習編碼器/解碼器架構和score-based的先驗)相比，方法不需要對重構和生成能力進行精確的權衡。這確保了僅需非常少的潛空間正則化下，即可有較合理的重建效果。

? 對于超分辨率、圖像修復和語義合成等條件密集輸入型的任務，模型能以卷積的方式應用，并輸出高達1024分辨率的圖像。

? 基于交叉注意力的通用條件機制，實現了多模態訓練。用它來訓練類條件模型、文本到圖像模型和布局到圖像模型。

? Stable Diffsuion制作圖片速度非常快。

總之只需訓練一次通用的自動編碼階段，就可以用于多次DM訓練或探索可能完全不同的任務，比如各種圖像到圖像、文本到圖像任務。對于后者，設計了一個將transformers連接到DM的UNet骨干的結構，并支持任意類型的基于token的條件機制，就像有人已經投入了上百萬的資金幫你訓練了一個，你又何必重新花錢訓練一個壓縮模型呢？

3、昆侖萬維在AI繪畫上的其它技術優勢

1)、在增加中文提示詞輸入能力的同時兼容原版stable_diffusion的英文提示詞模型，之前用戶積累的英文提示詞手冊依然可以在我們的模型上使用

2)、使用1.5億級別的平行語料優化提示詞模型實現中英文對照，不僅涉及翻譯任務語料，還包括了用戶使用頻率高的提示詞中英語料，古詩詞中英語料，字幕語料，百科語料，圖片文字描述語料等多場景多任務的海量語料集合

3)、訓練時采用模型蒸餾方案和雙語對齊方案，使用教師模型對學生模型蒸餾的同時輔以解碼器語言對齊任務輔助模型訓練"

我們可以看下文字生成圖片模型指標評估數據

評估背景：

評估benchmark：采用Chinese-CLIP(CN_CLIP)，先根據模型的encoder得到text和image的embedding，再經過統一的KNN檢索，Recall，從而計算出檢索任務的Recall@1/5/10和mean recall（Recall@1/5/10的平均數），得到如上結果
評估數據集：Flickr30K-CN的test數據集
采用同級別image encoder模型：ViT-L/14"

未來的模型優化

為了讓體驗和算法模型變得更加強大，后續我們會針對下面4點去完善，希望能保持業界最高端水平。

? 更多語言的提示詞輸入支持

? 更強大的語言生成模型指導圖像生成

? 風格更加多樣，增加更多藝術風格的支持

? 支持用戶對生成的圖像進行二次提示詞編輯圖像功能

五、昆侖萬維的文本和代碼創造

1、昆侖萬維的文本創造

1）、基于GTP-3模型

昆侖萬維模型針對中文領域構建了千億級別的高質量數據集，通過高性能 a100-GPU 集群訓練得到了百億

參數量的 GTP-3 生成模型，其幾乎可以用于任何涉及理解或生成自然語言或代碼的任務，同時提供了一

系列具有不同參數級別的模型，根據同任務進行適配，同時，也可以微調模型的得到適合需求的生成模

型。

文本模型指標評估

2）、GTP-3模型的絕對優勢在哪里?

? GPT-3模型像人類一樣對詞語做出自己的理解

? GPT-3模型根據用戶的喜好創作文學作品

? GPT-3模型根據用戶的需求編寫代碼

? GPT-3比GPT-2有更好的文字質量，比GPT-2功能更加強大

? GPT-3模型可以進行創造性寫作，展示了詩歌，對話文體，雙關語使用，文學模仿和小說是其它模型不可比擬的

? GPT-3模型不是以傳統的方式來使用已經存在的文本進行訓練從而模仿文本，而可以通過對話方式告訴GPT-3用戶想要什么樣的內容。

總之通過了大部分課程的寫作測試，而且僅僅需要 3-20 分鐘，并且其中大部分時間用于對文本的輸出長度和重復文本進行編輯。模型擁有多樣的下游能力，包括續寫，對話，中英翻譯，內容風格生成，推理，詩詞對聯等。并在各項專業性領域的任務中（例如分類，匹配，填空，識別，識別）表現突出，與現有大模型的比試中排列前茅。

3）、昆侖萬維豐富的使用場景分類

我們可以點擊這個這里體驗：https://openapi.singularity-ai.com/index.html#/examplesIndex

支持多種語言，這里我們使用 “內容續寫” 使用下面的接口請求就行了，使用非常方便。

JSON{ “model_version”: “模型版本”, “prompt”: “寫一篇小文章。\n今天的天氣不錯，我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “length_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}

2、昆侖萬維的代碼創造

我們可以點擊下面的地址進行體驗

https://sky-code.singularity-ai.com/index.html#/

1）、Sky-cod3 代碼生成工具介紹

昆侖萬維開發了全球第一款多語言開源編程大模型 Sky-code 代碼生成工具，其支持各種主流編程語言，包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等編程語言，可以幫助開發人員更快更好的編碼，甚至模型每秒可以輸出百字以上的代碼量，并且 Sky-code模型的代碼質量非常高，下表對比了 Sky-code 模型與其他代碼生成模型的性能：

輕松上手

我們可以把sky-code安裝到各個代碼平臺的編譯器里面去，通過插件方式進行擴展，比如Visual Studio Code等。

2）、Sky-code的絕對優勢

Sky-code 是 SingularityAI 研發的一款AI代碼生成工具，支持各種主流編程語言，助力開發人員更快更好的編碼。Sky-code 可以直接集成到編輯器中，無縫銜接在開發環境，在鍵入代碼的同時，智能高效補全代碼，提升工作效率，節省開發時間。 Sky-code 目前已經集成在了 Visual Studio Code 中，未來會支持更多平臺和工具，如 Neovim、JetBrains IDE、Visual Studio 等。致力于為開發者解決瑣碎的、重復性的代碼工作，從而專注于更高價值的研發工作，這是其它工具不可代替的。

六、總結

通過上面的介紹，我們知道昆侖萬維的AIGC無論是繪畫還是文本還是代碼生成，都擁有著非常強大和快而精準的算法模型，同時支持多語言進行繪畫、和文本以及代碼處理，簡直就是業界的天花板, 強烈推薦大家使用。

昆侖天工開源地址：

Github https://github.com/SkyWorkAIGC

Huggingface https://huggingface.co/SkyWork

相關網站：
天工巧繪SkyPaint：
https://sky-paint.singularity-ai.com
天工智碼SkyCode:
https://sky-code.singularity-ai.com
天工妙筆SkyText:
https://openapi.singularity-ai.com