終于來啦!Stable Diffusion 3將在6月12日正式開源

6月3日晚,著名開源大模型平臺Stability AI的聯合首席執行官Christian Laforte,在AMD的產品發布會上宣布,文生圖模型 Stable Diffusion 3將于6月12日在Hugging Face開源權重。

本次開源的是Stable Diffusion 3的Medium模型,有20億參數,在照片真實感、樣式、圖片質量、算力資源消耗等方面都進行了大幅度優化,將比前兩代更好。

同時Stable Diffusion 3也是對標閉源文生圖產品Midjourney、DALL·E 3的最佳模型之一,該系列已經被全球數百萬開發者使用,很多文生視頻/3D模型也借鑒了該架構。

今年2月22日,Stability AI首次預覽了Stable Diffusion 3,其逼真的圖片質量、更好的文本語義理解與文字嵌入,使得全球開發者們對這個模型相當期待。

但在3月23日,Stability AI的首席執行官Emad Mostaque被辭退,隨后又爆出財務危機正在尋求買家等不少負面新聞,大家開始擔心Stable Diffusion 3的開源還能否順利進行。

好在Stability AI都挺過來了,而此時其新上任的聯合首席執行官在AMD的產品發布會宣布這個事情,估計已經獲得了AMD的贊助還很可能被全資收購。

與英偉達相比,AMD在大模型、生成式AI的部署、開發等方面略處于落后,Stability AI開源的大語言模型、擴散模型等的下載量合計超過千萬級別,拿下它等同于收獲了一大批開發者。

圖片

Stable Diffusion 3架構簡單介紹

根據Stable Diffusion 3論文顯示,使用了與Sora相同的架構Diffusion Transformer。

Diffusion模型作為生成模型的一種,主要通過數據到噪聲的逆過程來創造新的數據點。這種方法在圖像和視頻生成方面應用非常廣泛。

但是隨著Diffusion不斷迭代,預訓練、推理對算力需求呈指數級增長,對于中小企業、個人開發者來說非常不友好。

所以,在Diffusion基礎之上又融合了大模型界非常知名的Transformer架構,通過獨立的權重處理圖像和文本模態,并實現了這兩種模態之間的雙向信息流。

圖片

Diffusion Transformer架構引入新的噪聲采樣技術,改進了訓練Rectified Flow模型的方法。通過偏向感知上相關的尺度,提高了訓練的效率和性能。

該架構采用了模擬無關的流訓練方法,直接回歸一個向量場,用于生成數據分布和噪聲分布之間的概率路徑,有效避免了求解常微分方程所帶來的超高算力成本,同時也極大增強了文本語義理解、文字嵌入和圖片樣式等。

圖片

Stable Diffusion 3生成展示

其實在Stability AI發布預覽版時,已經公布了一大批Stable Diffusion 3生成的圖片,基本上與Midjourney、DALL·E 3這兩款知名產品差不多。

例如,教室里,黑板上用白色粉筆寫著 "GPUs go brrmr",這是一個肯定而幽默的場景。黑板前,一群學生正在慶祝。這些學生被獨特地描繪成鱷梨,長著小胳膊小腿,臉上洋溢著喜悅和興奮的表情。

這個場景捕捉到了一種充滿童趣和想象力的氛圍,將傳統教室的概念與牛油果學生的奇特形象融為一體。

圖片

一只半透明的豬,里面是一只更小的豬。

圖片

一只青蛙坐在20世紀50年代的快餐廳里,穿著皮夾克,戴著禮帽。桌子上有一個巨大的漢堡和一個寫著“Froggy Fridays”的牌子。

圖片

一只巨大、威嚴的白色巨龍,它有多個角和類似須的觸角,翱翔在崎嶇的山脈景觀之上。

這條龍有著明亮的橙色眼睛,似乎在清澈的藍天下飛翔在蓬松的白云之間。周圍有尖銳的積雪覆蓋的山峰,以及一座類似古代寺廟或塔樓的小建筑。

圖片

目前,Stable Diffusion 3 Medium模型只能用于學術研究無法商業化。如果在正式開源后,想商業化的開發者可以聯系Stability AI。

想使用Stable Diffusion?3?Turbo和其他版本的需要開通Stability AI的會員。

申請地址:https://stability.ai/stablediffusion3

本文素材來源Stability A官網,如有侵權請聯系刪除

END

圖片

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/22119.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/22119.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/22119.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

武漢盛勢啟創科技攜手三品軟件 EDM系統助力企業圖文檔數字化

客戶簡介 武漢盛勢啟創科技有限公司(以下簡稱“盛世啟創”)是一家專注于新能源汽車零部件領域的科技型企業,其主要業務涵蓋新能源汽車三電系統智能傳感器、智能座艙及線控底盤控制器的芯片開發、硬件設計、嵌入式系統開發。以及相關產品的生產…

C++第二十三彈---深入理解STL中list的使用

?個人主頁: 熬夜學編程的小林 💗系列專欄: 【C語言詳解】 【數據結構詳解】【C詳解】 目錄 1、list的介紹 2、list的使用 2.1、構造函數 2.2、賦值操作符重載 2.3、迭代器使用 2.4、容量操作 2.5、元素訪問 2.6、修改操作 2.7、其…

從0開始學人工智能測試節選:Spark -- 結構化數據領域中測試人員的萬金油技術(三)

分布式計算原理 分布式計算的原理總結一句話就是:分而治之。 把數據分片,存在不同的機器中,解決數據存儲的壓力。客戶端和服務端之間通過相關協議來自動的完成在不同的機器之間進行數據的存取,用戶并不感知數據的物理存儲結構。 用…

UIKit之App界面Demo

需求 實現簡單的APP界面 功能: 實現滾動實現上層、下層橫欄滾動時穿透效果(永遠浮在表面,不跟著滾動)。暫用UIView代替,還沒學Bar。 分析: 知識點: 實現鼠標拖動的上下滾動:當…

小紅書前端2輪面試期望22K,全程問低代碼設計

一面(通過) 1、好,那我們開始把,先簡單介紹一下自己的一個經歷,以及自己有亮點的項目?balabala 2、你可以這樣介紹:在這里邊主要負責哪幾個項目,哪些項目是比較有亮點的&#xff0…

python用PyPDF2函數庫方法對pdf文件切割

煩透了那些軟件動不動就要收費,于是自己嘗試碼程序處理pdf分割。 由于PyPDF2更新到了3.0之后,之前網上的舊代碼無法使用,查了半天沒出準譜,結果百度AI生成了代碼,一試,成了! 果然,…

代碼隨想錄-算法訓練營day60【單調棧03:柱狀圖中最大的矩形】

代碼隨想錄-035期-算法訓練營【博客筆記匯總表】-CSDN博客 第十章 單調棧part03有了之前單調棧的鋪墊,這道題目就不難了。 ● 84.柱狀圖中最大的矩形https://programmercarl.com/0084.%E6%9F%B1%E7%8A%B6%E5%9B%BE%E4%B8%AD%E6%9C%80%E5%A4%A7%E7%9A%84%E7%9F%A9%E5%BD%A2.htm…

智享直播(三代)2024年:打造24/7實景無人直播,引領年輕資產創業新紀元!

在21世紀的數字化浪潮中,直播行業以其獨特的魅力和無限的可能性,正在全球范圍內掀起一場前所未有的( keJ0277 )創業革命。而在這場革命中,智享直播(三代)以其創新的技術理念和前瞻的戰略布局,立志于2024年打…

怎么用電腦錄制視頻?小白也能快速上手

隨著網絡技術的發展,電腦錄制視頻已經成為了許多人的日常需求,無論是游戲玩家想錄制自己的精彩操作,還是上班族需要錄制屏幕演示,一款好用的錄屏軟件變得尤為重要。可是你知道怎么用電腦錄制視頻嗎?本文將介紹兩種電腦…

I2C通信協議

I2C通信協議 項目要求是,通過通信線,是實現單片機讀寫外掛模塊寄存器的功能,至少實現,在指定位置寫寄存器和在指定位置讀寄存器,實現了讀寫寄存器,就實現對模塊的控制。 MPU6050,OLED&#xf…

【ARM】Fusa Compiler 6.16 LTS的安全認證報告獲取

【更多軟件使用問題請點擊億道電子官方網站】 1、 文檔目標 了解ARM的Arm Compiler for Embedded FuSa 6.16 LTS的安全認證證書和報告的獲取 2、 問題場景 對于使用了ARM DS Gold/Platinum、MDK pro或者Arm Compiler for Embedded FuSa 6.16 LTS產品的客戶。在對于最終的產品…

生產問題排查:springboot項目啟動時注冊nacos失敗或運行時從nacos閃退

文章目錄 一、引出問題二、解決方案1、使用actuator健康檢查2、項目啟動時判斷nacos是否正常連接3、k8s設置探針 一、引出問題 生產項目是用k8s部署的,最近經常遇到啟動時注冊不到nacos(查找nacos的host地址找不到),或者運行的好…

有文字轉語音真人發聲嗎?這5個配音工具堪比真人配音

青春是一首永不老去的歌,它鐫刻在生命的唱片上,永不退色。 每當我們聽到那些熟悉的旋律,心中總會涌起一股暖流,仿佛回到了那個充滿活力和夢想的年代。借助現代科技的力量,我們可以通過文字轉語音軟件,讓這…

.NET集成DeveloperSharp實現圖片的裁剪、縮放、與加水印

🏆作者:科技、互聯網行業優質創作者 🏆專注領域:.Net技術、軟件架構、人工智能、數字化轉型、DeveloperSharp、微服務、工業互聯網、智能制造 🏆歡迎關注我(Net數字智慧化基地),里面…

Apache Doris 基礎 -- 數據表設計(表索引)

1、索引概述 索引用于幫助快速過濾或搜索數據。目前,Doris支持兩種類型的索引:內置智能索引和用戶創建的二級索引。 內置智能索引 排序鍵和前綴索引:Apache Doris基于排序鍵以有序的方式存儲數據。它為每1024行數據創建一個前綴索引。索引中的鍵是當前1024行組的…

github搭建個人博客

準備工作 windows安裝nodejs windows安裝git windows安裝hexo 擁有gitee個人賬戶 配置信息 通過gitee創建博客倉庫 登錄gitee平臺,進入主界面,右側加號,新建倉庫,注意:倉庫名稱和gitee用戶名稱一致 生成/添加 SSH 公…

初級網絡工程師之入門到入獄(一)

本文是我在學習過程中記錄學習的點點滴滴,目的是為了學完之后鞏固一下順便也和大家分享一下,日后忘記了也可以方便快速的復習。 網絡工程師從入門到入獄 前言一、交換機二、路由器三、DHCP(動態主機配置協議)四、路由器配置 DHCP自…

【golang】go語言讀取Excel表格中的數據

導入庫基本用法封裝 在Go語言中,可以使用第三方庫來讀取Excel文件。 常用的庫是github.com/tealeg/xlsx,提供了處理Excel文件的功能。 導入庫 首先,安裝"github.com/tealeg/xlsx"庫。可以通過以下命令在終端中安裝: g…

Transformer系列:Greedy Search貪婪搜索解碼流程原理解析

解碼器預測流程簡述 Encoder-Decoder這類框架需要在解碼器中分別拿到前文已經翻譯的輸入,以及編碼器的輸出這兩個輸入,一起預測出下一個翻譯的單詞。在訓練階段,一個句子通過右移一位的方式轉化為從第二個詞到最后一個詞的逐位預測任務&…

Springboot vue elementui 前后端分離 事故災害案例管理系統

源碼鏈接 系統演示:https://pan.baidu.com/s/1hZQ25cpI-B4keFsZdlzimg?pwdgw48