騰訊混元文生圖開源模型推出小顯存版本,6G顯存即可運行,并開源caption模型

7月4日,騰訊混元文生圖大模型(混元DiT)宣布開源小顯存版本,僅需6G顯存即可運行,對使用個人電腦本地部署的開發者十分友好,該版本與LoRA、ControlNet等插件,都已適配至Diffusers庫;并新增對Kohya圖形化界面的支持,讓開發者可以低門檻地訓練個性化LoRA模型;同時,混元DiT模型升級至1.2版本,在圖片質感與構圖方面均有所提升。

此外,騰訊宣布混元文生圖打標模型”混元Captioner“正式對外開源。該模型支持中英文雙語,針對文生圖場景進行專門優化,可幫助開發者快速制作高質量的文生圖數據集。

相比起業界的開源打標模型,混元Captioner模型能更好的理解與表達中文語義,輸出的圖片描述更為結構化、完整和準確,并能精準識別出常見知名人物與地標。模型還支持開發者自行補充和導入個性化的背景知識。

混元Captioner模型開源之后,全球的文生圖研究者、數據標注人員,均可使用混元Captioner高效地提升自身圖像描述質量,生成更全面、更準確的圖片描述,提升模型效果。混元Captioner生成的數據集不僅能用于訓練基于混元DiT的模型,亦可用于其他視覺模型訓練。

模型易用性再提升,個人電腦可輕松運行

騰訊混元DiT模型宣布了三大更新:推出小顯存版本與Kohya訓練界面,并升級至1.2版本,進一步降低使用門檻的同時提升圖片質量。

基于DiT架構的文生圖模型生成圖片質感更佳,但對顯存的要求卻非常高,讓許多開發者望而卻步。這也是新版本Stable Diffusion模型無法快速普及的原因之一。

應廣大開發者的需求,混元DiT推出小顯存版本,最低僅需6G顯存即可運行優化推理框架,對使用個人電腦本地部署的開發者非常友好。經過與Hugging Face合作,小顯存版本、LoRA與ControlNet插件,都已經適配到Diffusers庫中。開發者無需下載原始代碼,僅用簡單的三行代碼僅可調用,大大簡化了使用成本。

同時,混元DiT宣布接入Kohya,讓開發者可以低門檻地訓練專屬LoRA模型。

Kohya是一個開源的、輕量化模型微調訓練服務,提供了圖形化的用戶界面,被廣泛用于擴散模型類文生圖模型的訓練。用戶可以通過圖形化界面,完成模型的全參精調及LoRA訓練,無需涉及到代碼層面的細節。訓練好的模型符合Kohya生態架構,可以低成本與 WebUI 等推理界面結合,實現一整套“訓練-生圖”工作流。

面向文生圖、支持中英文,提升數據質量

在提升模型易用性的同時,騰訊混元團隊也在開放更多的關鍵技術,包括此前的訓練代碼,最新的打標模型混元Captioner。

數據集就像AI訓練的教材。訓練數據集的質量,影響著模型生成內容的效果。因此,文生圖開發者往往需要對原始圖片進行清晰、全面的標注,制作高質量的數據集,才能訓練出來一個語義理解準確、繪畫技藝高超的文生圖大模型。

借助打標模型,開發者可以快速生成高質量數據集。具體來說,文生圖開發者將原始圖片集導入混元Captioner,后者將生成高質量標注;也可以導入圖片與原始描述,利用混元Captioner過濾其中的無關信息,并完善和優化圖片描述,以提高數據質量。

目前,業界對于圖片描述文本的生成,主要使用通用多模態Captioner模型,存在描述過于簡單或繁瑣(與畫面描述的無關信息過多)、缺少背景知識導致無法識別知名人物和地標等問題,并且許多模型并非中文原生,中文描述不夠精準。


混元Captioner對圖片描述進行結構化與準確度提升

混元Captioner的背景知識更為完善

混元Captioner模型針對文生圖場景專門進行優化:構建了結構化的圖片描述體系;并在模型層面,通過注入人工標注、模型輸出、公開數據等多種來源提升Caption描述的完整性;并注入知名文學作品形象、地標、食物、動物、中國元素與知識等大量背景知識,讓模型輸出的描述更為準確、完整。


混元Captioner模型構建了結構化的圖片描述體系

眾多開發者關注,成最受歡迎國產DiT開源模型

作為首個中文原生DiT開源模型,混元DiT自全面開源以來,一直持續建設生態。6月,混元DiT發布的專屬加速庫,可將推理效率進一步提升,生圖時間縮短75%;并進一步開源了推理代碼;發布LoRA和ControlNet等插件。于此同時,模型易用性大幅提升,用戶可以通過Hugging Face Diffusers快訊調用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓練與使用混元DiT。

目前,在眾多開發者的支持下,混元DiT發布不到2個月,Github Star數已經超過2.6k,成為最受歡迎的國產DiT開源模型。


騰訊混元開源文生圖大模型相關鏈接

官網:https://dit.hunyuan.tencent.com/

代碼:https://github.com/Tencent/HunyuanDiT

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/40667.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/40667.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/40667.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

探索 Apache Paimon 在阿里智能引擎的應用場景

摘要:本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事業部技術專家王偉駿(鴻歷)老師在 5月16日 Streaming Lakehouse Meetup Online 上的分享。內容主要分為以下三個部分: 一、 阿里智能引擎…

【LeetCode】全排列

目錄 一、題目二、解法完整代碼 一、題目 給定一個不含重復數字的數組 nums ,返回其 所有可能的全排列 。你可以 按任意順序 返回答案。 示例 1: 輸入:nums [1,2,3] 輸出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] …

LVS+Nginx高可用集群--基礎篇

1.集群概述 單體部署: 可以將上面內容分別部署在不同的服務器上。 單體架構的優點: 小團隊成型就可完成開發,測試,上線 迭代周期短,速度快 打包方便,運維簡單 單體架構的挑戰:單節點宕機造成…

DVWA sql手注學習(巨詳細不含sqlmap)

這篇文章主要記錄學習sql注入的過程中遇到的問題已經一點學習感悟,過程圖片會比較多,比較基礎和詳細,不存在看不懂哪一步的過程 文章目錄 靶場介紹SQL注入 lowSQL注入 MediumSQL注入 HighSQL注入 Impossible 靶場介紹 DVWA(Damn…

必備的 Adobe XD 輔助工具

想要高效便捷的使用 Adobe XD, Adobe XD 插件是必不可少的, Adobe XD 的插件非常多,但 90%都是英文,并且良莠不齊。在這兒挑選 9 個好用的 Adobe XD 插件給大家,這里是我整理的一些實用 Adobe XD 插件,讓你…

大屏開發系列——Echarts的基礎使用

本文為個人近期學習總結,若有錯誤之處,歡迎指出! Echarts在vue2中的基礎使用 一、簡單介紹二、基本使用(vue2中)1.npm安裝2.main.js引入3.使用步驟(1)準備帶有寬高的DOM容器;(2)初始化echarts實例&#xff…

gcc: warning: -Wunused-function;加了選項,為什么就不報警告呢?

文章目錄 問題clang的編譯而使用gcc是就不報問題分析原因如果是非static的函數問題 下面這個代碼段,其中這個函數hton_ext_2byte,在整個程序里就沒有使用。 static inline uint16_t hton_ext_2byte(uint8_t **p) {uint16_t v;******return v;

PHP宜邦家政服務管理系統-計算機畢業設計源碼04426

目 錄 摘要 1 緒論 1.1 選題背景與意義 1.2開發現狀 1.3論文結構與章節安排 2 宜邦家政服務管理系統系統分析 2.1 可行性分析 2.1.1 技術可行性分析 2.1.2 經濟可行性分析 2.1.3 操作可行性分析 2.2 系統功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系統用…

國標GB28181視頻匯聚平臺LntonCVS視頻監控安防平臺與國標協議對接解決方案

應急管理部門以“以信息化推動應急管理能力現代化”為總體目標,加快現代信息技術與應急管理業務深度融合,全面支持現代應急管理體系建設,這不僅是國家加強和改進應急管理工作的關鍵舉措,也是應對日益嚴峻的應急管理形勢和滿足公眾…

微信小程序的運行機制與更新機制

1. 小程序運行機制 1.1. 冷啟動與熱啟動 冷啟動為用戶第一次打開小程序時,因為之前沒有打開過,這是第一種冷啟動的情兌。第二種情況為雖然之前用戶打開過,但是小程序被用戶主動的銷毀過,這種情況下我們再次打開小程序&#xff0…

【PALM、WRF-LES】微尺度氣象數值模擬—大渦模擬技術

針對微尺度氣象的復雜性,大渦模擬(LES)提供了一種無可比擬的解決方案。微尺度氣象學涉及對小范圍內的大氣過程進行精確模擬,這些過程往往與天氣模式、地形影響和人為因素如城市布局緊密相關。在這種規模上,傳統的氣象模…

doc文檔下載

目錄 下載 安裝谷歌瀏覽器(chrome)Microsoft Edge瀏覽器 常見問題 下載 見郵件附件 安裝 谷歌瀏覽器(chrome) 打開瀏覽器,地址欄輸入:chrome://extensions/ 右上角打開開發者模式 點擊如上圖左上角的加載已解壓的拓展程序,并選擇剛剛解壓…

安卓應用開發學習:通過騰訊地圖SDK實現定位功能

一、引言 這幾天有些忙,耽誤了寫日志,但我的學習始終沒有落下,有空我就會研究《 Android App 開發進階與項目實戰》一書中定位導航方面的內容。在我的手機上先后實現了“獲取經緯度及地理位置描述信息”和“獲取導航衛星信息”功能后&#x…

afrog-漏洞掃描(挖洞)工具【了解安裝使用詳細】

★★免責聲明★★ 文章中涉及的程序(方法)可能帶有攻擊性,僅供安全研究與學習之用,讀者將信息做其他用途,由Ta承擔全部法律及連帶責任,文章作者不承擔任何法律及連帶責任。 1、afrog介紹 afrog 是一款性能卓越、快速穩定、PoC可定…

MySQL篇-SQL優化實戰-減少子查詢

回顧 上一篇了解了分析SQL使用的explain,可以點擊查看MySQL篇-SQL優化實戰了解我在寫sql的注意事項還有explain的說明,這次拿一段生產使用的sql進行優化說明。從14s優化到2.6s 待優化的SQL SELECT DISTINCTswpe.tag_number,hca.ACCOUNT_NAME customer…

VBA中類的解讀及應用第十三講:限制復選選擇,窗體模塊的搭建

《VBA中類的解讀及應用》教程【10165646】是我推出的第五套教程,目前已經是第一版修訂了。這套教程定位于最高級,是學完初級,中級后的教程。 類,是非常抽象的,更具研究的價值。隨著我們學習、應用VBA的深入&#xff0…

02-部署LVS-DR群集

1.LVS-DR工作原理 LVS-DR模式,Director Server作為群集的訪問入口,不作為網購使用,節點Director Server 與 Real Server 需要在同一個網絡中,返回給客戶端的數據不需要經過Director Server 為了響應對整個群集的訪問,…

Java WebService記

Web Services開發 常用的 Web Services 框架有 Apache Axis1 、 Apache Axis2 、 Apache CXF ,而 Apache Axis1 已經逐漸被淘汰所以本文不會討論,重點關注 Apache Axis2 及 Apache CXF 。 Apache Axis2 在IDEA中新建 Axis2Demo 項目后右鍵選擇 添加框架…

每天10個js面試題(一)

1.js基本數據類型? JavaScript 共有八種數據類型,分別是Undefined、Null、Boolean、Number、String、Object、Symbol、BigInt。其中 Symbol 和 BigInt 是 ES6 中新增的數據類型 2.let、const、var的區別? let和const有暫時性死區&#xff0…

開源模型應用落地-LangChain高階-智能體探究-agent類型(一)

一、前言 大模型具有非常強大的功能,可以解答疑問、撰寫報告和文檔、總結內容、進行翻譯等各種日常工作任務。然而,大模型還可以應用于更多的場景,發揮出更強大的作用。 通過智能體,我們可以實現許多有價值的事情,比如:在日常生活中,我們能借助智能體實現智能家居的自動化…