騰訊開源混元DiT文生圖模型，消費級單卡可推理

節前，我們組織了一場算法崗技術&面試討論會，邀請了一些互聯網大廠朋友、今年參加社招和校招面試的同學。

針對大模型技術趨勢、大模型落地項目經驗分享、新手如何入門算法崗、該如何準備面試攻略、面試常考點等熱門話題進行了深入的討論。

總結鏈接如下：

重磅消息！《大模型面試寶典》(2024版) 正式發布！

喜歡記得點贊、收藏、關注。更多技術交流&面經學習，可以文末加入我們。

混元DiT是一個基于Diffusion transformer的文本到圖像生成模型，此模型具有中英文細粒度理解能力。

為了構建混元DiT，我們精心設計了Transformer結構、文本編碼器和位置編碼。我們構建了完整的數據管道，用于更新和評估數據，為模型優化迭代提供幫助。為了實現細粒度的文本理解，我們訓練了多模態大語言模型來優化圖像的文本描述。

最終，混元DiT能夠與用戶進行多輪對話，根據上下文生成并完善圖像。

該模型具備如下優勢

中文元素理解：混元DiT提供雙語生成能力，中國元素理解具有優勢。
長文本理解能力：混元DiT能分析和理解長篇文本中的信息并生成相應藝術作品。
細粒度語義理解：混元DiT能捕捉文本中的細微之處，從而生成完美符合用戶需要的圖
多輪對話文生圖：混元DiT可以在多輪對話中通過與用戶持續協作，精煉并完善的創意構想。

開源代碼鏈接：

https://github.com/Tencent/HunyuanDiT

最佳實踐

按照混元DiT文生圖模型的模型頁面，需要的計算顯存如下：

在這里插入圖片描述

環境配置和安裝

python 3.10及以上版本
pytorch推薦2.0及以上版本

下載和部署

第一步：clone代碼到本地

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
# 安裝魔搭鏡像中缺少的依賴
pip install loguru==0.7.2

第二步：下載模型

# 使用git下載模型
git clone https://www.modelscope.cn/modelscope/HunyuanDiT.git
# 或者使用modelscope SDK下載模型
# from modelscope import snapshot_download
# model_dir = snapshot_download('modelscope/HunyuanDiT')

第三步：因為混元DiT依賴clip-vit-large-patch14-336，需要提前下載該模型到工作目錄

# 下載clip模型
git clone https://www.modelscope.cn/AI-ModelScope/clip-vit-large-patch14-336.git ./openai/clip-vit-large-patch14-336

第四步：按照pr修改對應的代碼

Pr地址：

https://github.com/Tencent/HunyuanDiT/pull/16

修改的文件如下：

第五步：運行推理接口

python sample_t2i.py --prompt "漁舟唱晚"

在HunyuanDiT/results/文件夾下得到結果：

顯存占用：

中文prompt效果體驗

小編用一些中文的成語，古詩等測試了該模型的效果，出圖穩定，分辨率高，且效果不錯，尤其是單張圖多個實體上，依然保障了很好的出圖質量。非常開心看到優秀的支持中文的文生圖模型，魔搭社區未來期待與社區開發者同行，一起研究和推動基于DiT模型上如LoRA，控圖等生態發展。

龜兔賽跑

守株待兔

三只羊駝坐在麻將桌上

一只紅色的小狐貍和一只黑色的老鷹在森林中對話

醉后不知天在水，滿船清夢壓星河

技術交流&資料

技術要學會分享、交流，不建議閉門造車。一個人可以走的很快、一堆人可以走的更遠。

成立了算法面試和技術交流群，相關資料、技術交流&答疑，均可加我們的交流群獲取，群友已超過2000人，添加時最好的備注方式為：來源+興趣方向，方便找到志同道合的朋友。

方式①、微信搜索公眾號：機器學習社區，后臺回復：加群
方式②、添加微信號：mlc2040，備注：來自CSDN + 技術交流

通俗易懂講解大模型系列

重磅消息！《大模型面試寶典》(2024版) 正式發布！
重磅消息！《大模型實戰寶典》(2024版) 正式發布！
做大模型也有1年多了，聊聊這段時間的感悟！
用通俗易懂的方式講解：大模型算法工程師最全面試題匯總
用通俗易懂的方式講解：不要再苦苦尋覓了！AI 大模型面試指南（含答案）的最全總結來了！
用通俗易懂的方式講解：我的大模型崗位面試總結：共24家，9個offer
用通俗易懂的方式講解：大模型 RAG 在 LangChain 中的應用實戰
用通俗易懂的方式講解：ChatGPT 開放的多模態的DALL-E 3功能，好玩到停不下來！
用通俗易懂的方式講解：基于擴散模型（Diffusion）,文生圖 AnyText 的效果太棒了
用通俗易懂的方式講解：在 CPU 服務器上部署 ChatGLM3-6B 模型
用通俗易懂的方式講解：ChatGLM3-6B 部署指南
用通俗易懂的方式講解：使用 LangChain 封裝自定義的 LLM，太棒了
用通俗易懂的方式講解：基于 Langchain 和 ChatChat 部署本地知識庫問答系統
用通俗易懂的方式講解：Llama2 部署講解及試用方式
用通俗易懂的方式講解：一份保姆級的 Stable Diffusion 部署教程，開啟你的煉丹之路
用通俗易懂的方式講解：LlamaIndex 官方發布高清大圖，縱覽高級 RAG技術
用通俗易懂的方式講解：為什么大模型 Advanced RAG 方法對于AI的未來至關重要？
用通俗易懂的方式講解：基于 Langchain 框架，利用 MongoDB 矢量搜索實現大模型 RAG 高級檢索方法

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/13120.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/13120.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/13120.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！