騰訊開源混元DiT文生圖模型,消費級單卡可推理

節前,我們組織了一場算法崗技術&面試討論會,邀請了一些互聯網大廠朋友、今年參加社招和校招面試的同學。

針對大模型技術趨勢、大模型落地項目經驗分享、新手如何入門算法崗、該如何準備面試攻略、面試常考點等熱門話題進行了深入的討論。

總結鏈接如下:

重磅消息!《大模型面試寶典》(2024版) 正式發布!

喜歡記得點贊、收藏、關注。更多技術交流&面經學習,可以文末加入我們。


混元DiT是一個基于Diffusion transformer的文本到圖像生成模型,此模型具有中英文細粒度理解能力。

為了構建混元DiT,我們精心設計了Transformer結構、文本編碼器和位置編碼。我們構建了完整的數據管道,用于更新和評估數據,為模型優化迭代提供幫助。為了實現細粒度的文本理解,我們訓練了多模態大語言模型來優化圖像的文本描述。

最終,混元DiT能夠與用戶進行多輪對話,根據上下文生成并完善圖像。

該模型具備如下優勢

  • 中文元素理解:混元DiT提供雙語生成能力,中國元素理解具有優勢。

  • 長文本理解能力:混元DiT能分析和理解長篇文本中的信息并生成相應藝術作品。

  • 細粒度語義理解:混元DiT能捕捉文本中的細微之處,從而生成完美符合用戶需要的圖

  • 多輪對話文生圖:混元DiT可以在多輪對話中通過與用戶持續協作,精煉并完善的創意構想。

開源代碼鏈接:

https://github.com/Tencent/HunyuanDiT

最佳實踐

按照混元DiT文生圖模型的模型頁面,需要的計算顯存如下:

在這里插入圖片描述

環境配置和安裝

  1. python 3.10及以上版本

  2. pytorch推薦2.0及以上版本

下載和部署

第一步:clone代碼到本地

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
# 安裝魔搭鏡像中缺少的依賴
pip install loguru==0.7.2

第二步:下載模型

# 使用git下載模型
git clone https://www.modelscope.cn/modelscope/HunyuanDiT.git
# 或者使用modelscope SDK下載模型
# from modelscope import snapshot_download
# model_dir = snapshot_download('modelscope/HunyuanDiT')

第三步:因為混元DiT依賴clip-vit-large-patch14-336,需要提前下載該模型到工作目錄

# 下載clip模型
git clone https://www.modelscope.cn/AI-ModelScope/clip-vit-large-patch14-336.git ./openai/clip-vit-large-patch14-336

第四步:按照pr修改對應的代碼

Pr地址:

https://github.com/Tencent/HunyuanDiT/pull/16

修改的文件如下:

第五步:運行推理接口

python sample_t2i.py --prompt "漁舟唱晚"

在HunyuanDiT/results/文件夾下得到結果:

顯存占用:

中文prompt效果體驗

小編用一些中文的成語,古詩等測試了該模型的效果,出圖穩定,分辨率高,且效果不錯,尤其是單張圖多個實體上,依然保障了很好的出圖質量。非常開心看到優秀的支持中文的文生圖模型,魔搭社區未來期待與社區開發者同行,一起研究和推動基于DiT模型上如LoRA,控圖等生態發展。

龜兔賽跑

守株待兔

三只羊駝坐在麻將桌上

一只紅色的小狐貍和一只黑色的老鷹在森林中對話

醉后不知天在水,滿船清夢壓星河

技術交流&資料

技術要學會分享、交流,不建議閉門造車。一個人可以走的很快、一堆人可以走的更遠。

成立了算法面試和技術交流群,相關資料、技術交流&答疑,均可加我們的交流群獲取,群友已超過2000人,添加時最好的備注方式為:來源+興趣方向,方便找到志同道合的朋友。

方式①、微信搜索公眾號:機器學習社區,后臺回復:加群
方式②、添加微信號:mlc2040,備注:來自CSDN + 技術交流

通俗易懂講解大模型系列

  • 重磅消息!《大模型面試寶典》(2024版) 正式發布!

  • 重磅消息!《大模型實戰寶典》(2024版) 正式發布!

  • 做大模型也有1年多了,聊聊這段時間的感悟!

  • 用通俗易懂的方式講解:大模型算法工程師最全面試題匯總

  • 用通俗易懂的方式講解:不要再苦苦尋覓了!AI 大模型面試指南(含答案)的最全總結來了!

  • 用通俗易懂的方式講解:我的大模型崗位面試總結:共24家,9個offer

  • 用通俗易懂的方式講解:大模型 RAG 在 LangChain 中的應用實戰

  • 用通俗易懂的方式講解:ChatGPT 開放的多模態的DALL-E 3功能,好玩到停不下來!

  • 用通俗易懂的方式講解:基于擴散模型(Diffusion),文生圖 AnyText 的效果太棒了

  • 用通俗易懂的方式講解:在 CPU 服務器上部署 ChatGLM3-6B 模型

  • 用通俗易懂的方式講解:ChatGLM3-6B 部署指南

  • 用通俗易懂的方式講解:使用 LangChain 封裝自定義的 LLM,太棒了

  • 用通俗易懂的方式講解:基于 Langchain 和 ChatChat 部署本地知識庫問答系統

  • 用通俗易懂的方式講解:Llama2 部署講解及試用方式

  • 用通俗易懂的方式講解:一份保姆級的 Stable Diffusion 部署教程,開啟你的煉丹之路

  • 用通俗易懂的方式講解:LlamaIndex 官方發布高清大圖,縱覽高級 RAG技術

  • 用通俗易懂的方式講解:為什么大模型 Advanced RAG 方法對于AI的未來至關重要?

  • 用通俗易懂的方式講解:基于 Langchain 框架,利用 MongoDB 矢量搜索實現大模型 RAG 高級檢索方法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13120.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13120.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13120.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第七十八章 IIS 技術說明

文章目錄 第七十八章 IIS 技術說明IIS 應用程序池和Web Gardens應用程序池Web Gardens 應用程序池、Web花園和CSP 第七十八章 IIS 技術說明 對于那些有興趣使用 IIS 的人,此頁面介紹了應用程序池、網絡花園和位數。 IIS 應用程序池和Web Gardens 應用程序池 應用…

【AI+漫畫】程序員小李解決疑難雜癥BUG的日常

周末花了點時間制作的AI漫畫。 感慨一句,程序人生, 相伴隨行。 原文鏈接:【AI漫畫】程序員小李解決疑難雜癥BUG的日常

一物一碼數字化營銷進軍調味品行業,五豐黎紅“星廚俱樂部”火啦!

近日,由五豐黎紅聯合納寶科技精心打造的小程序“星廚俱樂部”火啦!一經上線就吸引了大量用戶注冊和參與,可以說取得了非常成功的市場反饋,那究竟是一個什么樣的小程序,竟然有這么大的吸引力呢? 介紹小程序之…

武漢星起航:中國賣家借力亞馬遜跨境電商平臺,拓展全球銷售市場

隨著互聯網技術的飛速發展,跨境電商已成為連接全球消費者與賣家的重要橋梁。作為全球領先的跨境電商平臺,亞馬遜憑借其強大的品牌影響力、豐富的商品資源和高效的物流體系,為全球消費者提供了一個便捷、安全的購物環境。在這個平臺上&#xf…

連鎖收銀系統如何助力實體門店私域運營

作為實體門店,私域運營是提升客戶黏性和增加復購率的重要策略之一。而連鎖收銀系統在私域運營中扮演了關鍵的角色,它不僅可以幫助門店管理客戶信息和消費記錄,還能夠通過數據分析和營銷功能提供個性化的服務和推廣活動。下面看看連鎖收銀系統…

能源能耗管理系統

隨著全球對綠色、低碳、可持續發展理念的深入認識,企業對于能源的管理和節能降耗的需求日益迫切。在這一背景下,HiWoo Cloud平臺憑借其先進的能源能耗管理系統,為企業提供了一套高效、智能的解決方案,助力企業實現綠色節能&#x…

InfiniGate自研網關實現五

17.核心通信組件管理和處理服務映射 引入模塊api-gateway-core 到 api-gateway-assist 中進行創建和使用,并拉取自注冊中心的映射信息注冊到本地的網關通信組件中。 第17節是在第15節的基礎上繼續完善服務發現的相關功能,把從注冊中心拉取的網關映射信…

GPT3.5與GPT4.0的差別對比

隨著人工智能技術的飛速發展,GPT系列模型已成為自然語言處理(NLP)領域的翹楚。GPT3.5和GPT4.0作為這一系列的最新成員,各自在性能和應用上都有所突破。 GPT4.0預計將擁有數千億個參數,與前代GPT3.5相比,模…

ZYNQ之嵌入式驅動開發——字符設備驅動

文章目錄 Linux驅動程序分類Linux應用程序和驅動程序的關系簡單的測試驅動程序在petalinux中添加LED驅動新字符設備驅動 Linux驅動程序分類 驅動程序分為字符設備驅動、塊設備驅動和網絡設備驅動。 字符設備是按字節訪問的設備,比如以一個字節收發數據的串口&#…

軟信天成:業務流程管理驅動企業數字化轉型

近日,在國家發展改革委辦公廳、國家數據局綜合司聯合印發的《數字經濟2024年工作要點》中,明確強調了本年度大力推進重點領域數字化轉型,營造數字化轉型生態的戰略舉措,標志著國家對于企業數字化轉型的高度重視與積極倡導。 企業…

dubbo復習:(3) 服務超時時間配置

在dubbo admin中 可以進行類似如下配置 configVersion: v2.7 enabled: true configs:- side: consumeraddresses:- 0.0.0.0parameters:timeout: 55這樣配置之后,當服務端響應超過55毫秒時,在服務消費者的控制臺就會看到超時信息

(保姆級教程傻瓜式操作)樹莓派--基于opencv實現人臉識別

前言 因為當時沒有邊實驗邊記錄,所以這篇文章可能存在疏漏。不過很多地方我推薦了我參考過的博客或者視頻,希望盡可能地解答您的疑惑,如果您仍有不懂的地方,歡迎評論,如果我知道答案,我會很樂意為您解答。 …

私活更好用:SpringBoot開源項目!!【送源碼】

今天分享一款非常香的SpringBoot大屏開源項目,非常適合接私活用。 這是一款基于SpringBoot代碼生成器的快速開發平臺!采用前后端分離架構:SpringBoot,Mybatis,Shiro,JWT,Vue&Ant Design。強…

MQTT_介紹_1.1

歷史 1999年:MQTT最初由IBM的Andy Stanford-Clark和Cirrus Link的Arlen Nipper開發,用于滿足石油和天然氣公司在遠程地區監控設備的需求。 2006年:IBM發布了MQTT的最初開源實現,但此時MQTT并未獲得廣泛的關注。 2010年&#xff…

三大平臺直播視頻下載保存方法

終于解決了視頻號下載的問題,2024年5月15日親測可用。 而且免費。 教程第二部分,有本地電腦無法下載的解決方案。 第一部分:使用教程(正常) 第1步:下載安裝包 下載迅雷網盤搜索:大海福利合集…

【Python報錯】Python安裝模塊時報錯Fatal error in launcher

【Python報錯】Python安裝模塊時報錯Fatal error in launcher 最近需要用到python下載一個小工具,自信敲下回車鍵本想看到黑乎乎的終端上會出現快速跳躍的命令代碼,沒想到,報錯了...... Fatal error in launcher: Unable to create process …

關于Windows中的NTUSER.DAT文件的知識,看這篇文章就差不多了

每個用戶配置文件中都隱藏著一個名為NTUSER.DAT的文件。此文件包含每個用戶的設置和首選項,因此你不應該刪除它,也可能不應該編輯它。Windows會自動為你加載、更改和保存該文件。 NTUSER.DAT包含你的用戶配置文件設置 每次更改Windows和已安裝程序的外觀和行為時,無論是桌…

【Qt】Qt開源項目

1、Flameshot 截圖工具 1.1 簡介 Flameshot是一款功能強大但易于使用的屏幕截圖軟件,中文名稱火焰截圖。 Flameshot 簡單易用并有一個CLI版本,所以可以從命令行來進行截圖。 Flameshot 是一個Linux發行版中完全免費且開源的截圖工具 1.2 源碼 github:https://github.com…

智能監控與安全管理:安全帽檢測算法的實踐與應用

在工地、煤礦等高危工作環境中,安全帽的佩戴至關重要。安全帽能夠有效防止因墜落物體或碰撞等引起的頭部傷害,從而保護工作人員的生命安全。然而,傳統的檢查人員佩戴安全帽的方式主要依賴于現場監督和巡查,這種方法不僅耗費大量人…

分頁查詢(PageHelper)

PageHelper依賴 <dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper-spring-boot-starter</artifactId><version>${pagehelper}</version> </dependency>DTO接收類 package com.sky.dto;import l…