節前,我們組織了一場算法崗技術&面試討論會,邀請了一些互聯網大廠朋友、今年參加社招和校招面試的同學。
針對大模型技術趨勢、大模型落地項目經驗分享、新手如何入門算法崗、該如何準備面試攻略、面試常考點等熱門話題進行了深入的討論。
總結鏈接如下:
重磅消息!《大模型面試寶典》(2024版) 正式發布!
喜歡記得點贊、收藏、關注。更多技術交流&面經學習,可以文末加入我們。
混元DiT是一個基于Diffusion transformer的文本到圖像生成模型,此模型具有中英文細粒度理解能力。
為了構建混元DiT,我們精心設計了Transformer結構、文本編碼器和位置編碼。我們構建了完整的數據管道,用于更新和評估數據,為模型優化迭代提供幫助。為了實現細粒度的文本理解,我們訓練了多模態大語言模型來優化圖像的文本描述。
最終,混元DiT能夠與用戶進行多輪對話,根據上下文生成并完善圖像。
該模型具備如下優勢
-
中文元素理解:混元DiT提供雙語生成能力,中國元素理解具有優勢。
-
長文本理解能力:混元DiT能分析和理解長篇文本中的信息并生成相應藝術作品。
-
細粒度語義理解:混元DiT能捕捉文本中的細微之處,從而生成完美符合用戶需要的圖
-
多輪對話文生圖:混元DiT可以在多輪對話中通過與用戶持續協作,精煉并完善的創意構想。
開源代碼鏈接:
https://github.com/Tencent/HunyuanDiT
最佳實踐
按照混元DiT文生圖模型的模型頁面,需要的計算顯存如下:
環境配置和安裝
-
python 3.10及以上版本
-
pytorch推薦2.0及以上版本
下載和部署
第一步:clone代碼到本地
git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
# 安裝魔搭鏡像中缺少的依賴
pip install loguru==0.7.2
第二步:下載模型
# 使用git下載模型
git clone https://www.modelscope.cn/modelscope/HunyuanDiT.git
# 或者使用modelscope SDK下載模型
# from modelscope import snapshot_download
# model_dir = snapshot_download('modelscope/HunyuanDiT')
第三步:因為混元DiT依賴clip-vit-large-patch14-336,需要提前下載該模型到工作目錄
# 下載clip模型
git clone https://www.modelscope.cn/AI-ModelScope/clip-vit-large-patch14-336.git ./openai/clip-vit-large-patch14-336
第四步:按照pr修改對應的代碼
Pr地址:
https://github.com/Tencent/HunyuanDiT/pull/16
修改的文件如下:
第五步:運行推理接口
python sample_t2i.py --prompt "漁舟唱晚"
在HunyuanDiT/results/文件夾下得到結果:
顯存占用:
中文prompt效果體驗
小編用一些中文的成語,古詩等測試了該模型的效果,出圖穩定,分辨率高,且效果不錯,尤其是單張圖多個實體上,依然保障了很好的出圖質量。非常開心看到優秀的支持中文的文生圖模型,魔搭社區未來期待與社區開發者同行,一起研究和推動基于DiT模型上如LoRA,控圖等生態發展。
龜兔賽跑
守株待兔
三只羊駝坐在麻將桌上
一只紅色的小狐貍和一只黑色的老鷹在森林中對話
醉后不知天在水,滿船清夢壓星河
技術交流&資料
技術要學會分享、交流,不建議閉門造車。一個人可以走的很快、一堆人可以走的更遠。
成立了算法面試和技術交流群,相關資料、技術交流&答疑,均可加我們的交流群獲取,群友已超過2000人,添加時最好的備注方式為:來源+興趣方向,方便找到志同道合的朋友。
方式①、微信搜索公眾號:機器學習社區,后臺回復:加群
方式②、添加微信號:mlc2040,備注:來自CSDN + 技術交流
通俗易懂講解大模型系列
-
重磅消息!《大模型面試寶典》(2024版) 正式發布!
-
重磅消息!《大模型實戰寶典》(2024版) 正式發布!
-
做大模型也有1年多了,聊聊這段時間的感悟!
-
用通俗易懂的方式講解:大模型算法工程師最全面試題匯總
-
用通俗易懂的方式講解:不要再苦苦尋覓了!AI 大模型面試指南(含答案)的最全總結來了!
-
用通俗易懂的方式講解:我的大模型崗位面試總結:共24家,9個offer
-
用通俗易懂的方式講解:大模型 RAG 在 LangChain 中的應用實戰
-
用通俗易懂的方式講解:ChatGPT 開放的多模態的DALL-E 3功能,好玩到停不下來!
-
用通俗易懂的方式講解:基于擴散模型(Diffusion),文生圖 AnyText 的效果太棒了
-
用通俗易懂的方式講解:在 CPU 服務器上部署 ChatGLM3-6B 模型
-
用通俗易懂的方式講解:ChatGLM3-6B 部署指南
-
用通俗易懂的方式講解:使用 LangChain 封裝自定義的 LLM,太棒了
-
用通俗易懂的方式講解:基于 Langchain 和 ChatChat 部署本地知識庫問答系統
-
用通俗易懂的方式講解:Llama2 部署講解及試用方式
-
用通俗易懂的方式講解:一份保姆級的 Stable Diffusion 部署教程,開啟你的煉丹之路
-
用通俗易懂的方式講解:LlamaIndex 官方發布高清大圖,縱覽高級 RAG技術
-
用通俗易懂的方式講解:為什么大模型 Advanced RAG 方法對于AI的未來至關重要?
-
用通俗易懂的方式講解:基于 Langchain 框架,利用 MongoDB 矢量搜索實現大模型 RAG 高級檢索方法