華為云Flexus+DeepSeek征文|基于Dify構建文本/圖像/視頻生成工作流
- 一、構建文本/圖像/視頻生成工作流前言
- 二、構建文本/圖像/視頻生成工作流環境
- 2.1 基于FlexusX實例的Dify平臺
- 2.2 基于MaaS的模型API商用服務
- 三、構建文本/圖像/視頻生成工作流實戰
- 3.1 配置Dify環境
- 3.2 配置Dify工具
- 3.3 創建文本/圖像/視頻生成工作流
- 3.4 使用文本/圖像/視頻生成工作流
- 四、總結
一、構建文本/圖像/視頻生成工作流前言
當前,生成式AI技術正從單一模態向跨模態協同創作演進,而工作流編排平臺成為釋放大模型潛力的關鍵樞紐。在這一技術演進浪潮中,Dify憑借其靈活的可視化編排能力,使開發者能夠無縫集成各類大模型API,構建端到端的創意生產管道。大模型在多模態生成領域實現了顯著突破——支持文本生成圖像(T2I)、文本生成視頻(T2V)、圖像生成視頻(I2V)三大核心功能,在運動質量、情感表達和物理模擬等維度達到很高水準,能夠進行各種藝術和多媒體內容的生產。
Flexus X
實例以柔性資源+智能調度
雙引擎,解決了大模型應用中資源碎片化、性能波動、長時運維等痛點,尤其適合兩類場景,敏捷開發:中小團隊快速迭代模型,低成本試錯;生產部署:企業級高并發
推理服務,兼顧性能與成本
最優。通過技術民主化(一鍵式運維
)與資源精細化(動態配比
),讓大模型從實驗室技術加速轉化為生產力工具。
二、構建文本/圖像/視頻生成工作流環境
2.1 基于FlexusX實例的Dify平臺
華為云FlexusX實例
提供高性價比的云服務器,按需選擇資源規格、支持自動擴展,減少資源閑置,優化成本投入,并且首創大模型QoS保障,智能全域調度,算力分配長穩態運行,一直加速一直快,用于搭建Dify-LLM應用開發平臺。
Dify是一個能力豐富的開源AI應用開發平臺
,為大型語言模型(LLM)應用的開發而設計。它巧妙地結合了后端即服務(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了開發者構建可擴展的生成式AI應用的過程。
參考:華為云Flexus+DeepSeek征文 | 基于FlexusX單機一鍵部署社區版Dify-LLM應用開發平臺教程
2.2 基于MaaS的模型API商用服務
MaaS預置服務的商用服務為企業用戶提供高性能、高可用的推理API服務,支持按Token用量計費的模式。該服務適用于需要商用級穩定性、更高調用頻次和專業支持的場景。
參考:華為云Flexus+DeepSeek征文 | 基于ModelArts Studio開通和使用DeepSeek-V3/R1商用服務教程
三、構建文本/圖像/視頻生成工作流實戰
3.1 配置Dify環境
輸入管理員的郵箱和密碼,登錄基于FlexusX部署好的Dify網站
將MaaS平臺的模型服務接入Dify,這里我們選擇的是DeepSeek V3商用服務
,需要記住調用說明中的接口信息
和 API Key 管理中API Key
,若沒有可以重新創建即可
配置Dify模型供應商:設置 - 模型供應商 - 找到OpenAI-API-compatible
供應商并單擊添加模型
,在添加 OpenAI-API-compatible對話框,配置相關參數,然后單擊保存
參數 | 說明 |
---|---|
模型類型 | 選擇LLM 。 |
模型名稱 | 填入模型名稱。 |
API Key | 填入創建的API Key。 |
API Endpoint URL | 填入獲取的MaaS服務的基礎API地址,需要去掉地址尾部的“/chat/completions”后填入 |
3.2 配置Dify工具
Doubao Image and Video Generator
基于火山引擎豆包 API 的全功能 AI 媒體生成 Dify 插件,支持文本生成圖像、文本生成視頻以及圖像轉視頻功能。
申請火山方舟 API Key,在 火山方舟 API Key 頁面上創建新的 API 密鑰,保存此 Key
在 火山方舟開通管理 中,開通視覺模型中的三個服務:文生圖 Doubao-Seedream-3.0-t2i
、文生視頻 Doubao-Seedance-1.0-lite-t2v
、圖生視頻 Doubao-Seedance-1.0-lite-i2v
,都是由免費的額度可以使用的
打開DIfy - 工具中搜索 Daobao ,找到 Doubao Image and Video Generator
并安裝它
安裝完成后點擊 Doubao Generator
,點擊去授權,填入上面獲取到的 API Key,點擊保存即可
查看到已授權,后面就可以在Chatflow 和 Workflow 應用程序中添加 Doubao Generator 工具節點,提供了 3 種方法:Text to Image
、Text to Video
和 Image to Video
3.3 創建文本/圖像/視頻生成工作流
在 Dify - 工作室,創建空白應用,選擇 Chatflow,輸入應用名稱和圖標,點擊創建
刪除其他默認節點,在開始節點
后添加輸入字段 prompt
、picture
和 type
prompt
(文本):提示詞
picture
(單文件):圖片
type
(下拉選項):選擇類型(文本生成圖像、文本生成視頻、圖像轉視頻)
添加條件分支
節點,分成三個分支,Case1為文生圖片,Case2為文生視頻,Case3為圖生視頻(需要同時上傳圖片)
若為其他情況,則直接回復重新上傳圖片
Case1 再添加LLM
節點,命名為文生圖提示詞改寫LLM
,這步主要是通過大語言模型生成文生圖的提示詞。模型
選擇由華為 Maas 提供的 DeepSeek V3 ,系統提示詞參考如下:
# Role: 即夢AI文生圖結構化提示詞生成器 (Jmeng AI Image Structured Prompt Generator)
## Background:
- 這是一個專門為即夢AI生成靜態圖像提示詞的工具
- 將用戶的畫面創意轉換為結構化提示詞
- 輸出格式固定且簡潔
## Core Objectives:
- 將用戶輸入的畫面創意轉換為結構化提示詞
- 確保輸出格式統一且易于使用
- 提供豐富且具體的畫面描述
## Constraints:
1. 輸出格式必須嚴格遵循:畫面主體:[內容] 場景描述:[內容] 風格關鍵詞:[內容] 細節修飾:[內容]2. 禁止輸出任何額外的文字說明或格式
3. 各字段之間使用空格分隔
4. 直接輸出結果,不進行對話
## Skills:
1. 靜態構圖能力:- 準確描述主體位置- 定義姿態和表情- 把握畫面重點
2. 場景描寫能力:- 營造環境氛圍- 描述天氣光線- 構建空間感
3. 風格定義能力:- 應用藝術流派- 把控色彩風格- 確定渲染技術
4. 細節補充能力:- 添加畫質要素- 強化材質表現- 突出關鍵特征
## Workflow:
1. 接收用戶輸入的畫面創意
2. 將創意拆解為四個維度
3. 組合成規定格式字符串
4. 直接輸出結果
## OutputFormat:
畫面主體:[主體描述] 場景描述:[場景內容] 風格關鍵詞:[風格定義] 細節修飾:[細節內容]## Init:
我已準備好接收您的畫面創意,將直接輸出符合格式的提示詞。
用戶提示詞參考如下:
請根據用戶輸入{{#開始.prompt#}}改寫符合即夢AI繪畫的提示詞
添加節點 - 工具 - Doubao Generator
- Text to lmage
,添加完成后配置節點,輸入變量為文生圖提示詞改寫LLM生成的提示詞,IMAGE SIZE
選擇1024x1024(Square),MODEL VERSION
選擇 DoubaoSeedream 3.0
這里再添加直接回復
節點,輸出文生圖提示詞
和生成的圖片
Case2 再添加LLM
節點,命名為文生視頻提示詞改寫LLM
,這步主要是通過大語言模型生成文生視頻的提示詞。模型
選擇由華為 Maas 提供的 DeepSeek V3 ,系統提示詞參考如下:
# Role: 即夢AI文生視頻結構化提示詞生成器 (Jmeng AI Video Structured Prompt Generator)
## Background:
- 這是一個專門為即夢AI生成視頻提示詞的工具
- 將用戶的視頻創意轉換為結構化提示詞
- 輸出格式固定且簡潔
## Core Objectives:
- 將用戶輸入的視頻創意轉換為結構化提示詞
- 確保輸出格式統一且易于使用
- 提供豐富且具體的動態場景描述
## Constraints:
1. 輸出格式必須嚴格遵循:畫面主體:[內容] 動作描述:[內容] 場景描述:[內容] 風格關鍵詞:[內容] 細節修飾:[內容]2. 禁止輸出任何額外的文字說明或格式
3. 各字段之間使用空格分隔
4. 直接輸出結果,不進行對話
## Skills:
1. 動態構圖能力:- 準確描述主體位置- 定義動作流程- 把握動態重點
2. 場景描寫能力:- 營造環境氛圍- 描述天氣光線- 構建空間感
3. 風格定義能力:- 應用視頻風格- 把控色彩風格- 確定渲染技術
4. 細節補充能力:- 添加動態要素- 強化材質表現- 突出關鍵特征
## Workflow:
1. 接收用戶輸入的視頻創意
2. 將創意拆解為五個維度
3. 組合成規定格式字符串
4. 直接輸出結果
## OutputFormat:畫面主體:[主體描述] 動作描述:[動作內容] 場景描述:[場景內容] 風格關鍵詞:[風格定義] 細
節修飾:[細節內容]## Init:
我已準備好接收您的視頻創意,將直接輸出符合格式的提示詞。
用戶提示詞參考如下:
請根據用戶輸入{{#開始.prompt#}}改寫符合即夢AI繪畫的提示詞
添加節點 - 工具 - Doubao Generator
- Text toVideo
,添加完成后配置節點,輸入變量為文生圖提示詞改寫LLM生成的提示詞,ASPECT RATIO
選擇16:9 (Landscape),DURATION(SECONDS)
選擇 5seconds
,MODEL VERSION
選擇 DoubaoSeedance 1.0 Lite
再添加LLM節點,用于文生視頻內容提取,模型
選擇為 DeepSeek V3,系統提示詞參考如下:
僅提取內容中的視頻鏈接,然后變成 markdown 格式。
這是你看到的內容:{{#文生視頻.text#}}
用戶提示詞為:
{{#文生視頻.text#}}
這里再添加直接回復
節點,輸出文生視頻提示詞
和生成的視頻
Case3 添加節點 - 工具 - Doubao Generator
- Text toVideo
,添加完成后配置節點,輸入變量 Prompt
為開始輸入的提示詞,Image
為開始上傳的圖片,ASPECT RATIO
選擇16:9 (Landscape),ASPECT RATIO(REFERENCEONLY)
選擇 Adaptive(Auto)
,DURATION(SECONDS)
選擇 5seconds
最后添加直接回復節點,輸出圖片生成視頻的提示詞
和視頻
編排工作流后點擊右上角的運行
進行測試,輸入提示詞為 虎鯨和小漁夫游玩
,選擇類型為文生圖像
,輸入開始,點擊發送
查看完整流程,開始 - 條件分支 - 文生圖提示詞改寫LLM - 文生圖 - 文生圖回復,這里主要查看下 文生圖提示詞改寫LLM
節點輸出的結果
{"text": "畫面主體:[虎鯨與小漁夫在海中嬉戲] 場景描述:[日落時分的平靜海面,金色陽光灑在水面上] 風格關鍵詞:[童話風格,溫暖色調,水彩質感] 細節修飾:[虎鯨噴出水柱,小漁夫開心大笑,海浪輕輕拍打,遠處有小漁船輪廓]","usage": {"prompt_tokens": 406,"prompt_unit_price": "0","prompt_price_unit": "0","prompt_price": "0","completion_tokens": 71,"completion_unit_price": "0","completion_price_unit": "0","completion_price": "0","total_tokens": 477,"total_price": "0","currency": "USD","latency": 3.138953330984805},"finish_reason": "stop"
}
最后輸出圖片提示詞和生成的圖片如下,這個圖片的效果很不錯,比我之前使用的 Flux 要好很多
畫面主體:[虎鯨與小漁夫在海中嬉戲] 場景描述:[日落時分的平靜海面,金色陽光灑在水面上] 風格關鍵詞:[童話風格,溫暖色調,水彩質感] 細節修飾:[虎鯨噴出水柱,小漁夫開心大笑,海浪輕輕拍打,遠處有小漁船輪廓]
再測試一下文生視頻
,輸入提示詞為 虎鯨和小漁夫游玩
,選擇類型為文生視頻
,輸入開始,點擊發送
按照文生視頻的工作流,最后輸出視頻提示詞和生成的視頻如下,這個視頻的效果也很不錯
畫面主體:[虎鯨和小漁夫] 動作描述:[虎鯨躍出水面與小漁夫互動嬉戲] 場景描述:[夕陽下的金色海面 遠處有小漁船] 風格關鍵詞:[夢幻水彩風格 溫暖色調] 細節修飾:[飛濺的水花細節 虎鯨光滑皮膚反光 漁夫歡樂表情]
視頻鏈接
測試完成就可以發布更新到探索
頁面了,發布后選擇運行就可以獲得一個在線運行的工作流的網頁!
3.4 使用文本/圖像/視頻生成工作流
在探索 - 文本/圖像/視頻生成開啟新對話
輸入提示詞為 Hello Kitty 圣誕節和好友滑雪
,選擇圖生視頻
,并上傳圖片,點擊開始對話,輸入生成滑雪的視頻
,點擊發送
當你也出現如下報錯時,需要再 dify 的 .env
文件中添加 FILES_URL=http://host.docker.internal
,再重新啟動即可
正在從URL獲取圖片: /files/2052d24d-fce1-4d34-9464...從URL下載圖片失敗: Invalid URL '/files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=': No scheme supplied. Perhaps you meant https:///files/2052d24d-fce1-4d34-9464-ed7b3d616c0a/file-preview?timestamp=1751180380&nonce=097407fdb910c07ffce06ab26752e27d&sign=8WEXzpJHjiSH2DkXZIeTuLgZ5TRzcIVpRWgVBHVET9s=?
再經過圖生視頻的工作流,創建視頻生成任務,已等待 15 秒...視頻生成成功!
正在從URL獲取圖片: http://host.docker.internal/fi…成功下載圖片: 大小=127.72KB圖片編碼完成: 原始大小=127.72KB, 編碼后大小=170.29KB正在使用豆包 Seedance 圖生視頻模型生成視頻…正在創建視頻生成任務…視頻生成任務已創建,任務ID: cgt-20250629154144-rppjq提示詞: Hello Kitty 圣誕節和好友滑雪 --ratio adaptive --duration 5正在等待視頻生成完成…視頻正在生成中,已等待 5 秒…視頻正在生成中,已等待 10 秒…視頻正在生成中,已等待 15 秒…視頻生成成功!上方視頻鏈接有效期為24小時。如需保存,請在此期間內下載視頻文件。
fa274517e6ec43e2a5d7a2e4ce9504eb.mp4
最后生成 5 秒的視頻,視頻質量很高,環境和動作都渲染的很好
四、總結
通過Dify高效集成了豆包多模態API,成功構建了文本→圖像→視頻
的端到端創意工作流,不僅驗證了Dify在復雜任務編排中的靈活性(如異步調度、分支并行處理),更凸顯了多模態模型在中文場景動態生成的獨特優勢,其細膩的情感表達與物理模擬能力,讓靜態創意真正"活"了起來,提供了跨模態技術落地的標準化路徑,為AIGC應用注入強擴展性。工作流將單點生成升級為可迭代的創作管線(如生成→優化→組合),釋放出"1+1>2"的生產力增益,突破工具鏈割裂的瓶頸,實現"所想即所得"的沉浸式創作體驗。
華為云 MaaS(ModelArts Studio
)平臺提供的 DeepSeek-V3
模型推理服務,在構建大模型應用方面具備多項顯著優勢,綜合技術適配、成本效益、部署便捷性與企業級能力于一體。免費額度+低代碼調用,可以快速驗證AI應用原型,而大型企業生產部署,可以選擇高穩定、可擴展的商用推理服務,支撐關鍵業務智能化升級。