-
🕒 生成時間:每張圖大概 10–60 秒(取決于設備)
? 二、文生視頻(Text-to-Video)
以下項目中,很多都基于 SD 模型擴展,但視頻生成復雜度高,生成時間一般 超過 30 秒,也正好符合你要求。
1. ModelScope's text-to-video-synthesis
-
📦 地址:modelscope/modelscope
-
🔬 模型:text-to-video-synthesis
-
🎥 視頻時長:2–4秒,支持中文 prompt
-
💻 本地部署建議:至少 8GB GPU
-
🛠? 安裝:
pip install modelscope
pip install "modelscope[multimodal]"
-
🧪 示例代碼:
from modelscope.pipelines
import pipeline from modelscope.utils.constant
import Tasks
p = pipeline(Tasks.text_to_video_synthesis, model='damo/text-to-video-synthesis') video_path = p({'text': '一個騎自行車的少年在夕陽下'})['output_video']