1. ModelScope T2V by 阿里達摩院(推薦)
-
模型名:
damo/text-to-video-synthesis
-
輸入:一句文字描述(如:"a panda is dancing")
-
輸出:2秒視頻(16幀,576x320 分辨率)
-
顯卡推薦:8GB~16GB 顯存(支持 CPU fallback)
-
生成時間:約 40~120 秒(滿足你的要求)
-
優點:
-
真正文生視頻(非插幀)
-
HuggingFace + ModelScope CLI 接口友好
-
-
開源地址:
-
GitHub:https://github.com/modelscope/modelscope
-
在線示例:https://modelscope.cn/models/damo/text-to-video-synthesis/summary
-
-
使用方式(簡化):
pip install modelscope python -m modelscope.cli inference \ --model damo/text-to-video-synthesis \ --text "A dog running in the park"