FramePack 安裝指南(中文) -Windows
FramePack 是最前沿的 AI 視頻生成框架,以極小的硬件需求顛覆視頻創作!它能在僅 6GB 筆記本 GPU 內存上,驅動 13B 模型以 30 FPS 生成超長 120 秒視頻,幾乎無內容限制,釋放無限創意可能。以下是在 Windows 系統上使用 Anaconda 安裝 FramePack 的詳細步驟,基于成功安裝的經驗整理,剔除了錯誤指令,并明確區分用戶輸入的命令行步驟與系統反饋。本指南適用于希望嘗鮮 FramePack 的用戶,因為官方 Windows 一鍵安裝包尚未發布。
項目鏈接:官網
FramePack 亮點(官方介紹)
-
低資源需求:在僅 6GB 筆記本 GPU 內存上,使用 13B 模型以 30 FPS 生成數千幀視頻。
-
高效微調:在單個 8xA100/H100 節點上以 64 的批次大小微調 13B 視頻模型,適合個人或實驗室實驗。
-
快速生成:在 RTX 4090 上,未優化生成速度為 2.5 秒/幀,啟用 teacache 后可達 1.5 秒/幀。
前置條件
-
Anaconda:確保已安裝 Anaconda。可從 Anaconda 官網 下載。
-
Windows 系統:本指南基于 Windows 64 位系統。
-
CUDA 支持的 GPU:建議至少 6GB 顯存的 GPU。本例使用 RTX 5090,如 RTX 30/40系列 也適用。
-
網絡連接:用于下載依賴和模型文件。
-
Git:安裝 Git for Windows 以克隆倉庫。可從 Git 官網 下載。
安裝步驟
步驟 1:創建新的 Conda 環境
用戶輸入命令:
conda create -n FramePack_test python=3.10
系統反饋:
Channels:- conda-forge- Index of /anaconda/pkgs/main/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- Index of /anaconda/pkgs/free/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- defaultsPlatform: win-64Collecting package metadata (repodata.json): doneSolving environment: done## Package Plan ##environment location: E:\anaconda3\envs\FramePack_testadded / updated specs:- python=3.10The following packages will be downloaded:package | build---------------------------|-----------------bzip2-1.0.8 | h2466b09_7 54 KB conda-forge...wheel-0.45.1 | pyhd8ed1ab_1 61 KB conda-forge------------------------------------------------------------Total: 23.0 MBdone
成功標志:環境創建完成,顯示 done
且列出安裝的包。
用戶輸入命令:
conda activate FramePack_test
系統反饋:
(FramePack_test) C:\Users\username>
成功標志:命令行提示符變為 (FramePack_test)
,表示環境已激活。
步驟 2:克隆 FramePack 倉庫 進入安裝目錄E:\AI\FramePack(請根據自己的情況進入對于安裝目錄)
用戶輸入命令:
git clone https://github.com/lllyasviel/FramePack.git
系統反饋:
- 克隆完成后,檢查 FramePack 目錄內容:
dir驅動器 E 中的卷***E:\AI\FramePack 的目錄2025/04/18 01:08 <DIR> .2025/04/17 15:37 3,471 .gitignore2025/04/17 15:37 18,810 demo_gradio.py2025/04/18 01:08 <DIR> diffusers_helper2025/04/17 15:37 11,357 LICENSE2025/04/17 15:37 14,299 README.md2025/04/17 15:37 222 requirements.txt5 個文件 48,159 字節
成功標志:FramePack
目錄創建并包含 demo_gradio.py
和 requirements.txt
等文件。
步驟 3:安裝 PyTorch(帶 CUDA 支持)
用戶輸入命令:
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
系統反饋:
Looking in indexes: https://download.pytorch.org/whl/nightly/cu128Collecting torchDownloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250416%2Bcu128-cp310-cp310-win_amd64.whl (3331.4 MB)...Successfully installed MarkupSafe-2.1.5 filelock-3.16.1 fsspec-2024.10.0 ...
成功標志:顯示 Successfully installed
且列出安裝的包(如 torch-2.8.0.dev20250416+cu128
)。
注意:
-
本例使用 RTX 5090,安裝了 CUDA 12.8 版本的 PyTorch。如果您使用 RTX 3090、4090 或其他 30/40 系列顯卡,請根據您的 CUDA 版本選擇對應的 PyTorch 版本。參考 PyTorch 官網 獲取正確安裝命令。
-
確保 GPU 驅動和 CUDA 工具包與 PyTorch 版本兼容,檢查 NVIDIA CUDA GPU 兼容性。
步驟 4:安裝依賴項
用戶輸入命令:
pip install -r requirements.txt
系統反饋:
Collecting accelerate==1.6.0 (from -r requirements.txt (line 1))Downloading accelerate-1.6.0-py3-none-any.whl (354 kB)...Successfully installed accelerate-1.6.0 aiofiles-23.2.1 annotated-types-0.7.0 ...
成功標志:顯示 Successfully installed
且列出所有依賴包(如 accelerate-1.6.0
、diffusers-0.33.1
等)。
步驟 5:運行 Demo
用戶輸入命令:
python demo_gradio.py
重要提示:
-
運行時可能會出現短暫卡頓,這是正常現象,因為腳本需要初始化模型并分配顯存。
-
首次運行會觸發長時間的模型下載(約 15GB,包括
hunyuanvideo-community/HunyuanVideo
等模型),視網絡速度可能需數分鐘至數小時。請耐心等待。
系統反饋(模型下載部分) :
config.json: 100%|████████████████████████████████████████████████████████████████████████████| 766/766 [00:00<?, ?B/s]model-00001-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.98G/4.98G [01:09<00:00, 72.1MB/s]model-00002-of-00004.safetensors: 100%|███████████████████████████████████████████| 5.00G/5.00G [01:06<00:00, 75.2MB/s]model-00003-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.92G/4.92G [01:06<00:00, 74.2MB/s]model-00004-of-00004.safetensors: 100%|█████████████████████████████████████████████| 117M/117M [00:01<00:00, 74.1MB/s]Downloading shards: 100%|████████████████████████████████████████████████████████████████| 4/4 [03:24<00:00, 51.12s/it]...* Running on local URL: http://0.0.0.0:7860...Decoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])
成功標志:Gradio 界面啟動,顯示 Running on local URL: http://0.0.0.0:7860
,且日志顯示視頻幀解碼完成(如 pixel shape torch.Size([1, 3, 145, 704, 544])
)。
步驟 6:驗證安裝
-
在瀏覽器中訪問
http://localhost:7860
。 -
測試視頻生成功能,檢查是否能正常生成視頻。成功標志:Gradio 界面加載成功,且能生成視頻。
初次生成視頻的建議
在嘗試自定義輸入前,強烈建議按照以下 Sanity Check 進行測試,以確保硬件和軟件配置無誤。以下內容來自 FramePack 官方 GitHub.
Sanity Check
-
目的:驗證硬件和軟件是否正常運行。
-
背景:下一幀預測模型對噪聲和硬件差異非常敏感。不同設備上結果可能略有差異,但整體應相似。在某些情況下,若配置一致,可獲得完全相同的結果。
Image-to-5-seconds 示例
-
下載測試圖片:從 FramePack GitHub 下載指定圖片。
-
設置提示詞:
The man dances energetically, leaping mid-air with fluid arm swings and quick footwork.
- 配置參數:
-
使用默認參數,關閉 teacache。
-
在 Gradio 界面中上傳下載的圖片。
- 預期結果:
-
生成視頻文件(如
0.mp4
),可能因 GitHub 壓縮而略有失真。 -
重要說明:FramePack 是基于下一幀或分段預測的模型。若 UI 中初始生成視頻較短(如僅 1 秒),屬正常現象。請耐心等待,后續分段將逐步生成完整視頻。
- 生成過程的控制臺反饋:
運行 Sanity Check 時,控制臺會顯示視頻分段生成的過程。以下是清洗后的關鍵反饋,展示了視頻逐步生成的情況:
Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.20s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 9, 88, 68]); pixel shape torch.Size([1, 3, 33, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:14<00:00, 5.40s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 18, 88, 68]); pixel shape torch.Size([1, 3, 69, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.21s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 27, 88, 68]); pixel shape torch.Size([1, 3, 105, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:09<00:00, 5.18s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])
- 解釋:日志顯示視頻分段生成,每段約需 2 分鐘(25 次迭代)。
latent_padding_size
從 27 逐漸減小至 0,表示從初始幀到最終完整視頻(145 幀,約 5 秒)。pixel shape
顯示分辨率逐步增加,最終為 704x544。
其他建議
-
首次生成可能較慢,后續會因緩存優化而加快。
-
若生成結果與預期差異較大,檢查顯卡驅動、CUDA 版本或重新運行 Sanity Check。
故障排查
-
路徑錯誤:確保正確導航到
E:\AI\FramePack
,用dir
檢查目錄。 -
顯存不足:若提示內存錯誤,降低批次大小或使用更高顯存 GPU。
-
模型下載失敗:檢查網絡,重新運行
python demo_gradio.py
繼續下載。 -
依賴沖突:若
pip install -r requirements.txt
失敗,重建環境:
conda env remove -n FramePack_testconda create -n FramePack_test python=3.10
- Hugging Face 緩存警告:可忽略,或設置:
set HF_HUB_DISABLE_SYMLINKS_WARNING=1
- ConnectionResetError:日志中的
[WinError 10054]
為網絡中斷,可忽略。
額外說明
-
性能優化:啟用 teacache 可將生成速度提升至 1.5 秒/幀,參考 FramePack 文檔。
-
Windows Symlink 支持:為優化 Hugging Face 緩存,可啟用開發者模式或以管理員身份運行 Anaconda Prompt(參考 微軟開發者模式指南)。
-
社區支持:加入 FramePack GitHub 社區 獲取幫助。
關于作者
FramePack 的核心開發者是 Lvmin Zhang 和 Maneesh Agrawala,兩位在計算機視覺與圖形學領域的杰出研究者。以下是他們的主要履歷:
Lvmin Zhang
-
背景:來自中國的博士生,現就讀于斯坦福大學計算機科學系,自 2022 年起師從 Maneesh Agrawala 教授。他在圖像處理和擴散模型領域有深入研究,累計發表 13 篇高影響力論文,獲 340 次高影響力引用。
-
重要貢獻:
-
ControlNet(2023):與 Maneesh Agrawala 和 Anyi Rao 合作開發,提出了一種神經網絡架構,為文本到圖像擴散模型(如 Stable Diffusion)添加空間條件控制,顯著提升生成精度。該論文在 ICCV 2023 發表,影響深遠。
-
Transparent Image Layer Diffusion(2024):提出“潛在透明度”概念,使預訓練擴散模型生成透明圖像,廣泛應用于層生成和結構控制,發表在 ACM Transactions on Graphics。
-
Style2Paints:開發了先進的圖像生成軟件,專注于動漫風格轉換和線稿上色,成果包括 2017 年的 Style Transfer for Anime Sketches 和 2018 年的 Two-stage Sketch Colorization。
-
其他成就:Lvmin Zhang 曾開發 SmartShadow 等數字繪畫工具,并在 ECCV 2020 提出優化圖像平滑方法,創建了大規模插畫數據集 DanbooRegion。
Maneesh Agrawala
-
背景:斯坦福大學計算機科學系 Forest Baskett 教授,兼任布朗媒體創新研究所主任。他在計算機圖形學、人機交互和可視化領域有超過 30 年的研究經驗,谷歌學術引用量超 31,664 次。
-
重要履歷:
-
學術成就:1994 年獲斯坦福大學數學學士學位,2002 年獲計算機科學博士學位。2005-2015 年任加州大學伯克利分校教授,2015 年返回斯坦福。
-
獎項:2006 年獲 Okawa Foundation 研究資助,2007 年獲 Sloan 獎學金和 NSF CAREER 獎,2008 年獲 SIGGRAPH 新研究員獎,2009 年獲 MacArthur 基金會天才獎。
-
早期榮譽:1990 年參加 Westinghouse Science Talent Search,提交的蛋白質建模項目入圍決賽;1988 年在 SuperQuest 競賽中與團隊贏得超級計算機。
-
研究貢獻:
-
LineDrive(2002):開發了基于認知設計的路線地圖渲染系統,生成類似手繪的簡潔地圖,源自其博士論文。
-
ControlNet(2023):與 Lvmin Zhang 合作,提出條件控制擴散模型,革新圖像生成技術。
-
可視化工具:開發了 EMPHASISCHECKER(2023),幫助圖表作者對齊圖表與標題的重點;以及 VisiBlends(2019),簡化視覺混合創作。
-
視頻與動畫:領導 Vid2Player(2021),生成可控網球運動員視頻;以及 Puppet Dubbing(2019),優化視頻配音流程。
-
影響力:Agrawala 的研究結合認知心理學,設計用戶友好的視覺界面,廣泛應用于地圖導航、機器裝配說明和 3D 模型交互,改變了我們處理復雜數字信息的方式。
兩位作者的合作將中國學者的創新力與國際頂尖研究相結合,為 FramePack 的突破性技術奠定了基礎。Lvmin Zhang 的中國背景也為項目增添了多元文化視角。
相關鏈接
-
項目鏈接:
-
論文鏈接:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
-
GitHub 項目:https://github.com/lllyasviel/FramePack
通過以上步驟,您應能成功安裝并運行 FramePack。