FramePack 安裝指南（中文）

FramePack 安裝指南（中文） -Windows

FramePack 是最前沿的 AI 視頻生成框架，以極小的硬件需求顛覆視頻創作！它能在僅 6GB 筆記本 GPU 內存上，驅動 13B 模型以 30 FPS 生成超長 120 秒視頻，幾乎無內容限制，釋放無限創意可能。以下是在 Windows 系統上使用 Anaconda 安裝 FramePack 的詳細步驟，基于成功安裝的經驗整理，剔除了錯誤指令，并明確區分用戶輸入的命令行步驟與系統反饋。本指南適用于希望嘗鮮 FramePack 的用戶，因為官方 Windows 一鍵安裝包尚未發布。

項目鏈接：官網

FramePack 亮點（官方介紹）

低資源需求：在僅 6GB 筆記本 GPU 內存上，使用 13B 模型以 30 FPS 生成數千幀視頻。
高效微調：在單個 8xA100/H100 節點上以 64 的批次大小微調 13B 視頻模型，適合個人或實驗室實驗。
快速生成：在 RTX 4090 上，未優化生成速度為 2.5 秒/幀，啟用 teacache 后可達 1.5 秒/幀。

前置條件

Anaconda：確保已安裝 Anaconda。可從 Anaconda 官網下載。
Windows 系統：本指南基于 Windows 64 位系統。
CUDA 支持的 GPU：建議至少 6GB 顯存的 GPU。本例使用 RTX 5090，如 RTX 30/40系列也適用。
網絡連接：用于下載依賴和模型文件。
Git：安裝 Git for Windows 以克隆倉庫。可從 Git 官網下載。

安裝步驟

步驟 1：創建新的 Conda 環境

用戶輸入命令:


conda create -n FramePack_test python=3.10

系統反饋:


Channels:- conda-forge- Index of /anaconda/pkgs/main/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- Index of /anaconda/pkgs/free/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- defaultsPlatform: win-64Collecting package metadata (repodata.json): doneSolving environment: done## Package Plan ##environment location: E:\anaconda3\envs\FramePack_testadded / updated specs:- python=3.10The following packages will be downloaded:package | build---------------------------|-----------------bzip2-1.0.8 | h2466b09_7 54 KB conda-forge...wheel-0.45.1 | pyhd8ed1ab_1 61 KB conda-forge------------------------------------------------------------Total: 23.0 MBdone

成功標志：環境創建完成，顯示 done 且列出安裝的包。

用戶輸入命令:


conda activate FramePack_test

系統反饋:


(FramePack_test) C:\Users\username>

成功標志：命令行提示符變為 (FramePack_test)，表示環境已激活。

步驟 2：克隆 FramePack 倉庫進入安裝目錄E:\AI\FramePack（請根據自己的情況進入對于安裝目錄）

用戶輸入命令:


git clone https://github.com/lllyasviel/FramePack.git

系統反饋:

克隆完成后，檢查 FramePack 目錄內容：


dir驅動器 E 中的卷***E:\AI\FramePack 的目錄2025/04/18 01:08 <DIR> .2025/04/17 15:37 3,471 .gitignore2025/04/17 15:37 18,810 demo_gradio.py2025/04/18 01:08 <DIR> diffusers_helper2025/04/17 15:37 11,357 LICENSE2025/04/17 15:37 14,299 README.md2025/04/17 15:37 222 requirements.txt5 個文件 48,159 字節

成功標志：FramePack 目錄創建并包含 demo_gradio.py 和 requirements.txt 等文件。

步驟 3：安裝 PyTorch（帶 CUDA 支持）

用戶輸入命令:


pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

系統反饋:


Looking in indexes: https://download.pytorch.org/whl/nightly/cu128Collecting torchDownloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250416%2Bcu128-cp310-cp310-win_amd64.whl (3331.4 MB)...Successfully installed MarkupSafe-2.1.5 filelock-3.16.1 fsspec-2024.10.0 ...

成功標志：顯示 Successfully installed 且列出安裝的包（如 torch-2.8.0.dev20250416+cu128）。

注意：

本例使用 RTX 5090，安裝了 CUDA 12.8 版本的 PyTorch。如果您使用 RTX 3090、4090 或其他 30/40 系列顯卡，請根據您的 CUDA 版本選擇對應的 PyTorch 版本。參考 PyTorch 官網獲取正確安裝命令。
確保 GPU 驅動和 CUDA 工具包與 PyTorch 版本兼容，檢查 NVIDIA CUDA GPU 兼容性。

步驟 4：安裝依賴項

用戶輸入命令:


pip install -r requirements.txt

系統反饋:


Collecting accelerate==1.6.0 (from -r requirements.txt (line 1))Downloading accelerate-1.6.0-py3-none-any.whl (354 kB)...Successfully installed accelerate-1.6.0 aiofiles-23.2.1 annotated-types-0.7.0 ...

成功標志：顯示 Successfully installed 且列出所有依賴包（如 accelerate-1.6.0、diffusers-0.33.1 等）。

步驟 5：運行 Demo

用戶輸入命令:


python demo_gradio.py

重要提示：

運行時可能會出現短暫卡頓，這是正常現象，因為腳本需要初始化模型并分配顯存。
首次運行會觸發長時間的模型下載（約 15GB，包括 hunyuanvideo-community/HunyuanVideo 等模型），視網絡速度可能需數分鐘至數小時。請耐心等待。

系統反饋（模型下載部分） :


config.json: 100%|████████████████████████████████████████████████████████████████████████████| 766/766 [00:00<?, ?B/s]model-00001-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.98G/4.98G [01:09<00:00, 72.1MB/s]model-00002-of-00004.safetensors: 100%|███████████████████████████████████████████| 5.00G/5.00G [01:06<00:00, 75.2MB/s]model-00003-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.92G/4.92G [01:06<00:00, 74.2MB/s]model-00004-of-00004.safetensors: 100%|█████████████████████████████████████████████| 117M/117M [00:01<00:00, 74.1MB/s]Downloading shards: 100%|████████████████████████████████████████████████████████████████| 4/4 [03:24<00:00, 51.12s/it]...* Running on local URL: http://0.0.0.0:7860...Decoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])

成功標志：Gradio 界面啟動，顯示 Running on local URL: http://0.0.0.0:7860，且日志顯示視頻幀解碼完成（如 pixel shape torch.Size([1, 3, 145, 704, 544])）。

步驟 6：驗證安裝

在瀏覽器中訪問 http://localhost:7860。
測試視頻生成功能，檢查是否能正常生成視頻。成功標志：Gradio 界面加載成功，且能生成視頻。

初次生成視頻的建議

在嘗試自定義輸入前，強烈建議按照以下 Sanity Check 進行測試，以確保硬件和軟件配置無誤。以下內容來自 FramePack 官方 GitHub.

Sanity Check

目的：驗證硬件和軟件是否正常運行。
背景：下一幀預測模型對噪聲和硬件差異非常敏感。不同設備上結果可能略有差異，但整體應相似。在某些情況下，若配置一致，可獲得完全相同的結果。

Image-to-5-seconds 示例

下載測試圖片：從 FramePack GitHub 下載指定圖片。
設置提示詞：


The man dances energetically, leaping mid-air with fluid arm swings and quick footwork.

配置參數：

使用默認參數，關閉 teacache。
在 Gradio 界面中上傳下載的圖片。

預期結果：

生成視頻文件（如 0.mp4），可能因 GitHub 壓縮而略有失真。
重要說明：FramePack 是基于下一幀或分段預測的模型。若 UI 中初始生成視頻較短（如僅 1 秒），屬正常現象。請耐心等待，后續分段將逐步生成完整視頻。

生成過程的控制臺反饋：

運行 Sanity Check 時，控制臺會顯示視頻分段生成的過程。以下是清洗后的關鍵反饋，展示了視頻逐步生成的情況：


Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.20s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 9, 88, 68]); pixel shape torch.Size([1, 3, 33, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:14<00:00, 5.40s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 18, 88, 68]); pixel shape torch.Size([1, 3, 69, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.21s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 27, 88, 68]); pixel shape torch.Size([1, 3, 105, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:09<00:00, 5.18s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])

解釋：日志顯示視頻分段生成，每段約需 2 分鐘（25 次迭代）。latent_padding_size 從 27 逐漸減小至 0，表示從初始幀到最終完整視頻（145 幀，約 5 秒）。pixel shape 顯示分辨率逐步增加，最終為 704x544。

其他建議

首次生成可能較慢，后續會因緩存優化而加快。
若生成結果與預期差異較大，檢查顯卡驅動、CUDA 版本或重新運行 Sanity Check。

故障排查

路徑錯誤：確保正確導航到 E:\AI\FramePack，用 dir 檢查目錄。
顯存不足：若提示內存錯誤，降低批次大小或使用更高顯存 GPU。
模型下載失敗：檢查網絡，重新運行 python demo_gradio.py 繼續下載。
依賴沖突：若 pip install -r requirements.txt 失敗，重建環境：


conda env remove -n FramePack_testconda create -n FramePack_test python=3.10

Hugging Face 緩存警告：可忽略，或設置：


set HF_HUB_DISABLE_SYMLINKS_WARNING=1

ConnectionResetError：日志中的 [WinError 10054] 為網絡中斷，可忽略。

額外說明

性能優化：啟用 teacache 可將生成速度提升至 1.5 秒/幀，參考 FramePack 文檔。
Windows Symlink 支持：為優化 Hugging Face 緩存，可啟用開發者模式或以管理員身份運行 Anaconda Prompt（參考微軟開發者模式指南）。
社區支持：加入 FramePack GitHub 社區獲取幫助。

關于作者

FramePack 的核心開發者是 Lvmin Zhang 和 Maneesh Agrawala，兩位在計算機視覺與圖形學領域的杰出研究者。以下是他們的主要履歷：

Lvmin Zhang

背景：來自中國的博士生，現就讀于斯坦福大學計算機科學系，自 2022 年起師從 Maneesh Agrawala 教授。他在圖像處理和擴散模型領域有深入研究，累計發表 13 篇高影響力論文，獲 340 次高影響力引用。
重要貢獻：
ControlNet（2023）：與 Maneesh Agrawala 和 Anyi Rao 合作開發，提出了一種神經網絡架構，為文本到圖像擴散模型（如 Stable Diffusion）添加空間條件控制，顯著提升生成精度。該論文在 ICCV 2023 發表，影響深遠。
Transparent Image Layer Diffusion（2024）：提出“潛在透明度”概念，使預訓練擴散模型生成透明圖像，廣泛應用于層生成和結構控制，發表在 ACM Transactions on Graphics。
Style2Paints：開發了先進的圖像生成軟件，專注于動漫風格轉換和線稿上色，成果包括 2017 年的 Style Transfer for Anime Sketches 和 2018 年的 Two-stage Sketch Colorization。
其他成就：Lvmin Zhang 曾開發 SmartShadow 等數字繪畫工具，并在 ECCV 2020 提出優化圖像平滑方法，創建了大規模插畫數據集 DanbooRegion。

Maneesh Agrawala

背景：斯坦福大學計算機科學系 Forest Baskett 教授，兼任布朗媒體創新研究所主任。他在計算機圖形學、人機交互和可視化領域有超過 30 年的研究經驗，谷歌學術引用量超 31,664 次。
重要履歷：
學術成就：1994 年獲斯坦福大學數學學士學位，2002 年獲計算機科學博士學位。2005-2015 年任加州大學伯克利分校教授，2015 年返回斯坦福。
獎項：2006 年獲 Okawa Foundation 研究資助，2007 年獲 Sloan 獎學金和 NSF CAREER 獎，2008 年獲 SIGGRAPH 新研究員獎，2009 年獲 MacArthur 基金會天才獎。
早期榮譽：1990 年參加 Westinghouse Science Talent Search，提交的蛋白質建模項目入圍決賽；1988 年在 SuperQuest 競賽中與團隊贏得超級計算機。
研究貢獻：
LineDrive（2002）：開發了基于認知設計的路線地圖渲染系統，生成類似手繪的簡潔地圖，源自其博士論文。
ControlNet（2023）：與 Lvmin Zhang 合作，提出條件控制擴散模型，革新圖像生成技術。
可視化工具：開發了 EMPHASISCHECKER（2023），幫助圖表作者對齊圖表與標題的重點；以及 VisiBlends（2019），簡化視覺混合創作。
視頻與動畫：領導 Vid2Player（2021），生成可控網球運動員視頻；以及 Puppet Dubbing（2019），優化視頻配音流程。
影響力：Agrawala 的研究結合認知心理學，設計用戶友好的視覺界面，廣泛應用于地圖導航、機器裝配說明和 3D 模型交互，改變了我們處理復雜數字信息的方式。