FramePack 安裝指南(中文)

FramePack 安裝指南(中文) -Windows

FramePack 是最前沿的 AI 視頻生成框架,以極小的硬件需求顛覆視頻創作!它能在僅 6GB 筆記本 GPU 內存上,驅動 13B 模型以 30 FPS 生成超長 120 秒視頻,幾乎無內容限制,釋放無限創意可能。以下是在 Windows 系統上使用 Anaconda 安裝 FramePack 的詳細步驟,基于成功安裝的經驗整理,剔除了錯誤指令,并明確區分用戶輸入的命令行步驟與系統反饋。本指南適用于希望嘗鮮 FramePack 的用戶,因為官方 Windows 一鍵安裝包尚未發布。

項目鏈接:官網

FramePack 亮點(官方介紹)

  • 低資源需求:在僅 6GB 筆記本 GPU 內存上,使用 13B 模型以 30 FPS 生成數千幀視頻。

  • 高效微調:在單個 8xA100/H100 節點上以 64 的批次大小微調 13B 視頻模型,適合個人或實驗室實驗。

  • 快速生成:在 RTX 4090 上,未優化生成速度為 2.5 秒/幀,啟用 teacache 后可達 1.5 秒/幀。

前置條件

  • Anaconda:確保已安裝 Anaconda。可從 Anaconda 官網 下載。

  • Windows 系統:本指南基于 Windows 64 位系統。

  • CUDA 支持的 GPU:建議至少 6GB 顯存的 GPU。本例使用 RTX 5090,如 RTX 30/40系列 也適用。

  • 網絡連接:用于下載依賴和模型文件。

  • Git:安裝 Git for Windows 以克隆倉庫。可從 Git 官網 下載。

安裝步驟

步驟 1:創建新的 Conda 環境

用戶輸入命令:


conda create -n FramePack_test python=3.10

系統反饋:


Channels:- conda-forge- Index of /anaconda/pkgs/main/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- Index of /anaconda/pkgs/free/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror- defaultsPlatform: win-64Collecting package metadata (repodata.json): doneSolving environment: done## Package Plan ##environment location: E:\anaconda3\envs\FramePack_testadded / updated specs:- python=3.10The following packages will be downloaded:package | build---------------------------|-----------------bzip2-1.0.8 | h2466b09_7 54 KB conda-forge...wheel-0.45.1 | pyhd8ed1ab_1 61 KB conda-forge------------------------------------------------------------Total: 23.0 MBdone

成功標志:環境創建完成,顯示 done 且列出安裝的包。

用戶輸入命令:


conda activate FramePack_test

系統反饋:


(FramePack_test) C:\Users\username>

成功標志:命令行提示符變為 (FramePack_test),表示環境已激活。

步驟 2:克隆 FramePack 倉庫 進入安裝目錄E:\AI\FramePack(請根據自己的情況進入對于安裝目錄)

用戶輸入命令:


git clone https://github.com/lllyasviel/FramePack.git

系統反饋:

  • 克隆完成后,檢查 FramePack 目錄內容:

dir驅動器 E 中的卷***E:\AI\FramePack 的目錄2025/04/18 01:08 <DIR> .2025/04/17 15:37 3,471 .gitignore2025/04/17 15:37 18,810 demo_gradio.py2025/04/18 01:08 <DIR> diffusers_helper2025/04/17 15:37 11,357 LICENSE2025/04/17 15:37 14,299 README.md2025/04/17 15:37 222 requirements.txt5 個文件 48,159 字節

成功標志FramePack 目錄創建并包含 demo_gradio.pyrequirements.txt 等文件。

步驟 3:安裝 PyTorch(帶 CUDA 支持)

用戶輸入命令:


pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

系統反饋:


Looking in indexes: https://download.pytorch.org/whl/nightly/cu128Collecting torchDownloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250416%2Bcu128-cp310-cp310-win_amd64.whl (3331.4 MB)...Successfully installed MarkupSafe-2.1.5 filelock-3.16.1 fsspec-2024.10.0 ...

成功標志:顯示 Successfully installed 且列出安裝的包(如 torch-2.8.0.dev20250416+cu128)。

注意

  • 本例使用 RTX 5090,安裝了 CUDA 12.8 版本的 PyTorch。如果您使用 RTX 3090、4090 或其他 30/40 系列顯卡,請根據您的 CUDA 版本選擇對應的 PyTorch 版本。參考 PyTorch 官網 獲取正確安裝命令。

  • 確保 GPU 驅動和 CUDA 工具包與 PyTorch 版本兼容,檢查 NVIDIA CUDA GPU 兼容性。

步驟 4:安裝依賴項

用戶輸入命令:


pip install -r requirements.txt

系統反饋:


Collecting accelerate==1.6.0 (from -r requirements.txt (line 1))Downloading accelerate-1.6.0-py3-none-any.whl (354 kB)...Successfully installed accelerate-1.6.0 aiofiles-23.2.1 annotated-types-0.7.0 ...

成功標志:顯示 Successfully installed 且列出所有依賴包(如 accelerate-1.6.0diffusers-0.33.1 等)。

步驟 5:運行 Demo

用戶輸入命令:


python demo_gradio.py

重要提示

  • 運行時可能會出現短暫卡頓,這是正常現象,因為腳本需要初始化模型并分配顯存。

  • 首次運行會觸發長時間的模型下載(約 15GB,包括 hunyuanvideo-community/HunyuanVideo 等模型),視網絡速度可能需數分鐘至數小時。請耐心等待。

系統反饋(模型下載部分) :


config.json: 100%|████████████████████████████████████████████████████████████████████████████| 766/766 [00:00<?, ?B/s]model-00001-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.98G/4.98G [01:09<00:00, 72.1MB/s]model-00002-of-00004.safetensors: 100%|███████████████████████████████████████████| 5.00G/5.00G [01:06<00:00, 75.2MB/s]model-00003-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.92G/4.92G [01:06<00:00, 74.2MB/s]model-00004-of-00004.safetensors: 100%|█████████████████████████████████████████████| 117M/117M [00:01<00:00, 74.1MB/s]Downloading shards: 100%|████████████████████████████████████████████████████████████████| 4/4 [03:24<00:00, 51.12s/it]...* Running on local URL: http://0.0.0.0:7860...Decoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])

成功標志:Gradio 界面啟動,顯示 Running on local URL: http://0.0.0.0:7860,且日志顯示視頻幀解碼完成(如 pixel shape torch.Size([1, 3, 145, 704, 544]))。

步驟 6:驗證安裝

  • 在瀏覽器中訪問 http://localhost:7860

  • 測試視頻生成功能,檢查是否能正常生成視頻。成功標志:Gradio 界面加載成功,且能生成視頻。

初次生成視頻的建議

在嘗試自定義輸入前,強烈建議按照以下 Sanity Check 進行測試,以確保硬件和軟件配置無誤。以下內容來自 FramePack 官方 GitHub.

Sanity Check

  • 目的:驗證硬件和軟件是否正常運行。

  • 背景:下一幀預測模型對噪聲和硬件差異非常敏感。不同設備上結果可能略有差異,但整體應相似。在某些情況下,若配置一致,可獲得完全相同的結果。

Image-to-5-seconds 示例

  1. 下載測試圖片:從 FramePack GitHub 下載指定圖片。

  2. 設置提示詞


The man dances energetically, leaping mid-air with fluid arm swings and quick footwork.
  1. 配置參數
  • 使用默認參數,關閉 teacache

  • 在 Gradio 界面中上傳下載的圖片。

  1. 預期結果
  • 生成視頻文件(如 0.mp4),可能因 GitHub 壓縮而略有失真。

  • 重要說明:FramePack 是基于下一幀或分段預測的模型。若 UI 中初始生成視頻較短(如僅 1 秒),屬正常現象。請耐心等待,后續分段將逐步生成完整視頻。

  1. 生成過程的控制臺反饋

運行 Sanity Check 時,控制臺會顯示視頻分段生成的過程。以下是清洗后的關鍵反饋,展示了視頻逐步生成的情況:


Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.20s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 9, 88, 68]); pixel shape torch.Size([1, 3, 33, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:14<00:00, 5.40s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 18, 88, 68]); pixel shape torch.Size([1, 3, 69, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.21s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 27, 88, 68]); pixel shape torch.Size([1, 3, 105, 704, 544])Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:09<00:00, 5.18s/it]Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GBDecoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])
  • 解釋:日志顯示視頻分段生成,每段約需 2 分鐘(25 次迭代)。latent_padding_size 從 27 逐漸減小至 0,表示從初始幀到最終完整視頻(145 幀,約 5 秒)。pixel shape 顯示分辨率逐步增加,最終為 704x544。

其他建議

  • 首次生成可能較慢,后續會因緩存優化而加快。

  • 若生成結果與預期差異較大,檢查顯卡驅動、CUDA 版本或重新運行 Sanity Check。

故障排查

  • 路徑錯誤:確保正確導航到 E:\AI\FramePack,用 dir 檢查目錄。

  • 顯存不足:若提示內存錯誤,降低批次大小或使用更高顯存 GPU。

  • 模型下載失敗:檢查網絡,重新運行 python demo_gradio.py 繼續下載。

  • 依賴沖突:若 pip install -r requirements.txt 失敗,重建環境:


conda env remove -n FramePack_testconda create -n FramePack_test python=3.10
  • Hugging Face 緩存警告:可忽略,或設置:

set HF_HUB_DISABLE_SYMLINKS_WARNING=1
  • ConnectionResetError:日志中的 [WinError 10054] 為網絡中斷,可忽略。

額外說明

  • 性能優化:啟用 teacache 可將生成速度提升至 1.5 秒/幀,參考 FramePack 文檔。

  • Windows Symlink 支持:為優化 Hugging Face 緩存,可啟用開發者模式或以管理員身份運行 Anaconda Prompt(參考 微軟開發者模式指南)。

  • 社區支持:加入 FramePack GitHub 社區 獲取幫助。

關于作者

FramePack 的核心開發者是 Lvmin ZhangManeesh Agrawala,兩位在計算機視覺與圖形學領域的杰出研究者。以下是他們的主要履歷:

Lvmin Zhang

  • 背景:來自中國的博士生,現就讀于斯坦福大學計算機科學系,自 2022 年起師從 Maneesh Agrawala 教授。他在圖像處理和擴散模型領域有深入研究,累計發表 13 篇高影響力論文,獲 340 次高影響力引用。

  • 重要貢獻

  • ControlNet(2023):與 Maneesh Agrawala 和 Anyi Rao 合作開發,提出了一種神經網絡架構,為文本到圖像擴散模型(如 Stable Diffusion)添加空間條件控制,顯著提升生成精度。該論文在 ICCV 2023 發表,影響深遠。

  • Transparent Image Layer Diffusion(2024):提出“潛在透明度”概念,使預訓練擴散模型生成透明圖像,廣泛應用于層生成和結構控制,發表在 ACM Transactions on Graphics。

  • Style2Paints:開發了先進的圖像生成軟件,專注于動漫風格轉換和線稿上色,成果包括 2017 年的 Style Transfer for Anime Sketches 和 2018 年的 Two-stage Sketch Colorization。

  • 其他成就:Lvmin Zhang 曾開發 SmartShadow 等數字繪畫工具,并在 ECCV 2020 提出優化圖像平滑方法,創建了大規模插畫數據集 DanbooRegion。

Maneesh Agrawala

  • 背景:斯坦福大學計算機科學系 Forest Baskett 教授,兼任布朗媒體創新研究所主任。他在計算機圖形學、人機交互和可視化領域有超過 30 年的研究經驗,谷歌學術引用量超 31,664 次。

  • 重要履歷

  • 學術成就:1994 年獲斯坦福大學數學學士學位,2002 年獲計算機科學博士學位。2005-2015 年任加州大學伯克利分校教授,2015 年返回斯坦福。

  • 獎項:2006 年獲 Okawa Foundation 研究資助,2007 年獲 Sloan 獎學金和 NSF CAREER 獎,2008 年獲 SIGGRAPH 新研究員獎,2009 年獲 MacArthur 基金會天才獎。

  • 早期榮譽:1990 年參加 Westinghouse Science Talent Search,提交的蛋白質建模項目入圍決賽;1988 年在 SuperQuest 競賽中與團隊贏得超級計算機。

  • 研究貢獻

  • LineDrive(2002):開發了基于認知設計的路線地圖渲染系統,生成類似手繪的簡潔地圖,源自其博士論文。

  • ControlNet(2023):與 Lvmin Zhang 合作,提出條件控制擴散模型,革新圖像生成技術。

  • 可視化工具:開發了 EMPHASISCHECKER(2023),幫助圖表作者對齊圖表與標題的重點;以及 VisiBlends(2019),簡化視覺混合創作。

  • 視頻與動畫:領導 Vid2Player(2021),生成可控網球運動員視頻;以及 Puppet Dubbing(2019),優化視頻配音流程。

  • 影響力:Agrawala 的研究結合認知心理學,設計用戶友好的視覺界面,廣泛應用于地圖導航、機器裝配說明和 3D 模型交互,改變了我們處理復雜數字信息的方式。

兩位作者的合作將中國學者的創新力與國際頂尖研究相結合,為 FramePack 的突破性技術奠定了基礎。Lvmin Zhang 的中國背景也為項目增添了多元文化視角。

相關鏈接

  • 項目鏈接

  • 論文鏈接:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

  • GitHub 項目:https://github.com/lllyasviel/FramePack

通過以上步驟,您應能成功安裝并運行 FramePack。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85459.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85459.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85459.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Redis Sentinel 非集群模式高可用部署指南

1. Sentinel 在非集群模式的定位 一句話&#xff1a;在單主多從架構中&#xff0c;用 Sentinel 替你盯哨——探測故障、選舉新主、通知客戶端。 核心四職能&#xff1a; 職能作用點Monitoring定時 PING 主從&#xff0c;自身也互相探測Notification通過日志/PubSub/外部調用報…

2025Java面試八股文

文章目錄 Java基礎JVM多線程SpringSpring Boot數據庫與SQL分布式系統其他 Java基礎 自動裝箱與拆箱&#xff1a;Java中基礎數據類型與包裝類之間的轉換。例如&#xff0c;Integer x 1; 是裝箱&#xff0c;int y x; 是拆箱。Object類常用方法&#xff1a;如clone()、getClass…

寶塔安裝nginx-rtmp,音視頻直播

前置&#xff1a;需要自己開發音視頻直播&#xff0c; 注意不是實時音視頻&#xff0c;不是一對一視頻聊天&#xff0c;不是視頻會議 方案有 srs &#xff0c;nginx-rtmp&#xff0c;live555&#xff0c;node-media-server&#xff0c;EasyDarwin等 今天是說 nginx-rtmp 怎么…

基于微信小程序和深度學習的寵物照片拍攝指導平臺的設計與實現

文章目錄 摘要前言緒論1. 課題背景2. 國內外現狀與趨勢2.1 國內研究現狀2.2 國外研究現狀2.3 發展趨勢3. 課題內容相關技術與方法介紹1. 微信小程序開發技術2. 深度學習模型選型2.1 MobileNetV22.2 ResNet-503. 系統架構設計4. 關鍵技術實現4.1 實時拍攝指導4.2 多模態建議生成…

web布局02

Web 發展的每個不同時期都有新的技術為 Web 布局提供支持&#xff0c;但不管是哪個時期&#xff0c;Web 布局相關的概念和術語都是相同的。如果你想徹底或者更好地掌握 Web 布局&#xff0c;那么首先需要對 Web 布局相關的技術術語有所了解。 在這一節中&#xff0c;我們一起來…

Mac電腦 窗口分屏管理 Magnet Pro

Magnet Pro Mac&#xff0c;是一款功能強大的窗口分屏管理工具&#xff0c;具有多種布局模式、窗口布局功能和其他工具&#xff0c;可以幫助您高效地進行多任務處理和管理工作。 拖動窗口到邊緣&#xff0c;可將窗口大小調整到屏幕的一半。拖動窗口到角落&#xff0c;可將窗口…

http2與websocket關系

HTTP/2 和 WebSocket 協議本身確實不兼容&#xff0c;不能像在 HTTP/1.1 中那樣用標準 WebSocket 協議&#xff08;ws:// / wss://&#xff09;進行升級握手。但這事兒細節比較多&#xff0c;下面詳細講講&#xff1a; ? HTTP/2 與 WebSocket 的關系 HTTP/2 不直接支持 WebSo…

LoRA 與 CoT 沖突嗎

對于一個具有CoT 能力的模型來說&#xff0c;采用普通的數據對其進行LoRA 微調可能會使原模型丟失CoT 能力&#xff0c;從而我們進行思考如下 CoT 與 LoRA 的“沖突”理解 目標不完全一致 導致的效果優化方向&#xff1a; CoT 側重于提高推理能力和可解釋性&#xff0c;它鼓勵…

Python爬蟲-爬取票牛明星演唱會數據,進行數據分析

前言 本文是該專欄的第61篇,后面會持續分享python爬蟲干貨知識,記得關注。 本文,筆者以“票牛”平臺為例。基于Python爬蟲,采集“票牛”平臺的明星演唱會(包含“演出城市,演出票價,演出時間”等等)的數據。 廢話不多說,具體實現思路和詳細邏輯,筆者將在正文結合完整…

uniapp的video遮蓋了popup

video的默認層級太高&#xff0c;導致popup彈出的時候&#xff0c;部分被video遮擋了 可以利用cover-view&#xff0c;將popup以及內部所有的標簽&#xff0c;全都換成cover-view&#xff0c;然后用一個變量控制其顯隱 比如原始&#xff1a; 現在&#xff1a;

java面試題02訪問修飾符有哪些?區別是什么?

訪問修飾符是面向對象編程中實現封裝的核心機制&#xff0c;用于控制類、屬性、方法等成員的可見性&#xff08;可訪問范圍&#xff09;。不同的訪問修飾符決定了其他類或代碼在何處可以訪問這些成員。 主要的訪問修飾符及其區別如下&#xff08;以 Java 和 C# 為代表&#xf…

在小程序中實現上下左右拖動表格

在小程序的開發中&#xff0c;不可避免會出現上下左右拖動表格的類似需求&#xff0c;下面將把這個簡單實現一下 其中主要使用到了overflow: scroll;來使得橫向和縱向可以滾動&#xff0c;并且使用負邊距 父容器截斷的方法來同時隱藏橫向和縱向滾動條&#xff0c;從而實現該效…

[MSPM0開發]之九 MSPM0G3507的ADC

[MSPM0開發]之九 MSPM0G3507的ADC 一、 MSPM0G3507 ADC概述二、 MSPM0G3507 ADC系統框圖2.1 電壓基準2.2 分辨率2.3 硬件均值計算2.4 采樣觸發源和采樣模式2.5 轉換模式2.6 轉換結果數據格式2.7 高級特性2.7.1 非FIFO模式下的ADC操作&#xff08;單次轉換和重復單次轉換&#x…

門鎖開關;與我們生活中緊密聯系!

門鎖開關作為日常生活的核心安全組件&#xff0c;其設計與應用直接影響家居安全、使用便捷性及設備壽命&#xff0c;以下是其關鍵價值與技術要點的系統分析&#xff1a; &#x1f512; ?一、基礎功能&#xff1a;安全與便利的平衡? ?物理防護核心? ?鎖體結構?&#xff1…

WRF-Hydro分布式水文模型:洪水預報、水資源管理與規劃、生態水文研究、氣候變化影響評估、流域綜合管理、水電工程規劃與運行

目錄 第一部分&#xff1a;WRF-Hydro模型功能及運行流程、依賴庫準備 第二部分&#xff1a;WRF-Hydro模式編譯、離線運行及案例實踐 第三部分&#xff1a;結合多案例進行模式數據制備及實踐應用 【內容簡述】&#xff1a; WRF-Hydro模型是一個分布式水文模型&#xff0c;?…

OCRBench:評估多模態大模型的OCR能力

論文地址&#xff1a;OCRBench: On The Hidden Mystery of OCR In Large Multimodal Models&#xff1a;2305.07895 OCRBench在10個文本相關任務上測評多模態大模型&#xff08;LMM&#xff09;的OCR能力&#xff0c;包含1000個問題-答案對&#xff0c;每個問題-答案對包含以下…

servlet前后端交互

前后端交互目錄 servlet流程servlet請求JSON格式實現表格效果完整代碼 servlet流程 流程圖&#xff1a; 客戶端&#xff08;瀏覽器&#xff09;&#xff1a; 技術棧&#xff1a;使用 jQuery Ajax 發起異步請求。請求配置&#xff1a; 請求路徑&#xff1a;指定目標Servlet的…

4. 時間序列預測的自回歸和自動方法(2)

ar_model.AutoReg 模型通過應用以下元素來估計參數 條件最大似然&#xff08;CML&#xff09;估計量&#xff1a;這是一種涉及條件對數似然函數最大化的方法&#xff0c;據此認為已知的參數要么由理論假設固定&#xff0c;要么更常見地由估計值代替&#xff08;LewiseBeck&…

MySQL(84)如何配置MySQL防火墻?

MySQL防火墻&#xff08;MySQL Enterprise Firewall&#xff09;是一種MySQL企業版特性&#xff0c;用于保護數據庫免受SQL注入和其他惡意活動的攻擊。它通過學習和監控合法SQL語句&#xff0c;創建一個允許列表&#xff0c;從而阻止未在列表中的SQL語句。 1. 啟用MySQL防火墻…

優化 Python 爬蟲性能:異步爬取新浪財經大數據

一、同步爬蟲的瓶頸 傳統的同步爬蟲&#xff08;如requestsBeautifulSoup&#xff09;在請求網頁時&#xff0c;必須等待服務器返回響應后才能繼續下一個請求。這種阻塞式I/O操作在面對大量數據時存在以下問題&#xff1a; 速度慢&#xff1a;每個請求必須串行執行&#xff0…