FramePack 是斯坦福大學主導開發的視頻生成框架,是一種用于視頻生成的下一幀(下一幀部分)預測神經網絡結構,可以逐步生成視頻。FramePack?主要開發者之一,就是業內大名鼎鼎的張呂敏大佬,AI領域的“賽博佛祖”,ControlNet的作者,站內也發布了他的很多項目一鍵包。
FramePack 的最大亮點在于其極低的硬件門檻。傳統視頻擴散模型通常需要高昂的顯存支持,而FramePack?僅需6GB顯存?即可實現全幀率(30fps)下上千幀的視頻擴散生成。這一特性使得普通消費級GPU也能輕松運行復雜的視頻生成任務,極大降低了技術應用的門檻。在RTX 4090上,單幀生成速度1.5秒(優化后),生成1分鐘視頻(1800幀)不到1小時,效率碾壓同類技術。
FramePack 基于騰訊的hunyuanvideo,只需要上傳一張照片,輸入提示詞,即可生成對應的視頻。應該是目前生成效果兼顧資源占用最優的開源視頻生成項目,尤其是人物視頻生成,效果堪稱業界翹首,AI視頻生成平民化即將由此拉開序幕。
今天分享的?FramePack V2版,基于國外大佬?FurkanGozukara 的WebUI整合,新增了首尾幀生成功能(由大佬湯團豬提交)、新增LoRA支持、新增批量生成、新增gif等圖像格式導出、新增生成分辨率和生成視頻質量選擇等。
技術特點
1. 幀上下文打包:把“無效數據”壓縮到極致
傳統模型處理每幀都“一視同仁”,導致顯存隨幀數線性增長。FramePack卻像“智能數據管家”:??對關鍵幀(如首幀、動作變化幀)用“小補丁”精細處理,保留1536個細節token; 對次要幀(如連續動作的過渡幀)用“大補丁”壓縮,僅保留192個token,顯存占用指數級下降。 最終實現計算復雜度恒定(無論生成100幀還是1000幀,算力消耗不變),徹底擺脫“幀數越多越卡頓”的魔咒。
2. 抗漂移采樣:告別“視頻越生成越歪” 長視頻生成最頭疼的問題——生成到第10幀還正常,第50幀就“畫風突變”,這是傳統“單向依賴最后一幀”的缺陷。 FramePack用“雙向記憶法”解決:??生成當前幀時,既參考最近幀的細節,又回溯首幀的核心特征,像“跟著導航走”一樣始終緊扣初始設定。 實測生成1800幀(60秒)視頻零漂移,從開場到結尾保持畫質穩定,做劇情動畫、游戲過場再也不怕“崩人設”。
3. 靈活調度策略:按需分配“算力資源” 支持4種智能模式適配不同場景:??幾何壓縮:重點保最近幀,適合實時直播、短視頻快速生成; 首幀優先:做“圖生視頻”時,讓首幀的細節100%保留,確保畫面起點高標準; 對稱壓縮:均衡處理所有幀,適合需要穩定連貫的教學視頻、產品演示片。
應用領域
1. 內容創作者:從“素材苦手”到“效率王者” 短視頻博主:再也不用花幾小時剪素材,AI直接生成30秒連貫動畫,成本降90%; 自媒體團隊:用普通電腦就能批量生成口播背景、動態特效,小成本做出大片感; 獨立游戲開發者:實時生成游戲場景過場動畫,60秒長鏡頭輕松實現,開發周期直接腰斬。
2. 技術開發者:低成本落地AI視頻功能 中小型企業:無需采購高端服務器,用現有顯卡就能在APP中嵌入“AI生成視頻”功能,比如電商平臺的商品3D展示、教育類APP的動態課件; 邊緣設備廠商:手機、VR頭顯、智能車載系統,未來都可能內置FramePack,實現“本地生成視頻”,隱私和效率雙提升。
3. 普通玩家:人人都是“視頻造物主” 用手機生成個性化短視頻:比如讓二次元角色在廚房跳舞、給寵物“配音”生成趣味動畫; 低門檻玩AI動畫:不需要懂代碼,下載開源工具就能上手,真正實現“想法即生成”。
使用教程:(建議N卡,顯存6G起,內存RAM建議32G起。基于CUDA12.8,支持50系顯卡)
上傳圖片,輸入提示詞,生成即可。
支持首位幀生成,上傳一張開始幀,一張結束幀,輸入提示詞,生成即可。
雖然顯卡要求門檻低,但部分硬件占用會轉移到內存RAM上,所以建議低顯存顯卡用戶需要有足夠的內存,建議內存32G起
類似視頻生成,如果想要速度和質量并存,顯卡還是硬性條件, 建議盡量顯卡不要太差。所以消費級顯卡只能勉強體驗,速度和質量都不會太高。
下載地址:私信獲取