源超長視頻生成模型：FramePack

源超長視頻生成模型：FramePack

news/2025/7/21 6:01:43/文章來源:https://blog.csdn.net/changjuanfang/article/details/147409686

FramePack 是一種下一幀（下一幀部分）預測神經網絡結構，可以逐步生成視頻。

FramePack 將輸入上下文壓縮為固定長度，使得生成工作量與視頻長度無關。即使在筆記本電腦的 GPU 上，FramePack 也能處理大量幀，甚至使用 13B 模型。

FramePack 可以使用更大的批量大小進行訓練，類似于圖像擴散訓練的批量大小。

使用 13B 模型生成 1 分鐘視頻（60 秒）以 30fps（1800 幀），所需的最低 GPU 內存為 6GB。

關于速度，在 RTX 4090 臺式機上，它以 2.5 秒/幀（未優化）或 1.5 秒/幀（teacache）的速度生成。在筆記本電腦上，比如 3070ti 筆記本電腦或 3060 筆記本電腦，它大約慢 4 倍到 8 倍。

操作UI如下：

快速理解 FramePack：

下一個幀（或下一個幀部分）預測模型看起來是這樣的：

所以我們有很多輸入幀，并希望擴散一些新幀。

我們可以將輸入幀編碼成類似這樣的 GPU 布局：

此圖表顯示了邏輯 GPU 內存布局 - 圖像幀并未拼接。

或者，比如說每個輸入幀的上下文長度。

每個幀都使用不同的 patchifying 內核進行編碼以實現這一點。

例如，在 HunyuanVideo 中，如果使用(1, 2, 2)補丁化內核，480p 幀可能是 1536 個 token。

然后，如果改為(2, 4, 4)補丁化內核，幀將是 192 個 token。

這樣，我們可以改變每個幀的上下文長度。

"更重要"的幀會分配更多的 GPU 資源（上下文長度）- 在這個例子中，F0 是最重要的，因為它是最接近"下一幀預測"目標的幀。

這是對流處理的 O(1)計算復雜度 - 是的，這是一個常數，甚至不是 O(nlogn)或 O(n)。

實際上這些是 FramePack 調度，就像這樣：

因此可以獲取不同的壓縮模式。

甚至可以讓起始幀同樣重要，這樣圖像到視頻的轉換會更加愉快

所有這些調度都是 O(1)的。

抗漂移采樣:

漂移是任何下一何-何預測模型的常見問題,漂移指的是隨著視頻變長而出現的質量退化,有時這個問題也被稱作誤差累積或曝光偏差。

（陰影方框是每次流推理中生成的幀）

注意，只有“vanilla sampling”是因果的;“anti-drifting sampling”和“inverted anti-drifting sampling”都是雙向的。

“倒置反漂移采樣”非常重要。這種方法是唯一一種在所有推理中始終將第一幀作為近似目標的。這種方法非常適合圖像到視頻。

圖像到 5 秒（30fps，150 幀）視頻生成：

圖像轉 60 秒（30fps，1800 幀）視頻生成：

項目地址：https://github.com/lllyasviel/FramePack

模型地址：https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/902522.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/902522.shtml
英文地址，請注明出處：http://en.pswp.cn/news/902522.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

第6次課貪心算法 A

第6次課貪心算法 A

向日葵朝著太陽轉動，時刻追求自身成長的最大可能。貪心策略在一輪輪的簡單選擇中，逐步導向最佳答案。課堂學習引入貪心算法（英語：greedy algorithm），是用計算機來模擬一個「貪心」的人做出決策的過程…

閱讀更多...

Windows使用SonarQube時啟動腳本自動關閉

Windows使用SonarQube時啟動腳本自動關閉

一、解決的問題 Windows使用SonarQube時啟動腳本自動關閉，并發生報錯： ERROR: Elasticsearch did not exit normally - check the logs at E:\Inori_Code\Year3\SE\sonarqube-25.2.0.102705\sonarqube-25.2.0.102705\logs\sonarqube.log ERROR: Elastic…

閱讀更多...

人機共跑，馬拉松人型機器人同跑

人機共跑，馬拉松人型機器人同跑

馬拉松比賽對人形機器人來說，是一場對硬件極限的測試，涉及機械、傳感器、能源管理等多個方面。用戶問的是硬件方面的考察和改進，這意味著我的回答需要聚焦于硬件性能，而不是算法或軟件的優化。對人形機器人硬件的考研機械結構與…

閱讀更多...

Ubuntu Linux 中文輸入法默認使用英文標點

Ubuntu Linux 中文輸入法默認使用英文標點

先ubuntu從wayland切換到x11, sudo nano /etc/gdm3/custom.conf WaylandEnablefalse #取消注釋 sudo systemctl restart gdm3 #使設置生效然后安裝fcitx(是fcitx4版本)和 fcitx-googlepinyin, sudo apt install fcitx fcitx-googlepinyin 再sudo dpkg -i 安裝百度輸入法deb…

閱讀更多...

[論文閱讀]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

[論文閱讀]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2408.04870] ConfusedPilot: Confused Deputy Risks in RAG-based LLMs DEFCON AI Village 2024 文章是針對Copilot這樣一個RAG服務提供平臺的攻擊在企業環境中整合人工智能工具（如 RAG）會…

閱讀更多...

前端做模糊查詢（含AI版）

前端做模糊查詢（含AI版）

文章目錄前言代碼實現AI個人總結前言因為table需要編輯，所以如果從后端拿數據，編輯后篩選數據就會丟失。這時候就需要前端一次性拿到所有數據進行過濾，數據進行淺拷貝，以便過濾后的數據修改之后，同步修改總數居&a…

閱讀更多...

Mujoco xml ＜ sensor＞

Mujoco xml ＜ sensor＞

< sensor> jointposjointveljointactuatorfrcframequatgyroaccelerometerframeposframelinveltouchobjtype"site" objname"imu" 和site"imu"的區別python中與sensor有關的寫法傳感器名字索引第幾個idid索引傳感器名字傳感器數量sensor中的…

閱讀更多...

Python爬蟲從入門到實戰詳細版教程

Python爬蟲從入門到實戰詳細版教程

Python爬蟲從入門到實戰詳細版教程文章目錄 Python爬蟲從入門到實戰詳細版教程書籍大綱與內容概覽第一部分：爬蟲基礎與核心技術1. 第1章：[爬蟲概述](https://blog.csdn.net/qq_37360300/article/details/147431708?spm=1001.2014.3001.5501)2. 第2章：HTTP協議與Requests庫…

閱讀更多...

ubuntu--漢字、中文輸入

ubuntu--漢字、中文輸入

兩種輸入框架的安裝 ibus 鏈接 (這種方式安裝的中文輸入法不是很智能，不好用)。 Fcitx 鏈接這種輸入法要好用些。簡體中文檢查 fcitx下載和配置注意：第一次打開fcitx-config-qt或者fcitx configuration可能沒有“簡體中文”，需要把勾…

閱讀更多...

Java 數據庫性能優化：SQL 查詢的 10 個關鍵點

Java 數據庫性能優化：SQL 查詢的 10 個關鍵點

Java 數據庫性能優化：SQL 查詢的 10 個關鍵點在 Java 開發中，數據庫操作是必不可少的一環。然而，隨著數據量的增加，數據庫性能問題往往會成為系統性能的瓶頸。而 SQL 查詢的優化，是提高數據庫性能的重要手段。本文將…

閱讀更多...

Containerd與Docker的相愛相殺：容器運行時選型指南

Containerd與Docker的相愛相殺：容器運行時選型指南

容器運行時（Container Runtime）作為云原生基礎設施的底層引擎，正從Docker一家獨大走向多元化競爭。本文將深入剖析Containerd與Docker的技術血緣、性能差異及選型策略，揭示如何根據場景需求選擇最優解。一、技術血緣：…

閱讀更多...

計算機組成與體系結構：緩存（Cache）

計算機組成與體系結構：緩存（Cache）

目錄為什么需要 Cache？ 🧱 Cache 的分層設計 🔹 Level 1 Cache（L1 Cache）一級緩存 🔹 Level 2 Cache（L2 Cache）二級緩存 🔹 Level 3 Cache（L3 Cache&am…

閱讀更多...

HTTP測試智能化升級：動態變量管理實戰與效能躍遷

HTTP測試智能化升級：動態變量管理實戰與效能躍遷

在Web應用、API接口測試等領域，測試場景的動態性和復雜性對測試數據的靈活管理提出了極高要求。傳統的靜態測試數據難以滿足多用戶并發、參數化請求及響應內容驗證等需求。例如，在電商系統性能測試中，若無法動態生成用戶ID、訂單號或實時提取…

閱讀更多...

tomcat 的安裝與啟動

tomcat 的安裝與啟動

文章目錄 tomcat 服務器安裝啟動本地Tomcat服務器 tomcat 服務器安裝 https://tomcat.apache.org/下載 Tomcat 10.0.X 啟動本地Tomcat服務器進入 Tomcat 的 bin

閱讀更多...

TCP三次握手與四次揮手面試回答版本

TCP三次握手與四次揮手面試回答版本

面試官：說一下TCP三次握手的過程參考面試回答： 在第一次握手的時候、客戶端會隨機生成初始化序號、放到TCP報文頭部的序號字段中、同時把SYN標志設置為1 這樣就表示SYN報文（這里是請求報文）。客戶端將報文放入 TCP 報文首部的序…

閱讀更多...

AIGC產品如何平衡用戶體驗與內容安全？

AIGC產品如何平衡用戶體驗與內容安全？

當ChatGPT能寫詩、Sora會拍電影、AI主播24小時帶貨時，一場關于“AI說什么”的隱形戰爭，正在算法與監管的夾縫中悄然爆發。從DeepSeek的沖擊到多模態技術的祛魅，AIGC正在重塑內容創作的邊界。但同時，諸多質疑也正在發聲&#xff…

閱讀更多...

安卓垂直進度條

安卓垂直進度條

package 你的包名;import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.RectF; import android.util.AttributeSet; import android.view.MotionEvent; import android…

閱讀更多...

hackmyvm-airbind

hackmyvm-airbind

收集信息 arp-scan -l nmap -sS -v 192.168.195.162 訪問掃描到的ip，直接跳轉到登錄頁面，利用admin/admin弱口令登錄在settings.php中找到一處文件上傳，上傳一句話木馬，上傳成功反彈shell 上傳php-reverse-shell.php 抓包&am…

閱讀更多...

【Rust 精進之路之第14篇-結構體 Struct】定義、實例化與方法：封裝數據與行為

【Rust 精進之路之第14篇-結構體 Struct】定義、實例化與方法：封裝數據與行為

系列： Rust 精進之路：構建可靠、高效軟件的底層邏輯作者：碼覺客發布日期： 2025-04-20 引言：超越元組，給數據賦予意義在之前的學習中，我們了解了 Rust 的基本數據類型（標量）以及兩種基礎的復合類型：元組 (Tuple) 和數組 (Array)。元組允許我們將不同類型的值組合…

閱讀更多...

jenkins尾隨命令

jenkins尾隨命令

在訪問jenkins的網址后面可以追加命令，比如訪問地址是 http://10.20.0.124:8080/，常用的有以下幾種方式： 1.關閉Jenkins 只要瀏覽器輸入http://10.20.0.124:8080/exit即可退出，或者http://localhost:8080/exit 2.重啟Jenkins …

閱讀更多...

最新文章