源超長視頻生成模型:FramePack

FramePack 是一種下一幀(下一幀部分)預測神經網絡結構,可以逐步生成視頻。

FramePack 將輸入上下文壓縮為固定長度,使得生成工作量與視頻長度無關。即使在筆記本電腦的 GPU 上,FramePack 也能處理大量幀,甚至使用 13B 模型。

FramePack 可以使用更大的批量大小進行訓練,類似于圖像擴散訓練的批量大小。

使用 13B 模型生成 1 分鐘視頻(60 秒)以 30fps(1800 幀),所需的最低 GPU 內存為 6GB。

關于速度,在 RTX 4090 臺式機上,它以 2.5 秒/幀(未優化)或 1.5 秒/幀(teacache)的速度生成。在筆記本電腦上,比如 3070ti 筆記本電腦或 3060 筆記本電腦,它大約慢 4 倍到 8 倍。

操作UI如下:

圖片

快速理解 FramePack:

下一個幀(或下一個幀部分)預測模型看起來是這樣的:

圖片

所以我們有很多輸入幀,并希望擴散一些新幀。

我們可以將輸入幀編碼成類似這樣的 GPU 布局:

圖片

此圖表顯示了邏輯 GPU 內存布局 - 圖像幀并未拼接。

或者,比如說每個輸入幀的上下文長度。

每個幀都使用不同的 patchifying 內核進行編碼以實現這一點。

例如,在 HunyuanVideo 中,如果使用(1, 2, 2)補丁化內核,480p 幀可能是 1536 個 token。

然后,如果改為(2, 4, 4)補丁化內核,幀將是 192 個 token。

這樣,我們可以改變每個幀的上下文長度。

"更重要"的幀會分配更多的 GPU 資源(上下文長度)- 在這個例子中,F0 是最重要的,因為它是最接近"下一幀預測"目標的幀。

這是對流處理的 O(1)計算復雜度 - 是的,這是一個常數,甚至不是 O(nlogn)或 O(n)。

實際上這些是 FramePack 調度,就像這樣:

圖片

因此可以獲取不同的壓縮模式。

甚至可以讓起始幀同樣重要,這樣圖像到視頻的轉換會更加愉快

所有這些調度都是 O(1)的。

抗漂移采樣:

漂移是任何下一何-何預測模型的常見問題,漂移指的是隨著視頻變長而出現的質量退化,有時這個問題也被稱作誤差累積或曝光偏差。

圖片

(陰影方框是每次流推理中生成的幀)

注意,只有“vanilla sampling”是因果的;“anti-drifting sampling”和“inverted anti-drifting sampling”都是雙向的。

“倒置反漂移采樣”非常重要。這種方法是唯一一種在所有推理中始終將第一幀作為近似目標的。這種方法非常適合圖像到視頻。

圖像到 5 秒(30fps,150 幀)視頻生成:

圖片

圖像轉 60 秒(30fps,1800 幀)視頻生成:

圖片

項目地址:https://github.com/lllyasviel/FramePack

模型地址:https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902522.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902522.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902522.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第6次課 貪心算法 A

向日葵朝著太陽轉動,時刻追求自身成長的最大可能。 貪心策略在一輪輪的簡單選擇中,逐步導向最佳答案。 課堂學習 引入 貪心算法(英語:greedy algorithm),是用計算機來模擬一個「貪心」的人做出決策的過程…

Windows使用SonarQube時啟動腳本自動關閉

一、解決的問題 Windows使用SonarQube時啟動腳本自動關閉,并發生報錯: ERROR: Elasticsearch did not exit normally - check the logs at E:\Inori_Code\Year3\SE\sonarqube-25.2.0.102705\sonarqube-25.2.0.102705\logs\sonarqube.log ERROR: Elastic…

人機共跑,馬拉松人型機器人同跑

馬拉松比賽對人形機器人來說,是一場對硬件極限的測試,涉及機械、傳感器、能源管理等多個方面。用戶問的是硬件方面的考察和改進,這意味著我的回答需要聚焦于硬件性能,而不是算法或軟件的優化。 對人形機器人硬件的考研 機械結構與…

Ubuntu Linux 中文輸入法默認使用英文標點

先ubuntu從wayland切換到x11, sudo nano /etc/gdm3/custom.conf WaylandEnablefalse #取消注釋 sudo systemctl restart gdm3 #使設置生效然后安裝fcitx(是fcitx4版本)和 fcitx-googlepinyin, sudo apt install fcitx fcitx-googlepinyin 再sudo dpkg -i 安裝百度輸入法deb…

[論文閱讀]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2408.04870] ConfusedPilot: Confused Deputy Risks in RAG-based LLMs DEFCON AI Village 2024 文章是針對Copilot這樣一個RAG服務提供平臺的攻擊 在企業環境中整合人工智能工具(如 RAG)會…

前端做模糊查詢(含AI版)

文章目錄 前言代碼實現AI個人 總結 前言 因為table需要編輯,所以如果從后端拿數據,編輯后篩選數據就會丟失。這時候就需要前端一次性拿到所有數據進行過濾,數據進行淺拷貝,以便過濾后的數據修改之后,同步修改總數居&a…

Mujoco xml < sensor>

< sensor> jointposjointveljointactuatorfrcframequatgyroaccelerometerframeposframelinveltouchobjtype"site" objname"imu" 和site"imu"的區別python中與sensor有關的寫法傳感器名字索引第幾個idid索引傳感器名字傳感器數量sensor中的…

Python爬蟲從入門到實戰詳細版教程

Python爬蟲從入門到實戰詳細版教程 文章目錄 Python爬蟲從入門到實戰詳細版教程書籍大綱與內容概覽第一部分:爬蟲基礎與核心技術1. 第1章:[爬蟲概述](https://blog.csdn.net/qq_37360300/article/details/147431708?spm=1001.2014.3001.5501)2. 第2章:HTTP協議與Requests庫…

ubuntu--漢字、中文輸入

兩種輸入框架的安裝 ibus 鏈接 (這種方式安裝的中文輸入法不是很智能&#xff0c;不好用)。 Fcitx 鏈接這種輸入法要好用些。 簡體中文檢查 fcitx下載和配置 注意&#xff1a;第一次打開fcitx-config-qt或者fcitx configuration可能沒有“簡體中文”&#xff0c;需要把勾…

Java 數據庫性能優化:SQL 查詢的 10 個關鍵點

Java 數據庫性能優化&#xff1a;SQL 查詢的 10 個關鍵點 在 Java 開發中&#xff0c;數據庫操作是必不可少的一環。然而&#xff0c;隨著數據量的增加&#xff0c;數據庫性能問題往往會成為系統性能的瓶頸。而 SQL 查詢的優化&#xff0c;是提高數據庫性能的重要手段。本文將…

Containerd與Docker的相愛相殺:容器運行時選型指南

容器運行時&#xff08;Container Runtime&#xff09;作為云原生基礎設施的底層引擎&#xff0c;正從Docker一家獨大走向多元化競爭。本文將深入剖析Containerd與Docker的技術血緣、性能差異及選型策略&#xff0c;揭示如何根據場景需求選擇最優解。 一、技術血緣&#xff1a;…

計算機組成與體系結構:緩存(Cache)

目錄 為什么需要 Cache&#xff1f; &#x1f9f1; Cache 的分層設計 &#x1f539; Level 1 Cache&#xff08;L1 Cache&#xff09;一級緩存 &#x1f539; Level 2 Cache&#xff08;L2 Cache&#xff09;二級緩存 &#x1f539; Level 3 Cache&#xff08;L3 Cache&am…

HTTP測試智能化升級:動態變量管理實戰與效能躍遷

在Web應用、API接口測試等領域&#xff0c;測試場景的動態性和復雜性對測試數據的靈活管理提出了極高要求。傳統的靜態測試數據難以滿足多用戶并發、參數化請求及響應內容驗證等需求。例如&#xff0c;在電商系統性能測試中&#xff0c;若無法動態生成用戶ID、訂單號或實時提取…

tomcat 的安裝與啟動

文章目錄 tomcat 服務器安裝啟動本地Tomcat服務器 tomcat 服務器安裝 https://tomcat.apache.org/下載 Tomcat 10.0.X 啟動本地Tomcat服務器 進入 Tomcat 的 bin

TCP三次握手與四次揮手面試回答版本

面試官&#xff1a;說一下TCP三次握手的過程 參考面試回答&#xff1a; 在第一次握手的時候、客戶端會隨機生成初始化序號、放到TCP報文頭部的序號字段中、同時把SYN標志設置為1 這樣就表示SYN報文&#xff08;這里是請求報文&#xff09;。客戶端將報文放入 TCP 報文首部的序…

AIGC產品如何平衡用戶體驗與內容安全?

當ChatGPT能寫詩、Sora會拍電影、AI主播24小時帶貨時&#xff0c;一場關于“AI說什么”的隱形戰爭&#xff0c;正在算法與監管的夾縫中悄然爆發。 從DeepSeek的沖擊到多模態技術的祛魅&#xff0c;AIGC正在重塑內容創作的邊界。但同時&#xff0c;諸多質疑也正在發聲&#xff…

安卓垂直進度條

package 你的包名;import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.RectF; import android.util.AttributeSet; import android.view.MotionEvent; import android…

hackmyvm-airbind

收集信息 arp-scan -l nmap -sS -v 192.168.195.162 訪問掃描到的ip&#xff0c;直接跳轉到登錄頁面&#xff0c;利用admin/admin弱口令登錄 在settings.php中找到一處文件上傳&#xff0c;上傳一句話木馬&#xff0c;上傳成功 反彈shell 上傳php-reverse-shell.php 抓包&am…

【Rust 精進之路之第14篇-結構體 Struct】定義、實例化與方法:封裝數據與行為

系列: Rust 精進之路:構建可靠、高效軟件的底層邏輯 作者: 碼覺客 發布日期: 2025-04-20 引言:超越元組,給數據賦予意義 在之前的學習中,我們了解了 Rust 的基本數據類型(標量)以及兩種基礎的復合類型:元組 (Tuple) 和數組 (Array)。元組允許我們將不同類型的值組合…

jenkins尾隨命令

在訪問jenkins的網址后面可以追加命令&#xff0c;比如訪問地址是 http://10.20.0.124:8080/&#xff0c;常用的有以下幾種方式&#xff1a; 1.關閉Jenkins 只要瀏覽器輸入http://10.20.0.124:8080/exit即可退出&#xff0c;或者http://localhost:8080/exit 2.重啟Jenkins …