Stable Video文本生成視頻公測地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI發布了首個開放視頻模型——"Stable Video",該創新工具能夠將文本和圖像輸入轉化為生動的場景,將概念轉換成動態影像,生成出電影級別的作品,旨在滿足廣泛的視頻應用需求,包括媒體、娛樂、教育和營銷等領域。"Stable Video"提供了兩種圖像到視頻的模型,能夠生成14幀和25幀的視頻,用戶還可以自行設置幀率,范圍在3到30幀每秒之間。該模型適用于多種視頻應用任務,包括從單一圖像進行多視角合成,以及在多視角數據集上進行微調。

Stable Video Diffusion模型是一種先進的文本到視頻和圖像到視頻生成模型,專為高分辨率視頻設計。研究者通過三個階段的訓練過程,強調了預訓練數據集的重要性,并提出了一種系統化的數據策劃方法來培養一個強大的基礎模型。該模型不僅為多視圖合成提供了強有力的運動和多視角先驗,還能夠微調成多視圖擴散模型,以高效的方式生成對象的多個視角。

此外,通過特定的運動提示和LoRA模塊的訓練,模型能夠實現顯式運動控制。研究者們通過策劃工作流程,將大型視頻集合轉化為高質量的數據集,并訓練出了超越先前所有模型的尖端文生視頻和圖生視頻模型。他們的方法在減少數據集大小、提高分辨率和視頻幀數方面表現出色,并在與其他頂尖模型的比較中證明了其有效性。總而言之,這一方法有效地分離了運動和內容,在多視圖合成方面取得了顯著成果。其主要步驟如下:

  1. 數據處理與標注:首先提出了一個大型視頻數據集(LVD),包含580M個標注過的視頻剪輯對,使用三種不同的合成字幕方法對每個片段進行注釋,而通過進一步研究發現,現有數據集中含有可能降低最終視頻模型性能的樣本,如運動量少、文本過多或審美價值低的視頻。因此,作者以2FPS進行計算,并通過刪除任何平均光流幅度低于某一閾值的視頻來過濾掉靜態場景。

  2. 圖像預訓練:討論了圖像預訓練作為視頻模型訓練流程中的第一個階段。作者將圖像預訓練(image pretraining)作為視頻模型訓練流程的第一個階段。他們在初始模型上使用了一個預訓練的圖像擴散模型——即Stable Diffusion 2.1——以為模型提供強大的視覺表現力

  3. 策劃視頻預訓練數據集:作者提出了一個兩階段的視頻預訓練數據集策劃流程。第一階段涉及圖像預訓練,其中利用了空間布局初始化自預訓練圖像模型的視頻模型,并展示了在預訓練大型且多樣化的數據集,然后在較小但質量更高的數據集上進行微調的效果提升。第二階段關注于策劃適合預訓練的視頻數據集。作者通過計算光流(optical flow)來過濾掉不需要的樣本以創建一個更適宜的預訓練數據集

  4. 高質量視頻微調:這一階段的目的是在一個高質量、高分辨率的視頻子集上對模型進行精細化調整。在前兩個階段(圖像預訓練和視頻預訓練)的基礎上,通過進一步的高質量微調來提升最終模型的性能。在第三階段期間,插入時間卷積和注意力層,這些是在每個空間卷積和注意力層之后添加的,與僅訓練時間層的工作或完全基于LLM(大型語言模型)的方法形成對比。

Stability AI還發布了"Stable Video Diffusion"的代碼,其github倉庫地址為:https://github.com/nateraw/stable-diffusion-videos,可以進入倉庫使用colab一鍵體驗。另外Stable Video Diffusion官網已經全面開放使用,可以直接進入官網https://www.stablevideo.com/,點擊start with text。

輸入對應的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后選擇比例和風格,點擊Generate即可開始生成視頻。

圖像和視頻的生成已成為目前人工智能最火熱的應用,而掌握良好的提示工程基礎已經成為提高工作效率、優化系統設計和提供良好用戶體驗的重要前提之一。無論是對于從事信息技術相關工作的專業人士,還是對于對提示技術感興趣的初學者,我推薦學習一下《提示工程基礎》這門課程、課程將介紹提示工程的基本知識,然后逐步過渡到高級提示技術。您還將學習如何防止提示誤用,以及如何在與基礎模型 (FM, Foundation Model) 互動時減少偏差。

課程鏈接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716303.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716303.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716303.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

STM32 DMA入門指導

什么是DMA DMA,全稱直接存儲器訪問(Direct Memory Access),是一種允許硬件子系統直接讀寫系統內存的技術,無需中央處理單元(CPU)的介入。下面是DMA的工作原理概述: 數據傳輸觸發&am…

解決Java并發問題的常見思路

寫在文章開頭 近期對一些比較老的項目進行代碼走查,碰到一些極端的并發編程惡習,所以筆者就基于此文演示這類問題以及面對并發編程時我們應該需要了解一些常見套路。 Hi,我是sharkChili,是個不斷在硬核技術上作死的java coder&am…

基于 Amazon EKS 的 Stable Diffusion ComfyUI 部署方案

01 背景介紹 Stable Diffusion 作為當下最流行的開源 AI 圖像生成模型在游戲行業有著廣泛的應用實踐,無論是 ToC 面向玩家的游戲社區場景,還是 ToB 面向游戲工作室的美術制作場景,都可以發揮很大的價值,如何更好地使用 Stable Dif…

scanf和cin的利弊

scanf和cin的利弊: scanf: 利:耗時短,寫法方便輸入固定格式,比如scanf(“%*d%d”,&a),可以直接忽略第一個輸入,不用創建新對象,再比如scanf(“%1d”,&x[i]),輸入3214&#x…

卡牌——二分

卡牌 題目分析 想一下前面題的特點,是不是都出現了“最大邊長”,“最小的數”這種字眼,那么這里出現了“最多能湊出多少套牌”,我們可以考慮用二分。接下來我們要看一下他是否符合二段性,二分的關鍵在于二段性。 第…

續Java的執行語句、方法--學習JavaEE的day07

day07 一、特殊的流程控制語句 break(day06) continue 1.理解: 作用于循環中,表示跳過循環體剩余的部分,進入到下一次循環 做實驗: while(true){ System.out.println(“111”); System.out.println(“222”); if(true){ conti…

編譯鏈接實戰(25)gcc ASAN、MSAN檢測內存越界、泄露、使用未初始化內存等內存相關錯誤

文章目錄 1 ASAN1.1 介紹1.2 原理編譯時插樁模塊運行時庫2 檢測示例2.1 內存越界2.2 內存泄露內存泄露檢測原理作用域外訪問2.3 使用已經釋放的內存2.4 將漏洞信息輸出文件3 MSAN1 ASAN 1.1 介紹 -fsanitize=address是一個編譯器選項,用于啟用AddressSanitizer(地址

基于SpringBoot的教師考勤管理系統(贈源碼)

作者主頁:易學蔚來-技術互助文末獲取源碼 簡介:Java領域優質創作者 Java項目、簡歷模板、學習資料、面試題庫 教師考勤管理系統是基于JavaVueSpringBootMySQL實現的,包含了管理員、學生、教師三類用戶。該系統實現了班級管理、課程安排、考勤…

基于springboot的足球俱樂部管理系統的設計與實現

** 🍅點贊收藏關注 → 私信領取本源代碼、數據庫🍅 本人在Java畢業設計領域有多年的經驗,陸續會更新更多優質的Java實戰項目希望你能有所收獲,少走一些彎路。🍅關注我不迷路🍅** 一 、設計說明 1.1 課題…

2024.3.3每日一題

LeetCode 用隊列實現棧 題目鏈接:225. 用隊列實現棧 - 力扣(LeetCode) 題目描述 請你僅使用兩個隊列實現一個后入先出(LIFO)的棧,并支持普通棧的全部四種操作(push、top、pop 和 empty&…

如何取消ChatGPT 4.0的自動續費和會員訂閱(chatgpt4.0自動續費嗎)

如何取消ChatGPT 4.0的自動續費和會員訂閱 ChatGPT 4.0自動續費是否存在 是的,ChatGPT 4.0 Plus會員服務存在自動續費功能。 ChatGPT 4.0 Plus會員服務自動續費 ChatGPT Plus會員服務的自動續費機制用戶在購買ChatGPT 4.0 Plus會員服務后,系統會自動…

npm ERR! code ERESOLVE

1、問題概述? 執行npm install命令的時候報錯如下: tangxiaochuntangxiaochundeMacBook-Pro stf % npm install npm ERR! code ERESOLVE npm ERR! ERESOLVE unable to resolve dependency tree npm ERR! npm ERR! While resol…

LeetCode102.二叉樹的層序遍歷

題目 給你二叉樹的根節點 root ,返回其節點值的 層序遍歷 。 (即逐層地,從左到右訪問所有節點)。 示例 輸入:root [3,9,20,null,null,15,7] 輸出:[[3],[9,20],[15,7]]輸入:root [1] 輸出&am…

SpringCloud-MQ消息隊列

一、消息隊列介紹 MQ (MessageQueue) ,中文是消息隊列,字面來看就是存放消息的隊列。也就是事件驅動架構中的Broker。消息隊列是一種基于生產者-消費者模型的通信方式,通過在消息隊列中存放和傳遞消息,實現了不同組件、服務或系統…

2024全新手機軟件下載應用排行、平臺和最新發布網站,采用響應式織夢模板

這是一款簡潔藍色的手機軟件下載應用排行、平臺和最新發布網站,采用響應式織夢模板。 主要包括主頁、APP列表頁、APP詳情介紹頁、新聞資訊列表、新聞詳情頁、關于我們等模塊頁面。 地 址 : runruncode.com/php/19703.html 軟件程序演示圖:…

最小高度樹-力扣(Leetcode)

題目鏈接 最小高度樹 思路:本質上是找到樹中的最長路徑。當最長路徑上中間點(若路經長為偶數,則中間點僅有一個,否者中間點有兩個)作為根時,此時樹高最小。 Code: class Solution { public://拓撲排序int…

【深度優先搜索】【樹】【C++算法】2003. 每棵子樹內缺失的最小基因值

作者推薦 動態規劃的時間復雜度優化 本文涉及知識點 深度優先搜索 LeetCode2003. 每棵子樹內缺失的最小基因值 有一棵根節點為 0 的 家族樹 ,總共包含 n 個節點,節點編號為 0 到 n - 1 。給你一個下標從 0 開始的整數數組 parents ,其中…

第二講:用geth和以太坊交互

一:安裝geth brew install ethereum geth github網址: https://github.com/ethereum/go-ethereum 二: 用geth連接以太坊 以太坊有主網絡(Ethereum Mainnet),有測試網絡(Sepolia、Goerli 等等…

設計模式學習筆記 - 設計原則 - 5.依賴反轉原則(控制反轉、依賴反轉、依賴注入)

前言 今天學習 SOLID 中的最后一個原則,依賴反轉原則。 本章內容,可以帶著如下幾個問題: “依賴反轉” 這個概念指的是 “誰跟誰” 的 “什么依賴” 被反轉了? “反轉” 這兩個字該如何理解。我們還經常聽到另外兩個概念&#…

【分塊三維重建】【slam】LocalRF:逐步優化的局部輻射場魯棒視圖合成(CVPR 2023)

項目地址:https://localrf.github.io/ 題目:Progressively Optimized Local Radiance Fields for Robust View Synthesis 來源:KAIST、National Taiwan University、Meta 、University of Maryland, College Park 提示:文章用了s…