零樣本身份保持:ID-Animator引領個性化視頻生成技術新前沿

在最新的研究進展中,由Xuanhua He及其團隊提出的ID-Animator技術,為個性化視頻生成領域帶來了突破性的創新。這項技術的核心在于其零樣本(zero-shot)人物視頻生成方法,它允許研究者和開發者根據單一的參考面部圖像生成具有特定身份特征的視頻,而無需進行額外的訓練步驟。

ID-Animator的設計基于兩個主要組件:一個預訓練的文本到視頻(Text-to-Video, T2V)擴散模型,以及一個輕量級的面部適配器。

ID-Animator技術的基礎是一個預訓練的文本到視頻擴散模型,該模型能夠根據文本提示生成視頻。然而,這種通用的視頻生成模型并不擅長于生成特定身份人物的視頻。為了解決這一問題,研究者們引入了一個面部適配器,以增強模型對特定身份特征的捕捉能力。

面部適配器是ID-Animator框架的關鍵部分,它負責編碼與身份相關的嵌入。這一適配器通過學習面部潛在查詢來獲取身份相關的特征,并將這些特征嵌入到視頻生成過程中。面部適配器的設計是輕量級的,這意味著它不會顯著增加模型的計算負擔。

為了提高模型在視頻生成中對身份信息的提取效率,研究者們構建了一個以身份為導向的數據集。這個流程包括以下幾個步驟:

  1. 解耦的人類視頻字幕生成:研究者們設計了一種新的字幕重寫技術,將字幕分解為兩個部分:描述人物屬性的“人類屬性字幕”和描述人物動作的“人類動作字幕”。這兩種字幕分別由不同的模型生成,然后通過一個大型語言模型整合成一個統一的、全面的字幕。

  2. 面部圖像池的構建:與以往直接使用視頻幀作為參考圖像的方法不同,ID-Animator從視頻中提取面部區域作為身份參考圖像。這種策略減少了與身份無關特征對視頻生成的影響。

為了減少參考圖像中與身份無關特征的影響,研究者們開發了一種隨機面部參考訓練方法。在訓練過程中,模型不是使用與生成目標相同的圖像作為條件,而是隨機選擇面部圖像池中的圖像作為參考。這種方法有效地將ID相關的特征與圖像中的其他內容解耦,使得適配器能夠專注于與身份相關的特征。

在實現ID-Animator時,研究者們采取了以下步驟:

  • 模型選擇:選擇AnimateDiff作為基礎的文本到視頻生成模型。

  • 數據預處理:對訓練數據進行裁剪、中心裁剪和調整大小,以適應模型的輸入要求。

  • 訓練策略:在訓練過程中,只有面部適配器的參數會被更新,而預訓練的文本到視頻模型參數保持不變。

  • 優化技術:應用分類器自由引導技術,通過一定概率使用空文本嵌入來替代原始文本嵌入,以增強生成性能。

在實驗部分,研究者們使用了開源的AnimateDiff作為文本到視頻生成模型的基礎,并在NVIDIA A100 GPU上進行了訓練。

實驗的基礎是使用開源的AnimateDiff模型作為文本到視頻生成的核心。為了適應ID-Animator的需要,研究者們對模型進行了適當的修改,特別是在面部適配器部分。訓練數據集來源于CelebV,經過預處理,包括裁剪到16幀、中心裁剪到512x512像素等步驟,以確保數據的一致性和模型的輸入要求。

在訓練ID-Animator時,只有面部適配器的參數會被更新,而預訓練的文本到視頻模型則保持固定。這樣的設計旨在減少訓練成本,同時保持模型的視頻生成能力。訓練過程中,使用了單個NVIDIA A100 GPU,并采用了1e-4的學習率。為了進一步提升生成性能,研究者們還采用了分類器自由引導技術,通過一定概率使用空文本嵌入來替代原始文本嵌入。

研究者們對ID-Animator進行了定性評估,將其生成的視頻與幾個現有的方法進行了比較。他們選擇了名人和普通個體的圖像作為測試案例,并通過大型語言模型(LLM)隨機生成了六個與人類語言風格一致的提示。這些提示用于評估模型遵循指令的能力。結果顯示,ID-Animator在面部結構、動作豐富性以及遵循文本指令的能力上均優于對比方法。

ID-Animator的應用潛力在多個方面得到了展示。研究者們展示了模型在重新情境化方面的應用,即在保持人物身份的同時改變視頻的上下文信息。這包括改變人物的發型、服裝、背景、執行特定動作以及調整年齡或性別。此外,模型還能夠混合不同人物的身份特征,生成具有混合特征的視頻。這證明了面部適配器在學習能力上的高效性。

ID-Animator還展示了與現有模型的兼容性。研究者們將其與ControlNet結合,展示了如何通過單幀或多幀控制圖像生成具有特定身份特征的視頻。此外,ID-Animator還能夠與社區模型(如Lyriel和Raemumxi)結合使用,即使這些模型從未在ID-Animator的訓練中使用過。這些實驗結果表明,ID-Animator不僅能夠生成高質量的個性化視頻,還能夠無縫地與現有的視頻生成框架集成。

通過這些實驗,研究者們證明了ID-Animator在生成特定身份人物視頻方面的優越性能。模型能夠生成穩定且具有高度身份保真度的視頻,同時保持與文本提示的一致性。此外,ID-Animator的訓練方法和數據集構建流程為零樣本個性化視頻生成提供了一個有效的解決方案,展示了其在實際應用中的廣泛潛力。

論文鏈接:https://arxiv.org/abs/2404.15275

GitHub 地址:https://github.com/ID-Animator/ID-Animator

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12239.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12239.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12239.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深度解刨性能測試工具Locust

🍅 視頻學習:文末有免費的配套視頻可觀看 🍅 關注公眾號【互聯網雜貨鋪】,回復 1 ,免費獲取軟件測試全套資料,資料在手,漲薪更快 Locust安裝 …

Python3 筆記:range() 函數

range() 函數返回數字序列,默認從 0 開始,默認以 1 遞增,并以指定的數字結束。 它的語法格式:range(start,end,step) start是起始值,end是終止值,step是間隔值 上述語句可以產生一個[start,…, end-1]列…

gin框架學習筆記(三) ——路由請求與相關參數

參數種類與參數處理 查詢參數 在講解查詢參數的定義之前,我們先來看一個例子,當我打開了CSDN,我現在想查看我的博客瀏覽量,那么我就需要點擊我的頭像來打開我的個人主頁,像下面這樣: 我們現在把瀏覽器的網址取下來,…

【35分鐘掌握金融風控策略27】貸中風控策略與客戶運營體系

目錄 貸中風控策略與客戶運營體系 貸中風控日標 貸中風控數據源 貸中風控策略與客戶運營體系 貸中是風控的第二道防線,貸中階段風控的重點工作就是存量客戶風控及運營。在當下,新客市場趨于飽和且獲客成本越來越高,所以,在做好…

基于Java的俄羅斯方塊游戲的設計與實現

關于俄羅斯方塊項目源碼.zip資源-CSDN文庫https://download.csdn.net/download/JW_559/89300281 基于Java的俄羅斯方塊游戲的設計與實現 摘 要 俄羅斯方塊是一款風靡全球,從一開始到現在都一直經久不衰的電腦、手機、掌上游戲機產品,是一款游戲規則簡單…

物聯網設計競賽_1_邊緣人工智能云計算

邊緣人工智能: 本質上邊緣人工智能,直接會在邊緣設備上運行機器學習算法,例如物聯網設備或邊緣服務器上,這樣可以減少數據傳輸延遲,提高響應速度。 云計算: 云計算模型中,數據通常被發送到遠…

在React中利用Postman測試代碼獲取數據

文章目錄 概要名詞解釋1、Postman2、axios 使用Postman測試API在React中獲取并展示數據小結 概要 在Web開發中,通過API獲取數據是一項常見任務。Postman是一個功能強大的工具,可以幫助開發者測試API,并查看API的響應數據。在本篇博客中&…

【C語言】—— 動態內存管理

【C語言】——動態內存管理 一、動態內存管理概述1.1、動態內存的概念1.2、動態內存的必要性 二、 m a l l o c malloc malloc 函數2.1、函數介紹2.2、應用舉例 三、 c a l l o c calloc calloc 函數四、 f r e e free free 函數4.1、函數介紹4.2、應用舉例 五、 r e a l l o …

無列名注入

在進行sql注入時,一般都是使用 information_schema 庫來獲取表名與列名,因此有一種場景是傳入參數時會將 information_schema 過濾 在這種情況下,由于 information_schema 無法使用,我們無法獲取表名與列名。 表名獲取方式 Inn…

Redis——Redis集群腦裂問題

Redis集群的腦裂問題(Split-Brain)是一個在分布式系統中可能發生的嚴重問題,特別是在基于主從復制和哨兵(Sentinel)機制的Redis集群環境中。以下是對Redis集群腦裂問題的詳細闡述: 定義 Redis集群腦裂問題…

FullCalendar日歷組件集成實戰(3)

背景 有一些應用系統或應用功能,如日程管理、任務管理需要使用到日歷組件。雖然Element Plus也提供了日歷組件,但功能比較簡單,用來做數據展現勉強可用。但如果需要進行復雜的數據展示,以及互動操作如通過點擊添加事件&#xff0…

SwiftUI中的常用圖形(Shapes)

概述 在SwiftUI中,常用的圖形(Shape)主要有: Circle:圓形 Ellipse:橢圓形 Capsule:膠囊形 Rectangle:矩形 RoundedRectangle:圓角矩形 上面的這些圖形都繼承了Shape協議…

DFA算法 敏感詞過濾方案匯總以及高效工具sensitive-word

敏感詞過濾方案匯總以及高效工具sensitive-word 導入pom文件 <dependency><groupId>com.github.houbb</groupId><artifactId>sensitive-word</artifactId><version>0.12.0</version> </dependency>接下來我們編寫相關測試類…

解四層負載和七層負載:Nginx 的應用示范

在網絡架構中&#xff0c;負載均衡是分配網絡或應用程序流量到多個服務器的技術&#xff0c;以優化資源使用、最大化吞吐量、最小化響應時間和避免任何單一資源的過載。Nginx&#xff0c;作為一款強大的HTTP和反向代理服務器&#xff0c;能夠處理七層&#xff08;應用層&#x…

深入剖析JVM、JDK和JRE的區別與聯系

在Java開發和運行過程中&#xff0c;JVM、JRE和JDK是三個核心組件。理解它們的區別和聯系是每個Java開發者的基礎技能。本文將深入探討這三個組件的作用、組成及其在實際應用中的重要性。 一、Java虛擬機&#xff08;JVM&#xff09; **JVM&#xff08;Java Virtual Machine&…

Hive讀寫文件機制

Hive讀寫文件機制 1.SerDe是什么&#xff1f; SerDe是Hive中的一個概念&#xff0c;代表著“序列化/反序列化” &#xff08;Serializer/Deserializer&#xff09;。 SerDe在Hive中是用來處理數據如何在Hive與底層存儲系統&#xff08;例如HDFS&#xff09;之間進行轉換的機制…

ceph糾刪碼精簡配置ec4+2:1與ec4+2的切換

概述 近期遇到項目&#xff0c;由于靈活配置&#xff0c;前期只有部分機器&#xff0c;后續擴容&#xff0c;想用ec42的糾刪碼&#xff0c;但前期只有3臺機器&#xff0c;需要做精簡ec。 erasure-code-profile 首先按照ceph創建糾刪碼池步驟進行操作。 創建ec42的rule cep…

2024國考行測、申論資料大全,做好備考真的很重要!

1. 國考是什么? 國考,全稱國家公務員考試,是選拔國家公務員的重要途徑。通過國考,你將有機會進入政府部門,為國家建設貢獻力量。 2. 國考難在哪里? 國考之所以難,主要體現在以下幾個方面: (1) 競爭激烈 每年國考報名人數都在百萬以上,而錄取率卻不足2%。千軍萬馬過獨木橋…

前端環境準備的一些注意事項

1. 安裝 node-sass4.x 需要python 2 和visual studio 2017&#xff0c;visual 2019版本不行。 2. python版本更新問題 python重新配置環境變量時&#xff0c;不會立馬生效&#xff0c;重啟可生效。 3. node版本問題 接觸一個新的項目&#xff0c;搞清楚node版本再開始準備…

node和npm版本太高導致項目無法正常安裝依賴以及正常運行的解決辦法:如何使用nvm對node和npm版本進行切換和管理

1&#xff0c;點擊下載 nvm 并且安裝 進入nvm的github&#xff1a; GitHub - coreybutler/nvm-windows: A node.js version management utility for Windows. Ironically written in Go. 這里下載發行版&#xff0c;Releases coreybutler/nvm-windows GitHub 找到 這個 nv…