LatentSync 是字節跳動開源的一款"AI口型同步神器",簡單來說就是能讓視頻里的人物嘴巴動得和聲音完美匹配的工具。比如你給一段配音,它能自動調整視頻人物的嘴型,按照配音里的聲音說出來,就像真人說話一樣自然。簡單說就是個讓"假人說話像真人"的黑科技,拍視頻、做直播的小伙伴用起來特別方便,也可廣泛應用于數字人生成領域,自媒體必備神器。
今天分享的 LatentSync V8版,主要更新最新的1.6版模型(該版模型在 512??×??512 分辨率的視頻上進行了訓練,大幅度提升了生成嘴部的清晰度)
新增對50系顯卡的支持
新增批量處理(根據網友反饋,更改批處理方式,支持一鍵拖拽多個文件)
新增人臉檢測模型
同步官方最新源代碼。
?主要特點
低門檻?:消費級的電腦就能運行,對普通用戶很友好 ?
操作簡單?:直接"聲音控制嘴巴",不需要復雜操作
效果流暢?:獨有的"時間對齊"技術,避免視頻卡頓或跳幀
高精度?:采用類似Stable Diffusion的AI技術,嘴型同步非常精準 ?
應用領域??
影視配音:讓外國電影的口型匹配中文配音
虛擬主播:讓數字人說話更自然
短視頻創作:輕松制作對口型視頻
游戲開發:讓游戲角色說話更真實
使用教程:(建議N卡,顯存16G起。支持50系顯卡,基于CUDA12.8)
因模型更新,模型從256x256提升到512x512,故對硬件支持也對應提升,顯卡顯存建議16G起。
單次生成:上傳一段音頻和視頻,設置參數,生成即可。
批量生成:批量上傳視頻和音頻,視頻和音頻數量得一樣,按照順序一一對應。
注意事項:上傳參考音頻和視頻時間長度最好一致,如果音頻長度大于視頻長度,則默認按照視頻時長長度生成。如果視頻長度大于音頻長度,默認按照音頻時長長度生成。
解壓說明:一鍵包和模型包分開打包上傳,分別下載一鍵包和模型包,先解壓一鍵包,再下載模型包并復制到一鍵包目錄下,右鍵->解壓到當前文件夾,目錄結構參考一鍵包內文檔說明。
下載地址:https://deepfaces.cc/thread-699-1-1.html