LatentSync V8版 - 音頻驅動視頻生成數字人說話視頻更新V1.6版模型支持50系顯卡支持批量一鍵整合包下載

LatentSync 是字節跳動開源的一款"AI口型同步神器"，簡單來說就是能讓視頻里的人物嘴巴動得和聲音完美匹配的工具。比如你給一段配音，它能自動調整視頻人物的嘴型，按照配音里的聲音說出來，就像真人說話一樣自然。簡單說就是個讓"假人說話像真人"的黑科技，拍視頻、做直播的小伙伴用起來特別方便，也可廣泛應用于數字人生成領域，自媒體必備神器。

今天分享的 LatentSync V8版，主要更新最新的1.6版模型（該版模型在 512??×??512 分辨率的視頻上進行了訓練，大幅度提升了生成嘴部的清晰度）
新增對50系顯卡的支持
新增批量處理（根據網友反饋，更改批處理方式，支持一鍵拖拽多個文件）

新增人臉檢測模型
同步官方最新源代碼。

?主要特點

低門檻?：消費級的電腦就能運行，對普通用戶很友好 ?
操作簡單?：直接"聲音控制嘴巴"，不需要復雜操作
效果流暢?：獨有的"時間對齊"技術，避免視頻卡頓或跳幀
高精度?：采用類似Stable Diffusion的AI技術，嘴型同步非常精準 ?

應用領域??

影視配音：讓外國電影的口型匹配中文配音
虛擬主播：讓數字人說話更自然
短視頻創作：輕松制作對口型視頻
游戲開發：讓游戲角色說話更真實

使用教程：（建議N卡，顯存16G起。支持50系顯卡，基于CUDA12.8）

因模型更新，模型從256x256提升到512x512，故對硬件支持也對應提升，顯卡顯存建議16G起。
單次生成：上傳一段音頻和視頻，設置參數，生成即可。
批量生成：批量上傳視頻和音頻，視頻和音頻數量得一樣，按照順序一一對應。

注意事項：上傳參考音頻和視頻時間長度最好一致，如果音頻長度大于視頻長度，則默認按照視頻時長長度生成。如果視頻長度大于音頻長度，默認按照音頻時長長度生成。
解壓說明：一鍵包和模型包分開打包上傳，分別下載一鍵包和模型包，先解壓一鍵包，再下載模型包并復制到一鍵包目錄下，右鍵->解壓到當前文件夾，目錄結構參考一鍵包內文檔說明。

下載地址：https://deepfaces.cc/thread-699-1-1.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/84841.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/84841.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/84841.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！