Ditto-Talkinghead:阿里巴巴數字人技術新突破 🗣?
?
阿里巴巴推出了一項新的數字人技術,名為 Ditto-Talkinghead。這項技術主要用于生成由音頻驅動的說話頭,也就是我們常說的“數字人”。不過,現有的基于擴散模型的同類技術存在一些問題,例如:
- ? ???推理速度慢:難以滿足需要即時響應的互動應用場景。
- ? 🎛??控制性不足:對面部動作的精細控制還不夠到位。
- ? 👁??視覺偽影:有時會產生不自然的視覺效果,影響觀看體驗。
這些問題很大程度上是由于依賴變分自編碼器(VAE)產生的隱式潛在空間造成的。
Ditto-Talkinghead 的主要優勢 ?
Ditto-Talkinghead 在以下幾個方面表現出色:
- ? ??實時性:經過優化,可以實現接近實時的生成速度。
- ? 🕹??高控制性:能夠精確控制面部動作,例如表情、頭部姿態和視線方向。
- ? 🖼??高質量:生成的說話頭視頻效果逼真,唇形與語音同步準確,表情和頭部運動自然流暢。
- ? 🤸?靈活性:僅需一張靜態圖像,即可生成動態的說話頭視頻。
?
快速上手指南 🚀
為了方便大家體驗,我們已經將這個 AI 工具打包成了一個本地一鍵啟動包。你只需要簡單幾步操作,就可以在自己的電腦上使用,無需擔心隱私泄露或者復雜的環境配置問題。
🖥? 電腦配置要求
- ? 操作系統:Windows 10/11 64位
- ? 顯卡:8G 顯存以上的英偉達顯卡
- ? CUDA 版本:>= 12.1
?? 下載和使用教程
- 1.?下載壓縮包:
下載地址:https://xueshu.fun/5871/ - 2.?解壓文件:
將下載的壓縮包解壓到電腦上,注意解壓路徑最好不要包含非英文字符。然后,雙擊 "run.exe" 文件運行。 - 3.?瀏覽器訪問:
程序會自動打開你的默認瀏覽器,顯示如下界面: