CosyVoic主要特點:
1、支持中文、英文、上海話、天津話、四川話等方言。語音非常自然。
2、支持3秒語音零樣本克隆,效果非常好。
3、克隆時間比較長(取決于GPU性能,使用H20以滿足低延遲輸出),L4 克隆默認文本需要10秒。
MacOS上運行比較簡單,直接使用docker即可,雖然是docker是 AMD64版本非ARM64版本,但在容器中仍然可以使用,但性能會有所損失,相當于直接用的CPU,也沒有使用MPS加速。
運行服務命令:
docker run --name cosyvoice -p 50000:50000 -d bobui/cosyvoice:h20_v2.20250801 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --model_dir iic/CosyVoice-300M"
以上bash命令會自動下載300M模型,并以grpc接口運行。
若想使用CosyVoice2-0.5B,只需要修改模型名稱后運行即可。如:
docker run --name cosyvoice -p 50000:50000 -d bobui/cosyvoice:h20_v2.20250801 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5M"
若想使用fastapi,只需要將grpc修改為fastapi即可。
零樣本測試命令:
cd?/opt/CosyVoice/CosyVoice/runtime/python/grpc
python client.py --mode zero_shot
說明:默認使用asset/zero_shot_prompt.wav 作為參考聲音
輸出默認文件名稱為:demo.wav
若要指定參考聲音:--prompt_wav "你的參考聲音.wav"
若要指定克隆文本:--tts_text "你需要克隆的文本內容"
最大的坑:
若改變默認的參考聲音,則克隆出的聲音與克隆文本完全不一致,好像模型自由發揮了嗎?
這里需要同時指定--prompt_text 這個參數才可以。