CosyVoice 介紹
CosyVoice 是阿里研發的一個tts大模型
官方項目地址:https://github.com/FunAudioLLM/CosyVoice.git
下載項目(非官方)
git clone --recursive https://github.com/v3ucn/CosyVoice_for_MacOs.git
進入項目
cd CosyVoice_for_MacOs
git submodule update --init --recursive
創建運行環境
conda create -n cosyvoice python=3.8
conda activate cosyvoice
安裝依賴
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
# 安裝sox
brew install sox
#安裝git-lfs(重要,不然下面下載模型能成功,但實際下載不完整,很多人遇到這個坑)
brew install git-lfs
# git模型下載,請確保已安裝git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
配置環境變量
export PYTHONPATH=third_party/Matcha-TTS
運行
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
期間可能遇見下面幾種問題
1.
There is no such entity as cosyvoice.utils.common.ras_sampling
cosyvoice模型的問題,這個是由于cosyvoice模型部分添加了一個采樣器,但 GitHub 上開源的代碼中沒有包含該采樣器。
解決方法
打開項目目錄下的models/TTS/CosyVoice-300M/cosyvoice.yaml文件
屏蔽下面這段代碼:
sampling: !name:cosyvoice.utils.common.ras_sampling
top_p: 0.8
top_k: 25
win_size: 10
tau_r: 0.1
---------
2.
cannot import name 'cached_download' from 'huggingface_hub'?
參考 https://blog.csdn.net/weixin_41492426/article/details/143215577
0.26 及以上的版本不支持 cached_download 了。
該庫好像對別的庫沒有啥影響,所以直接裝一個舊版本就行了:
pip install huggingface_hub==0.25.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
3.
onnxruntime.capi.onnxruntime_pybind11_state.InvalidProtobuf: [ONNXRuntimeError] : 7 : INVALID_PROTOBUF : Load model from pretrained_models/CosyVoice-300M/campplus.onnx failed:Protobuf parsing failed.
出現這個主要是沒有安裝好git-lfs,導致沒正確下載完整模型,安裝好后重新下載模型即可解決。
使用
1.直接生成音頻
正常運行起來后會自動開這個界面,然后點擊生成音頻,如果環境都安裝正常,就能正常生成音頻。(沒有顯卡,生成非常慢,按分鐘小時算)
2.復刻音色
準確操作上述紅色位置后,點擊生成,既可以生成音頻,同樣非常慢。
實驗效果還可以的,跟官網demo效果差不多。