一、配置
顯卡:v100(測試簡短語句,顯存實際占用不足6G)
二、安裝測試
1. 安裝
1.1 下載源碼
git clone https://github.com/fishaudio/fish-speech.git
1.2 安裝系統組件
apt install portaudio19-dev libsox-dev ffmpeg
1.3 conda創建虛擬環境
conda create -n fish-speech python=3.12
conda activate fish-speechpip install -e .
2. 下載模型
cd /data/models
mkdir openaudio-s1-mini
modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini
3. webui測試
3.1 啟動命令
export GRADIO_SERVER_NAME=192.168.114.114
python -m tools.run_webui \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq
3.2 訪問
頁面:http://192.168.114.114:7860/
- 隨機音色
在Input Text中鍵入要生成的文字,點擊Generate。
- 固定音色
需要在Reference Audio上傳音頻和Reference Text鍵入音頻對應的文字,之后就可以在Input Text中鍵入要生成的文字,點擊Generate即可。
4. api測試
4.1 啟動服務端
python -m tools.api_server \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq
4.2 客戶端調用
默認保存到generated_audio.wav,也可以通過指定--output
參數重命名。
- 隨機音色
python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后,又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play
- 固定音色
–reference_audio指定要參考的音頻,–reference_text指定參考音頻的文字,-t指定要生成的音頻文字,–no-play禁止生成后播放。
python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后,又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play \--reference_audio 'fake.wav' \--reference_text '您想要轉換的文本'
5. 總結
fish-speech和各類工具,功能越來越強大的同時,v100這些舊顯卡,也漸漸要退出歷史舞臺了,官方文檔說您可能希望使用 --compile 來融合 CUDA 內核以實現更快的推理(~15 token/秒 -> ~150 token/秒,在RTX 4090 GPU上
,但是v100不支持了。