【fish-speech】新模型openaudio-s1-mini嘗鮮

一、配置

顯卡：v100（測試簡短語句，顯存實際占用不足6G）

二、安裝測試

1. 安裝

1.1 下載源碼

git clone https://github.com/fishaudio/fish-speech.git

1.2 安裝系統組件

apt install portaudio19-dev libsox-dev ffmpeg

1.3 conda創建虛擬環境

conda create -n fish-speech python=3.12
conda activate fish-speechpip install -e .

2. 下載模型

cd /data/models
mkdir openaudio-s1-mini
modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini

3. webui測試

3.1 啟動命令

export GRADIO_SERVER_NAME=192.168.114.114
python -m tools.run_webui \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq

3.2 訪問

頁面：http://192.168.114.114:7860/

隨機音色

在Input Text中鍵入要生成的文字，點擊Generate。

在這里插入圖片描述

固定音色

需要在Reference Audio上傳音頻和Reference Text鍵入音頻對應的文字，之后就可以在Input Text中鍵入要生成的文字，點擊Generate即可。

在這里插入圖片描述

4. api測試

4.1 啟動服務端

python -m tools.api_server \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq

4.2 客戶端調用

默認保存到generated_audio.wav，也可以通過指定--output參數重命名。

隨機音色

python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后，又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play

固定音色

–reference_audio指定要參考的音頻，–reference_text指定參考音頻的文字，-t指定要生成的音頻文字，–no-play禁止生成后播放。

python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后，又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play \--reference_audio 'fake.wav' \--reference_text '您想要轉換的文本'

5. 總結

fish-speech和各類工具，功能越來越強大的同時，v100這些舊顯卡，也漸漸要退出歷史舞臺了，官方文檔說您可能希望使用 --compile 來融合 CUDA 內核以實現更快的推理（~15 token/秒 -> ~150 token/秒，在RTX 4090 GPU上,但是v100不支持了。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/86781.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/86781.shtml
英文地址，請注明出處：http://en.pswp.cn/web/86781.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！