screen-recorder-tts
RPG 游戲字幕語音實時合成,讓無聲文字游戲變有聲!
歡迎大佬們提 PR,一起完善這個項目!!!
Real-time TTS for RPG game subtitles, turning silent text games into audio experiences!
項目地址:https://github.com/tfwcn/screen-recorder-tts
拉取子模塊
git submodule init
git submodule update
1. 安裝依賴
# 創建環境
conda create --name screen-recorder-tts python=3.12 -y
# 激活環境
conda activate screen-recorder-tts# 安裝torch
pip install torch torchvision torchaudio -i https://download.pytorch.org/whl/cu126# 安裝paddlepaddle
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# 安裝paddleocr
pip install paddleocr# 安裝依賴
pip install -r requirements.txt
2. 啟動語音合成服務,推薦用 Docker 啟動
# 創建容器
docker run -it --name fish-speech --gpus all -p {你的端口}:8080 -v {項目目錄}/checkpoints:/opt/fish-speech/checkpoints -v {項目目錄}/audio:/opt/fish-speech/audio fishaudio/fish-speech:latest-dev zsh
在容器內執行下面命令
- 下載模型依賴
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
- 對于中國大陸用戶,可以通過鏡像站下載。
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
- 啟動服務
python -m tools.api_server --listen 0.0.0.0:8080 --llama-checkpoint-path "checkpoints/fish-speech-1.5" --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" --decoder-config-name firefly_gan_vq --compile
其他服務部署方式請參考README
3. 啟動腳本
python main.py --url http://127.0.0.1:8080/v1/tts
啟動后框選文字區域,后續在區域內出現的文字會自動進行語音合成并播放。
4. 配置
- 音頻可以在 main.py 中修改
if __name__ == "__main__":args = parse_args()# ref_audios = ['audio/納西坦.wav']# ref_texts = ['在一無所知中,夢里的一天結束了,一個新的輪回便會開始。']ref_audios = ['audio/鐘離.wav']ref_texts = ['在全稻妻范圍內收繳所有神之眼,鑲嵌在千手白眼神像的手中。']