首先把代碼下載下來
git@github.com:FunAudioLLM/SenseVoice.git
然后寫一個docker文件
FROM ubuntu:latestRUN apt-get update -y
RUN apt-get install -y python3-full python3-pip
RUN mkdir -p /SenseVoice
WORKDIR /SenseVoice
RUN python3 -m venv .
ENV USE_CUDA=0
EXPOSE 7860
ENV GRADIO_SERVER_NAME="0.0.0.0"
RUN ./bin/pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cpu
COPY . .
RUN ./bin/pip install -r requirements.txt
由于這里我是Mac電腦不帶GPU,所以就用了pytorch的不帶GPU的安裝模式,如果需要對應GPU的安裝方式,可以去pytorch官網看。
第三部,啟動容器,把7860端口映射。啟動,就可以在http://localhost:7860/?上看到服務了。
然后就可以錄音,通過錄音進行轉換了。考慮我是蘋果全家桶,蘋果語音轉文字的情況使用。
./ffmpeg -i test.m4a output.wav