項目簡介
FunASR 是阿里巴巴達摩院開源的端到端語音識別工具箱,集成了多種語音識別、語音活動檢測(VAD)、說話人識別等模塊。其中 paraformer-zh
和 paraformer-zh-streaming
是針對中文語音識別任務優化的端到端模型,分別適用于離線和流式場景。Paraformer 采用并行 Transformer 架構,兼具高精度和低延遲,廣泛應用于智能客服、會議轉寫、語音助手等場景。
- 主要特點:
- 端到端中文語音識別,支持離線和流式推理
- 高精度、低延遲,適合工業級部署
- 預訓練模型開箱即用,支持 ModelScope 云推理
- 支持多種硬件平臺和部署方式
快速上手
1. 環境準備
建議使用 Python 3.8+,推薦在虛擬環境下安裝:
pip install funasr
或直接使用 ModelScope 平臺:
pip install modelscope
2. 離線識別(paraformer-zh)
from funasr import AutoModelmodel = AutoModel.from_pretrained("iic/paraformer-zh-16k-common-vocab8404-pytorch")
result = model.generate(input="example.wav")
print(result)
# 輸出示例: [{'text': '你好,歡迎使用FunASR。', 'timestamp': [(0.0, 1.2)]}]
3. 流式識別(paraformer-zh-streaming)
from funasr import AutoModelmodel = AutoModel.from_pretrained("iic/paraformer-zh-streaming-16k-common-vocab8404-pytorch")
# 假設 audio_chunks 為分幀后的音頻數據
for chunk in audio_chunks:result = model.generate(input=chunk, is_final=False)print(result)
result = model.generate(input=last_chunk, is_final=True)
print(result)
4. 命令行工具
funasr asr --input example.wav --output result.json --model paraformer-zh
典型應用場景與案例(結合大模型)
隨著大模型(如 Whisper、GPT-4、音頻/多模態 LLM、AIGC 等)的興起,Paraformer-zh 與大模型結合后,極大提升了語音理解、智能交互等系統的效率與智能化水平。以下場景均以“ASR+大模型”為核心鏈路,給出細節與代碼示例:
1. 智能語音助手前端識別與理解
- 流程:Paraformer-zh 實時識別語音 → Whisper/GPT-4V 等大模型做語義理解/對話生成 → 提升交互體驗
- 案例:智能音箱、車載助手等場景,前端識別后送入大模型,顯著提升響應速度和準確率
- 代碼片段:
from funasr import AutoModel
import