Whisper模型版本及下載鏈接
Whisper是OpenAI開發的語音識別模型,以下按模型規模從小到大排列,包含不同語言版本及通用版本:
1. Tiny系列(輕量級)
- tiny.en.pt(英文專用):
https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt - tiny.pt(多語言通用):
https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt
2. Base系列(基礎版)
- base.en.pt(英文專用):
https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt - base.pt(多語言通用):
https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt
3. Small系列(小型)
- small.en.pt(英文專用):
https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt - small.pt(多語言通用):
https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt
4. Medium系列(中型)
- medium.en.pt(英文專用):
https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt - medium.pt(多語言通用):
https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt
5. Large系列(大型)
- large-v1.pt(v1版本):
https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt - large-v2.pt(v2版本):
https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt - large-v3.pt(v3版本):
https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt - large.pt(默認指向v3版本):
https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt
模型選擇建議
- 輕量級部署(如移動設備、邊緣計算):選擇
tiny
或base
系列,模型體積小,推理速度快,但識別精度相對較低。 - 平衡精度與性能:
small
或medium
系列適合常規場景(如音頻轉文字、實時字幕),多語言支持較好。 - 高精度需求(如專業音頻處理):
large
系列(尤其是v3版本)性能最強,支持更多語言和復雜場景,但對計算資源要求高。 - 僅處理英文內容:優先選擇帶
.en
后綴的模型,針對性優化后精度更高。