在當今數字時代,音視頻內容越來越多,但如何快速將其轉換為文字一直是一個挑戰。本項目提供了一個免費的解決方案,支持將視頻和音頻文件轉換為文字,并且支持多語言識別。
一個支持中英文的音視頻轉文字工具,集成了 Vosk(離線)和 Whisper(在線)雙引擎,可以將視頻(mp4/mov)和音頻(wav)轉換為文字,并自動生成帶時間戳的字幕文件。
Speech to Text?是一個用于Adobe Premiere Pro的插件,它可以將視頻和語音轉換為自動字幕文本。這個插件為視頻編輯人員和內容創作者提供了一個簡單而高效的方式來創建字幕,節省了大量手動添加字幕的時間和精力。總之,Adobe Speech to Text是一個強大而實用的插件,為視頻編輯人員和內容創作者提供了高效、準確的語音轉文字幕的功能。它簡化了字幕制作的過程,節省了時間和精力,同時提供了一些個性化的選項,使字幕效果更加豐富和獨特。無論是制作專業視頻還是個人創作,這個插件都是一個非常有價值的工具。
技術特點
-
雙引擎支持
- Vosk:開源語音識別引擎,支持離線使用
- Whisper:OpenAI 開源的強大語音識別模型
-
多語言支持
- 英文識別
- 中文識別
- 其他語言支持(Whisper)
- 自動語言檢測(Whisper)
-
靈活的輸出格式
- 純文本轉錄(transcript.txt)
- 帶時間戳的 JSON 格式(words.json)
- SRT 字幕文件(captions.srt)
-
支持多種音視頻格式
- 視頻:mp4, mov
- 音頻:wav(支持自動轉換)
核心功能
-
視頻轉文字
- 自動提取音頻
- 生成對應文字和字幕
-
音頻轉文字
- 支持長音頻處理
- 自動分段處理
-
Whisper 模型選擇
- tiny:速度最快,適合測試
- base (139M):平衡速度和準確率
- small:適合一般用途
- medium (1.42G):較高準確率
- large:最高準確率
預處理為wav
音頻必須是?.wav
?格式 ffmpeg 將 mp3 轉換為 wav:?ffmpeg -i input.mp3 output.wav
ffmpeg 將 mp4 轉換為 wav:?ffmpeg -i input.mp4 -vn -acodec pcm_s16le -ar 44100 -ac 2 output.wav
性能優化建議
-
模型選擇
- 短音頻或測試:使用 tiny/base
- 一般用途:使用 base/small
- 文字基本準確:使用 medium
- 追求最高準確率:使用 large
-
系統要求
- 8GB RAM:建議使用 tiny/base 模型
- 16GB RAM:可以使用 small/medium 模型
- 32GB+ RAM:可以使用 large 模型
-
處理長音頻
- 自動分段處理
- 智能合并結果
- 內存使用優化
使用場景
-
會議記錄
- 自動生成會議文字記錄
- 支持字幕時間軸
-
視頻內容處理
- YouTube 視頻轉錄
- 教育視頻字幕生成
-
音頻檔案處理
- 語音筆記轉文字
- 播客內容轉錄