📌??大家好,我是智界工具庫,每天分享好用實用且智能的開源項目,以及在JAVA語言開發中遇到的問題,如果本篇文章對您有所幫助,請幫我點個小贊小收藏小關注吧,謝謝喲!😘
博主聲明:本文旨在提供技術指導和靈感,不涉及任何具體軟件或工具的推廣。
一、簡介:
???????????????《VideoCaptioner》操作簡單且無需高配置,支持網絡調用和本地離線(支持調用GPU)兩種方式進行語音識別,利用大語言模型進行字幕智能斷句、校正、翻譯,字幕視頻全流程一鍵處理。為視頻配上效果驚艷的字幕。
最新版本已經支持 VAD 、人聲分離、字級時間戳、批量字幕等實用功能
- 無需GPU即可使用強大的語音識別引擎,生成精準字幕
- 基于 LLM 的智能分割與斷句,字幕閱讀更自然流暢
- AI字幕多線程優化與翻譯,調整字幕格式、表達更地道專業
- 支持批量視頻字幕合成,提升處理效率
- 直觀的字幕編輯查看界面,支持實時預覽和快捷編輯
- 消耗模型 Token 少,且內置基礎 LLM 模型,保證開箱即用
二、應用場景:
1. 自媒體創作者??
- ??會員功能替代??:
- 字幕翻譯??:調用LLM模型翻譯(支持DeepSeek/Claude),質量優于剪映機翻,且無VIP限制;
- ??字幕樣式??:提供新聞風、番劇風等模板,直接導出ASS/SRT格式,兼容Premiere無縫編輯。
- ??隱私保護??:本地處理視頻數據,避免剪映云端上傳風險。
??2. 教育工作者??
- ??網課字幕生成??:
- 分離人聲與背景音(VAD技術),嘈雜教室錄音仍可精準識別;
- 數學公式/代碼術語自動校正(剪映無此功能)。
- 多語言本地化??:支持99種語言翻譯,適配外文課程視頻。
??3. 開發者擴展??
- ??二次開發接口??:
- 提供標準OpenAI API格式,可接入SiliconCloud、Ollama等自建模型;
- 批處理腳本支持命令行操作,集成至自動化流水線
三、截圖示例:
四、安裝教程:
下載源碼項目:點我下載安裝包https://pan.xunlei.com/s/VOXupvkeWZmYuCSMsyfW1JF6A1?pwd=ad5t#
?基本配置
1. LLM API 配置說明
LLM 大模型是用來字幕段句、字幕優化、以及字幕翻譯(如果選擇了LLM 大模型翻譯)。
配置項 | 說明 |
---|---|
SiliconCloud | SiliconCloud 官網配置方法請參考配置文檔 該并發較低,建議把線程設置為5以下。 |
DeepSeek | DeepSeek 官網,建議使用?deepseek-v3 ?模型,官方網站最近服務好像并不太穩定。 |
Ollama本地 | Ollama 官網 |
內置公益模型 | 內置基礎大語言模型(gpt-4o-mini )(公益服務不穩定,強烈建議請使用自己的模型API) |
OpenAI兼容接口 | 如果有其他服務商的API,可直接在軟件中填寫。base_url 和api_key |
注:如果用的 API 服務商不支持高并發,請在軟件設置中將“線程數”調低,避免請求錯誤。
本文完結!
祝各位點贊收藏的大佬們身體健康,萬事如意,發財暴富💖💖💖!!!