0. 開發背景
我們在看直播時,沒有視頻字幕,可能看慣了視頻字幕,來到直播中缺少字幕會感覺不習慣,特別是對于聽力障礙的人群,只能依賴于字幕,那么這個軟件可以解決直播,在線會議等場景中無字幕的情況。此外,我們還可以用于人機交互中,以及智能呼叫中心系統中(實時語音質檢)。因此,開發一款可以運行在普通CPU中的實時字幕軟件很有必要。
1. 使用技術棧
該軟件使用JavaFX開發,為何是使用Java來開發桌面應用軟件,因此作者我熟悉Java,對于其它開發語言沒那么熟悉,所以選擇了Java作為開發語言。
為了能夠在內網或者是斷開網絡的情況下使用,這里不是調用云API方式實現,而是采用了本地電腦算力進行推理,并且不要求使用GPU,只需普通的CPU就可以進行實時語音識別,同時占用的資源很低。
模型采用國內大廠阿里巴巴達摩院開源的Paraformer-Streaming流式模型,導出為onnx格式,然后使用onnxruntime推理框架來推理。可以對模型進行int8規格的量化,使得占用的資源更少,推理的速度更快,關鍵是量化后模型精度基本不受影響。
2. 功能介紹
具體功能:
- 可以背景顏色透明,防止遮擋其它窗口。當鼠標停留在上面時,會顯示半透明狀態,方便用戶設置軟件。
- 可以設置顯示的字體大小和字體顏色。
- 可以拖動顯示的位置,默認在主屏幕的下方居中顯示,如果你還有副屏,可以把字體顯示拖動到副屏中。
3. 軟件效果演示
Java開發的實時語音識別項目 | 實時語音識別 | 內網可用實時語音識別項目 | 開源的實時語音識別模型 | FunASR
4. 其它
項目已經開源,點擊這里訪問項目源碼,如果無法訪問,可以點擊這里。
博客:點擊這里。