FunASR的Java實現Paraformer實時語音識別 | 一款無需聯網的本地實時字幕軟件

0. 開發背景

我們在看直播時，沒有視頻字幕，可能看慣了視頻字幕，來到直播中缺少字幕會感覺不習慣，特別是對于聽力障礙的人群，只能依賴于字幕，那么這個軟件可以解決直播，在線會議等場景中無字幕的情況。此外，我們還可以用于人機交互中，以及智能呼叫中心系統中（實時語音質檢）。因此，開發一款可以運行在普通CPU中的實時字幕軟件很有必要。

1. 使用技術棧

該軟件使用JavaFX開發，為何是使用Java來開發桌面應用軟件，因此作者我熟悉Java，對于其它開發語言沒那么熟悉，所以選擇了Java作為開發語言。
為了能夠在內網或者是斷開網絡的情況下使用，這里不是調用云API方式實現，而是采用了本地電腦算力進行推理，并且不要求使用GPU，只需普通的CPU就可以進行實時語音識別，同時占用的資源很低。
模型采用國內大廠阿里巴巴達摩院開源的Paraformer-Streaming流式模型，導出為onnx格式，然后使用onnxruntime推理框架來推理。可以對模型進行int8規格的量化，使得占用的資源更少，推理的速度更快，關鍵是量化后模型精度基本不受影響。

2. 功能介紹

具體功能：

可以背景顏色透明，防止遮擋其它窗口。當鼠標停留在上面時，會顯示半透明狀態，方便用戶設置軟件。
可以設置顯示的字體大小和字體顏色。
可以拖動顯示的位置，默認在主屏幕的下方居中顯示，如果你還有副屏，可以把字體顯示拖動到副屏中。

3. 軟件效果演示

Java開發的實時語音識別項目 | 實時語音識別 | 內網可用實時語音識別項目 | 開源的實時語音識別模型 | FunASR

4. 其它

項目已經開源，點擊這里訪問項目源碼，如果無法訪問，可以點擊這里。
博客：點擊這里。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/95629.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/95629.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/95629.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！