我基于FunASR制作的實時語音識別轉文字軟件當前更新到V5版本。軟件可以實時識別麥克風聲音和電腦內播放聲音轉為文字。
FunASR軟件介紹
FunASR 是一款基礎語音識別工具包和開源 SOTA 預訓練模型,支持語音識別、語音活動檢測、文本后處理等。
我使用FunASR制作了一款實時語音識別轉文字軟件,當前版本為V4版本,由于前幾天分享過另一個音視頻識別轉文字軟件faster-whisper《音頻視頻轉文字軟件faster-whisper 1.1.1整合包下載,精準快速語音轉錄工具》,那個軟件已經很好用了,所以當前軟件版本我刪除了文件識別功能,只保留了實時語音識別功能。
FunASR在2月5日剛更新過,我基于最新版制作了當前版本實時語音識別軟件整合包
如果需要同時有識別文件和實時識別功能的話,請用V3版本,鏈接《實時語音識別轉文字軟件V3版,批量音頻視頻錄音轉文字提取工具》
FunASR實時語音識別整合包V5軟件使用說明
軟件下載解壓后直接雙擊【啟動軟件.exe】即可啟動。軟件操作界面比較簡單
首先選擇識別內容保存位置,識別結果輸出文件格式為txt
塊長度和上下文長度決定了最終的識別效果,塊長度值越大,相同語速下每段識別出的內容的字數越多,上下文長度值建議是塊長度值的1/2,這兩個值越大,識別出的文字內容越準確,但是延遲也越高,這個可以自行測試效果,選擇合適的值
音量閾值就是用于屏蔽低音噪音的,如果說話人環境比較嘈雜,可以設置該值,屏蔽掉低音噪音部分,值越大,屏蔽的聲音分貝越高,也就是屏蔽的聲音越多
翻譯工具國內用戶用百度,國外用戶用谷歌,免費申請百度翻譯API可以查看下面教程《最新百度翻譯api免費申請AppId和AppSecret流程,每月免費100萬字符》
如果你想翻譯成的目標語言在列表里沒有,可自行設置語言代碼,百度翻譯和Google翻譯語言代碼參考下面文章《百度翻譯谷歌翻譯API語言代碼名稱對照表》,將所需要的語言代碼填入目標語言輸入框里即可
由于軟件是收集一定長度的識別文本之后再將文本提交到翻譯工具進行翻譯,然后收到返回翻譯結果再進行顯示,所以翻譯文本和識別的文本有時間差,不會同步顯示
待翻譯文本長度的意思就是一次性提交給翻譯工具的文本長度,軟件并不是每次識別出內容之后都提交給翻譯工具的,而是收集到一定長度的文本內容之后再發送給翻譯工具進行翻譯。發送給翻譯工具的文本越短,翻譯結果越不準確,發送的文本越長,翻譯工具越能綜合上下文意思翻譯的更準確,但是收集的文本越長等待時間也就越長,可自行取舍。一個英文字母算一個字符,一個漢字也算一個字符,如果是類似英語語言這個值建議大一點
軟件支持識別電腦內播放的聲音或是麥克風等外部輸入的聲音。如果需要識別電腦內播放的聲音,需要先進行電腦設置,鼠標右鍵點擊電腦屏幕右下角音量喇叭圖標,選擇 【聲音】,點擊錄制選項卡,鼠標右鍵點擊【立體聲混音】,選擇【設置為默認設備】,如果立體聲混音沒啟動的話,需要先啟用,然后運行軟件開始處理,就可以實時識別電腦播放聲音了。
如果想同時接收麥克風聲音和電腦內播放聲音,可在軟件音頻源中選擇電腦播放聲音,電腦聲音設置里-錄制-麥克風,點擊鼠標右鍵,選擇麥克風屬性,勾選【偵聽此設備】
字幕文本顯示長度就是前端實時顯示語音識別出的文本的字幕字符長度
如果無法使用的話,可以勾選顯示調試窗口查看報錯信息
軟件使用視頻教程:電腦實時語音識別轉文本工具FunASR整合包視頻使用教程-諾瓦小站
注意事項
本軟件只支持識別中英文,不支持識別其它語言
軟件運行路徑中不要出現中文及空格,否則會報錯
軟件只支持win10或win11,不支持其他版本Windows系統,也不支持手機和MAC
有部分Win11用戶發現軟件無法檢測到音頻,也就是電腦立體聲混音沒有音頻輸入,可以安裝voicemeeter虛擬聲卡解決。在【1 HARDWARE INPUT】設置硬件聲音輸入設備,在【VIRTUAL INPUT】選中【B】,在【HARDWARE OUT】選擇聲音輸出設備,然后打開電腦系統-聲音-錄制,將默認設備選擇為VoiceMeeter VAIO3 Output,VoiceMeeter點擊下載>>
電腦實時語音識別轉文字軟件V5版本下載鏈接
麥克風電腦內播放聲音實時識別轉文字軟件FunASR整合包V5下載-諾瓦小站