音轉文模型對比FunASR與Faster_whisper

FunASR簡介

????????FunASR是由阿里巴巴達摩院開源的語音識別工具包,提供包括語音識別(ASR)、語音活動檢測(VAD)、標點恢復、語言模型、說話人驗證、說話人分離及多說話人ASR等多種功能。FunASR工具包支持工業級語音識別模型的訓練和微調,旨在幫助研究人員和開發者更高效地進行語音識別模型的研究和生產,推動語音識別技術的發展。FunASR基于提供預訓練模型和易于使用的接口,使用戶快速部署語音識別服務,滿足不同場景的應用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,進一步擴展在語音識別領域的應用能力。

  • 語音識別(ASR):將語音信號轉換為文本信息。
  • 語音活動檢測(VAD):識別語音信號中的有效語音部分,過濾掉靜音或背景噪音。
  • 標點恢復:在語音識別結果中自動添加標點符號,提高文本的可讀性。
  • 說話人驗證:識別并驗證說話人的身份。
  • 說話人分離:在多人對話中區分不同說話人的聲音。
  • 多說話人ASR:處理多人同時說話的場景,識別和區分每個人的語音。

FunASR的技術原理

  • 自然語言處理(NLP):理解和生成自然語言,實現流暢對話。
  • 語音識別和合成:將用戶的語音轉換為文本,合成虛擬角色的語音輸出。
  • 語音端點檢測(VAD):基于FSMN-VAD模型,準確檢測語音的起始和結束,提高語音識別的準確性。
  • 標點預測:集成標點預測模型,能在轉錄文本中自動添加標點符號,使轉錄結果更加符合閱讀習慣,提升文本的可讀性。

FunASR的項目地址

  • 項目官網:funasr.com
  • GitHub倉庫:GitHub - modelscope/FunASR: A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

代碼實現

在項目中主要使用的是speech_seaco_paraformer這個音轉文模型。

import json
import time
from funasr import AutoModel
# 計時開始
start_time = time.time()
# 初始化模型 - 使用支持熱詞的新模型
model = AutoModel(# model="iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn",model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",spk_model="iic/speech_campplus_sv_zh-cn_16k-common",vad_kwargs={"max_single_segment_time": 1000}
)
# 生成語音識別結果
res = model.generate(input="音頻文件.wav",merge_vad=False,  
)# 提取所需字段
simplified_result = []
durations = []  # 用于存儲每段的時間長度
print('總音頻',res[0]['text'])#以下代碼可以獲取生成時間,需要輸出時間的情況。
#for i,segment in enumerate(res):
#                    segmentText = res[0]['text']
#                    # print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % #(segment.start, segment.end, segmentText))
#                    print(f"{self.device_clerk} {i} [{segment.get('start', 0):.2f}s #-> {segment.get('end', 0):.2f}s] {segmentText}")

Faster_whisper

faster-whisper是基于OpenAI的Whisper模型的高效實現,它利用CTranslate2,一個專為Transformer模型設計的快速推理引擎。這種實現不僅提高了語音識別的速度,還優化了內存使用效率。faster-whisper的核心優勢在于其能夠在保持原有模型準確度的同時,大幅提升處理速度,這使得它在處理大規模語音數據時更加高效。

代碼實現

具體的調用代碼:

from faster_whisper import WhisperModelmodel = WhisperModel(model_path, device="cuda", device_index=[cuda_index], compute_type="float16")segments, info = self.model.transcribe(audio_file, language="zh",vad_filter=True) for i,segment in enumerate(res):segmentText = res[0]['text']print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segmentText))

結論

模型經過對比

FunASR的速度要比Faster_whisper要快,并且FunASR是中文模型,使用的是中文數據進行訓練,并且支持添加標點符號模型、語句中斷模型等。

如果你需要中文音轉文,那么FunASR的speech_seaco_paraformer是優先考慮模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/95898.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/95898.shtml
英文地址,請注明出處:http://en.pswp.cn/web/95898.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uniapp阿里云驗證碼使用

在 UniApp 中使用阿里云驗證碼插件(aliyun-captcha)需要完成微信小程序端的插件配置和項目內的組件使用兩個主要步驟,以下是詳細流程: 一、微信公眾平臺配置插件(必須) 獲取插件 AppID 阿里云驗證碼插件的…

基于開源AI大模型AI智能名片S2B2C商城小程序的情感營銷策略研究

摘要:本文聚焦于開源AI大模型AI智能名片S2B2C商城小程序這一新興商業工具,探討情感在其營銷中的核心地位。情感在營銷里是需突出表現的關鍵要素,價值觀與極致化生活方式均是對情感的闡釋。在開源AI大模型AI智能名片S2B2C商城小程序的背景下&a…

警惕!你和ChatGPT的對話,可能正在制造分布式妄想

2021年圣誕節,19歲的英籍印度裔男子 賈斯旺辛格柴爾 (Jaswant Singh Chail)帶著一把十字弩闖入溫莎城堡,聲稱要 刺殺英國女王 ,為英國歷史上的暴行復仇。 這場荒謬的刺殺注定以失敗告終。被捕后,他自稱是一…

DeepSeek輔助在64位Linux中編譯運行32位的asm-xml-1.4程序

在網上搜快速xml解析器時找到一個2012年的asm-xml-1.4程序說是比expat快幾倍,有點不信,想編譯看看。 下載了源代碼, 解壓縮到/par,其中obj目錄下有預編譯好的.o文件。 然后運行如下命令編譯示例,出錯了 cd /par/asm-xml-1.4/exa…

STM32CubeProgrammer軟件安裝

STM32CubeProgrammer軟件安裝 下載地址 【英文界面】STM32CubeProg | Software - STMicroelectronics 【中文界面】STM32CubeProg | Software - 意法半導體STMicroelectronics 下載 點擊獲取最新版本下載安裝包登錄ST賬號進行下載當Edge瀏覽器下載失敗時, 換個瀏覽器下載下…

數據結構_棧(C語言實現)超詳細_Leetcode_20. 有效的括號

目錄棧引出棧的定義數據定義棧結構體的定義結構操作- intitStack- freeStack()- empty()- isFull()- top()- pop()- push()- outAll()- 測試完整代碼練習題目:Leetcode_20. 有效的括號代碼模擬函數調用棧棧引出 棧,在我們日常生活中也非常常見&#xff…

把裝配想象成移動物體的問題

移動過后然后匹配兩個物體重合的部分做為配合,或者根本就不管,位置對了就行想辦法怎么訓練ai把加強筋位移過去

使用 PHP Imagick 擴展實現高質量 PDF 轉圖片功能

使用 PHP Imagick 擴展實現高質量 PDF 轉圖片功能 在開發中,經常需要將 PDF 文檔轉換為圖片格式,以便于在線預覽、生成縮略圖或進行其他圖像處理操作。PHP 的 Imagick 擴展提供了強大的圖像處理能力,可以輕松實現這一需求。本文將介紹如何使用…

車載通信架構 --- DoIP企業規范中細節有哪些?

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

GPT-5發布:統一智能體時代的開啟——從“工具”到“協作者”的范式躍遷

OpenAI正式發布其劃時代模型——GPT-5。這不僅是一次簡單的版本迭代,更是一場關于人工智能如何理解、推理與協作的深刻革命。GPT-5以“統一模型”架構為核心,融合400K上下文、超強工具調用能力、多模態輸入與精細化分層服務,標志著AI正式從“…

使用PyTorch構建卷積神經網絡(CNN)實現CIFAR-10圖像分類

在計算機視覺領域,卷積神經網絡(CNN)已經成為處理圖像識別任務的事實標準。從人臉識別到醫學影像分析,CNN展現出了驚人的能力。本文將詳細介紹如何使用PyTorch框架構建一個CNN模型,并在經典的CIFAR-10數據集上進行圖像分類任務。CIFAR-10數據…

Springboot3+SpringSecurity6Oauth2+vue3前后端分離認證授權-客戶端

客戶端服務整體流程前端技術棧項目結構代碼后端技術棧項目結構代碼整體流程 #mermaid-svg-G5v6x8CSkEcvglmt {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-G5v6x8CSkEcvglmt .error-icon{fill:#552222;}#mermaid-s…

DEEP THINK WITH CONFIDENCE-Meta-基于置信度的深度思考

原文地址 摘要 大型語言模型(LLM)通過自我一致性和多數投票等測試時間縮放方法,在推理任務中顯示出巨大的潛力。然而,這種方法經常導致精度回報遞減和高計算開銷。為了應對這些挑戰,我們引入了深度自信思考(DeepConf),這是一種簡…

零基礎學習數據采集與監視控制系統SCADA

新晉碼農一枚,小編定期整理一些寫的比較好的代碼,作為自己的學習筆記,會試著做一下批注和補充,轉載或者參考他人文獻會標明出處,非商用,如有侵權會刪改!歡迎大家斧正和討論! 目錄 一…

docker run 命令,不接it選項,run一個centos沒有顯示在運行,而run一個nginx卻可以呢?

docker run 命令,不接it選項,run一個centos沒有顯示在運行,而run一個nginx卻可以呢? ChatGPT said: 你問到的這個現象,其實就是 鏡像默認啟動命令 (ENTRYPOINT / CMD) 的差異導致的。🔍 情況分析 1. docker…

【完整源碼+數據集+部署教程】水培植物病害檢測系統源碼和數據集:改進yolo11-AKConv

背景意義 研究背景與意義 隨著全球人口的不斷增長,農業生產面臨著前所未有的挑戰,尤其是在資源有限的環境中,如何提高作物的產量和質量成為了亟待解決的問題。水培技術作為一種新興的農業生產方式,因其高效的水資源利用和較少的土…

第2課:環境搭建:基于DeepSeek API的開發環境配置

概述 在開始大模型RAG實戰之旅前,一個正確且高效的開發環境是成功的基石。本文將手把手指導您完成從零開始的環境配置過程,涵蓋Python環境設置、關鍵庫安裝、DeepSeek API配置以及開發工具優化。通過詳細的步驟說明、常見問題解答和最佳實踐分享&#x…

Boost電路:穩態和小信號分析

穩態分析 參考張衛平的《開關變換器的建模與控制》的1.3章節內容;伏秒平衡:在穩態下,一個開關周期內電感電流的增量是0,即 dIL(t)dt0\frac{dI_{L}(t)}{dt} 0dtdIL?(t)?0。電荷平衡:在穩態下,一個開關周期…

Vue-25-利用Vue3大模型對話框設計之前端和后端的基礎實現

文章目錄 1 設計思路 1.1 核心布局與組件 1.2 交互設計(Interaction Design) 1.3 視覺與用戶體驗 1.4 高級功能與創新設計 2 vue3前端設計 2.1 項目啟動 2.1.1 創建和啟動項目(vite+vue) 2.1.2 清理不需要的代碼 2.1.3 下載必備的依賴(element-plus) 2.1.4 完整引入并注冊(main…

Elasticsearch面試精講 Day 7:全文搜索與相關性評分

【Elasticsearch面試精講 Day 7】全文搜索與相關性評分 文章標簽:Elasticsearch, 全文搜索, 相關性評分, TF-IDF, BM25, 面試, 搜索引擎, 后端開發, 大數據 文章簡述: 本文是“Elasticsearch面試精講”系列的第7天,聚焦于全文搜索與相關性評…