whisper之初步使用記錄

文章目錄

前言

一、whisper是什么?

二、使用步驟

1.安裝

2.python調用

3.識別效果評估

4.一點封裝

5.參考鏈接

總結


前言

隨著AI大模型的不斷發展,語音識別等周邊內容也再次引發關注,通過語音轉文字再與大模型交互,從而實現語音與大模型交互。

今天我們介紹下語音識別領域的頂級選手whisper。


一、whisper是什么?

whisper是openai開源的語音識別模型,也是使用了Transformer架構。

openai宣稱whisper的語音識別能力已經到了人類的水平。

接下來我們參考Github結合其他技術博客內容,實操下whisper的使用。

二、使用步驟

1.安裝

1)pip安裝whisper

pip install -U openai-whisper

2)安裝ffmpeg

下載地址:ffmpeg下載地址icon-default.png?t=N7T8https://github.com/BtbN/FFmpeg-Builds/releases

選擇對應操作系統的安裝包即可

Linux系統也可以直接命令方式安裝。

對于Windows系統,下載到本地后解壓縮即可,但是需要設置環境變量,路徑bin(就是在這個路徑下有ffmpeg.exe)

特意說明:whisper內部其實調用了ffmpeg,使用的就是cmd形式,應該是將音頻文件轉為流式以及按時間段分成小段音頻(最終識別結果就是按時間段分開的)

2.python調用

import whispermodel = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

第一次運行的時候,首先需要下載模型文件,base屬于比較小尺寸的模型,還有small、large等。

另外如果可能報錯,可以嘗試重啟下開發工具再試,可能就好了(我就遇到這種問題,可能沒有重啟開發工具,找不到ffmpeg)

3.識別效果評估

我使用了一個11分鐘的會議錄音文件測試。CPU環境。

使用base模型,用時約2分鐘,質量還行

使用small模型,用時約4分鐘,質量比base模型的好一些,但是有些反而不如base模型的。

整體上,還行吧。

4.一點封裝

由于不同大小的模型識別速度上還是差不少,因此還要結合實際情況選擇使用哪個模型,基于這個基礎對調用做了一點封裝

import whisper
from datetime import datetime# 模型根路徑
model_root="E:\Models\whisper"class whisper_utils:# model_name="base"# model_name="small"def __init__(self,model_name="base"):self.model = whisper.load_model(name=model_name,download_root=model_root)def audio_to_txt(self,audio_file: str):now = datetime.now().strftime("%Y-%m-%d %H:%M:%S")print(f"{now} 開始識別…")result = self.model.transcribe(audio_file)now = datetime.now().strftime("%Y-%m-%d %H:%M:%S")print(f"{now} 識別完成")return result

這里我把模型路徑自己設置了下。

和多數模型文件一樣,默認情況下,whisper模型也會下載到C盤Users下當前用戶文件夾的.cache下,很容易導致C盤塞滿。?

5.參考鏈接

openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision (github.com)icon-default.png?t=N7T8https://github.com/openai/whisper


總結

本篇主要介紹了whisper的安裝、調用、識別效果評估以及一點調用封裝。希望可以幫助正好有需要的小伙伴。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11224.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11224.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11224.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Gitlab遠程訪問本地倉庫】Gitlab如何安裝配置并結合內網穿透實現遠程訪問本地倉庫進行管理

文章目錄 前言1. 下載Gitlab2. 安裝Gitlab3. 啟動Gitlab4. 安裝cpolar5. 創建隧道配置訪問地址6. 固定GitLab訪問地址6.1 保留二級子域名6.2 配置二級子域名 7. 測試訪問二級子域名 前言 GitLab 是一個用于倉庫管理系統的開源項目,使用Git作為代碼管理工具&#xf…

為什么質量工程師必學六西格瑪?突破職業發展的瓶頸?

在質量管理領域工作多年,你是否曾感受到事業發展的停滯不前?3年、5年的職業生涯,薪水依舊停留在每月5000-7000,而同行業的其他人卻能月入2-3萬,這種差距讓人不禁陷入深思。 問題究竟出在哪里?為什么我們的…

編譯OpenResty遇到找不到OpenSSL的解決辦法

以OpenResty-1.19.9.1為例 編輯openresty-1.19.9.1/build/nginx-1.19.9/auto/lib/openssl/conf CORE_INCS"$CORE_INCS $OPENSSL/.openssl/include" CORE_DEPS"$CORE_DEPS $OPENSSL/.openssl/include/openssl/ssl.h" CORE_LIBS"$CORE_LIBS $OPENSSL/.…

揭秘圖形編程 動靜接口如何助力 AGV 集成

在公司軟件開發團隊的辦公室里,陽光透過窗戶灑在排列整齊的辦公桌上。臥龍坐在辦公桌前,面前攤開一份內測報告,他的手指時不時地敲擊著桌面,流露出內心的煩躁。他抬起頭,眼神中透露出一絲困惑,看向正在文件…

調用函數實現數組的輸入排序插入與輸出

輸入一串數字,輸出排序插入后輸出最后的數字序列; 把主要步驟交給主函數,通過調用函數來實現整體的功能: 寫出主函數(這里使用冒泡排序): int main(){int n;int a[10];cin>>n;inputa(a…

【網絡安全】【Frida實踐案例】某圖xx付費功能逆向分析(一)

文章目錄 一、目標應用二、環境三、步驟1、查看布局id2、用到的Log日志類信息3、嘗試hook VIP判斷方法 四、總結五、相關源碼 1、文章僅供學習參考,嚴禁非法使用!如非法使用,而導致的一切后果,由使用者自負! 2、禁止將…

【C++】string類常用函數用法總結

目錄 常用函數一覽 默認成員函數 與容量有關的函數 part 1 part 2 part 3 與訪問和遍歷有關的函數 與修改有關的函數 npos 與string相關的其它常用函數 常用非成員函數 getline和cin的區別 常用函數一覽 //默認成員函數 string();string(const char* s);string(si…

貓狗分類識別②圖像歸一化-位置和重心歸一化處理

一、導入庫 glob 和 os 都是Python的標準庫模塊,也就是說它們隨Python一起安裝,無需額外安裝即可使用。 glob 模塊提供了一個在目錄中使用通配符搜索創建文件列表的函數,例如,可以使用 glob.glob(*.txt) 來查找當前目錄下所有的…

Android OpenMAX(七)OMX Service

上一篇文章我們分析了Android使用OMXStore來管理平臺上的軟件和硬件編解碼組件,這一篇我們再向上一層了解應用層是如何獲取調用OMXStore管理組件的。本篇文章代碼參考自: frameworks/av/services/mediacodec/main_codecservice.cpp frameworks/av/media/libstagefright/omx/1…

Mybatis Plus ActiveRecord 模式

Mybatis Plus ActiveRecord 模式 使用 DEMO源碼地址 https://gitee.com/JackSong2019/demo-mybatis3.git 前言 ActiveRecord 模式 簡介 ActiveRecord 是一種設計模式,它是一種在軟件開發中用于管理關系數據庫的模式,他簡化了數據庫操作的流程&#xf…

docker八大架構之應用服務集群架構

應用服務集群架構 在之前,一個應用層要負責所有的用戶操作,但是有時用戶增加后就會導致供不應求的現象(單個應用不足以支持海量的并發請求,高并發的時候站點響應變慢),這時就需要增加應用層服務器&#xf…

【STM32 |GPIO】GPIO結構、GPIO輸出

目錄 GPIO簡介 GPIO的基本結構 GPIO位結構(每一位的具體電路結構) 輸入 上拉和下拉電阻 斯密特觸發器 ?編輯 輸出 GPIO模式 ?編輯 浮空輸入、上拉輸入、下拉輸入 模擬輸入 開漏輸出和推挽輸出 復用開漏輸出和復用推挽輸出 LED和蜂鳴器…

簡述線程同步和線程通信及如何實現線程間的同步

一、線程同步和線程通信是多線程編程中的兩個重要概念。 線程同步: 線程同步是指當有一個線程在對內存進行操作時(如讀取、寫入等),其他線程都不可以對該內存地址進行操作,直到該線程完成操作,其他線程才…

FFmpeg開發筆記(二十七)APP無法訪問ZLMediaKit的HLS直播地址

上一篇文章介紹了如何通過ZLMediaKit實現視頻推拉流,并使用VLC播放器驗證視頻直播地址。即使不用VLC播放器,直接在Qt工程的C代碼中調用FFmpeg的API,也能訪問ZLMediaKit的直播地址,并正常渲染視頻畫面。關于如何在Qt工程中引入FFmp…

【資源分享】完勝谷歌翻譯的Deepl翻譯

::: block-1 “時問桫欏”是一個致力于為本科生到研究生教育階段提供幫助的不太正式的公眾號。我們旨在在大家感到困惑、痛苦或面臨困難時伸出援手。通過總結廣大研究生的經驗,幫助大家盡早適應研究生生活,盡快了解科研的本質。祝一切順利!—…

【數據結構與算法】力扣 111. 二叉樹的最小深度

題目描述 給定一個二叉樹,找出其最小深度。 最小深度是從根節點到最近葉子節點的最短路徑上的節點數量。 說明: 葉子節點是指沒有子節點的節點。 示例 1: 輸入: root [3,9,20,null,null,15,7] 輸出: 2示例 2&#…

長事務的理解和預防

我們常常聽說數據庫發生了“長事務”而導致很嚴重的后果。那么何為長事務?長事務是如何產生的?長事務對數據庫有什么影響?如何防止長事務的產生?以下對這幾方面進行闡述和說明,以加深對SinoDB長事務的理解。 1&#x…

Python-VBA函數之旅-super函數

目錄 一、super函數的常見應用場景 二、super函數使用注意事項 三、如何用好super函數? 1、super函數: 1-1、Python: 1-2、VBA: 2、推薦閱讀: 個人主頁: https://myelsa1024.blog.csdn.net/ 一、su…

AI代理和AgentOps生態系統的剖析

1、AI代理的構成:AI代理能夠根據用戶的一般性指令自行做出決策和采取行動。 主要包含四個部分: (1)大模型(LLM) (2)工具:如網絡搜索、代碼執行等 (3&#x…

探索未來:IT行業的革新脈動與明日圖景

你眼中的IT行業現狀與未來趨勢 隨著技術的不斷進步,IT行業已成為推動全球經濟和社會發展的關鍵力量。從云計算、大數據、人工智能到物聯網、5G通信和區塊鏈,這些技術正在重塑我們的生活和工作方式。你眼中IT行業的現狀及未來發展趨勢是怎么樣的&#xf…