【小沐學AI】Python實現語音識別(Whisper-Web)

文章目錄

  • 1、簡介
  • 2、下載
    • 2.1 openai-whisper
    • 2.2 whisper-web
  • 結語

1、簡介

https://openai.com/index/whisper/
在這里插入圖片描述

Whisper 是一種自動語音識別 (ASR) 系統,經過 680,000 小時的多語言和多任務監督數據的訓練,從網絡上收集。我們表明,使用如此龐大而多樣化的數據集可以提高對口音、背景噪音和技術語言的魯棒性。此外,它還支持多種語言的轉錄,以及從這些語言翻譯成英語。我們正在開源模型和推理代碼,作為構建有用應用程序和進一步研究魯棒語音處理的基礎。
在這里插入圖片描述
Whisper 架構是一種簡單的端到端方法,作為編碼器-解碼器 Transformer 實現。輸入音頻被分割成 30 秒的塊,轉換為對數梅爾頻譜圖,然后傳遞到編碼器中。解碼器經過訓練以預測相應的文本標題,并與特殊標記混合,這些標記指示單個模型執行語言識別、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。
在這里插入圖片描述
模型如下:
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

2、下載

2.1 openai-whisper

https://github.com/openai/whisper

通過python的pip工具安裝whisper庫如下:

pip install -U openai-whisper
pip install git+https://github.com/openai/whisper.git
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在這里插入圖片描述

在這里插入圖片描述
測試whisper命令行工具如下:

whisper --help

在這里插入圖片描述

# whisper audio.flac audio.mp3 audio.wav --model medium
whisper test.mp3 --model tiny

在這里插入圖片描述

whisper --language Chinese --model tiny test.mp3
# traditional
whisper --language Chinese --model tiny test.mp3 --initial_prompt "以下是普通話的句子。"  
# simplified
whisper --language Chinese --model tiny test.mp3  --initial_prompt "以下是普通話的句子。"  

在這里插入圖片描述
在這里插入圖片描述

2.2 whisper-web

https://github.com/xenova/whisper-web
下載代碼如下:

git clone https://github.com/xenova/whisper-web.git

在這里插入圖片描述

cd whisper-web
npm install

在這里插入圖片描述
報錯了。但是在使用npm/yarn對sharp安裝時經常會出現安裝失敗的問題,主要原因是安裝源的問題所以我們可以選擇為包管理器換源或者手動下載并安裝。
用鏡像地址(僅設置sharp):

npm config set sharp_binary_host "https://npmmirror.com/mirrors/sharp"
npm config set sharp_libvips_binary_host "https://npmmirror.com/mirrors/sharp-libvips"

推薦將npm源都修改為cnpm:

npm config set registry https://registry.npmmirror.com

在這里插入圖片描述
安裝成功!運行Whisper-Web服務如下:

npm run dev

在這里插入圖片描述
瀏覽器運行如下:
在這里插入圖片描述

設置模型參數:
在這里插入圖片描述

點擊中間按鈕,選擇一個本地聲音文件,進行識別。

開始識別中。
在這里插入圖片描述
在這里插入圖片描述
語音識別成功如下:
在這里插入圖片描述

在這里插入圖片描述
第三屆機器人、人工智能與智能控制國際會議(RAIIC 2024)將于2024年7月5-7日中國·綿陽舉行。 RAIIC 2024是匯聚業界和學術界的頂級論壇,會議將邀請國內外著名專家就以傳播機器人、人工智能與智能控制領域的技術進步、研究成果和應用做專題報告,同時進行學術交流。誠邀國內外相關高校和科研院所的科研人員、企業工程技術人員等參加會議。
大會網站:更多會議詳情
時間地點:中國-綿陽|2024年7月5-7日

在這里插入圖片描述
由河南省科學院、河南大學、鄭州航空工業管理學院主辦,河南省產學研人工智能研究院、河南大學人工智能學院、鄭州航空工業管理學院計算機學院承辦的第四屆人工智能,大數據與算法國際學術會議 (CAIBDA 2024)將于2024年7月5-7日于中國鄭州隆重舉行。CAIBDA 2024致力于為人工智能,大數據與算法等相關領域的學者,工程師和從業人員提供一個分享最新研究成果的平臺。
大會網站:更多會議詳情
時間地點:中國-鄭州|2024年7月5-7日

在這里插入圖片描述
2024第四屆人工智能、自動化與高性能計算國際會議(AIAHPC 2024)將于2024年7月19-21日在中國·珠海召開。
大會網站:更多會議詳情
時間地點:中國珠海-中山大學珠海校區|2024年7月19-21日

結語

如果您覺得該方法或代碼有一點點用處,可以給作者點個贊,或打賞杯咖啡;╮( ̄▽ ̄)╭
如果您感覺方法或代碼不咋地//(ㄒoㄒ)//,就在評論處留言,作者繼續改進;o_O???
如果您需要相關功能的代碼定制化開發,可以留言私信作者;(????)
感謝各位大佬童鞋們的支持!( ′ ▽′ )ノ ( ′ ▽′)っ!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/35577.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/35577.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/35577.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

VLAN的工作原理、劃分方式、配置示例

隨著網絡技術的飛速發展,VLAN(Virtual Local Area Network,虛擬局域網)技術已成為網絡分割和管理的重要工具。它不僅能提升網絡的安全性和效率,還極大地增強了網絡管理的靈活性。 VLAN概述 VLAN,即虛擬局…

ASPICE與ISO 26262在汽車行業中的協同關系

ASPICE(Automotive Software Process Improvement and Capability dEtermination)與ISO 26262之間的關系主要體現在以下幾個方面: 1.目標和關注點: ASPICE:是一種軟件和系統開發過程的評估和改進框架,專注…

Web前端第四次作業

目錄 一、編寫一個函數,形參是一個數組,返回數組中所有數字的平均值 二、編寫一個函數,形參是一個數組,返回數組中的最大值 三、編寫一個函數,形參是一個字符串,統計該字符串中每個字母出現的次數&#…

大數據之路 讀書筆記 Day1

大數據之路 讀書筆記 Day1 阿里巴巴大數據系統體系架構圖 1. 數據采集層 #mermaid-svg-YqqD2w3qV6jc2aGP {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-YqqD2w3qV6jc2aGP .error-icon{fill:#552222;}#mermaid-sv…

2024.6.26 待學習知識點

" 取工單的組件 lt_aufnr CORRESPONDING #( lt_out MAPPING aufnr aufnr EXCEPT * ).ABAP POPUP_TO_CONFIRM 彈出框函數 CLASS-EVENTS CLASS-METHODS main. CLASS-METHODS raise_event_EXIT_COMMAND IMPORTING iv_ucomm TYPE sy-ucomm. PUBLIC SECTION. PROTECTED SE…

春風得意特斯拉(二)

科技品牌的命名也講究獨具特色和鮮明的辨識度,特斯拉為了致敬和紀念著名的物理學家尼古拉斯特斯拉,命名本身就具有先進性和領先性,而且是超越時代的領先性。如果缺乏時代高度和創造力,難以支撐品牌的市場地位。科技品牌命名簡潔化…

一文看懂C++中的數字處理

在C編程中,數字處理是非常基礎且重要的部分。C提供了多種數據類型和豐富的數學運算能力,使得開發者可以方便地進行各種數值計算。本文將介紹C中的基本數據類型、數字運算以及常用的數學函數,幫助讀者更好地理解和應用C中的數字處理功能。 一…

中文檢測程序(靜態代碼掃描)

歡迎您關注我們,經常分享有關Android出海,iOS出海,App市場政策實時更新,互金市場投放策略,最新互金新聞資訊等文章,期待與您共航世界之海。 在前些日子,給大家安利了我們在用的AS中文實時檢測插…

聚類距離度量(保姆級講解,包學會~)

在機器學習的聚類中,我們通常需要使用距離來進行類的劃分,或者比較不同類之間的各種距離,這里我們介紹西瓜書上所提出的一些距離計算方式。 首先介紹一下距離的一些性質: 西瓜書上給出了四條性質,第一個是非負性&#…

使用命令行創建uniapp+TS項目,使用vscode編輯器

一:如果沒有pnpm,先安裝pnpm 二:使用npx工具和degit工具從 GitHub 上的 dcloudio/uni-preset-vue 倉庫克隆一個名為 vite-ts 的分支,到項目中. 執行完上面命令后,去manifest.json添加appid(自己微信小程序的Id),也可不執行直接下一步,執行pnpm install ,再執行pnpm:dev:mp-weix…

Mysql索引的實現原理,B+Tree,WAL

InnoDB 引擎,每一個數據表有兩個文件 .frm和.ibd,分別為表結構,數據和索引,數據掛在主索引的葉子節點上,此主索引稱為聚簇索引。 MyISAM 引擎,每一個數據表有三個文件.frm和.MYI和.MYD,分別為表…

戀愛腦?No,愛情保鏢還得靠AI!

本文由 ChatMoney團隊出品 你是否曾經想過,為什么我們會在戀愛中變得如此“上頭”,仿佛整個世界都圍繞著那個TA旋轉? 戀愛腦,通常是指一個人在戀愛中過度投入、過度依賴對方,甚至無法自拔的心理狀態。 你會發現自己時時刻刻都在…

TemporalAccessorUtil

通常與Java中的日期和時間處理有關,特別是與java.time包的TemporalAccessor接口相關,TemporalAccessor是與Java 8引入的日期時間API的一部分,用于表示一個不可變的日期時間對象,例如LocalDate,LocalTime,LocalDateTime等; TemporalAccessorUtil可能是一個自定義的工具類&#…

Linux網絡-網絡層IP協議、數據鏈路層以太網協議、ARP協議、ICMP協議和NAT技術

文章目錄 前言一、IP協議IP報頭解析4位版本4位首部長度16位總長度8位生存時間8位協議16位首部校驗和32位源IP地址和32位目標IP地址 網段劃分子網-局域網子網掩碼特殊的IP地址 公網IP地址與私網IP地址運營商路由路由表 數據鏈路層MAC幀格式局域網通信原理局域網數據碰撞 MTU分片…

Docker-compose 實現Prometheus+Grafana監控MySQL及Linux主機

. ├── Grafana │ ├── data │ └── docker-compose.yaml ├── Mysql │ ├── conf │ ├── data │ ├── docker-compose.yaml │ └── logs ├── Mysqld_exporter │ ├── conf │ └── docker-compose.yaml ├── node-exporter │…

HarmonyOS應用開發學習經驗

一、HarmonyOS學習官網 開發者能力認證 HarmonyOS應用開發者基礎認證6月之前的學習資源官網已經關閉過期,大家不要慌,官方更新了最新資源,但是,對于之前沒有學習完的學員不友好,存在知識斷片的現象,建議官…

如何理解:業務架構、應用架構、數據架構、技術架構與系統和復雜度

關于系統的理解 1.1 系統的概述 隨著人類社會的發展,人們面對越來越多的規模巨大、關系復雜、參數眾多地復雜問題,這些問題的復雜度已經遠遠超出人類的理解能力,系統論就是為了分析和解決這些問題而生。我們平時接觸的計算機系統包括軟件系統…

ChatGPT的Mac客戶端正式發布了!Mac用戶有福了

ChatGPT的Mac客戶端正式發布了!Mac用戶有福了 🎉 大家好,我是貓頭虎,科技自媒體博主。今天我帶來了一個超級重磅的消息 📢,就是 ChatGPT 的客戶端終于來了!這對我們所有 Mac 用戶,尤…

2024全國大學生信息安全競賽(ciscn)半決賽(華中賽區)Pwn題解

簡介 前段時間賽前準備把ciscn東北賽區、華南賽區、西南賽區半決賽的題都復現完了。 可惜遇到了華東北賽區的離譜平臺和離譜pwn出題人: 假的awdp(直接傳🐎到靶機,然后連上去cat /flag.txt即可)題型分布不合理&#…

當前的網安行業絕對不是高薪行業

昨天,面試了一個剛畢業兩年的同學小A。第一學歷為某大專,第二學歷為某省地區的本科院校。面試過程表現一般偏下,但動不動就要薪資15K 這個人,我當場就PASS了。主要原因是,并非是否定小A同學的能力,而是他…