大模型開發實戰篇7:語音識別-語音轉文字

語音識別大模型,是人工智能領域的一項重要技術,它能夠將人類的語音轉換為文本。近年來,隨著深度學習技術的不斷發展,語音識別大模型取得了顯著的進展,并在各個領域得到了廣泛應用。

主流語音識別大模型

目前,市面上涌現出許多優秀的語音識別大模型,它們在性能、功能和應用場景上各有側重。以下是一些主流的語音識別大模型:

  • OpenAI Whisper: 由OpenAI公司開發的Whisper,是一個強大的多語言語音識別模型。它在多個語音識別任務上表現出色,能夠處理各種口音、語速和噪音環境下的語音。
  • Google Cloud Speech-to-Text: 谷歌云提供的語音識別服務,支持多種語言和方言,具有高準確率和低延遲的特點。它還提供了豐富的定制化功能,以滿足不同場景的需求。
  • 訊飛星火: 訊飛公司推出的星火認知大模型,具備強大的語音識別能力,尤其在中文語音識別方面表現突出。它還支持多種方言和少數民族語言的識別。
  • 阿里云語音識別: 阿里云提供的語音識別服務,支持多種語言和場景,具有高性價比和穩定性。它還提供了豐富的API和SDK,方便開發者集成到自己的應用中。
  • 華為云語音識別: 華為云推出的語音識別服務,支持多種語言和方言,具有高準確率和實時性。它還提供了定制化模型訓練服務,以滿足特定領域的需求。

開源的語音識別大模型

  • Whisper

    • 介紹:OpenAI 開發的通用語音識別模型,功能強大,支持多種語言識別和翻譯。
    • 特點
      • 多語言支持
      • 多種模型大小可選擇
      • 開源免費,方便研究和定制
    • 項目地址:https://github.com/openai/whisper
  • MooER

    • 介紹:摩爾線程開發的音頻理解大模型,是業界首個基于國產全功能 GPU 進行訓練和推理的大型開源語音模型。
    • 特點
      • 支持中英文語音識別和中譯英語音翻譯
      • 基于國產 GPU 訓練和推理
      • 開源推理代碼和模型
    • 項目地址:https://github.com/MooreThreads/MooER
  • Mini-Omni

    • 介紹:清華大學和智譜 AI 提出 Mini-Omni,是首個開源的端到端實時語音多模態模型,支持語音輸入、流式語音輸出的多模態交互能力。
    • 特點
      • 文本-語音同時生成
      • 支持語音輸入、流式語音輸出
      • 開源免費
    • 項目地址:https://github.com/gpt-omni/mini-omni
  • SenseVoice

SenseVoice多語言音頻理解模型,支持語音識別、語種識別、語音情感識別、聲學事件檢測、逆文本正則化等能力,采用工業級數十萬小時的標注音頻進行模型訓練,保證了模型的通用識別效果。模型可以被應用于中文、粵語、英語、日語、韓語音頻識別,并輸出帶有情感和事件的富文本轉寫結果。?

  • FunASR

FunASR希望在語音識別的學術研究和工業應用之間架起一座橋梁。通過發布工業級語音識別模型的訓練和微調,研究人員和開發人員可以更方便地進行語音識別模型的研究和生產,并推動語音識別生態的發展。讓語音識別更有趣!項目地址:https://github.com/modelscope/FunASR

?

?OpenAI的Whisper模型

OpenAI 提供了兩個基于開源的 Whisper large-v2 模型的語音到文本API服務:

  • 轉錄(transcriptions):將音頻轉錄為音頻所使用的任何語言。
  • 翻譯(translations):將音頻翻譯并轉錄為英語

目前文件上傳限制為 25 MB,支持以下輸入文件類型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm

語音轉錄 Transcription API

輸入音頻文件,返回轉錄對象(JSON)

參數

  • file(文件):需要轉錄的音頻文件對象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
  • model('whisper-1'):使用的模型 ID。目前僅可使用由我們的開源 Whisper V2 模型驅動的 whisper-1。
  • language(語言,可選):輸入音頻的語言。提供 ISO-639-1 格式的輸入語言可以提高準確性和響應速度。
  • prompt(提示,可選):可選文本,用于指導模型的風格或繼續前一個音頻片段。提示應與音頻語言相匹配。
  • response_format(響應格式,可選):轉錄輸出的格式,默認為 json。可選的格式有:json、text、srt、verbose_json 或 vtt。
  • temperature(溫度,可選):采樣溫度,范圍從 0 到 1。更高的值,如 0.8,將使輸出更隨機,而更低的值,如 0.2,將使輸出更集中和確定。如果設置為 0,模型將使用對數概率自動提高溫度,直到達到某些閾值。
  • timestamp_granularities[](時間戳粒度,可選):為此轉錄填充的時間戳粒度,默認為 segment。響應格式必須設置為 verbose_json 才能使用時間戳粒度。支持以下一個或兩個選項:word 或 segment。注意:segment 時間戳不增加額外延遲,但生成 word 時間戳會增加額外延遲。

返回值

  • 轉錄對象(Transcription Object)或詳細轉錄對象(Verbose Transcription Object)。

使用 Whisper 實現中文轉錄代碼演示

將語音文件轉成文字。輸入語音 輸出文字。

from openai import OpenAI
client = OpenAI()audio_file= open("./audio/liyunlong.mp3", "rb")transcription = client.audio.transcriptions.create(model="whisper-1", file=audio_file
)print(transcription.text)

?返回

二營長,你他娘的意大利泡呢?給我拉來!

?

語音翻譯 API

輸入音頻文件,返回翻譯文本。

請求體

  • file(文件):需要翻譯的音頻文件對象(不是文件名),支持以下格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
  • model('whisper-1'):使用的模型 ID。目前只有由我們的開源 Whisper V2 模型驅動的 whisper-1 可用。
  • prompt(提示,可選):可選文本,用于指導模型的風格或繼續前一個音頻片段。提示應為英文。
  • response_format(響應格式,可選):轉錄輸出的格式,默認為 json。可選的格式包括:json、text、srt、verbose_json 或 vtt。
  • temperature(溫度,可選):采樣溫度,范圍從 0 到 1。較高的值,如 0.8,將使輸出更隨機,而較低的值,如 0.2,將使輸出更集中和確定。如果設置為 0,模型將使用對數概率自動增加溫度,直到達到特定閾值。

返回值

  • translated_text: 翻譯后的文本。

?使用 Whisper 實現中文識別+翻譯

audio_file= open("./audio/liyunlong.mp3", "rb")translation = client.audio.translations.create(model="whisper-1", file=audio_file,prompt="Translate into English",
)print(translation.text)

返回英文:

Second Battalion Commander, where is your Italian gun? Bring it to me.

語音與文字互轉

Whisper: 語音--->文字

TTS:文字--->語音

可以將這2個大模型一起使用,形成 【語音-->文字/翻譯--->語音】模式,比如將中文語音轉英語語音,將你的錄音翻譯成外語并且轉語音。

Whisper---> TTS 的代碼演示

gdg_audio_file = open("./audio/gdg.mp3", "rb")
gdg_speech_file = "./audio/gdg_en.mp3"translation = client.audio.translations.create(model="whisper-1", file=gdg_audio_file
)print(translation.text)with client.audio.speech.with_streaming_response.create(model="tts-1",voice="onyx",input=translation.text
) as response:response.stream_to_file(gdg_speech_file)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895981.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895981.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895981.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

向量的點乘的幾何意義

源自AI 向量的點乘(Dot Product)在幾何和圖形學中有重要的意義。它不僅是數學運算,還可以用來描述向量之間的關系。以下是點乘的幾何意義及其應用: 1. 點乘的定義 對于兩個向量 a 和 b,它們的點乘定義為:…

國產芯片汽車氣壓表pcba方案

汽車氣壓表的基本原理是利用氣壓傳感器將氣體氣壓轉換為電信號,再通過電子芯片電路進行處理傳輸,再將這些信息轉發給顯示屏顯示。常見的傳感器包括模擬氣壓傳感器和數字氣壓傳感器。其中,模擬氣壓傳感器是目前應用最廣泛的傳感器之一&#xf…

解鎖機器學習核心算法 | K -近鄰算法:機器學習的神奇鑰匙

一、引言 今天我們繼續學習機器學習核心算法 —— K - 近鄰(K-Nearest Neighbors,簡稱 KNN)算法。它就像是一位經驗豐富的 “老江湖”,以其簡單而又強大的方式,在眾多機器學習任務中占據著不可或缺的地位。 K - 近鄰…

如何在Windows 10操作系統中安裝并配置PHP集成軟件XAMPP

步驟1:下載XAMPP安裝包 訪問XAMPP官網: 打開瀏覽器,進入XAMPP官方網站:https://www.apachefriends.org/index.html 選擇XAMPP版本: 在XAMPP的下載頁面上,選擇適合Windows的最新穩定版本下載(例…

【DeepSeek】本地部署,保姆級教程

deepseek網站鏈接傳送門:DeepSeek 在這里主要介紹DeepSeek的兩種部署方法,一種是調用API,一種是本地部署。 一、API調用 1.進入網址Cherry Studio - 全能的AI助手選擇立即下載 2.安裝時位置建議放在其他盤,不要放c盤 3.進入軟件后…

Python 入門教程(2)搭建環境 | 2.3、VSCode配置Python開發環境

文章目錄 一、VSCode配置Python開發環境1、軟件安裝2、安裝Python插件3、配置Python環境4、包管理5、調試程序 前言 Visual Studio Code(簡稱VSCode)以其強大的功能和靈活的擴展性,成為了許多開發者的首選。本文將詳細介紹如何在VSCode中配置…

Oracle EBS 12.1和APEX 集成時 Apache的配置代理

在有些場景下,apex的前端服務不是和oracle EBS 應用部署在同一個服務器上或者要求apex和訪問地址和EBS公用同一個域名同一個端口,那么怎么才能做到用EBS 的域名和端口來實現對apex的訪問呢 通過配置代理規則解決,以Oracle EBS 12.1.3 為例&am…

【第二節】C++設計模式(創建型模式)-抽象工廠模式

目錄 引言 一、抽象工廠模式概述 二、抽象工廠模式的應用 三、抽象工廠模式的適用場景 四、抽象工廠模式的優缺點 五、總結 引言 抽象工廠設計模式是一種創建型設計模式,旨在解決一系列相互依賴對象的創建問題。它與工廠方法模式密切相關,但在應用…

ubuntu20.04重啟后不顯示共享文件夾

ubuntu20.04重啟后不顯示共享文件夾 主要參見這兩篇博客 Ubuntu重啟后不顯示共享文件夾_ubuntu 20.04 共享目錄無法使用-CSDN博客 ubuntu22.04 配置共享文件夾 找不到/mnt/hgfs_ubuntu安裝tools 后mnt文件夾在哪-CSDN博客 重啟Ubuntu20.04后,發現共享文件夾進不去…

halcon機器視覺深度學習對象檢測,物體檢測

目錄 效果圖操作步驟軟件版本halcon參考代碼本地函數 get_distinct_colors()本地函數 make_neighboring_colors_distinguishable() 效果圖 操作步驟 首先要在Deep Learning Tool工具里面把圖片打上標注文本, 然后訓練模型,導出模型文件 這個是模型 mod…

9.PG數據庫層權限管理(pg系列課程)第2遍

一、PostgreSQL數據庫屬主 Postgres中的數據庫屬主屬于創建者,只要有createdb的權限就可以創建數據庫,數據庫屬主不一定擁有存放在該數據庫中其它用戶創建的對象的訪問權限。數據庫在創建后,允許public角色連接,即允許任何人連接…

2.19學習(php文件后綴)

misc buu-后門查殺 下載附件,我們用火絨安全掃一下然后點擊詳情進入該文件所在文件夾,再用記事本打開該文件,搜索flag無果,再試試pass(由題目中的密碼聯系到pass,password,key等)&a…

PMBOK第7版整體架構全面詳解

1. 引言 7月1日對于項目管理從業者和研究者而言,是個非凡意義的一個時間,這一天,翹首以待的《 項 目管理知識體系指南 》(PMBOK)第七版終于發布了。 總體而言,PMBOK第七版集百家之所長,成一…

C++:類與對象,定義類和構造函數

#define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> using namespace std; //如何讓定義一個類 // 封裝 // 1、將數據和方法定義到一起。 // 2、把想給你看的數據給你看&#xff0c;不想給你看的封裝起來。 通過訪問限定符來實現 class Stack { public: //1.成…

nginx 部署前端vue項目

?? 主頁&#xff1a; ?? 感謝各位大佬 點贊?? 收藏 留言?? 加關注! ?? 收錄于專欄&#xff1a;前端工程師 文章目錄 一、??什么是nginx&#xff1f;二、??nginx 部署前端vue項目步驟 2.1 ??安裝nginx 2.1.1 ??windows環境安裝2.1.2 ??linux環境安裝 2.2 …

藍橋杯備考策略

備賽策略 (1-2周):基礎算法數據結構 (3-5周):動態規劃/貪心圖論 (6-8周):全真模擬查漏補缺 階段1:基礎鞏固(第1-2周) **目標:**掌握基礎數據結構和必考算法&#xff0c;熟悉藍橋杯題型。 學習內容: 數據結構:數組、字符串、棧、隊列、哈希表、二叉樹(遍歷與基本操作)。 基礎…

tmux和vim的基本操作

Tmux Tmux 的核心功能 多窗口和多面板&#xff1a; 在一個終端中創建多個窗口&#xff08;Windows&#xff09;&#xff0c;每個窗口可以運行不同的任務。 在每個窗口中&#xff0c;可以進一步分割成多個面板&#xff08;Panes&#xff09;&#xff0c;實現分屏操作。 會話…

Lineageos 22.1(Android 15) 開機向導制作

一、前言 開機向導原理其實就是將特定的category的Activity加入ComponentResolver&#xff0c;如下 <category android:name"android.intent.category.SETUP_WIZARD"/>然后我們開機啟動的時候&#xff0c;FallbackHome結束&#xff0c;然后啟動Launcher的時候…

【二分搜索 C/C++】洛谷 P1873 EKO / 砍樹

2025 - 02 - 19 - 第 55 篇 Author: 鄭龍浩 / 仟濹(CSND) 【二分搜索】 文章目錄 洛谷 P1873 EKO / 砍樹題目描述輸入格式輸出格式輸入輸出樣例 #1輸入 #1輸出 #1 輸入輸出樣例 #2輸入 #2輸出 #2 說明/提示題目中的部分變量思路代碼 洛谷 P1873 EKO / 砍樹 題目描述 伐木工人…

DeepSeek系列模型發展:從LLM到V3、R1的技術突破與優化各階段的重要論文匯總(附下載地址)

DeepSeek 系列模型從最初的 LLM 版本發展到最新的 V3 和 R1 版本&#xff0c;在架構設計、訓練效率和推理能力方面不斷取得進步。以下是各版本按時間倒序的詳細信息&#xff1a; 1. DeepSeek-R1 發布時間&#xff1a;2025年1月 論文標題&#xff1a;DeepSeek-R1: Incentivizi…