Spring AI系列之使用 Spring AI 轉錄音頻文件(基于OpenAI)

  1. 概述

企業常常需要從各種類型的音頻內容中提取有價值的數據,例如:將客戶支持通話轉錄用于情感分析、為視頻生成字幕,或整理會議紀要。然而,手動轉錄音頻文件既耗時又昂貴。

為了解決這一問題,OpenAI 提供了強大的語音轉文字模型,能夠準確地將多種語言的音頻文件轉錄為文本。

在本教程中,我們將學習如何使用 Spring AI 搭配 OpenAI 的語音轉文字模型來轉錄音頻文件。

要完成本教程,需要一個 OpenAI 的 API 密鑰。


2.項目搭建

在開始實現我們的音頻轉錄功能之前,我們需要引入必要的依賴項,并正確配置我們的應用程序。

2.1. 依賴項

我們首先需要在項目的?pom.xml?文件中添加 Spring AI 提供的 OpenAI Starter 依賴項:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId><version>1.0.0-M7</version>
</dependency>

由于當前版本 1.0.0-M7 是一個里程碑版本(Milestone Release),我們還需要在?pom.xml?中添加 Spring 的 Milestones 倉庫:

<repositories><repository><id>spring-milestones</id><name>Spring Milestones</name><url>https://repo.spring.io/milestone</url><snapshots><enabled>false</enabled></snapshots></repository>
</repositories>

該倉庫用于發布里程碑版本,而不是標準的 Maven Central 倉庫。

2.2. 配置 OpenAI 屬性

接下來,我們將在?application.yaml?文件中配置 OpenAI 的 API 密鑰和語音轉文字模型:

spring:ai:openai:api-key: ${OPENAI_API_KEY}audio:transcription:options:model: whisper-1language: en

在這里,我們通過模型 ?whisper-1?指定使用 OpenAI 的 Whisper 模型。需要注意的是,OpenAI還提供了更高級、質量更高的語音轉文字模型,如gpt-4o-transcribe?和?gpt-4o-mini-transcribe

但當前版本的 Spring AI 尚不支持它們。

此外,我們還指定了音頻文件的語言為en(英語)。當然,也可以根據需求,使用 ISO-639-1 格式指定其他輸入語言。如果未指定語言,所選模型會自動嘗試識別音頻中的語言。

配置好上述屬性后,Spring AI 會自動創建一個類型為?

OpenAiAudioTranscriptionModel的Bean,使我們可以與所選模型進行交互。


3. 構建音頻轉錄器

配置完成后,我們將創建一個AudioTranscriber服務類。我們會注入 Spring AI 自動為我們創建的?OpenAiAudioTranscriptionModel?Bean。

但在此之前,先定義兩個簡單的?record?類型,用于表示請求和響應的數據結構:

record TranscriptionRequest(MultipartFile audioFile, @Nullable String context) {}record TranscriptionResponse(String transcription) {}

TranscriptionRequest?包含要轉錄的音頻文件?audioFile,以及一個可選的上下文context,用于幫助模型更好地完成轉錄過程。需要注意的是,OpenAI當前支持的音頻文件格式包括:mp3mp4mpegmpgam4awav?和?webm

同樣地,TranscriptionResponse?用于簡單地保存生成的轉錄文本。

現在,讓我們實現預期的功能:

TranscriptionResponse transcribe(TranscriptionRequest transcriptionRequest) {AudioTranscriptionPrompt prompt = new AudioTranscriptionPrompt(transcriptionRequest.audioFile().getResource(),OpenAiAudioTranscriptionOptions.builder().prompt(transcriptionRequest.context()).build());AudioTranscriptionResponse response = openAiAudioTranscriptionModel.call(prompt);return new TranscriptionResponse(response.getResult().getOutput());
}

在這里,我們為?AudioTranscriber?類添加了一個新的?transcribe()?方法。

我們使用音頻文件資源和可選的上下文提示,創建一個AudioTranscriptionPrompt對象。然后,通過它調用自動注入的?OpenAiAudioTranscriptionModel?Bean 的?call()?方法。

最后,我們從響應中提取轉錄后的文本,并將其包裝在?TranscriptionResponse?記錄類中返回。

目前,對于語音轉文字模型,音頻文件的大小限制為25MB。然而,Spring Boot 默認將上傳文件的大小限制為 1MB。我們可以在?

application.yaml?文件中增加這一限制:

spring:servlet:multipart:max-file-size: 25MBmax-request-size: 25MB

我們將最大文件大小和請求體大小都設置為25MB,這對于大多數音頻轉錄請求來說應該已經足夠。

4. 測試我們的音頻轉錄器

現在我們已經實現了服務層,接下來我們來基于它暴露一個

REST API 接口:

@PostMapping("/transcribe")
ResponseEntity<TranscriptionResponse> transcribe(@RequestParam("audioFile") MultipartFile audioFile,@RequestParam("context") String context
) {TranscriptionRequest transcriptionRequest = new TranscriptionRequest(audioFile, context);TranscriptionResponse response = audioTranscriber.transcribe(transcriptionRequest);return ResponseEntity.ok(response);
}

我們用HTTPie去調用接口

http?-f POST :8080/transcribe audioFile@××××-audio-description.mp3 context="Short description about Baeldung"

在這里,我們調用?/transcribe?API,發送音頻文件及其上下文信息。為了演示,我們準備了一個簡短的音頻文件,存放在代碼庫的

src/test/resources/audio?文件夾中。讓我們來看一下返回的響應內容:

{"transcription": "×××× is a top-notch educational platform that specializes in Java, Spring, and related technologies. It offers a wealth of tutorials, articles, and courses that help developers master programming concepts. Known for its clear examples and practical guides, Baeldung is a go-to resource for developers looking to level up their skills."
}

正如我們所見,API 返回了對所提供音頻文件的正確轉錄內容。


5. 總結

本文介紹了如何在 Spring AI 中使用 OpenAI 進行音頻文件轉錄。

我們詳細講解了所需的配置,并基于 OpenAI 的 Whisper 語音轉文字模型實現了一個音頻轉錄器。隨后,我們對應用進行了測試,展示了提供上下文提示如何提升轉錄的準確性。

關注我不迷路,系列化的給您提供當代程序員需要掌握的現代AI工具和框架

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81976.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81976.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81976.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

室內VR全景助力房產營銷及裝修

在當今的地產行業&#xff0c;VR全景已成為不可或缺的應用工具。從地產直播到樓市VR地圖&#xff0c;從效果圖到水電家裝施工記錄&#xff0c;整個地產行業的上下游生態中&#xff0c;云VR全景的身影無處不在。本文將探討VR全景在房產營銷及裝修領域的應用&#xff0c;并介紹眾…

Sentinel限流熔斷機制實戰

1、核心概念 1.1、流量控制 流量控制是為了 防止系統被過多的請求壓垮&#xff0c;確保資源合理分配并保持服務的可用性&#xff0c;比如對請求數量的限制。 流量控制的 3 個主要優勢&#xff1a; 防止過載&#xff1a;當瞬間涌入的請求量超出系統處理能力時&#xff0c;會…

深度解析 torch.mean 的替代方案

torch.mean 是什么意思 代碼效果解釋 segment_vector = torch.mean(segment_embedding, dim=1) # [1, hidden_dim] 這行代碼的作用是在指定維度上對張量 segment_embedding 求平均值,實現類似平均池化的效果。 具體來說,dim=1 表示沿著索引為1的維度進行操作。假設 segment…

Paraformer語音模型:一種語音模型加速方法

隨著智能語音技術的普及&#xff0c;語音識別&#xff08;ASR&#xff09;、語音合成&#xff08;TTS&#xff09;、聲紋識別等應用場景對模型推理效率提出了極高要求&#xff0c;本文介紹將Paraformer語音模型從預訓練模型導出為ONNX格式&#xff0c;并使用ONNX Runtime進行推…

本地部署FreeGPT+內網穿透公網遠程訪問,搞定ChatGPT外網訪問難題

?FreeGPT?是一個基于GPT 3.5/4的ChatGPT聊天網頁用戶界面&#xff0c;提供了一個開放的聊天界面&#xff0c;開箱即用?。ChatGPT是非常熱門的&#xff0c;但訪問體驗一直不太理想。為了解決這一問題&#xff0c;出現了各類方法和工具&#xff0c;其中FreeGPT是一款非常實用的…

ElasticSearch遷移至openGauss

Elasticsearch 作為一種高效的全文搜索引擎&#xff0c;廣泛應用于實時搜索、日志分析等場景。而 openGauss&#xff0c;作為一款企業級關系型數據庫&#xff0c;強調事務處理與數據一致性。那么&#xff0c;當這兩者的應用場景和技術架構發生交集時&#xff0c;如何實現它們之…

品優購項目(HTML\CSS)

項目效果可訪問 http://zhousunyu.3vdo.club 查看 主頁 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><titl…

因泰立科技:鐳眸T51激光雷達,打造智能門控新生態

在高端門控行業&#xff0c;安全與效率是永恒的追求。如今&#xff0c;隨著科技的飛速發展&#xff0c;激光雷達與TOF相機技術的融合&#xff0c;為門控系統帶來了前所未有的智能感知能力&#xff0c;開啟了精準守護的新時代。因泰立科技的鐳眸T51激光雷達&#xff0c;作為這一…

MyBatisPlus--快速入門

MyBatisPlus介紹 從名字中就可以感覺到MybatisPlus與MyBatis之間的淵源&#xff0c;而MyBatis是一個非常流行的持久層框架&#xff0c;主要來做數據庫的增刪改查&#xff0c;而MyBatisPlus這種命名方式讓人不得不往MyBatis的升級版去聯想&#xff0c;事實也確實如此&#xff0…

redis持久化策略

RDB 是通過生成數據快照來實現持久化的&#xff0c;相當于給內存中的數據拍一張"照片"保存到磁盤上。AOF 記錄所有寫操作命令&#xff0c;以Redis協議格式追加到文件末尾。 RDB 在滿足特定條件時觸發內存快照&#xff0c;生成新的RDB文件替換舊文件 AOF 先寫入內…

Spring Boot中使用@JsonAnyGetter和@JsonAnySetter處理動態JSON屬性

Spring Boot 中使用 @JsonAnyGetter 和 @JsonAnySetter 處理動態 JSON 屬性 在實際的后端開發中,尤其是使用 Spring Boot 構建 API 時,我們經常會遇到需要處理動態 JSON 屬性的場景。例如,前端傳遞過來的 JSON 數據結構不固定,或者業務需求變更頻繁,導致實體類無法預先定…

拉取gitlab項目

一、下載nvm管理node 先下載配置好nvm,再用nvm下載node 下載鏈接&#xff1a;開始 下載nvm - nvm中文官網 情況&#xff1a;npm i 下載依賴緩慢&#xff0c;可能是node版本不對&#xff0c;可能node版本太高 可能得問題&#xff1a;使用nvm 下載低版本的node時&#xff0c;…

【解決辦法】ubuntu重啟不起來,輸入用戶名和密碼進不去,又重新返回登錄頁。

項目場景&#xff1a; ubuntu重啟不起來&#xff0c;輸入用戶名和密碼進不去&#xff0c;又重新返回登錄頁。 問題描述 在華碩天選一代筆記本上面安裝了ubuntu22.04.5桌面版&#xff0c;但是重啟以后出現&#xff0c;輸入了用戶名和密碼&#xff0c;等待一會還讓輸入用戶名和…

# 云端大模型:智能時代的新引擎

云端大模型&#xff1a;智能時代的新引擎 在人工智能技術的迅猛發展中&#xff0c;云端大模型扮演著至關重要的角色。它們不僅推動了技術的邊界&#xff0c;也為各行各業帶來了前所未有的機遇。本文將結合一系列圖片和代碼示例&#xff0c;深入探討云端大模型的功能、應用及其…

(1)pytest簡介和環境準備

1. pytest簡介 pytest是python的一種單元測試框架&#xff0c;與python自帶的unittest測試框架類似&#xff0c;但是比unittest框架使用起來更簡潔&#xff0c;效率更高。根據pytest的官方網站介紹&#xff0c;它具有如下特點&#xff1a; 非常容易上手&#xff0c;入門簡單&a…

實驗設計與分析(第6版,Montgomery)第5章析因設計引導5.7節思考題5.5 R語言解題

本文是實驗設計與分析&#xff08;第6版&#xff0c;Montgomery著&#xff0c;傅玨生譯) 第5章析因設計引導5.7節思考題5.5 R語言解題。主要涉及方差分析&#xff0c;正態假設檢驗&#xff0c;殘差分析&#xff0c;交互作用圖。 dataframe <-data.frame( wrapc(17,20,12,9,…

線程池的詳細知識(含有工廠模式)

前言 下午學習了線程池的知識。重點探究了ThreadPoolExecutor里面的各種參數的含義。我詳細了解了這部分的知識。其中有一個參數涉及工廠模式&#xff0c;我將這一部分知識分享給大家~ 線程池的詳細介紹(含工廠模式) 結語 分享到此結束啦。byebye~

嵌入式開發學習(第二階段 C語言筆記)

內存操作 我們對于內存操作需要依賴于string.h頭文件中相關的函數庫。 內存操作函數 內存填充 頭文件&#xff1a;#include <string.h> 函數原型&#xff1a; void* memset(void *s,int c,size_t n)函數功能&#xff1a;將內存塊s的前n個字節填充為c&#xff0c;一般…

C++學習-入門到精通【9】面向對象編程:繼承

C學習-入門到精通【9】面向對象編程&#xff1a;繼承 目錄 C學習-入門到精通【9】面向對象編程&#xff1a;繼承一、基類與派生類CommunityMember類的繼承層次結構如何定義一個派生類呢 二、基類和派生類間的關系1.創建并使用類CommissionEmployee2.不使用繼承創建類BasePlusCo…

黑馬k8s(十七)

一&#xff1a;高級存儲 1.高級存儲-pv和pvc介紹 2.高級存儲-pv 3.高級存儲-pvc 最后一個改成5gi pvc3是沒有來綁定成功的 pv3沒有綁定 刪除pod、和pvc&#xff0c;觀察狀態&#xff1a; 4.高級存儲-pc和pvc的生命周期 二&#xff1a;配置存儲 1.配置存儲-ConfigMap 2.配…