Unity C# 之 Azure 微軟SSML語音合成TTS流式獲取音頻數據以及表情嘴型 Animation 的簡單整理

Unity C# 之 Azure 微軟SSML語音合成TTS流式獲取音頻數據以及表情嘴型 Animation 的簡單整理

目錄

Unity C# 之 Azure 微軟SSML語音合成TTS流式獲取音頻數據以及表情嘴型 Animation 的簡單整理

一、簡單介紹

二、實現原理

三、注意事項

四、實現步驟

五、關鍵代碼


一、簡單介紹

Unity 工具類,自己整理的一些游戲開發可能用到的模塊,單獨獨立使用,方便游戲開發。

本節介紹,這里在使用微軟的Azure 使用SSML進行SS語音合成的音頻,并且獲取表情嘴型Animation 數據,并且保存到本地,在特定的情況下,用于本地讀取音頻和表情嘴型Animation 數據,直接使用,避免可能網絡訪問造成的延遲問題,這里簡單說明,如果你有更好的方法,歡迎留言交流。

語音合成標記語言 (SSML) 是一種基于 XML 的標記語言,可用于微調文本轉語音輸出屬性,例如音調、發音、語速、音量等。 與純文本輸入相比,你擁有更大的控制權和靈活性。

可以使用 SSML 來執行以下操作:

  • ??? 定義輸入文本結構,用于確定文本轉語音輸出的結構、內容和其他特征。 例如,可以使用 SSML 來定義段落、句子、中斷/暫停或靜音。 可以使用事件標記(例如書簽或視素)來包裝文本,這些標記可以稍后由應用程序處理。
  • ??? 選擇語音、語言、名稱、樣式和角色。 可以在單個 SSML 文檔中使用多個語音。 調整重音、語速、音調和音量。 還可以使用 SSML 插入預先錄制的音頻,例如音效或音符。
  • ??? 控制輸出音頻的發音。 例如,可以將 SSML 與音素和自定義詞典配合使用來改進發音。 還可以使用 SSML 定義單詞或數學表達式的具體發音。
    ?

下面是 SSML 文檔的基本結構和語法的子集:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="string"><mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/><voice name="string" effect="string"><audio src="string"></audio><bookmark mark="string"/><break strength="string" time="string" /><emphasis level="value"></emphasis><lang xml:lang="string"></lang><lexicon uri="string"/><math xmlns="http://www.w3.org/1998/Math/MathML"></math><mstts:audioduration value="string"/><mstts:express-as style="string" styledegree="value" role="string"></mstts:express-as><mstts:silence type="string" value="string"/><mstts:viseme type="string"/><p></p><phoneme alphabet="string" ph="string"></phoneme><prosody pitch="value" contour="value" range="value" rate="value" volume="value"></prosody><s></s><say-as interpret-as="string" format="string" detail="string"></say-as><sub alias="string"></sub></voice>
</speak>

?SSML 語音和聲音
語音合成標記語言 (SSML) 的語音和聲音 - 語音服務 - Azure AI services | Microsoft Learn

官網注冊:

面向學生的 Azure - 免費帳戶額度 | Microsoft Azure

官網技術文檔網址:

技術文檔 | Microsoft Learn

官網的TTS:

文本轉語音快速入門 - 語音服務 - Azure Cognitive Services | Microsoft Learn

Azure Unity SDK? 包官網:

安裝語音 SDK - Azure Cognitive Services | Microsoft Learn

SDK具體鏈接:

https://aka.ms/csspeech/unitypackage

?

二、實現原理

1、官網申請得到語音合成對應的 SPEECH_KEY 和 SPEECH_REGION

2、然后對應設置 語言 和需要的聲音 配置

3、使用 SSML 帶有流式獲取得到音頻數據,在聲源中播放或者保存即可,樣例如下

public static async Task SynthesizeAudioAsync()
{var speechConfig = SpeechConfig.FromSubscription("YourSpeechKey", "YourSpeechRegion");using var speechSynthesizer = new SpeechSynthesizer(speechConfig, null);var ssml = File.ReadAllText("./ssml.xml");var result = await speechSynthesizer.SpeakSsmlAsync(ssml);using var stream = AudioDataStream.FromResult(result);await stream.SaveToWaveFileAsync("path/to/write/file.wav");
}

4、本地保存音頻,以及表情嘴型 Animation 數據

    // 獲取到視頻的數據,保存為 .wav using var stream = AudioDataStream.FromResult(speechSynthesisResult);await stream.SaveToWaveFileAsync($"./{fileName}.wav");/// <summary>/// 嘴型 animation 數據,本地保存為 json 數據/// </summary>/// <param name="fileName">保存文件名</param>/// <param name="content">保存內容</param>/// <returns></returns>static async Task CommitAsync(string fileName,string content){var bits = Encoding.UTF8.GetBytes(content);using (var fs = new FileStream(path: @$"d:\temp\{fileName}.json",mode: FileMode.Create,access: FileAccess.Write,share: FileShare.None,bufferSize: 4096,useAsync: true)){await fs.WriteAsync(bits, 0, bits.Length);}}

三、注意事項

1、不是所有的 speechSynthesisVoiceName 都能生成對應的 表情嘴型 Animation 數據

四、實現步驟

這里是直接使用 .Net VS 中進行代碼測試

1、在 NuGet 中安裝 微軟的 Speech 包

?2、代碼編寫實現 SSML 合成語音,并且本地保存對應的 音頻文件和表情嘴型 Animation json 數據

3、運行代碼,運行完后,就會本地保存對應的 音頻文件和表情嘴型 Animation json 數據

?

?4、本地查看保存的數據

?

五、關鍵代碼

using Microsoft.CognitiveServices.Speech;
using System.Text;class Program
{// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"static string speechKey = "YOUR_SPEECH_KEY";static string speechRegion = "YOUR_SPEECH_REGION";static string speechSynthesisVoiceName = "zh-CN-XiaoxiaoNeural";static string fileName = "Test" + "Hello";static string InputAudioContent = "黃河之水天上來,奔流到海不復回";  // 生成的static int index = 0;   // 記錄合成的表情口型動畫的數據數組個數static string content="[";  // [ 是為了組成 json 數組async static Task Main(string[] args){var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);// 根據需要可以使用更多 xml 配置,讓合成的聲音更加生動立體var ssml = @$"<speak version='1.0' xml:lang='zh-CN' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts'><voice name='{speechSynthesisVoiceName}'><mstts:viseme type='FacialExpression'/><mstts:express-as style='friendly'>{InputAudioContent}</mstts:express-as></voice></speak>";// Required for sentence-level WordBoundary eventsspeechConfig.SetProperty(PropertyId.SpeechServiceResponse_RequestSentenceBoundary, "true");using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)){// Subscribe to events// 注冊表情嘴型數據speechSynthesizer.VisemeReceived += async (s, e) =>{Console.WriteLine($"VisemeReceived event:" +$"\r\n\tAudioOffset: {(e.AudioOffset + 5000) / 10000}ms" + $"\r\n\tVisemeId: {e.VisemeId}" // + $"\r\n\tAnimation: {e.Animation}");if (string.IsNullOrEmpty( e.Animation)==false){// \r\n, 是為了組合 json 格式content += e.Animation + "\r\n,";index++;}};// 注冊合成完畢的事件speechSynthesizer.SynthesisCompleted += async (s, e) =>{Console.WriteLine($"SynthesisCompleted event:" +$"\r\n\tAudioData: {e.Result.AudioData.Length} bytes" +$"\r\n\tindex: {index} " +$"\r\n\tAudioDuration: {e.Result.AudioDuration}");content = content.Substring(0, content.Length-1);content += "]";await CommitAsync(fileName, content);};// Synthesize the SSMLConsole.WriteLine($"SSML to synthesize: \r\n{ssml}");var speechSynthesisResult = await speechSynthesizer.SpeakSsmlAsync(ssml);// 獲取到視頻的數據,保存為 .wav using var stream = AudioDataStream.FromResult(speechSynthesisResult);await stream.SaveToWaveFileAsync(@$"d:\temp\{fileName}.wav");// Output the resultsswitch (speechSynthesisResult.Reason){case ResultReason.SynthesizingAudioCompleted:Console.WriteLine("SynthesizingAudioCompleted result");break;case ResultReason.Canceled:var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");if (cancellation.Reason == CancellationReason.Error){Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");}break;default:break;}}Console.WriteLine("Press any key to exit...");Console.ReadKey();}/// <summary>/// 嘴型 animation 數據,本地保存為 json 數據/// </summary>/// <param name="fileName">保存文件名</param>/// <param name="content">保存內容</param>/// <returns></returns>static async Task CommitAsync(string fileName,string content){var bits = Encoding.UTF8.GetBytes(content);using (var fs = new FileStream(path: @$"d:\temp\{fileName}.json",mode: FileMode.Create,access: FileAccess.Write,share: FileShare.None,bufferSize: 4096,useAsync: true)){await fs.WriteAsync(bits, 0, bits.Length);}}
}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/39765.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/39765.shtml
英文地址,請注明出處:http://en.pswp.cn/news/39765.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

01- vdom 和模板編譯源碼

組件渲染的過程 template --> ast --> render --> vDom --> 真實的Dom --> 頁面 Runtime-Compiler和Runtime-Only的區別 - 簡書 編譯步驟 模板編譯是Vue中比較核心的一部分。關于 Vue 編譯原理這塊的整體邏輯主要分三個部分&#xff0c;也可以說是分三步&am…

《vue3實戰》運用radio單選按鈕或Checkbox復選框實現單選多選的試卷制作

文章目錄 目錄 系列文章目錄 1.《Vue3實戰》使用axios獲取文件數據以及走馬燈Element plus的運用 2.《Vue3實戰》用路由實現跳轉登錄、退出登錄以及路由全局守護 3.《vue3實戰》運用Checkbox復選框實現單選多選的試卷展現&#xff08;本文&#xff09; 文章目錄 前言 radio是什…

Java中List排序的4種方法

開發過程中經常會遇到讀取文件內容的情況&#xff0c;需要判斷文件是否為文本文件&#xff0c;及文件編碼格式&#xff0c;防止無法讀取內容或亂碼出現情況。 我們可以通過 java.io.File 類包找出文件是目錄還是常規文件。java.io.File 類包含兩種方法&#xff0c;它們分別是&…

TCP服務器—實現數據通信

目錄 前言 1.接口介紹 2.編寫服務器 3.編寫客戶端 4.編譯鏈接 5.測試 6.總結 前言 今天我們要介紹的是使用TCP協議實現數據通信&#xff0c;相比于之前寫的UDP服務器實現數據信&#xff0c;在主體邏輯上并沒有差別。客戶端向服務器發送信息&#xff0c;服務器接受信息并回…

JavaEE初階:多線程 - Thread 類的基本用法

上次我們了解了多線程的五種創建方法&#xff0c;今天來學習Thread的基本用法。 目錄 run和start Thread常見的構造方法 Thread的幾個常見屬性 后臺線程 是否存活 線程終止 1.使用標志位 2.使用Thread自帶的標志 等待線程 run和start 首先需要理解Thread的run和star…

JavaWeb-Listener監聽器

目錄 監聽器Listener 1.功能 2.監聽器分類 3.監聽器的配置 4.ServletContext監聽 5.HttpSession監聽 6.ServletRequest監聽 監聽器Listener 1.功能 用于監聽域對象ServletContext、HttpSession和ServletRequest的創建&#xff0c;與銷毀事件監聽一個對象的事件&#x…

Python源碼05:使用Pyecharts畫詞云圖圖

**Pyecharts是一個用于生成 Echarts 圖表的 Python 庫。Echarts 是一個基于 JavaScript 的數據可視化庫&#xff0c;提供了豐富的圖表類型和交互功能。**通過 Pyecharts&#xff0c;你可以使用 Python 代碼生成各種類型的 Echarts 圖表&#xff0c;例如折線圖、柱狀圖、餅圖、散…

Glide 的超時控制相關處理

作者&#xff1a;newki 前言 Glide 相信大家都不陌生&#xff0c;各種源碼分析&#xff0c;使用介紹大家應該都是爛熟于心。但是設置 Glide 的超時問題大家遇到過沒有。 我遇到了&#xff0c;并且掉坑里了&#xff0c;情況是這樣的。 調用接口從網絡拉取用戶頭像&#xff0c…

3.微服務概述

1.大型網絡架構變遷 SOA與微服務最大的差別就是服務拆分的細度&#xff0c;目前大多數微服務實際上是SOA架構&#xff0c;真正的微服務應該是一個接口對應一個服務器&#xff0c;開發速度快、成本高&#xff1b; 微服務SOA能拆分的就拆分是整體的&#xff0c;服務能放一起的都…

自動駕駛HMI產品技術方案

版本變更 序號 日期 變更內容 編制人 審核人 文檔版本 1 2 1.

【計算機網絡】13、ARP 包:廣播自己的 mac 地址和 ip

機器啟動時&#xff0c;會向外廣播自己的 mac 地址和 ip 地址&#xff0c;這個即稱為 arp 協議。范圍是未經過路由器的部分&#xff0c;如下圖的藍色部分&#xff0c;范圍內的設備都會在本地記錄 mac 和 ip 的綁定信息&#xff0c;若有重復則覆蓋更新&#xff08;例如先收到 ma…

【Spring】深入理解 Spring 事務及其傳播機制

文章目錄 一、Spring 事務是什么二、Spring 中事務的實現方法2.1 Spring 編程式事務&#xff08;手動&#xff09;2.1.1 編程式事務的使用演示2.1.2 編程式事務存在的問題 2.2 Spring 聲明式事務&#xff08;自動&#xff09;2.2.1 Transactional 作用范圍2.2.2 Transactional …

騰訊云GPU服務器GN7實例NVIDIA T4 GPU卡

騰訊云GPU服務器GN7實例搭載1顆 NVIDIA T4 GPU&#xff0c;8核32G配置&#xff0c;系統盤為100G 高性能云硬盤&#xff0c;自帶5M公網帶寬&#xff0c;系統鏡像可選Linux和Windows&#xff0c;地域可選廣州/上海/北京/新加坡/南京/重慶/成都/首爾/中國香港/德國/東京/曼谷/硅谷…

安卓純代碼布局開發游戲二:Android Studio開發環境搭建

1.Android Studio下載&#xff1a; Download Android Studio & App Tools - Android Developers 2.安裝 安裝過程非常簡單&#xff0c;找到下載包&#xff0c;一直點Next即可。 3.下載Android SDK 第一次進入Android Studio默認會先下載Android SDK,筆者下載的Android SDK存…

零售行業供應鏈管理核心KPI指標(三)

完美訂單滿足率和退貨率 完美訂單滿足率有三個方面的因素影響&#xff1a;訂單按時、足量、無損交貨。通常情況下零售企業追求線上訂單履行周期慢慢達到行業平均水平&#xff0c;就是交付的速度變快了&#xff0c;這個肯定是一件好事情&#xff0c;趨勢越來越好。 同時&#…

歐拉公式

文章目錄 歐拉公式e歐拉恒等式歐拉公式歐拉公式 推導2步驟1: 使用泰勒級數展開步驟2: 將 i x i x ix 代入 e x e^x ex 復平面上推導歐拉公式步驟1&#xff1a;復平面上的復數表示步驟2&#xff1a;定義復數的指數形式步驟3&#xff1a;求導步驟4&#xff1a;連接兩種形式步驟…

ubuntu安裝opencv4

apt 安裝 sudo apt install libopencv-dev python3-opencvpkg-config查看安裝 sudo apt install pkg-configpkg-config --modversion opencv4pkg-config --libs --cflags opencv4參考 如何在 Ubuntu 20.04 上安裝 OpenCV pkg-config 詳解

spark yarn 開啟動態資源分配

概念 不需要指定并發&#xff0c;只需要指定內存&#xff0c; 程序在運行后會動態調節并發數量&#xff0c;我們只需要設置一個上線即可 在spark 配置文件設置&#xff1a; spark.dynamicAllocation.enabled true spark.shuffle.service.enabled true 準備shuffer jar 將spar…

星際爭霸之小霸王之小蜜蜂(一)

目錄 前言 一、安裝pygame庫 1、pygame庫簡介 2、在windows系統安裝pygame庫 二 、搭建游戲框架 1、創建游戲窗口 2、改變窗口顏色 總結 前言 大家應該都看過或者都聽說過python神書“大蟒蛇”&#xff0c;上面有一個案例是《外星人入侵》&#xff0c;游戲介紹讓我想起了上…

炫酷UI前端效果的CSS生成工具

提升設計人員和前端開發人員的工作 推薦炫酷UI前端效果的CSS生成工具1.Neumorphism2.帶有漸變的圖標3.Interactions4.大型數據庫5.動畫6.Mask7.動畫按鈕8. 自定義形狀分隔線9.背景圖案10. SVG波浪推薦炫酷UI前端效果的CSS生成工具 1.Neumorphism 地址:https://neumorphism.i…