數學視頻動畫引擎Python庫 -- Manim Voiceover 語音服務 Speech Services

文中內容僅限技術學習與代碼實踐參考,市場存在不確定性,技術分析需謹慎驗證,不構成任何投資建議。

Mathematical Animation Engine

Manim Voiceover 是一個為 Manim 打造的專注于語音旁白的插件:

  • 直接在 Python 中添加語音旁白: 無需使用視頻編輯器,即可為 Manim 視頻添加語音旁白。
  • 在渲染期間錄制旁白: 通過簡單的命令行界面(參見 RecorderService),可使用麥克風在渲染過程中錄制語音旁白。
  • 使用 AI 生成旁白: 利用多種免費及付費服務,開發時可直接使用 AI 自動生成的配音。
  • 動畫逐詞時間標記: 實現動畫與語音旁白的逐詞時間標記同步,即根據語音旁白中特定詞語觸發相應的動畫效果。即使是錄制的音頻,此功能也能實現。這得益于 OpenAI Whisper 技術的支持。

語音服務

Manim Voiceover 可以與各種語音合成器集成,以生成旁白音頻。以下是可用服務的比較,包括它們的優缺點以及如何設置。

選擇語音服務

Manim Voiceover 定義了 SpeechService 類,用于添加新的語音合成器。以下介紹的類都是從 SpeechService 派生的。

語音服務質量是否可以離線運行是否付費/需要賬戶注意事項
RecorderService不適用不適用不適用這是一個實用類,用于通過麥克風錄制自己的旁白。
AzureService非常好,類似人類Azure 提供每月 500 分鐘的免費 TTS 配額。然而,注冊仍需要信用卡或借記卡。有關詳細信息,請參閱 Azure 免費賬戶常見問題解答。
ElevenLabsService非常好,類似人類需要 ElevenLabs 賬戶。點擊此處注冊。
CoquiService好,類似人類需要 PyTorch 才能運行。在某些平臺上可能難以設置。
GTTSService這是一個由 Google 補貼的免費 API,因此未來可能會停止工作。
OpenAIService非常好,類似人類需要 OpenAI 開發者賬戶。請參閱平臺以注冊,并查看定價頁面以了解更多信息。
PyTTSX3Service需要 espeak。在 Mac 上運行不可靠。

可用語音服務的比較

我們計劃提供一個可以在本地免費運行的高質量 TTS 引擎。如果您有任何建議,請在 Discord 服務器中告訴我們。

RecorderService

這不是一個語音合成器,而是一個實用類,用于通過麥克風錄制自己的旁白。它提供了一個命令行界面,以便在渲染過程中錄制旁白。

為了使用 RecorderService,請安裝帶有 recorder 額外組件的 Manim Voiceover:

pip install "manim-voiceover[recorder]"

請參閱示例用法以開始。

AzureService

目前,Manim Voiceover 中可用的最高質量的文本到語音服務是 Microsoft Azure 語音服務。要使用它,您需要創建一個 Azure 賬戶。

提示:Azure 目前每月提供 500 分鐘的免費 TTS。這對于大多數項目來說已經足夠。

為了使用 AzureService,請安裝帶有 azure 額外組件的 Manim Voiceover:

pip install "manim-voiceover[azure]"

然后,您需要找到您的訂閱密鑰和服務區域:

  • 登錄到 Azure 門戶并創建一個新的語音服務資源。
  • 轉到 Azure 認知服務頁面。
  • 點擊您創建的資源并轉到 Keys and Endpoint 選項卡。復制 Key 1Location 的值。

在您調用 Manim 的同一目錄中創建一個名為 .env 的文件,其中包含您的身份驗證信息。

AZURE_SUBSCRIPTION_KEY="..." # 在此處插入 Key 1
AZURE_SERVICE_REGION="..."   # 在此處插入 Location

請參閱 Azure 文檔以了解更多信息。

請參閱示例用法以開始。

CoquiService

Coqui TTS 是一個開源的神經文本到語音引擎。它是 Mozilla TTS 的一個分支,而 Mozilla TTS 是 Tacotron 2 的一個實現。它是一個非常好的 TTS 引擎,能夠產生類似人類的語音。然而,它需要 PyTorch 才能運行,這在某些平臺上可能難以設置。

為了使用 CoquiService,請安裝帶有 coqui 額外組件的 Manim Voiceover:

pip install "manim-voiceover[coqui]"

如果您遇到 PyTorch 或 NumPy 的問題,請嘗試將您的 Python 版本更改為 3.9。

請參閱示例用法以開始。

GTTSService

gTTS 是一個文本到語音庫,它封裝了 Google 翻譯的文本到語音 API。它需要互聯網連接才能工作。

為了使用 GTTSService,請安裝帶有 gtts 額外組件的 Manim Voiceover:

pip install "manim-voiceover[gtts]"

請參閱示例用法以開始。

OpenAIService

OpenAI 提供了一個文本到語音服務。這是一個通過 API 提供的服務,因此它需要互聯網連接才能工作。它還需要一個 API 密鑰才能使用。請在此處注冊。

為了使用 OpenAIService,請安裝帶有 openai 額外組件的 Manim Voiceover:

pip install "manim-voiceover[openai]"

然后,您需要找到您的 API 密鑰:

  • 登錄到OpenAI 平臺并從左側面板中點擊 Api Keys。
  • 點擊創建一個新的密鑰并復制它。

在您調用 Manim 的同一目錄中創建一個名為 .env 的文件,其中包含您的身份驗證信息。

OPENAI_API_KEY="..." # 在此處插入密鑰。它應該以 "sk-" 開頭

請參閱 OpenAI 文檔以了解更多信息。

請參閱示例用法以開始。

PyTTSX3Service

pyttsx3 是一個文本到語音庫,它封裝了 espeak,這是一個形式合成語音合成器。

為了使用 PyTTSX3Service,請安裝帶有 pyttsx3 額外組件的 Manim Voiceover:

pip install "manim-voiceover[pyttsx3]"

請參閱示例用法以開始。

ElevenLabsService

ElevenLabs 提供了最自然的語音服務 API 之一。它擁有一系列逼真且富有情感的聲音,并且還允許您通過上傳幾分鐘的語音來克隆自己的聲音。要使用它,您需要在 Eleven Labs 創建一個賬戶。

提示:ElevenLabs 目前每月提供 10,000 個字符的免費 TTS,并且最多可以使用 3 個自定義聲音。

為了使用 ElevenLabsService,請安裝帶有 elevenlabs 額外組件的 Manim Voiceover:

pip install "manim-voiceover[elevenlabs]"

然后,您需要找到您的 API 密鑰。

  • 登錄到 ElevenLabs 門戶并轉到您的個人資料以獲取密鑰
  • 將環境變量 ELEVEN_API_KEY 設置為您的密鑰

在您調用 Manim 的同一目錄中創建一個名為 .env 的文件,其中包含您的身份驗證信息。

ELEVEN_API_KEY="..." # 在此處插入 Key 1

請參閱 ElevenLabs 文檔以了解更多信息。

請參閱示例用法以開始。

風險提示與免責聲明
本文內容基于公開信息研究整理,不構成任何形式的投資建議。歷史表現不應作為未來收益保證,市場存在不可預見的波動風險。投資者需結合自身財務狀況及風險承受能力獨立決策,并自行承擔交易結果。作者及發布方不對任何依據本文操作導致的損失承擔法律責任。市場有風險,投資須謹慎。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87937.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87937.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87937.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++11 forward_list 從基礎到精通:原理、實踐與性能優化

文章目錄一、為什么需要 forward_list?二、基礎篇:forward_list 的核心特性與接口2.1 數據結構與迭代器2.2 常用接口速覽2.3 基礎操作示例:從初始化到遍歷2.3.1 初始化與遍歷2.3.2 插入與刪除:before_begin 的關鍵作用三、進階篇&…

物聯網技術的核心組件與發展趨勢(截至2025年)

一、物聯網技術的核心組件物聯網(IoT)技術體系由感知層、網絡層、平臺層、應用層和安全層構成,各層技術協同工作,實現物理世界與數字世界的深度融合。1. 感知層:數據采集與交互傳感器技術:類型:…

面試中常見的問題:JavaScript 宏任務與微任務,包教包會

事件循環Event Loop 我們都知道,JavaScript 是一種單線程的編程語言,簡單的說就是:js只有一條通道,那么在任務多的情況下,就會出現擁擠的情況,這種情況下就產生了 ‘多線程’ ,但是這種“多線程…

【LeetCode102.二叉樹的層序遍歷】vs.【LeetCode103.二叉樹的鋸齒形層序遍歷】

題目鏈接 LeetCode102.二叉樹的層序遍歷:102. 二叉樹的層序遍歷 - 力扣(LeetCode)LeetCode103.二叉樹的鋸齒形層序遍歷:103. 二叉樹的鋸齒形層序遍歷 - 力扣(LeetCode) 實現思路 定義一個隊列&#xff0…

Redis On-CPU Profiling定位瓶頸到可視化火焰圖

1 . 前置檢查:確認 CPU 真的是瓶頸 在正式打性能“補丁”前,務必跑一遍系統級健康核對表(推薦 Brendan Greg 的 USE Method):資源關注指標常用工具CPUUtil/Idle、RunQueuetop、vmstat、sar內存Fault、Swap、Cache Miss…

未來趨勢:AI與量子計算對服務器安全的影響

隨著技術的飛速發展,人工智能(AI)和量子計算正在深刻改變信息技術的各個領域。特別是在服務器安全領域,這兩項技術既帶來了新的可能性,也帶來了前所未有的挑戰。本文將探討AI和量子計算技術對服務器安全的影響&#xf…

markdown學習筆記(個人向) Part.1

markdown學習筆記(個人向) Part.1 1. 推薦插件 markdown: 安裝支持markdown的插件; markdown-preview-github-styles: 可以將VS Code上默認的markdown預覽樣式修改成github上常用的形式,很大程度上提高文件…

ZooKeeper 實現分布式鎖

1. 分布式鎖概述 在分布式系統中,為了保證共享資源在并發訪問下的數據一致性,需要引入分布式鎖。分布式鎖是一種在分布式環境下控制多個進程對共享資源進行互斥訪問的機制。它與單機環境下的鎖(如Java中的synchronized或Lock)不同…

Linux線程——基礎全解

一、什么是線程(Thread)?? 定義:線程是程序執行的最小單位。即線程(Thread)是操作系統能夠進行運算調度的最小單位,它被包含在進程之中,是進程中的實際運作單位。一個進程可以并發多…

Java基礎--封裝+static

目錄 什么是封裝? 什么是訪問限定符? static靜態修飾符 用static修飾的類變量或類方法的注意事項: 什么是封裝? 封裝是面向對象的三大特性之一,指的是將一個類中的實現細節進行隱藏,對外只提供一些開放…

DAY 51 復習日

作業:day43的時候我們安排大家對自己找的數據集用簡單cnn訓練,現在可以嘗試下借助這幾天的知識來實現精度的進一步提高import torch import torch.nn as nn import torch.nn.functional as F import torchvision import torchvision.transforms as trans…

針對網絡爬蟲的相關法律法規整理

在中國,網絡爬蟲的法律法規涉及多個層面,包括個人信息保護、數據安全、網絡安全、知識產權、反不正當競爭等。以下是詳細的法律法規分析及合規指南: 1. 核心法律法規及適用場景? ??(1)《民法典》——隱私權與個人信…

1.1_5_2 計算機網絡的性能指標(下)

繼續來看計算機網絡的性能指標,接下來我們探討時延,時延帶寬積和往返時延,以及信道利用率這幾個性能指標。 首先來看時延這個性能指標,英文叫delay,也有的教材,把它翻譯為延遲。所謂的時延,就是…

PP-OCRv2:超輕OCR系統的萬能包

PP-OCRv2:超輕OCR系統的萬能包摘要光學字符識別(OCR)系統已廣泛應用于多種場景,但設計兼顧精度與效率的OCR系統仍具挑戰性。我們此前提出的超輕量OCR系統PP-OCR在平衡兩者方面取得進展。本文進一步提出PP-OCRv2,通過五…

常見的軟件版本開源協議

開源軟件許可證核心指南 一、許可證基礎分類 1. 寬松型許可證(Permissive) 核心特征:允許閉源衍生,僅保留版權聲明適用場景:商業集成、快速開發代表協議: 📜 MIT 📜 Apache 2.0 &…

基于FPGA的一維序列三次樣條插值算法verilog實現,包含testbench

目錄 1.前言 2.算法運行效果圖預覽 3.算法運行軟件版本 4.部分核心程序 5.算法仿真參數 6.算法理論概述 7.參考文獻 8.算法完整程序工程 1.前言 三次樣條插值是一種在數據擬合和信號處理中廣泛應用的技術,它通過構造分段三次多項式來逼近給定的離散數據點&a…

RAG 之 Prompt 動態選擇的三種方式

“如果我有5個prompt模板,我想只選擇一個每次都自動五選一能做到嗎怎么做?” 完全可以做到。這在復雜的RAG或Agentic工作流中是一個非常普遍且關鍵的需求,通常被稱為“條件路由(Conditional Routing)”或“動態調度&am…

【ROS2 自動駕駛學習】02-安裝ROS2及其配套工具

目錄 一、設置語言環境 二、添加存儲庫 三、添加軟件源 四、安裝ROS2 五、配置環境 六、測試ROS2 七、安裝一些工具 7.1 terminator 7.2 colcon工具 7.3 tf工具 7.4 joint-state-publisher工具 7.5 urdf 八、安裝三方庫 8.1 Eigen 8.2 yaml-cpp 8.3 matplotl…

系統學習Python——并發模型和異步編程:基礎知識

分類目錄:《系統學習Python》總目錄 并行是并發的一種特殊情況。**所有并行系統都是并發的,但不是所有并發系統都是并行的。**在21世紀初,我們可以使用單核設備在GNU Linux上同時處理100個進程。一臺擁有4個CPU核的現代筆記本計算機&#xff…

睿爾曼系列機器人——以創新驅動未來,重塑智能協作新生態(下)

在智能制造與人工智能深度融合的當下,機器人技術正經歷從 “功能替代” 到 “價值共創” 的深刻躍遷。睿爾曼,作為全球超輕量仿人機械臂領域的先行者,始終秉持 “讓機器人觸手可及” 的使命,憑借底層技術的突破性進展,…