【fish-speech】新模型openaudio-s1-mini嘗鮮

一、配置

顯卡:v100(測試簡短語句,顯存實際占用不足6G)

二、安裝測試

1. 安裝

1.1 下載源碼

git clone https://github.com/fishaudio/fish-speech.git

1.2 安裝系統組件

apt install portaudio19-dev libsox-dev ffmpeg

1.3 conda創建虛擬環境

conda create -n fish-speech python=3.12
conda activate fish-speechpip install -e .

2. 下載模型

cd /data/models
mkdir openaudio-s1-mini
modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini

3. webui測試

3.1 啟動命令

export GRADIO_SERVER_NAME=192.168.114.114
python -m tools.run_webui \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq

3.2 訪問

頁面:http://192.168.114.114:7860/

  • 隨機音色

在Input Text中鍵入要生成的文字,點擊Generate。

在這里插入圖片描述

  • 固定音色

需要在Reference Audio上傳音頻和Reference Text鍵入音頻對應的文字,之后就可以在Input Text中鍵入要生成的文字,點擊Generate即可。

在這里插入圖片描述

4. api測試

4.1 啟動服務端

python -m tools.api_server \--llama-checkpoint-path "/data/models/openaudio-s1-mini" \--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \--decoder-config-name modded_dac_vq

4.2 客戶端調用

默認保存到generated_audio.wav,也可以通過指定--output參數重命名。

  • 隨機音色
python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后,又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play
  • 固定音色

–reference_audio指定要參考的音頻,–reference_text指定參考音頻的文字,-t指定要生成的音頻文字,–no-play禁止生成后播放。

python tools/api_client.py \-t '在《長安的荔枝》開播并收獲一眾好評后,又一有著大爆劇潛質的《以法之名》也緊接著播出了。' \--no-play \--reference_audio 'fake.wav' \--reference_text '您想要轉換的文本'

5. 總結

fish-speech和各類工具,功能越來越強大的同時,v100這些舊顯卡,也漸漸要退出歷史舞臺了,官方文檔說您可能希望使用 --compile 來融合 CUDA 內核以實現更快的推理(~15 token/秒 -> ~150 token/秒,在RTX 4090 GPU上,但是v100不支持了。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86781.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86781.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86781.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

介紹Windows下的由Sysinternals開發的一些小工具

Sysinternals是一個開發了很多Windows下系統工具的公司,這些工具能極大地提高對Windows系統的深入認知。就像它的名字Sys(tem)internals,深入系統里面。這些工具都放在微軟的網站上可以下載到。https://learn.microsoft.com/en-us/sysinternals/ 下載網…

云服務器環境下Linux系統epoll機制與高并發服務器優化實踐

在當今云計算時代,云已成為企業部署高并發服務的首選平臺。本文將深入探討Linux系統核心的epoll機制如何賦能云環境下的高并發服務器,解析其底層工作原理與性能優勢,并對比傳統IO復用模型的差異,幫助開發者構建更高效的云端服務架…

Java爬蟲實戰指南:按關鍵字搜索京東商品

在電商領域,快速獲取商品信息對于市場分析、選品上架、庫存管理和價格策略制定等方面至關重要。京東作為國內領先的電商平臺之一,提供了豐富的商品數據。雖然京東開放平臺提供了官方API來獲取商品信息,但有時使用爬蟲技術來抓取數據也是一種有…

aspose.word在IIS后端DLL中高并發運行,線程安全隔離

aspose.word在IIS后端DLL中運行,加載很慢,如何為全部用戶加載,再每個用戶訪問時在各自線程中直接可以打開WORD文件處理 Aspose.Words 在 IIS 中優化加載性能方案 針對 Aspose.Words 在 IIS 后端 DLL 中加載緩慢的問題,我們可以通過單例模式預加載組件并結合線程安…

鏈表題解——回文鏈表【LeetCode】

一、算法邏輯(通順講解每一步思路) 我們從 isPalindrome 這個主函數入手: 步驟 1:找到鏈表的中間節點 middleNode 使用 快慢指針法(slow 和 fast) 快指針一次走兩步,慢指針一次走一步。 當快…

allegro 銅皮的直角邊怎么快速變成多邊形?

像這種: 變成這種: 解決方案: shape edit boundary 點擊鋪銅邊緣就能裁剪

從廚房到代碼臺:用做菜思維理解iOS開發 - Swift入門篇②

從廚房到代碼臺:用做菜思維理解iOS開發 - Swift入門篇② 本章重點? 理解App開發的整體流程熟悉Xcode主界面結構與常用分區跟著步驟動手創建第一個App項目,認識模擬器掌握"打掃廚房"高頻快捷鍵,解決常見疑難雜癥 1、目標 像一個專…

EloqCloud for KV 初體驗:兼容redis的云原生KV數據庫

最近在做一些AI應用的時候,我在想嘗試利用redis的能力緩存一些信息,這使我想去找一個免費的redis來進行使用,在調研的過程中我發現了一款產品EloqCloud for KV可以提供類似的能力,于是嘗試使用了一下,本文記錄了這次體…

企業級路由器技術全解析:從基礎原理到實戰開發

簡介 在當今數字化時代,路由器作為網絡的核心設備,其技術深度與應用廣度直接影響著企業網絡的性能與安全性。本文將全面解析路由器的基礎原理、工作機制以及企業級開發技術,從網絡層尋址到路由協議算法,從安全配置到QoS實現,再到多廠商API開發實戰,旨在幫助網絡工程師和…

day041-web集群架構搭建

文章目錄 0. 老男孩思想-高薪四板斧1. web集群架構圖2. 搭建異地備份服務2.1 服務端-阿里云服務器2.1.1 查看rsync軟件包2.1.2 添加rsync配置文件2.1.3 添加虛擬用戶2.1.4 創建校驗用戶密碼文件2.1.5 創建備份目錄2.1.6 啟動服務2.1.7 開放安全組端口2.1.8 發送檢查郵件 2.2 客…

day44-Django RestFramework(drf)下

1.5 Django RestFramework(下) drf 內置了很多便捷的功能,在接下來的課程中會給大家依次講解下面的內容: 快速上手請求的封裝版本管理認證權限限流序列化視圖條件搜索分頁路由解析器10. 分頁 在查看數據列表的API中,如果 數據量 比較大,肯定不能把所有的數據都展示給用…

機器學習基礎 線性回歸與 Softmax 回歸

機器學習基礎 線性回歸與 Softmax 回歸 文章目錄 機器學習基礎 線性回歸與 Softmax 回歸1. 最小二乘法1.1 數據集定義1.2 最小二乘的矩陣推導1.3 最小二乘的幾何解釋1.4 概率視角下的最小二乘估計 2. 正則化2.1 L1 范數與 L2 范數2.2 正則化的作用2.3 Lasso 回歸的求解2.3.1 L-…

6.27_JAVA_面試(被抽到了)

1.MYSQL支持的存儲引擎有哪些, 有什么區別 ? In-no-DB(默認):支持事務安全(數據庫運行時,能保證數據的一致性、完整性),支持表行鎖,支持物理和邏輯外鍵。占用磁盤空間大。 MEMORY&…

YOLOv13震撼發布:超圖增強引領目標檢測新紀元

YOLOV13最近發布了,速速來看。 論文標題:YOLOv13:融合超圖增強的自適應視覺感知的實時目標檢測 論文鏈接:https://arxiv.org/pdf/2506.17733 代碼鏈接:https://github.com/iMoonLab/yolov13 話不多說,直…

Docker錯誤問題解決方法

1. Error response from daemon: Get “https://registry-1.docker.io/v2/”: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers) https://zhuanlan.zhihu.com/p/24228872523 2. no configuration file provided: …

大模型在惡性心律失常預測及治療方案制定中的應用研究

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與方法 1.3 研究創新點 二、大模型技術概述 2.1 大模型基本原理 2.2 常見大模型類型及特點 2.3 大模型在醫療領域的應用現狀 三、心律失常的術前預測與準備 3.1 術前心律失常預測的重要性 3.2 大模型在術前預測中的應…

【視頻芯片選型】

一、邊緣 AI 芯片選型邏輯與未來趨勢 (一)嘉楠 K230、全志 V853、瑞芯微 RK3588 對比選型 核心場景適配 嘉楠 K230: 適合低功耗邊緣 AI場景,如智能家居中控(支持語音 視覺雙模態交互)、電池供電設備&#…

JavaScript---DOM篇

1. DOM 概念 文檔對象模型:將 HTML 文檔映射為樹形結構,JS 可通過 DOM 操作頁面。 2. 獲取元素 document.getElementById(id) document.querySelector(CSS選擇器) document.querySelectorAll() 獲取多個 3. 操作元素 屬性操作: element.getAt…

第三次課:實驗室安全用電

觸電的危害 觸電的方式 安全用電與預防措施 觸電急救 時間就是生命 安全自省 安全用電常識補充

NV064NV065美光固態閃存NV067NV076

美光NV系列固態閃存技術深度解析與應用指南 技術架構革新:垂直堆疊與浮柵技術的突破 美光NV系列固態閃存的核心競爭力在于其232層NAND閃存技術,通過垂直堆疊工藝將存儲單元層層疊加,如同在指甲蓋面積內構建超過200層“數據樓宇”&#xff0…