使用 Lhotse 高效管理音頻數據集

使用 Lhotse 高效管理音頻數據集

news/2025/9/13 1:37:10/文章來源:https://blog.csdn.net/AI_SHELL/article/details/134555232

Lhotse 是一個旨在使語音和音頻數據準備更具靈活性和可訪問性的 Python 庫，它與 k2 一起，構成了下一代 Kaldi 語音處理庫的一部分。

主要目標：

1. 以 Python 為中心的設計吸引更廣泛的社區參與語音處理任務。

2. 為有經驗的 Kaldi 用戶提供富有表現力的命令行接口。

3. 為常用的語料庫提供標準的數據準備方案。

4. 為與語音和音頻相關的任務提供 PyTorch 數據集類。

5. 通過音頻剪輯的概念實現模型訓練中的靈活數據準備。

6. 提高效率，特別是在 I/O 帶寬和存儲容量方面。

使用 Lhotse 對數據集結構化抽象、存儲和轉換成 PyTorch 數據管道，可以很方便實現語音識別和語音合成工程項目。

無論是音頻大文件和小文件，都可以使用 cut 來有效表達：

Lhotse 支持了近百個數據集，開箱即用，新的數據集可參考這些例子來完成。

操作數據集也很方便

很方便地與 PyTorch 集成

Lhotse 的可擴展性

除了文本與語音信息外，Lhotse 還可以 custom 許多信息：強制對齊、duration、pitch 等，可以方便地支持多種語音任務。

對于特征抽取的存儲，Lhotse 的寫入效率會隨著文件大小逐漸變慢，必要的時候需要 CutSet.split 成多個 JOB 執行來提高效率。?

此外，盡管 Lhotse 提供了命令行工具，但缺乏 web 工具去分析數據集、樣例數據。

依賴?Lhotse 的項目

https://github.com/k2-fsa/icefall
https://github.com/lifeiteng/vall-e

參考資料：

https://lhotse.readthedocs.io/en/latest/index.html
Slides for the Interspeech 2023 tutorial
- https://github.com/k2-fsa/icefall/issues/1230

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/161565.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/161565.shtml
英文地址，請注明出處：http://en.pswp.cn/news/161565.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

SpringBoot——啟動類的原理

SpringBoot——啟動類的原理

優質博文：IT-BLOG-CN SpringBoot啟動類上使用SpringBootApplication注解，該注解是一個組合注解，包含多個其它注解。和類定義SpringApplication.run要揭開SpringBoot的神秘面紗，我們要從這兩位開始就可以了。 SpringBootApplicati…

閱讀更多...

Spring實例化對象

Spring實例化對象

默認proxyBeanMethods true，這種方法是用的代理模式創建對象，每次創建都是同一個對象，如果改為false每次都是不同的對象 FactoryBean的使用定義的類A，造出來一個類B，可以在創造bean之前做一些自己的個性化操作

閱讀更多...

MFS分布式文件系統

MFS分布式文件系統

目錄集群部署 Master Servers ?Chunkservers ?編輯Clients Storage Classes LABEL mfs高可用 pacemaker高可用 ?編輯ISCSI 添加集群資源主機 ip 角色 server1 192.168.81.11 Master Servers server2 192.168.81.12 Chunkservers server3 192.168.81.13 Chunkserver…

閱讀更多...

【產品安全平臺】上海道寧與Cybellum將整個產品安全工作流程整合到一個專用平臺中，保持構建的互聯產品的網絡安全和網絡合規性

【產品安全平臺】上海道寧與Cybellum將整個產品安全工作流程整合到一個專用平臺中，保持構建的互聯產品的網絡安全和網絡合規性

Cybellum將整個產品安全工作流程整合到一個專用平臺中使設備制造商能夠保持他們構建的互聯產品的網絡安全和網絡合規性產品安全性對每個人來說都不一樣每個行業的系統、工作流程和法規都存在根本差異因此，Cybellum量身定制了 Cybellum的平臺和技…

閱讀更多...

為何內存不夠用？微服務改造啟動多個Spring Boot的陷阱與解決方案

為何內存不夠用？微服務改造啟動多個Spring Boot的陷阱與解決方案

在生產環境中我們會遇到一些問題，此文主要記錄并復盤一下當時項目中的實際問題及解決過程。背景簡述最初系統上線后都比較正常風平浪靜的。在系統運行了一段時間后，業務量上升后，生產上發現java應用內存占用過高，服務器總共64…

閱讀更多...

打印出一個底部有n個*的漏斗c語言

打印出一個底部有n個*的漏斗c語言

題目描述打印出一個底部有n個*的漏斗輸入第一行輸入一個T;表示有T組測試數據下面每一行都有一個n表示漏斗底部*的個數 n保證是奇數輸出輸出打印結果兩個測試答案之間要用換行分割 /*printf("這是第%d行我要打印%d個* \n",Num,i); */ *********** *…

閱讀更多...

愛創科技總裁謝朝暉榮獲“推動醫藥健康產業高質量發展人物”

愛創科技總裁謝朝暉榮獲“推動醫藥健康產業高質量發展人物”

中國醫藥市場規模已經成為全球第二大醫藥市場，僅次于美國。近年來，隨著中國經濟的持續增長和人民生活水平的提高，醫藥市場需求不斷擴大。政府對醫療衛生事業的投入也在不斷加大，為醫藥行業的發展創造了良好的政策環境。為推動醫藥…

閱讀更多...

SparkSession介紹

SparkSession介紹

一、介紹 SparkSession是Spark 2.0中引入的新概念，它是Spark SQL、DataFrame和Dataset API的入口點，是Spark編程的統一API，也可看作是讀取數據的統一入口；它將以前的SparkContext、SQLContext和HiveContext組合在一起&#xff0…

閱讀更多...

結構體與指針_sizeof_static_extern_函數指針數組_函數指針_回調函數

結構體與指針_sizeof_static_extern_函數指針數組_函數指針_回調函數

一、結構體與指針 #include <stdint.h> #include <stdlib.h> #include <stdio.h> #define up_to_down(uuu) (downdemo_t *)(uuu->beg) #define __plc__ typedef struct updemo_s{uint8_t *head;uint8_t *beg;uint8_t *end; }updemo_t; typedef struct do…

閱讀更多...

陪玩圈子系統APP小程序H5，詳細介紹，源碼交付，支持二開！

陪玩圈子系統APP小程序H5，詳細介紹，源碼交付，支持二開！

陪玩圈子系統，頁面展示，源碼交付，支持二開！ 陪玩后端下載地址：電競開黑陪玩系統小程序，APP，H5: 本系統是集齊開黑，陪玩，陪聊于一體的專業APP，小程序&#xff…

閱讀更多...

2：kotlin集合（Collections）

2：kotlin集合（Collections）

集合有助于數據分組，方便后續操作集合類型說明Lists有序的可重復的集合Sets無序的不可重復的集合Maps鍵值對映射集合，鍵唯一，且一個鍵只能映射到一個值每個集合類型都可以是可變的或者只讀的 List List按照添加的順序存儲內容&#xff…

閱讀更多...

Linux進程通信——共享內存

Linux進程通信——共享內存

概念共享內存（Shared Memory），指兩個或多個進程共享一個給定的存儲區。特點共享內存是最快的一種 IPC，因為進程是直接對內存進行存取。因為多個進程可以同時操作，所以需要進行同步。信號量共享內存通常結合在一…

閱讀更多...

Open3D (C++) 計算兩點云之間的最小距離

Open3D (C++) 計算兩點云之間的最小距離

目錄一、算法原理二、代碼實現三、結果展示本文由CSDN點云俠原創，原文鏈接。如果你不是在點云俠的博客中看到該文章，那么此處便是不要臉的爬蟲與GPT。一、算法原理 Open3D中ComputePointCloudDistance函數提供了計算從源點云到目標點云的距離的方法，計算點云的距離。也…

閱讀更多...

python數據結構與算法-05_棧

python數據結構與算法-05_棧

棧棧這個詞實際上在計算機科學里使用很多，除了數據結構外，還有內存里的棧區 （和堆對應），熟悉 C 系語言的話應該不會陌生。上一章我們講到了先進先出 queue，其實用 python 的內置類型 collections.deque …

閱讀更多...

【C語法學習】26 - strcmp()函數

【C語法學習】26 - strcmp()函數

文章目錄 1 函數原型2 參數3 返回值4 比較機制5 示例5.1 示例1 1 函數原型 strcmp()：比較str1指向的字符串和str2指向的字符串，函數原型如下： int strcmp(const char *str1, const char *str2);2 參數 strcmp()函數有兩個參數str1和str2&a…

閱讀更多...

HCIP-四、MUX-vlanSuper-vlan+端口安全

HCIP-四、MUX-vlanSuper-vlan+端口安全

四、MUX-vlan&Super-vlan端口安全 MUX-vlan實驗拓撲實驗需求及解法1. 在SW1/2/3分別創建vlan10 20 30 402. SW1/2/3之間使用trunk鏈路，僅允許vlan10 20 30 40 通過。3. SW與PC/Server之間使用access鏈路。4. ping驗證： Super-vlan端口安全實驗拓撲實…

閱讀更多...

【騰訊云云上實驗室-向量數據庫】騰訊云開創新時代，發布全新向量數據庫Tencent Cloud VectorDB

【騰訊云云上實驗室-向量數據庫】騰訊云開創新時代，發布全新向量數據庫Tencent Cloud VectorDB

前言隨著人工智能、數據挖掘等技術的飛速發展，海量數據的存儲和分析越來越成為重要的研究方向。在海量數據中找到具有相似性或相關性的數據對于實現精準推薦、搜索等應用至關重要。傳統關系型數據庫存在一些缺陷，例如存儲效率低、查詢耗時長等問題&…

閱讀更多...

CentOS使用docker安裝OpenGauss數據庫

CentOS使用docker安裝OpenGauss數據庫

1.搜索OpenGauss docker search opengauss 2.選擇其中一個源拉取 docker pull docker.io/enmotech/opengauss 3.運行OpenGauss docker run --name opengauss --privilegedtrue --restartalways -d -e GS_USERNAMEpostgres -e GS_PASSWORDmyGauss2023 -p 5432:5432 docker.…

閱讀更多...

黑馬React18: ReactRouter

黑馬React18: ReactRouter

黑馬React: ReactRouter Date: November 21, 2023 Sum: React路由基礎、路由導航、導航傳參、嵌套路由配置路由快速上手 1. 什么是前端路由一個路徑 path 對應一個組件 component 當我們在瀏覽器中訪問一個 path 的時候，path 對應的組件會在頁面中進行渲染 2. …

閱讀更多...

2023年中國高壓驅動芯片分類、市場規模及發展趨勢分析[圖]

2023年中國高壓驅動芯片分類、市場規模及發展趨勢分析[圖]

高壓驅動芯片是一種能在高壓環境下工作的集成電路，主要用于控制和驅動各種功率器件，如繼電器、電磁閥、電機、變頻器等。高壓驅動芯片根據其輸出電流的大小和形式可分為兩類恒流型和開關型。高壓驅動芯片分類資料來源：共研產業咨詢&#x…

閱讀更多...

最新文章