音源分離|Music Source Separation in the Waveform Domain

一、文章摘要

????????本文中,比較了兩種時域結構。首先將最初為語音源分離而開發的卷積tasnet應用于音樂源分離任務。雖然ConvTasnet擊敗了許多現有的頻域方法,但正如人類評估所顯示的那樣,它存在明顯的artifacts。本文提出了一種新的時域模型Demucs,它具有U-Net結構和雙向LSTM。

????????在MusDB數據集上的實驗表明,通過適當的數據增強,Demucs擊敗了所有現有的最先進的架構,包括convt - tasnet,平均為6.3 SDR,(在150首額外的訓練歌曲中達到6.8 SDR,甚至超過了bass源的IRM oracle)。使用模型量化的最新發展,Demucs可以壓縮到120MB而不會損失任何精度。我們還提供了人類的評估,表明Demucs在音頻的自然度方面有很大的優勢。然而,它存在一些泄露問題,特別是在人聲和其他源之間。

二、本文方法?

2.1?Conv-Tasnet方法適配到音源分離任務

????????原始的conv?- tasnet架構[Luo和Mesgarani, 2018]由一個學習的前端組成,該前端在以8 kHz采樣的輸入單音混合波形和以1 kHz采樣的128通道過完整表示之間來回轉換,使用卷積作為編碼器和轉置卷積作為解碼器,兩者的核大小為16,步幅為8。通過殘塊堆疊構成的分離網絡對高維表示進行屏蔽。

? ? ? ? 整個的分離思路按照公式(1)進行,一句話概括:最小化各個重建源加和的誤差

? ? ? ? 其中:g表示訓練的模型,x表示各個源,L表示重建誤差,S表示各個源的編號(假設1=bass、2=voval等),D表示訓練用的數據(dataset)。

2.2?Demucs方法

????????Demucs將立體聲混合作為輸入,并輸出每個源的立體聲估計(C = 2)。它是一個編碼器/解碼器架構,由卷積編碼器、雙向LSTM和卷積解碼器組成,編碼器和解碼器通過跳躍連接相連。與圖像[Karras等人,2018,2017]和聲音[dsamfosez等人,2018]生成中的其他工作類似,我們沒有使用批處理歸一化[Ioffe和Szegedy, 2015],因為我們的早期實驗表明它不利于模型性能。

三、實驗結果

????????我們注意到通過convt - tasnet分離的音頻上有很強的偽像,特別是對于鼓和低音源:1到2 kHz之間的靜態噪聲,中空樂器攻擊或缺失音符,如圖1所示。

????????

????????我們在波形域中試驗了兩種音樂源分離架構:Demucs和convt - tasnet。我們表明,通過適當的數據增強,Demucs在波形或頻譜域中超過所有最先進的架構至少0.3 dB的SDR。然而,波形和譜圖域模型之間沒有明顯的贏家,因為前者似乎在低音和鼓源中占主導地位,而后者在人聲和其他源上獲得最佳表現,這是通過客觀指標和人類評估來衡量的。我們推測,譜圖域模型在內容主要是諧波和快速變化時具有優勢,而對于沒有諧波的源(鼓)或具有強烈和強調的攻擊機制(低音),波形域將更好地保留音樂源的結構

????????在訓練和架構方面,我們確認了使用音高/節奏變換增強的重要性(盡管卷積- tasnet架構似乎并沒有從中受益),以及使用LSTM進行長距離依賴,以及具有1x1卷積和GLU激活的強大編碼和解碼層。

????????當使用額外的數據進行訓練時,Demucs首次超過了用于低音源的IRM oracle。另一方面,Demucs仍然遭受比其他架構更大的泄漏,特別是對于人聲和其他來源,我們將在未來的工作中盡量減少。

【原文鏈接】https://arxiv.org/pdf/1911.13254

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11897.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11897.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11897.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

鴻蒙內核源碼分析 (協處理器篇) | CPU 的好幫手

本篇很重要,對CP15協處理所有16個寄存器一一介紹,可能是全網介紹CP15最全面的一篇,鴻蒙內核的匯編部分(尤其開機啟動)中會使用,熟練掌握后看匯編代碼將如虎添翼。 協處理器 協處理器 (co-processor) 顧名思義是協助主處理器完成…

服務器渲染和客戶端渲染:解析服務器渲染(SSR)和客戶端渲染(CSR)的概念,各自的優點和缺點,并比較如Next.js, Nuxt.js等解決方案

首先從概念上區分,服務器渲染(Server-side Rendering,簡稱 SSR)和客戶端渲染(Client-side Rendering,簡稱 CSR)主要的區別在于頁面的渲染地點不同: 服務器渲染,即 SSR&am…

韻搜坊(全棧)-- 前后端初始化

文章目錄 前端初始化后端初始化 前端初始化 使用ant design of vue 組件庫 官網快速上手:https://www.antdv.com/docs/vue/getting-started-cn 安裝腳手架工具 進入cmd $ npm install -g vue/cli # OR $ yarn global add vue/cli創建一個項目 $ vue create ant…

社交媒體數據恢復:默往

如果你在默往社交軟件中丟失了重要的數據,不要著急,以下是一些步驟可以幫助你進行數據恢復: 登錄賬號:首先,你需要登錄默往社交軟件賬號,確保你已經登錄了正確的賬號,因為如果你登錄了錯誤的賬號…

邦芒簡歷:如何恰當呈現跳槽經歷在簡歷中

在職業生涯中,跳槽往往伴隨著個人的成長與選擇。然而,頻繁或不當的跳槽記錄可能會給HR留下不穩定的印象。因此,在撰寫簡歷時,如何恰當地呈現跳槽經歷就顯得尤為重要。 1、短期工作經歷的處理 對于短期工作經歷(尤其是…

弘君資本策略:股指預計保持震蕩上揚格局 關注公用事業、電網設備等板塊

弘君資本指出,周一A股商場探底上升、小幅震動收拾,早盤股指低開后震動回落,滬指盤中在3126點附近取得支撐,午后股指企穩上升,盤中電網設備、公用事業、電力以及工程建造等職業體現較好;半導體、互聯網以及軟…

掌握社交的這二十個心理技巧

1.自信:這一點說起來容易做起來難,但就算是假裝出來的自信,通過你的肢體語言表現出來。在很大程度也可以幫助你留下很好的第一印象。人們喜歡自信的人。因為他們更可靠,更值得信賴,更具吸引力。 2.當你第一次見到某人…

PXE+Kickstart無人值守安裝安裝Centos7.9

文章目錄 一、什么是PXE1、簡介2、工作模式3、工作流程 二、什么是Kickstart1、簡介2、觸發方式 三、無人值守安裝系統工作流程四、實驗部署1、環境準備2、服務端:關閉防火墻和selinux3、添加一張僅主機的網卡4、配置僅主機的網卡4.1、修改網絡連接名4.2、配IP地址4…

差異基因散點圖繪制教程

差異基因散點圖繪制教程 本期教程 小杜的生信筆記,自2021年11月開始做的知識分享,主要內容是R語言繪圖教程、轉錄組上游分析、轉錄組下游分析等內容。凡事在社群同學,可免費獲得自2021年11月份至今全部教程,教程配備事例數據和相…

最新版Ceph( Reef版本)塊存儲簡單對接k8s(上集)

當前ceph 你的ceph集群上執行 1.創建名為k8s-rbd 的存儲池 ceph osd pool create k8s-rbd 64 642.初始化 rbd pool init k8s-rbd3 創建k8s訪問塊設備的認證用戶 ceph auth get-or-create client.kubernetes mon profile rbd osd profile rbd poolk8s-rbd部署 ceph-rbd-csi c…

List集合的復制方式

List集合的復制方式主要有以下幾種: 使用構造器復制 創建一個新的List集合,并將原始List集合作為參數傳遞給它的構造器。例如,List<String> newList = new ArrayList<>(originalList)。這種方式會創建一個新的List對象,并將原始List的所有元素復制到新List中…

快速學習SpringAi

Spring AI是AI工程師的一個應用框架&#xff0c;它提供了一個友好的API和開發AI應用的抽象&#xff0c;旨在簡化AI應用的開發工序&#xff0c;例如開發一款基于ChatGPT的對話應用程序。通過使用Spring Ai使我們更簡單直接使用chatgpt 1.創建項目 jdk17 引入依賴 2.依賴配置 …

同城組局同城活動找搭子小程序JAVA源碼面芽組局的實現方案

功能概述 基于微信小程序開發的一款軟件&#xff0c;支持用戶動態發布、私信聊天關注、禮物充值打賞、發起活動組局、用戶報名參與、支持商家入駐&#xff0c;對接廣告功能等。 活動發布&#xff1a;用戶可以在平臺上發布各種類型的活動&#xff0c;如戶外徒步、音樂會觀賞、…

AI應用案例:會議紀要自動生成

以騰訊會議轉錄生成的會議記錄為研究對象&#xff0c;借助大模型強大的語義理解和文本生成等能力&#xff0c;利用指令和文本向量搜索實現摘要總結、要點提取、行動項目提取、會議紀要生成等過程&#xff0c;完成會議紀要的自動總結和生成&#xff0c;降低人工記錄和整理時間成…

React 第三十章 React 和 Vue 描述頁面的區別

面試題&#xff1a;React 和 Vue 是如何描述 UI 界面的&#xff1f;有一些什么樣的區別&#xff1f; 標準且淺顯的回答&#xff1a; React 中使用的是 JSX&#xff0c;Vue 中使用的是模板來描述界面 前端領域經過長期的發展&#xff0c;目前有兩種主流的描述 UI 的方案&#xf…

Q1季度電飯煲家電行業線上市場(京東天貓淘寶)銷售數據排行榜

鯨參謀監測的2024年Q1季度線上電商平臺&#xff08;天貓淘寶京東&#xff09;電飯煲家電銷售數據已出爐&#xff01; 今年Q1季度&#xff0c;電飯煲銷售成績不如預期。根據鯨參謀數據顯示&#xff0c;今年Q1季度在線上電商平臺&#xff08;淘寶天貓京東&#xff09;電飯煲銷量…

三種有效方法:快速將視頻格式轉換mp4格式

在當今數字化時代&#xff0c;視頻文件的格式多種多樣&#xff0c;而將視頻轉換為MP4格式是一種常見的需求。MP4格式具有廣泛的兼容性&#xff0c;適用于多種設備和平臺&#xff0c;因此經常被選擇作為視頻文件的輸出格式。 無論是為了在移動設備上觀看視頻&#xff0c;還是為…

照妖鏡api接口,查詢旺旺的降權、黑號舉報數據(全網實時更新)

照妖鏡api接口&#xff0c;查詢旺旺的降權、黑號舉報數據&#xff08;全網實時更新&#xff09; 照妖鏡查號功能說明&#xff1a; 1.照妖鏡查號功能的打標信息為商家主動共享&#xff0c;不對相關使用效果或糾紛承擔責任&#xff1b; 2.本功能于查詢互聯網用戶防止電信詐騙&…

NSS【web】刷題

[SWPUCTF 2021 新生賽]jicao 類型&#xff1a;PHP、代碼審計、RCE 主要知識點&#xff1a;json_decode()函數 json_decode()&#xff1a;對JSON字符串解碼&#xff0c;轉換為php變量 用法&#xff1a; <?php $json {"ctf":"web","question"…

YOLOV8實戰-和平精英敵我檢測

YOLOV8實戰&#xff0c;從環境配置、數據準備、數據標注、模型訓練、模型導出到源碼分享 前言&#xff1a;效果展示圖片展示視頻展示 簡介&#xff1a;**【YOLOV8是啥&#xff1f;】****【YOLOV8能干啥&#xff1f;有啥應用場景&#xff1f;】** 一、環境準備1、新建一個虛擬環…