根據音頻中的不同講述人聲音進行分離音頻 | 基于ai的說話人聲音分離項目

0.研究背景

在實際的開發中可能會遇到這樣的問題,老板讓你把音頻中的每個講話人的聲音分離成不同的音頻片段。你可以使用au等專業的音頻處理軟件手動分離。但是這樣效率太慢了,現在ai這么發達,我們能否借助ai之力來分離一條音頻中的不同的說話人呢?答案是肯定可以的。
這里將利用聲紋識別加上語音識別來對音頻中不同的說話人進行語者分離。

1.技術選擇

市面上開源的聲紋識別和語音識別項目有很多,比如funasr,cam++就是兩個不錯的選擇,并且funasr是國內大廠阿里巴巴旗下開源的一個集成了ASR和標點符號預測,聲紋識別,聲紋對比等眾多模型的一個工具框架。那么本次項目就是基于funasr進行編程開發的。

2.項目源碼

項目已經開源到我的代碼倉庫中,大家可以訪問https://github.com/lukeewin/AudioSeparationGUI
如果國內的小伙伴們不方便訪問github那么也可以訪問gitee,https://gitee.com/lukeewin/AudioSeparationGUI

3.項目功能

改項目支持對音頻中每個說話人進行分離,不限制說話人數量,比如你的音頻中存在10個說話人,也是可以進行分離的。
同時改項目還支持對分離后的音頻,把相同的說話人講的聲音合并在一個音頻文件中。
除了支持音頻的分離外,該項目還支持分隔視頻片段,通過聲音驅動分隔視頻,形成視頻片段。

4.項目部分核心功能代碼

這里這粘貼部分核心功能代碼,如果需要看詳細代碼,可以到上面提到的代碼倉庫中下載。

def trans():if len(selected_file_list) != 0 and save_path.get() != '' and save_path.get() is not None:for audio in selected_file_list:if os.path.exists(audio):audio_name = os.path.splitext(os.path.basename(audio))[0]_, audio_extension = os.path.splitext(audio)show_info_label.config(text=f'正在執行中,請勿關閉程序。{audio}')speaker_audios = {}  # 每個說話人作為 key,value 為列表,列表中為當前說話人對應的每個音頻片段# 音頻預處理try:audio_bytes, _ = (ffmpeg.input(audio, threads=0, hwaccel='cuda').output("-", format="wav", acodec="pcm_s16le", ac=1, ar=16000).run(cmd=["ffmpeg", "-nostdin"], capture_stdout=True, capture_stderr=True))res = model.generate(input=audio_bytes, batch_size_s=300, is_final=True, sentence_timestamp=True)rec_result = res[0]asr_result_text = rec_result['text']if asr_result_text != '':sentences = []for sentence in rec_result["sentence_info"]:start = to_date(sentence["start"])end = to_date(sentence["end"])if sentences and sentence["spk"] == sentences[-1]["spk"]:sentences[-1]["text"] += "" + sentence["text"]sentences[-1]["end"] = endelse:sentences.append({"text": sentence["text"], "start": start, "end": end, "spk": sentence["spk"]})# 剪切音頻或視頻片段i = 0for stn in sentences:stn_txt = stn['text']start = stn['start']end = stn['end']# tmp_start = to_milliseconds(start)# tmp_end = to_milliseconds(end)# duration = round((tmp_end - tmp_start) / 1000, 3)spk = stn['spk']# 根據文件名和 spk 創建目錄date = datetime.now().strftime("%Y-%m-%d")final_save_path = os.path.join(save_path.get(), date, audio_name, str(spk))os.makedirs(final_save_path, exist_ok=True)# 獲取音視頻后綴file_ext = os.path.splitext(audio)[-1]final_save_file = os.path.join(final_save_path, str(i)+file_ext)spk_txt_path = os.path.join(save_path.get(), date, audio_name)spk_txt_file = os.path.join(spk_txt_path, f'spk{spk}.txt')spk_txt_queue.put({'spk_txt_file': spk_txt_file, 'spk_txt': stn_txt, 'start': start, 'end': end})i += 1try:if file_ext in support_audio_format:(ffmpeg.input(audio, threads=0, ss=start, to=end, hwaccel='cuda').output(final_save_file).run(cmd=["ffmpeg", "-nostdin"], overwrite_output=True, capture_stdout=True,capture_stderr=True))elif file_ext in support_video_format:final_save_file = os.path.join(final_save_path, str(i)+'.mp4')(ffmpeg.input(audio, threads=0, ss=start, to=end, hwaccel='cuda').output(final_save_file, vcodec='libx264', crf=23, acodec='aac', ab='128k').run(cmd=["ffmpeg", "-nostdin"], overwrite_output=True, capture_stdout=True,capture_stderr=True))else:print(f'{audio}不支持')except ffmpeg.Error as e:print(f"剪切音頻發生錯誤,錯誤信息:{e}")# 記錄說話人和對應的音頻片段,用于合并音頻片段if spk not in speaker_audios:speaker_audios[spk] = []  # 列表中存儲音頻片段speaker_audios[spk].append({'file': final_save_file, 'audio_name': audio_name})ret = {"text": asr_result_text, "sentences": sentences}print(f'{audio} 切分完成')result_queue.put(f'{audio} 切分完成')show_info_label.config(text=f'{audio} 切分完成')print(f'轉寫結果:{ret}')# 存入合并隊列audio_concat_queue.put(speaker_audios)else:print("沒有轉寫結果")except Exception as e:print(f"轉寫異常:{e}")else:print("輸入的文件不存在")messagebox.showinfo("提醒", "輸入的文件不存在")else:print("沒有填寫輸入輸出")messagebox.showinfo("提醒", "沒有填寫選擇文件或保存路徑")

5.運行效果

在這里插入圖片描述

6.其它

該項目使用Python開發,這里推薦Python版本為3.8,同時該項目中還依賴于ffmpeg,因此你需要提前安裝好ffmpeg,并且配置好環境變量,這里需要注意,安裝的路徑中不要出現中文或者空格或者特殊字符。
如果你是小白,不懂如何運行這個項目,你也可以點擊這里。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/70438.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/70438.shtml
英文地址,請注明出處:http://en.pswp.cn/web/70438.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

本地化部署 DeepSeek:從零到一的完整指南

本地化部署 DeepSeek:從零到一的完整指南 個人主頁:顧漂亮 文章專欄:AI學習 目錄 引言什么是 DeepSeek?為什么選擇本地化部署?DeepSeek 本地化部署的前期準備 硬件需求軟件需求環境配置 DeepSeek 本地化部署步驟 步驟…

使用ArcGIS Pro自動矢量化水系

在地理信息系統(GIS)領域,自動矢量化是一項至關重要的技術,它能夠將柵格圖像中的要素轉換為矢量數據,從而方便后續的分析和處理。本文將詳細介紹如何使用ArcGIS Pro自動矢量化水系,適用于那些顏色相對統一、…

C++類和對象進階:初始化列表和static成員深度詳解

C類和對象:初始化列表和static成員深度詳解 1. 前言2. 構造函數初始化成員變量的方式2.1 構造函數體內賦值2.2 初始化列表2.2.1 初始化列表的注意事項 2.3 初始化列表的初始化順序 3. 類的靜態成員3.1 引入3.2 靜態成員變量3.3 靜態成員函數3.4 靜態成員的注意事項3…

ubuntu ffmpeg 安裝踩坑

ffmpeg 安裝踩坑 安裝命令: sudo apt update sudo apt install ffmpeg如果以上命令沒有報錯,那么恭喜你很幸運,可以關閉這篇文章了! 如果跟我一樣,遇到如下報錯,可以接著往下看: 報錯信息: …

第13章 int指令

目錄 13.1 int 指令13.2 編寫供應用程序調用的中斷例程13.3 對int、iret和棧的深入理解13.4 BIOS和DOS所提供的中斷例程13.5 BIOS和DOS中斷例程的安裝過程13.6 BIOS中斷例程應用13.7 DOS中斷例程應用實驗13 編寫、應用中斷例程 中斷信息可以來自CPU的內部和外部,當C…

最新扣子(Coze)案例教程:全自動DeepSeek 寫影評+批量生成 + 發布飛書,提效10 倍!手把手教學,完全免費教程

👨?💻群里有同學是做影視賽道的博主,聽說最近DeepSeek這么火,咨詢能不能用DeepSeek寫影評,并整理電影數據資料,自動發布到飛書文檔,把每天的工作做成一個自動化的流程。 那今天斜杠君就為大家…

DeepSeek 提示詞:定義、作用、分類與設計原則

🧑 博主簡介:CSDN博客專家,歷代文學網(PC端可以訪問:https://literature.sinhy.com/#/?__c1000,移動端可微信小程序搜索“歷代文學”)總架構師,15年工作經驗,精通Java編…

鳥語林-論壇系統自動化測試

文章目錄 一、自動化實施步驟1.1編寫Web測試用例1.2 編寫自動化代碼1.2.1 LoginPageTest1) 能否正確打開登錄頁面2) 點擊去注冊能否跳轉注冊頁面3) 模擬用戶登錄,輸入多組登錄測試用例 1.2.2 RegisterPageTest1) 能否成功打開注冊頁面2) 注冊測試用例3) 點擊去登錄按…

DeepSeek模型量化

技術背景 大語言模型(Large Language Model,LLM),可以通過量化(Quantization)操作來節約內存/顯存的使用,并且降低了通訊開銷,進而達到加速模型推理的效果。常見的就是把Float16的浮…

本周行情——250222

本周A股行情展望與策略 結合近期盤面特征及市場主線演化,本周A股預計延續結構性分化行情,科技成長與政策催化板塊仍是資金主戰場,但需警惕高標股分歧帶來的波動。以下是具體分析與策略建議: 1. 行情核心驅動因素 主線延續性&…

【JT/T 808協議】808 協議開發筆記 ② ( 終端注冊 | 終端注冊應答 | 字符編碼轉換網站 )

文章目錄 一、消息頭 數據1、消息頭拼接2、消息 ID 字段3、消息體屬性 字段4、終端手機號 字段5、終端流水號 字段 二、消息體 數據三、校驗碼計算四、最終計算結果五、終端注冊應答1、分解終端應答數據2、終端應答 消息體 數據 六、字符編碼轉換網站 一、消息頭 數據 1、消息頭…

使用ezuikit-js封裝一個對接攝像頭的組件

ezuikit-js 是一個基于 JavaScript 的視頻播放庫,主要用于在網頁中嵌入實時視頻流播放功能。它通常用于與支持 RTSP、RTMP、HLS 等協議的攝像頭或視頻流服務器進行交互,提供流暢的視頻播放體驗。 主要功能 多協議支持:支持 RTSP、RTMP、HLS …

一周學會Flask3 Python Web開發-flask3模塊化blueprint配置

鋒哥原創的Flask3 Python Web開發 Flask3視頻教程: 2025版 Flask3 Python web開發 視頻教程(無廢話版) 玩命更新中~_嗶哩嗶哩_bilibili 我們在項目開發的時候,多多少少會劃分幾個或者幾十個業務模塊,如果把這些模塊的視圖方法都寫在app.py…

DSC數字選擇性呼叫

GMDSS Digital Selective Calling WAVECOM Decoder Online Help 12.0.0 VHF Marine GMDSS/DSC Decode & Scicos Simulation Black Cat Systems (一)DSC調制方式 DSC(Digital Selective Calling,數字選擇性呼叫&#xff0…

科普:你的筆記本電腦中有三個IP:127.0.0.1、無線網 IP 和局域網 IP;兩個域名:localhost和host.docker.internal

三個IP 你的筆記本電腦中有三個IP:127.0.0.1、無線網 IP 和局域網 IP。 在不同的場景下,需要選用不同的 IP 地址,如下為各自的特點及適用場景: 127.0.0.1(回環地址) 特點 127.0.0.1 是一個特殊的 IP 地…

《AI與NLP:開啟元宇宙社交互動新紀元》

在科技飛速發展的當下,元宇宙正從概念逐步走向現實,成為人們關注的焦點。而在元宇宙諸多令人矚目的特性中,社交互動體驗是其核心魅力之一。人工智能(AI)與自然語言處理(NLP)技術的迅猛發展&…

量化方法bitsandbytes hqq eetq區別

量化方法bitsandbytes、HQQ(Half-Quadratic Quantization)和EETQ(Efficient and Effective Ternary Quantization)在深度學習模型壓縮和加速中各有特點,以下是它們的區別: 1. bitsandbytes 概述: bitsand…

Hutool - Log:自動識別日志實現的日志門面

一、簡介 在 Java 開發中,日志記錄是一項非常重要的功能,它可以幫助開發者在開發和生產環境中監控程序的運行狀態、排查問題。然而,Java 生態系統中有多種日志實現框架,如 Log4j、Logback、JDK 自帶的日志框架等。為了在不同的項…

偽404兼容huawei生效顯示404

根據上述思考,以下是詳細的中文分步說明: --- **步驟 1:獲取目標設備的User-Agent信息** 首先,我們需要收集目標設備的User-Agent字符串,包括: 1. **iPhone設備的User-Agent**: Mozi…

github配置sshkey

使用命令生成sshkey ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 依此會要求輸入以下信息,可以使用默認值 設置保存密鑰的路徑 設置SSH密鑰密碼(備注:空內容表示不設置SSH密鑰密碼) 再次確認SSH密鑰密…