聲紋識別(VPR) ,生物識別技術的一種,也稱為說話人識別 ,是從說話人發出的語音信號中提取聲紋信息,從應用上看,可分為:
- 說話人辨認(Speaker Identification):用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;
- 說話人確認(Speaker Verification):用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。
本文主要是識別兩個聲音是否為同一個人。
應用場景:APP聲紋驗證登錄、坐席輔助助手登錄后坐席是否為原坐席、客戶進行業務申請時驗證是否為客戶本人。
使用Titanet-L模型,不需要訓練,即可以直接針對中文/英文聲音進行識別驗證。
1、環境安裝
pip install -U nemo_toolkit[all] ASR-metrics fastapi python-multipart uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple
2、接口代碼:
from fastapi import FastAPI, Request, File, UploadFile, Form
from fastapi.responses import HTMLResponse
from transformers import AutoTokenizer, AutoModel
import uvicorn, json, datetime
import torch
from fastapi.middleware.co