完整項目包獲取點擊文末名片
完成一個 Code-Switching(中英混合)的語音識別系統,整個流程如下思路進行:
163. (Step 1) 訓練音頻到音素的編碼器(Audio → Phoneme Encoder)
- 你已經完成了此部分。
- 核心思路是利用對比學習(NT-Xent Loss),將你自定義的 “音頻到音素” 編碼器輸出的向量,與 XPhoneBERT 對文本產生的音素向量對齊,形成一個共享或可對齊的表示空間。
- 這樣,模型學會了把音頻的特征映射到一個接近 XPhoneBERT 的音素向量空間。
- (Step 2) 用 f0 特征訓練一個字符級的語言識別 (LID, Language ID) 模型
- 目標是判斷出每個字符(或者更細粒度可以是每個音素/詞)屬于哪種語言(如 “zh” / “en” / “num”)。
- 由于中英文在聲調、語速、F0 高度等方面有差異,可用 f0 作為強特征;再結合簡單的卷積或 Transformer,對 f0 序列進行分類/序列標注。
- 這一步的重點是:需要在輸入端對音頻進行 F0 提取,并且在輸出端做一個“字符級”的多類分類(如果需要更精細可以做音素級/幀級)。
- 訓練好一個 LID 模型后,你就可以在推理時,對于一段音頻的每個字符/音素,預測它最可能屬于哪一種語言。