文章目錄
- 1. Wav2Vec 2.0
- 2. Whisper
- 2. WeNet
1. Wav2Vec 2.0
由Facebook AI Research(FAIR)于2020年提出的在語音方向里具有一定影響力的預訓練模型。
論文地址:https://arxiv.org/pdf/2006.11477.pdf
項目地址:https://github.com/pytorch/fairseq
訓練數據:62萬小時未標注數據
結構:由FeatureEncoder和Encoder兩個模塊組成。
其中FeatureEncoder由7層卷機結構組成,Encoder就是Transformer。
乘積量化:把原來連續的特征空間假設是d維,拆分成G個子空間(codebook),每個子空間維度是d/G。然后分別在每個子空間里面聚類,一共獲得V個中心和其中心特征。每個類別的特征用其中心特征代替。這樣原來d維的連續空間,坍縮成了有限離線的空間[GxV],其可能的特征種類數就只有G*V個。
損失函數:由對比損失和多樣性損失兩部分構成。
雖然無監督預訓練能產生高質量的語音表征,但它學不到語音到文本的映射,要學到語音到文本的映射只能靠微調