詞編碼模型怎么進行訓練的,輸出輸入是什么,標簽是什么
詞編碼模型的訓練本質是通過數據驅動的方式,將離散的文本符號映射為連續的語義向量。
一、訓練機制:從符號到向量的映射邏輯
1. 核心目標
將單詞/子詞(Token)映射為低維向量,使語義相關的詞在向量空間中距離更近。例如:
- “國王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
- 中文“**蘋果”與英文“apple”**的向量在跨語言模型中具有高相似度
2. 訓練范式
- 自監督學習:利用文本自身的共現關系生成標簽(如預測上下文詞)。
- 監督學習:使用**人工標注數據(如指令-響應對)**調整向量。
- 對比學習:顯式拉近正樣本對(如“貓”和“狗”),推開負樣本對(如“貓”和“桌子”)。