詞編碼模型有哪些
詞編碼模型在高維向量空間的關系解析與實例說明
如Word2Vec、BERT、Qwen等
一、高維向量空間的基礎概念
詞編碼模型(如Word2Vec、BERT、Qwen等)的核心是將自然語言符號映射為稠密的高維向量,使語義相近的詞匯在向量空間中位置接近。以Qwen模型為例,其15萬字符的詞表規模(通常基于字節對編碼BPE)本質是在高維空間中為每個詞分配唯一的坐標點,而向量之間的幾何關系(如距離、夾角)則反映語義相關性。
二、高維向量空間的關系類型
-
語義相似性
向量空間中,余弦相似度越高的向量語義越接近。例如:- “國王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
這種線性運算在高維空間中表現為向量平移,體現詞與詞之間的語義類比關系。
- “國王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
-
多語言空間對齊
跨語言模型(如mBERT)通過共享向量空間,使不同語言的同義詞匯在空間中位置接近。例如:- 中文“蘋果”與英文“apple”的向量在空間中具有高相似度。