Word Analogy Task(詞類比任務)
定義:Word Analogy Task 是用于評估詞向量質量的內在指標(Intrinsic Metric)。該任務基于這樣的假設:如果詞向量能夠捕捉單詞之間的語義關系,那么這些關系應該能夠在向量空間中保持一定的結構。
示例:
在一個理想的詞向量空間中,單詞之間的關系應該滿足如下等式:
k i n g ? m a n + w o m a n ≈ q u e e n king?man+woman≈queen king?man+woman≈queen
即,如果你用向量 king 減去 man(表示去掉“男性”這個概念),再加上 woman(加入“女性”這個概念),那么你應該接近 queen(女王)的向量
計算方法:
給定一個類比問題 A:B::C:D,即“A 之于 B,如同 C 之于 D”,則計算:D=B?A+C
然后,在詞匯表中找到與 D 最接近的詞向量,作為預測的答案。
應用:
- 評估詞向量的質量,驗證其是否能有效捕捉語義和句法關系。
- 在訓練 word embeddings(如 Word2Vec, GloVe, FastText)時常用此方法進行測試。
Intrinsic Metric(內在度量)
定義:Intrinsic Metric 是衡量 NLP 模型(如詞向量模型)質量的一類指標,通常基于特定的語言學任務,如 Word Analogy Task、Word Similarity Task 和 Clustering Coherence。
特點:
- 快速計算:不需要依賴下游任務,只基于詞向量本身計算指標。
- 獨立于具體應用:不同于 Extrinsic Metric(外在度量,依賴于特定 NLP 任務的表現),Intrinsic Metric 更關注詞向量本身的質量。
常見的 Intrinsic Metric:
- Word Similarity Task:通過計算詞向量的余弦相似度,評估模型對同義詞、近義詞的表現。
- Word Analogy Task:評估詞向量是否能正確表示語義關系(如 “Paris” : “France” :: “Berlin” : “Germany”)。
- Clustering Coherence:測試詞向量在類別劃分上的表現,如同義詞是否聚集在一起。
優缺點:
? 優點:
- 計算成本低,適用于快速測試詞向量質量。
- 提供模型的直觀解釋性(可以通過類比關系檢查向量的語義質量)。
? 缺點:
- 不能直接反映模型在實際 NLP 任務中的表現。
- 可能對訓練數據敏感,不一定能泛化到真實任務。