【漫話機器學習系列】249.Word2Vec自然語言訓練模型

【自然語言處理】用 Word2Vec 將詞語映射到向量空間詳解

在自然語言處理（NLP）領域，我們常常需要將文本信息轉化為機器能夠理解和處理的形式。傳統的方法，如 one-hot編碼，雖然簡單，但存在嚴重的稀疏性和高維度問題，且無法體現詞語之間的語義關系。

為了解決這一問題，研究人員提出了Word Embedding（詞嵌入）的方法。其中最著名、應用最廣泛的模型之一便是 Word2Vec。

Word2Vec 是由 Google 團隊在 2013 年提出的一種將單詞映射為連續向量的淺層神經網絡模型。

其核心思想是：

將詞語投影到一個低維度的向量空間中，使得語義上相近或語法上相關的詞在向量空間中也接近。

簡單來說，Word2Vec 可以把“王（king）”和“女王（queen）”之間的關系，與“男人（man）”和“女人（woman）”之間的關系用向量差異表示出來，且這些關系在向量空間中保持一致。

從圖中可以看到，

這種特性使得 Word2Vec 在 NLP 各種任務中都發揮了巨大的作用，如文本分類、情感分析、機器翻譯、推薦系統等。

Word2Vec 提供了兩種主要的訓練策略：

CBOW（Continuous Bag of Words，連續詞袋模型）
- 通過上下文詞（周圍的詞）來預測當前的中心詞。
- 適合小型數據集，訓練速度快。
- 示例：給定句子 "The cat sits on the mat"，如果中心詞是 "sits"，那么輸入是 "The", "cat", "on", "the", "mat"，目標是預測 "sits"。
Skip-gram
- 通過當前詞預測周圍的上下文詞。
- 更適合大規模數據集，且能夠更好地捕捉稀有詞的信息。
- 示例：給定中心詞 "sits"，目標是預測 "The", "cat", "on", "the", "mat"。

這兩種方式本質上都是在通過局部上下文來學習詞的分布式表示（distributional representations）。

如圖所示，經過訓練后，單詞被映射到一個高維向量空間，具備如下特性：

語義相似性：詞義相近的詞在空間中位置也接近。
- 例子：king 與 queen，man 與 woman。
語法相似性：詞性相同的詞之間的向量方向相近。
- 例子：復數形式（cars vs. car），時態變化（running vs. run）。
向量運算：可以用簡單的向量加減表示詞與詞之間的關系。
- 例子：vector(king) - vector(man) + vector(woman) ≈ vector(queen)。

這一點，極大地提升了自然語言處理中理解、推理和生成文本的能力。

Word2Vec 的訓練過程其實非常高效，主要分為以下幾個步驟：

最終，得到的詞向量可以直接用于后續各種NLP任務。

Word2Vec 作為自然語言處理中里程碑式的技術，為后來的各種深度學習模型（如BERT、GPT）奠定了基礎。
即使到今天，理解詞嵌入和向量空間的基本原理，仍然是掌握高級自然語言處理技術的重要前提。

本文通過圖示，簡單直觀地展示了 Word2Vec 如何將單詞映射到向量空間，并體現出詞語之間微妙而豐富的語義關系。
希望能幫助你更好地理解這一經典模型，為后續深入學習打下基礎！

Tomas Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”
Chris Albon, Machine Learning Flashcards
《Deep Learning》 — Ian Goodfellow 等

🔔 如果你覺得本文有幫助，歡迎點贊、收藏或留言交流！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/80118.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/80118.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/80118.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！