大語言模型中的嵌入模型

本教程將拆解什么是嵌入模型、為什么它們在NLP中如此重要，并提供一個簡單的Python實戰示例。

分詞器將原始文本轉換為token和ID，而嵌入模型則將這些ID映射為密集向量表示。二者合力為LLMs的語義理解提供動力。圖片來源：[https://tzamtzis.gr/2024/coding/tokenization-by-andrej-karpathy/]

在LLMs的語境中，嵌入模型是一種神經網絡，旨在將文本（如單詞、短語、句子）表示為連續向量空間中的密集向量。這些向量表示能捕捉文本項之間的語義關系，是現代NLP系統的基石。

例如：

想象完這些語義關系在向量空間中的樣子后，我們可能會認為單詞直接變成了這些能保留語義關系的向量。這種想法在討論LLM處理流程中的令牌時可能會引起一些混淆。讓我們稍微澄清一下關于分詞的內容。

在使用BERT、GPT等大語言模型（LLMs）時，經常會遇到兩個關鍵概念：分詞器和嵌入模型。雖然它們相關，但在處理單詞的流程中扮演著不同的角色。

LLMs處理原始文本的一般流程如下：

現在我們對流程中的分詞器和嵌入模型有了更清晰的認識，讓我們進一步明確什么是分詞器，什么是嵌入模型。

分詞器是流程中的第一個組件，負責：

['我', '愛', '機器', '學習']

['我', '愛', '機器', '學習'] → [101, 2173, 5956, 3627]

分詞器使用預定義的詞匯表（在模型訓練期間構建）以確保訓練和推理之間的一致性。分詞器通常采用以下技術：

WordPiece（BERT使用）：將罕見詞拆分為更小的子詞單元。例如，“unbelievable”可能被分詞為["un", "##believable"]，其中##表示子詞。
字節對編碼（BPE）（GPT使用）：類似于WordPiece，但編碼方式不同。

推薦觀看Andrej Karpathy的這個視頻：https://youtu.be/zduSFxRajkE?si=KGKPLninpxnHu3jN

嵌入模型在分詞之后發揮作用，其職責是：

例如：

嵌入模型本質上是一個查找表，但它也可以編碼上下文信息（例如，在BERT等模型中，嵌入是上下文感知的）。

讓我們在LLM流程的更大背景下連接分詞器和嵌入模型：

輸入文本："我愛機器學習" 
分詞器輸出：[101, 2173, 5956, 3627]

這里，[101, 2173, ...]是令牌ID。

2. 嵌入模型：令牌ID隨后傳遞給嵌入層，將其轉換為密集向量表示：

令牌ID：[101, 2173, 5956, 3627] 
嵌入向量：[[0.1, 0.2, ...], [0.4, 0.5, ...], ...]

這些向量在訓練期間學習，表示每個令牌的含義。

3. Transformer層：嵌入通過Transformer層（如自注意力）處理，計算上下文表示并生成預測。

理解分詞器和嵌入模型之間的區別至關重要，因為：

將LLM想象成一個工廠：

沒有分詞器，嵌入模型就不知道要處理什么。沒有嵌入模型，Transformer層就沒有有意義的輸入。

from transformers import AutoTokenizer, AutoModel# 第一步：加載分詞器和模型
tokenizer

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/74421.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/74421.shtml
英文地址，請注明出處：http://en.pswp.cn/web/74421.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！