寫在前面
大型語言模型(LLM)處理的是人類的自然語言,但計算機本質上只能理解數字。Tokenizer(分詞器) 就是架在自然語言和計算機數字表示之間的一座至關重要的橋梁。它負責將我們輸入的文本字符串分解成模型能夠理解的最小單元——Token,并將這些 Token 轉換成對應的數字 ID,反之亦然(將 ID 轉換回文本)。
那么, LLM Tokenizer如何訓練、評估呢?
1. Tokenizer 基礎知識
在深入訓練之前,我們先厘清幾個核心概念:
- Tokenization(分詞/標記化): 將原始文本字符串分解成一系列 Token 的過程。
- Token: 模型處理的基本單元。它可以是一個完整的詞(
"apple"
)、一個詞的一部分(子詞,"token", "ization"
中的"ization"
)、一個字符("a"
)、或者一個特殊的標記(