在自然語言處理(NLP)任務中,將文本轉換為模型可處理的數字序列是必不可少的一步。這一步通常稱為分詞(tokenization),即把原始文本拆分成一個個詞元(token)。對于**大型語言模型(LLM,Large Language Model,大型語言模型)**而言,選擇合適的分詞方案至關重要:分詞的質量直接影響模型的詞匯表大小、表示能力以及對未知詞匯的處理能力。
早期的做法是以“單詞”為基本單位進行分詞,即通過空格或規則將文本切分成獨立的單詞。但是純單詞級分詞存在明顯缺陷:**詞匯表(vocabulary)可能非常龐大(尤其對多語言或大量專業術語的場景),這會導致模型參數量增加(每個詞元對應的嵌入向量)且無法覆蓋所有可能出現的單詞。當模型遇到未登錄詞(OOV,Out-Of-Vocabulary)**時(即不在詞匯表中的新詞),傳統處理方式只能將其標記為一個特殊的“未知”符號,完全丟失該詞的信息。
另一種極端是字符級分詞,即將每個字符作為基本詞元。字符級方法將詞匯表縮小到字母表大小(例如英語26個字母再加標點、空格等),從而徹底避免了