NLP高頻面試題（五十）——大模型（LLMs）分詞（Tokenizer）詳解

在自然語言處理（NLP）任務中，將文本轉換為模型可處理的數字序列是必不可少的一步。這一步通常稱為分詞（tokenization），即把原始文本拆分成一個個詞元（token）。對于**大型語言模型（LLM，Large Language Model，大型語言模型）**而言，選擇合適的分詞方案至關重要：分詞的質量直接影響模型的詞匯表大小、表示能力以及對未知詞匯的處理能力。

早期的做法是以“單詞”為基本單位進行分詞，即通過空格或規則將文本切分成獨立的單詞。但是純單詞級分詞存在明顯缺陷：**詞匯表（vocabulary）可能非常龐大（尤其對多語言或大量專業術語的場景），這會導致模型參數量增加（每個詞元對應的嵌入向量）且無法覆蓋所有可能出現的單詞。當模型遇到未登錄詞（OOV，Out-Of-Vocabulary）**時（即不在詞匯表中的新詞），傳統處理方式只能將其標記為一個特殊的“未知”符號，完全丟失該詞的信息。

另一種極端是字符級分詞，即將每個字符作為基本詞元。字符級方法將詞匯表縮小到字母表大小（例如英語26個字母再加標點、空格等），從而徹底避免了

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/77770.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/77770.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/77770.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！