qwen大模型在進行詞嵌入向量時,針對的詞表中的唯一數字還是其他的?
Qwen大模型進行詞嵌入向量時,針對的是詞表中每個 Token 對應的唯一數字(Token ID) ,核心邏輯結合詞表構建、嵌入過程展開
一、Qwen 詞表與 Token ID
Qwen 用 BPE 分詞器(基于 tiktoken,以 cl100k
為基礎詞庫擴展 ),會把文本拆成一個個 Token(如中文、英文、數字、特殊符號的子詞/字符 ),每個 Token 對應唯一數字編號(Token ID) ,存于 vocab.json
這類詞表文件。
比如:
- 英文 “Q” 可能對應 Token ID
123
- 中文 “模” 可能對應 Token ID
4567
- 數字 “1” 可能對應 Token ID
89
- 特殊符號
?
(空格的特殊編碼 )可能對應 Token ID0
詞表本質是 {Tok