一、在人工智能領域,Token?是模型處理文本的核心單元,可理解為文本的“最小可處理片段”
二、表格理解
類別 | 詳細說明 |
---|---|
基本定義 | Token 是模型處理文本的最小語義或語法單位,可以是單詞、子詞、字符、標點符號或特殊符號。例如: - 單詞級:將 “hello” 視為一個 Token; - 子詞級:將 “unsmiling” 拆分為 “un” + “smil” + “ing”; - 字符級:將 “cat” 拆分為 “c”、“a”、“t”。 |
核心作用 | 1.?文本表征:將文本映射為數值向量,供模型計算; 2.?語義捕捉:通過分詞策略平衡詞匯覆蓋與計算效率; 3.?統一處理:使模型能夠通過固定長度的 Token 序列處理可變長度的文本; 4.?跨模態對齊:如 CLIP 等模型將文本 Token 與圖像特征對齊,實現圖文統一表征。 |
分詞方式 | 1.?基于單詞:以完整單詞為 Token(如英文 “apple”); 2.?基于字符:以單個字符為 Token(如中文 “蘋”); 3.?基于子詞:使用 BPE(Byte-Pair Encoding)、WordPiece 等技術拆分單詞(如 “unhappy” → “un” + “happy”); 4.?動態分詞:根據上下文動態調整分詞策略(如根據語義重要性合并/拆分 Token)。 |
技術挑戰 | 1.?語言多樣性:不同語言的分詞方式可能不同(如中文按字符切分,英語按單詞或子詞); 2.?上下文依賴:分詞需考慮上下文(如 “I'm” 是否拆分為 “I” 和 “‘m”); 3.?未登錄詞處理:通過子詞拆分處理罕見詞(如 “ChatGPT” → “Chat” + “G” + “PT”); 4.?長文本處理:輸入超出模型最大 Token 限制時需截斷(如客服系統需分段處理長對話); 5.?隱私風險:Token 化可能暴露隱私(如醫療記錄中的罕見病名被映射為唯一 ID)。 |
實際應用 | 1.?模型輸入/輸出:模型處理 Token 序列而非原始文本,例如將 “AI is amazing!” 拆分為 [“AI”, “is”, “amazing”, “!”]; 2.?計費單位:許多大模型(如 GPT-4)按 Token 數量計費(輸入 + 輸出); 3.?性能優化:通過 Token 級分析模型決策(如解釋 “毒性語言” 由哪些 Token 觸發); 4.?多模態融合:將文本、圖像、音頻等模態的 Token 統一編碼,實現跨模態理解(如 DALL·E 3、Flamingo); 5.?去中心化經濟:通過 Token 激勵用戶貢獻訓練數據或標注(如 NFT Token 將模型生成的文本/圖像 Token 化為數字資產)。 |
相關術語 | 1.?Tokenization(分詞):將輸入文本拆分成 Token 的過程; 2.?Vocabulary(詞匯表):模型預訓練時使用的所有可能 Token 的集合; 3.?Contextual Tokenization(上下文分詞):基于 Transformer 的實時分詞(如 ByteLevel BPE); 4.?Token Limit(Token 限制):模型一次處理的最大 Token 數量(如 GPT-4 的 8k 或 32k 限制)。 |