BPE(字節對編碼)和WordPiece 是什么
BPE(字節對編碼)和WordPiece 是自然語言處理中常用的子詞分詞算法,它們通過將文本拆分為更小的語義單元來平衡詞匯表大小和表達能力。
BPE(Byte Pair Encoding,字節對編碼)
原理
- 初始化:將文本按字符(或Unicode字節)拆分為最小單元,形成初始詞匯表。
- 統計合并:迭代合并最頻繁出現的相鄰字符對,形成新的子詞單元,直到達到預設的詞匯表大小或合并次數。
- 應用分詞:對新文本分詞時,優先使用已學習的最長子詞單元進行匹配。
示例
假設初始語料庫為:
["low", "lower", "newest", "widest"]
步驟1:初始化詞匯表
按字符拆分,初始詞匯表為:
{'l', 'o', 'w', 'e', 'r', 'n', 'e', 'w', 's', 't', 'i', 'd'}
</