淺談「分詞」：原理 + 方案對比 + 最佳實踐

在文本搜索、自然語言處理、智能推薦等場景中，「分詞」是一個基礎但至關重要的技術點。無論是用數據庫做模糊查詢，還是構建搜索引擎，分詞都是提高效率和準確度的核心手段。

分詞（Tokenization） 是指將一段連續的文本切分為有意義的「詞語」或「短語」的過程。
它是 NLP（自然語言處理）和全文搜索的第一步。

原始文本：

“我愛自然語言處理”

分詞結果（中文）：

我 / 愛 / 自然語言 / 處理

英文文本通常以空格分詞，而中文、日文、韓文等語言需要使用特定算法來切割詞邊界。

在以下場景中都需要高質量的分詞：

方案	適用語言	是否支持中文	特點	使用場景
? MySQL FULLTEXT	英文	? 不支持中文	內置分詞器基于空格、標點	英文搜索
? MySQL FULLTEXT + ngram	所有語言	? 支持中文	固定長度 n-gram 切詞，能識別 `N3-2016`	中文、混合語言搜索
? Elasticsearch + ik_smart / ik_max_word	所有語言	? 強大中文支持	支持最細粒度 & 智能分詞	搜索引擎
? Lucene / Solr	所有語言	? 強大中文支持	高級分詞、多語言支持	企業級搜索系統
? Jieba 分詞（Python）	中文	?	精度高，支持自定義詞典	NLP 開發、爬蟲分析
? HanLP、THULAC、NLPIR	中文	?	學術/工業級分詞工具	AI/NLP

SELECT * FROM articles WHERE title LIKE '%分詞%';

? 簡單
? 性能差、不支持分詞、不適合大數據量

ALTER TABLE articles ADD FULLTEXT(title);
SELECT * FROM articles WHERE MATCH(title) AGAINST('token' IN BOOLEAN MODE);

? 支持全文索引，適合英文
? 不支持中文、符號（如 “N3-2016”）

ALTER TABLE articles ADD FULLTEXT(title) WITH PARSER ngram;

? 支持中文、符號和短詞搜索
? 輕量級，適合小中型系統
?? 需 MySQL 5.7.6+（推薦 8.0+）

是為了搜索？還是為了 NLP？目標不同，分詞策略也不同。

MySQL 默認不支持中文分詞，必須使用 ngram 或換用專業搜索引擎。

對輸入內容進行規范化（去除符號、統一大小寫）可提升命中率。

例如：“N3-2016”、“語法7” 這類業務詞匯可加入自定義詞典（如在 Jieba、HanLP 中）。

僅分詞不夠，必須結合索引使用才能實現高性能查詢。

維度	MySQL ngram	Elasticsearch	Jieba 分詞
中文支持	?	?	?
安裝復雜度	簡單	中等	簡單
精度	一般	高	高
可擴展性	中	強	中
搜索效率	高	極高	中

👉 對于大多數中小項目，如果你不想引入 ES，MySQL + ngram 是輕量又高效的選擇。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/900928.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/900928.shtml
英文地址，請注明出處：http://en.pswp.cn/news/900928.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！