淺談「分詞」:原理 + 方案對比 + 最佳實踐

在文本搜索、自然語言處理、智能推薦等場景中,「分詞」 是一個基礎但至關重要的技術點。無論是用數據庫做模糊查詢,還是構建搜索引擎,分詞都是提高效率和準確度的核心手段。

🔍 一、什么是分詞?

分詞(Tokenization) 是指將一段連續的文本切分為有意義的「詞語」或「短語」的過程。
它是 NLP(自然語言處理)和全文搜索的第一步。

舉個例子:

原始文本:

“我愛自然語言處理”

分詞結果(中文)

我 / 愛 / 自然語言 / 處理

英文文本通常以空格分詞,而中文、日文、韓文等語言需要使用特定算法來切割詞邊界。


🛠? 二、為什么分詞很重要?

在以下場景中都需要高質量的分詞:

場景分詞作用
? 全文搜索提升檢索準確率,支持模糊查詢
? 推薦系統理解用戶搜索意圖或商品名稱
? 智能問答理解提問背后的關鍵詞
? 文本分類提取核心詞匯構建向量表示
? 數據分析對用戶輸入進行關鍵詞提取

🔍 三、常見分詞方案對比

方案適用語言是否支持中文特點使用場景
? MySQL FULLTEXT英文? 不支持中文內置分詞器基于空格、標點英文搜索
? MySQL FULLTEXT + ngram所有語言? 支持中文固定長度 n-gram 切詞,能識別 N3-2016中文、混合語言搜索
? Elasticsearch + ik_smart / ik_max_word所有語言? 強大中文支持支持最細粒度 & 智能分詞搜索引擎
? Lucene / Solr所有語言? 強大中文支持高級分詞、多語言支持企業級搜索系統
? Jieba 分詞(Python)中文?精度高,支持自定義詞典NLP 開發、爬蟲分析
? HanLP、THULAC、NLPIR中文?學術/工業級分詞工具AI/NLP

📦 四、MySQL 中的分詞方案

1. LIKE 查詢(最基礎)

SELECT * FROM articles WHERE title LIKE '%分詞%';

? 簡單
? 性能差、不支持分詞、不適合大數據量


2. FULLTEXT(默認分詞器)

ALTER TABLE articles ADD FULLTEXT(title);
SELECT * FROM articles WHERE MATCH(title) AGAINST('token' IN BOOLEAN MODE);

? 支持全文索引,適合英文
? 不支持中文、符號(如 “N3-2016”)


3. FULLTEXT + ngram 分詞器

ALTER TABLE articles ADD FULLTEXT(title) WITH PARSER ngram;

? 支持中文、符號和短詞搜索
? 輕量級,適合小中型系統
?? 需 MySQL 5.7.6+(推薦 8.0+)


💡 五、如何選擇分詞方案?

應用場景推薦方案
小型項目 / 中文搜索MySQL + ngram
高性能全文搜索Elasticsearch + IK 分詞器
數據分析 / 自然語言處理Jieba、HanLP
多語言搜索服務Lucene / Solr
日志搜索、文檔系統OpenSearch / ES

? 六、分詞實踐建議(Best Practices)

1. 明確使用目的

是為了搜索?還是為了 NLP?目標不同,分詞策略也不同。

2. 中文必須用支持分詞的工具

MySQL 默認不支持中文分詞,必須使用 ngram 或換用專業搜索引擎。

3. 統一處理符號、大小寫

對輸入內容進行規范化(去除符號、統一大小寫)可提升命中率。

4. 結合業務詞庫

例如:“N3-2016”、“語法7” 這類業務詞匯可加入自定義詞典(如在 Jieba、HanLP 中)。

5. 分詞 + 索引結合使用

僅分詞不夠,必須結合索引使用才能實現高性能查詢。


?? 七、小結

維度MySQL ngramElasticsearchJieba 分詞
中文支持???
安裝復雜度簡單中等簡單
精度一般
可擴展性
搜索效率極高

👉 對于大多數中小項目,如果你不想引入 ES,MySQL + ngram 是輕量又高效的選擇。

📚 延伸閱讀

  • MySQL 官方文檔:ngram 分詞器

  • Elasticsearch 中文分詞:IK Analyzer

  • Jieba 中文分詞 GitHub

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/900928.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/900928.shtml
英文地址,請注明出處:http://en.pswp.cn/news/900928.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

transformers:打造的先進的自然語言處理

github地址:https://github.com/huggingface/transformers Transformers 提供了數以千計的預訓練模型,支持 100 多種語言的文本分類、信息抽取、問答、摘要、翻譯、文本生成。它的宗旨是讓NLP 技術人易用。 Transformers 提供了便于快速下載和使用的API…

Spring Boot 集成 MongoDB 時自動創建的核心 Bean 的詳細說明及表格總結

以下是 Spring Boot 集成 MongoDB 時自動創建的核心 Bean 的詳細說明及表格總結: 核心 Bean 列表及詳細說明 1. MongoClient 類型:com.mongodb.client.MongoClient作用: MongoDB 客戶端核心接口,負責與 MongoDB 服務器建立連接、…

113. 在 Vue 3 中使用 OpenLayers 實現鼠標移動顯示坐標信息

? 寫在前面 在地圖類項目開發中,一個常見需求就是:實時獲取用戶鼠標在地圖上的經緯度坐標,并展示在地圖上。 本文將通過一個簡單的案例,手把手帶大家在 Vue 3 項目中集成 OpenLayers 地圖庫,并實現以下功能&#xf…

docker配置redis容器時搭載哨兵節點的情況下配置文件docker-compose.yml示例

1.配置數據節點(主從節點) version: 3.7 services:master:image: redis:5.0.9container_name: redis-masterrestart: alwayscommand: redis-server --appendonly yesports:- 6379:6379slave1:image: redis:5.0.9container_name: redis-slave1restart: a…

C++建造者模式進化論

還在為 C 對象那 長得令人發指 的構造函數參數列表抓狂嗎?🤯 是不是經常在 int hp, int mp, int strength, int faith... 這樣的參數“連連看”中迷失自我,一不小心就把法力值傳給了血量,或者力量值填到了信仰欄?&…

在Ubuntu內網環境中為Gogs配置HTTPS訪問(通過Apache反向代理使用IP地址)

一、準備工作 確保已安裝Gogs并運行在HTTP模式(默認端口3000) 確認服務器內網IP地址(如192.168.1.100) 二、安裝Apache和必要模塊 sudo apt update sudo apt install apache2 -y sudo a2enmod ssl proxy proxy_http rewrite headers 三、創建SSL證書 1. 創建證書存儲目錄…

數據中臺、BI業務訪談(二):組織架構梳理的坑

這是數據中臺、BI業務訪談系列的第二篇文章,在上一篇文章中,我重點介紹了在給企業的業務部門、高層管理做業務訪談之前我們要做好行業、業務知識的功課。做好這些功課之后,就到了實際的訪談環節了。 業務訪談關鍵點 那么在具體業務訪談的時…

spark集群,Stand alone,Hadoop集群有關啟動問題

你的問題是因為 start-all.sh 是 Hadoop 的啟動腳本(用于啟動 HDFS 和 YARN),而不是 Spark 的啟動腳本。而你已經通過 start-cluster.sh 啟動了 Hadoop 相關服務(HDFS/YARN),再次執行 start-all.sh 會導致服…

Kotlin 通用請求接口設計:靈活處理多樣化參數

在 Kotlin 中設計一個通用的 ControlParams 類來處理不同的控制參數,有幾種常見的方法:方案1:使用密封類(Sealed Class) sealed class ControlParamsdata class LightControlParams(val brightness: Int,val color: S…

aspark 配置2

編寫Hadoop集群啟停腳本 1.建立新文件,編寫腳本程序 在hadoop101中操作,在/root/bin下新建文件:myhadoop,輸入如下內容: 2.分發執行權限 保存后退出,然后賦予腳本執行權限 [roothadoop101 ~]$ chmod x /r…

Webstorm 使用搜不到node_modules下的JS內容 TS項目按Ctrl無法跳轉到函數實現

將node_modules標記為不排除,此時要把內存改大,不然webstorm中途建立索引時,會因為內存不足,導致索引中途停止,造成后續搜索不出來 更改使用內存設置 內存調為4096 若出現搜不出來js內容時,請直接重啟下該項…

vue-element-plus-admin的安裝

文檔鏈接:開始 | vue-element-plus-admin 之前嘗試按照官方文檔來安裝,運行npm run dev命令卻不能正常打開訪問瀏覽器,換一個方式 首先在目錄下打開命令窗口 1、克隆項目 從 GitHub 獲取代碼 # clone 代碼 git clone https://github.com…

【windows10】基于SSH反向隧道公網ip端口實現遠程桌面

【windows10】基于SSH反向隧道公網ip端口實現遠程桌面 1.背景2.SSH反向隧道3.遠程連接電腦 1.背景 ?Windows 10遠程桌面協議的簡稱是RDP(Remote Desktop Protocol)?。 RDP是一種網絡協議,允許用戶遠程訪問和操作另一臺計算機。 遠程桌面功…

軟考系統架構設計師之大數據與人工智能筆記

一、大數據架構設計 1. 核心概念與挑戰 大數據特征:體量大(Volume)、多樣性(Variety)、高速性(Velocity)、價值密度低(Value)。傳統數據庫問題:數據過載、性…

【數據結構 · 初階】- 單鏈表

目錄 一.相關指針知識點 二.鏈表 1.為什么學了順序表還要學鏈表 2.優點 三.實現 1.鏈表的打印 —— 理解鏈表結構 (2) 物理結構圖 2.鏈表的尾插 —— 入門 錯誤寫法:tail ! NULL 總結: 正確代碼物理圖解: (2) 尾插整體代碼 (思考…

按鍵消抖(用狀態機實現)

基于狀態機的設計代碼 module key_filter(clk,rst,key,key_p_flag,key_r_flag,key_state);input clk,rst;input key;output reg key_p_flag;output reg key_r_flag;output reg key_state;reg [1:0]r_key; //后面用來判斷什么時候pedge,什么時候nedgealways…

大數據(7.2)Kafka萬億級數據洪流下的架構優化實戰:從參數調優到集群治理

目錄 一、海量數據場景下的性能之殤1.1 互聯網企業的數據增長曲線1.2 典型性能瓶頸分析 二、生產者端極致優化2.1 批量發送黃金法則2.1.1 分區選擇算法對比 2.2 序列化性能突破 三、消費者端并發藝術3.1 多線程消費模式演進3.1.1 消費組Rebalance優化 3.2 位移管理高階技巧 四、…

MyBatis深度解析與實戰指南:細節完整,從入門到精通

MyBatis深度解析與實戰指南:細節完整,從入門到精通 整理這份筆記,是因為學習 MyBatis 時發現很多教程要么只講基礎 CRUD,要么直接跳到 Spring 整合,對 MyBatis 核心特性講解不全面,基礎部分也不夠完整。實…

【科學技術部政務服務平臺-用戶注冊/登錄安全分析報告】

前言 由于網站注冊入口容易被黑客攻擊,存在如下安全問題: 暴力破解密碼,造成用戶信息泄露短信盜刷的安全問題,影響業務及導致用戶投訴帶來經濟損失,尤其是后付費客戶,風險巨大,造成虧損無底洞…

【Audio開發三】音頻audio中幀frameSize ,周期大小periodsize,緩沖區buffer原理詳解以及代碼流程分析

一、基礎概述 在分析獲取最小幀數前,我們先來了解幾個相關的概念。 1,幀 幀(frame):表示一個完整的聲音單元,所謂的聲音單元是指一個采樣樣本。如果是雙聲道,那么一個完整的聲音單元就是 2 個樣…